{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 2986,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003348961821835231,
      "grad_norm": 3.200623035430908,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 2.0732,
      "step": 1
    },
    {
      "epoch": 0.0006697923643670462,
      "grad_norm": 2.7692177295684814,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 2.0167,
      "step": 2
    },
    {
      "epoch": 0.0010046885465505692,
      "grad_norm": 2.8474154472351074,
      "learning_rate": 4.800000000000001e-06,
      "loss": 2.04,
      "step": 3
    },
    {
      "epoch": 0.0013395847287340924,
      "grad_norm": 2.2527897357940674,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 2.0787,
      "step": 4
    },
    {
      "epoch": 0.0016744809109176155,
      "grad_norm": 2.1039273738861084,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.9449,
      "step": 5
    },
    {
      "epoch": 0.0020093770931011385,
      "grad_norm": 2.607173442840576,
      "learning_rate": 9.600000000000001e-06,
      "loss": 2.0309,
      "step": 6
    },
    {
      "epoch": 0.002344273275284662,
      "grad_norm": 1.7925606966018677,
      "learning_rate": 1.1200000000000001e-05,
      "loss": 2.0003,
      "step": 7
    },
    {
      "epoch": 0.0026791694574681848,
      "grad_norm": 0.9283378720283508,
      "learning_rate": 1.2800000000000001e-05,
      "loss": 1.9192,
      "step": 8
    },
    {
      "epoch": 0.003014065639651708,
      "grad_norm": 1.0479615926742554,
      "learning_rate": 1.4400000000000001e-05,
      "loss": 1.9249,
      "step": 9
    },
    {
      "epoch": 0.003348961821835231,
      "grad_norm": 0.8187092542648315,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 1.8056,
      "step": 10
    },
    {
      "epoch": 0.003683858004018754,
      "grad_norm": 0.4979480504989624,
      "learning_rate": 1.76e-05,
      "loss": 1.9635,
      "step": 11
    },
    {
      "epoch": 0.004018754186202277,
      "grad_norm": 0.7839181423187256,
      "learning_rate": 1.9200000000000003e-05,
      "loss": 1.8612,
      "step": 12
    },
    {
      "epoch": 0.004353650368385801,
      "grad_norm": 0.48768150806427,
      "learning_rate": 2.08e-05,
      "loss": 1.8192,
      "step": 13
    },
    {
      "epoch": 0.004688546550569324,
      "grad_norm": 0.4701080024242401,
      "learning_rate": 2.2400000000000002e-05,
      "loss": 1.7528,
      "step": 14
    },
    {
      "epoch": 0.005023442732752847,
      "grad_norm": 0.41159382462501526,
      "learning_rate": 2.4e-05,
      "loss": 1.8108,
      "step": 15
    },
    {
      "epoch": 0.0053583389149363695,
      "grad_norm": 0.4759747385978699,
      "learning_rate": 2.5600000000000002e-05,
      "loss": 1.8441,
      "step": 16
    },
    {
      "epoch": 0.0056932350971198925,
      "grad_norm": 0.5115412473678589,
      "learning_rate": 2.7200000000000004e-05,
      "loss": 1.8549,
      "step": 17
    },
    {
      "epoch": 0.006028131279303416,
      "grad_norm": 0.3412087857723236,
      "learning_rate": 2.8800000000000002e-05,
      "loss": 1.7477,
      "step": 18
    },
    {
      "epoch": 0.006363027461486939,
      "grad_norm": 0.4677671790122986,
      "learning_rate": 3.0400000000000004e-05,
      "loss": 1.8241,
      "step": 19
    },
    {
      "epoch": 0.006697923643670462,
      "grad_norm": 0.33937788009643555,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 1.7582,
      "step": 20
    },
    {
      "epoch": 0.007032819825853985,
      "grad_norm": 0.3229079842567444,
      "learning_rate": 3.3600000000000004e-05,
      "loss": 1.8104,
      "step": 21
    },
    {
      "epoch": 0.007367716008037508,
      "grad_norm": 0.25623905658721924,
      "learning_rate": 3.52e-05,
      "loss": 1.8041,
      "step": 22
    },
    {
      "epoch": 0.007702612190221032,
      "grad_norm": 0.2401346117258072,
      "learning_rate": 3.680000000000001e-05,
      "loss": 1.7445,
      "step": 23
    },
    {
      "epoch": 0.008037508372404554,
      "grad_norm": 0.19888034462928772,
      "learning_rate": 3.8400000000000005e-05,
      "loss": 1.7656,
      "step": 24
    },
    {
      "epoch": 0.008372404554588079,
      "grad_norm": 0.20604504644870758,
      "learning_rate": 4e-05,
      "loss": 1.7374,
      "step": 25
    },
    {
      "epoch": 0.008707300736771601,
      "grad_norm": 0.1735854148864746,
      "learning_rate": 4.16e-05,
      "loss": 1.6457,
      "step": 26
    },
    {
      "epoch": 0.009042196918955124,
      "grad_norm": 0.17504467070102692,
      "learning_rate": 4.3200000000000007e-05,
      "loss": 1.8386,
      "step": 27
    },
    {
      "epoch": 0.009377093101138647,
      "grad_norm": 0.16876129806041718,
      "learning_rate": 4.4800000000000005e-05,
      "loss": 1.7025,
      "step": 28
    },
    {
      "epoch": 0.00971198928332217,
      "grad_norm": 0.18600177764892578,
      "learning_rate": 4.64e-05,
      "loss": 1.7863,
      "step": 29
    },
    {
      "epoch": 0.010046885465505693,
      "grad_norm": 0.19306476414203644,
      "learning_rate": 4.8e-05,
      "loss": 1.8142,
      "step": 30
    },
    {
      "epoch": 0.010381781647689216,
      "grad_norm": 0.1874944269657135,
      "learning_rate": 4.9600000000000006e-05,
      "loss": 1.7422,
      "step": 31
    },
    {
      "epoch": 0.010716677829872739,
      "grad_norm": 0.20584818720817566,
      "learning_rate": 5.1200000000000004e-05,
      "loss": 1.7049,
      "step": 32
    },
    {
      "epoch": 0.011051574012056262,
      "grad_norm": 0.19429145753383636,
      "learning_rate": 5.280000000000001e-05,
      "loss": 1.6743,
      "step": 33
    },
    {
      "epoch": 0.011386470194239785,
      "grad_norm": 0.18944621086120605,
      "learning_rate": 5.440000000000001e-05,
      "loss": 1.7047,
      "step": 34
    },
    {
      "epoch": 0.01172136637642331,
      "grad_norm": 0.18427209556102753,
      "learning_rate": 5.6e-05,
      "loss": 1.7273,
      "step": 35
    },
    {
      "epoch": 0.012056262558606833,
      "grad_norm": 0.16783949732780457,
      "learning_rate": 5.7600000000000004e-05,
      "loss": 1.6653,
      "step": 36
    },
    {
      "epoch": 0.012391158740790355,
      "grad_norm": 0.1769946664571762,
      "learning_rate": 5.92e-05,
      "loss": 1.7158,
      "step": 37
    },
    {
      "epoch": 0.012726054922973878,
      "grad_norm": 0.1591242402791977,
      "learning_rate": 6.080000000000001e-05,
      "loss": 1.5987,
      "step": 38
    },
    {
      "epoch": 0.013060951105157401,
      "grad_norm": 0.16131311655044556,
      "learning_rate": 6.240000000000001e-05,
      "loss": 1.7959,
      "step": 39
    },
    {
      "epoch": 0.013395847287340924,
      "grad_norm": 0.1489195078611374,
      "learning_rate": 6.400000000000001e-05,
      "loss": 1.6895,
      "step": 40
    },
    {
      "epoch": 0.013730743469524447,
      "grad_norm": 0.14679408073425293,
      "learning_rate": 6.56e-05,
      "loss": 1.7019,
      "step": 41
    },
    {
      "epoch": 0.01406563965170797,
      "grad_norm": 0.14194105565547943,
      "learning_rate": 6.720000000000001e-05,
      "loss": 1.679,
      "step": 42
    },
    {
      "epoch": 0.014400535833891493,
      "grad_norm": 0.14862561225891113,
      "learning_rate": 6.88e-05,
      "loss": 1.7283,
      "step": 43
    },
    {
      "epoch": 0.014735432016075016,
      "grad_norm": 0.15733838081359863,
      "learning_rate": 7.04e-05,
      "loss": 1.7365,
      "step": 44
    },
    {
      "epoch": 0.01507032819825854,
      "grad_norm": 0.14537860453128815,
      "learning_rate": 7.2e-05,
      "loss": 1.6431,
      "step": 45
    },
    {
      "epoch": 0.015405224380442064,
      "grad_norm": 0.15487909317016602,
      "learning_rate": 7.360000000000001e-05,
      "loss": 1.7189,
      "step": 46
    },
    {
      "epoch": 0.015740120562625585,
      "grad_norm": 0.14401426911354065,
      "learning_rate": 7.52e-05,
      "loss": 1.6513,
      "step": 47
    },
    {
      "epoch": 0.016075016744809108,
      "grad_norm": 0.1594133824110031,
      "learning_rate": 7.680000000000001e-05,
      "loss": 1.6862,
      "step": 48
    },
    {
      "epoch": 0.01640991292699263,
      "grad_norm": 0.1500992476940155,
      "learning_rate": 7.840000000000001e-05,
      "loss": 1.7501,
      "step": 49
    },
    {
      "epoch": 0.016744809109176157,
      "grad_norm": 0.15571996569633484,
      "learning_rate": 8e-05,
      "loss": 1.6792,
      "step": 50
    },
    {
      "epoch": 0.01707970529135968,
      "grad_norm": 0.14743545651435852,
      "learning_rate": 8e-05,
      "loss": 1.6699,
      "step": 51
    },
    {
      "epoch": 0.017414601473543203,
      "grad_norm": 0.15360131859779358,
      "learning_rate": 8e-05,
      "loss": 1.7469,
      "step": 52
    },
    {
      "epoch": 0.017749497655726726,
      "grad_norm": 0.1337500810623169,
      "learning_rate": 8e-05,
      "loss": 1.6633,
      "step": 53
    },
    {
      "epoch": 0.01808439383791025,
      "grad_norm": 0.1487305462360382,
      "learning_rate": 8e-05,
      "loss": 1.7314,
      "step": 54
    },
    {
      "epoch": 0.018419290020093772,
      "grad_norm": 0.14299322664737701,
      "learning_rate": 8e-05,
      "loss": 1.6309,
      "step": 55
    },
    {
      "epoch": 0.018754186202277295,
      "grad_norm": 0.13860709965229034,
      "learning_rate": 8e-05,
      "loss": 1.6793,
      "step": 56
    },
    {
      "epoch": 0.019089082384460818,
      "grad_norm": 0.13716565072536469,
      "learning_rate": 8e-05,
      "loss": 1.6418,
      "step": 57
    },
    {
      "epoch": 0.01942397856664434,
      "grad_norm": 0.15599362552165985,
      "learning_rate": 8e-05,
      "loss": 1.7829,
      "step": 58
    },
    {
      "epoch": 0.019758874748827863,
      "grad_norm": 0.13503025472164154,
      "learning_rate": 8e-05,
      "loss": 1.6829,
      "step": 59
    },
    {
      "epoch": 0.020093770931011386,
      "grad_norm": 0.18807654082775116,
      "learning_rate": 8e-05,
      "loss": 1.717,
      "step": 60
    },
    {
      "epoch": 0.02042866711319491,
      "grad_norm": 0.15409617125988007,
      "learning_rate": 8e-05,
      "loss": 1.6699,
      "step": 61
    },
    {
      "epoch": 0.020763563295378432,
      "grad_norm": 0.14298014342784882,
      "learning_rate": 8e-05,
      "loss": 1.6926,
      "step": 62
    },
    {
      "epoch": 0.021098459477561955,
      "grad_norm": 0.14208070933818817,
      "learning_rate": 8e-05,
      "loss": 1.7058,
      "step": 63
    },
    {
      "epoch": 0.021433355659745478,
      "grad_norm": 0.1416184902191162,
      "learning_rate": 8e-05,
      "loss": 1.7054,
      "step": 64
    },
    {
      "epoch": 0.021768251841929,
      "grad_norm": 0.13226383924484253,
      "learning_rate": 8e-05,
      "loss": 1.598,
      "step": 65
    },
    {
      "epoch": 0.022103148024112524,
      "grad_norm": 0.12255742400884628,
      "learning_rate": 8e-05,
      "loss": 1.6601,
      "step": 66
    },
    {
      "epoch": 0.022438044206296047,
      "grad_norm": 0.14558081328868866,
      "learning_rate": 8e-05,
      "loss": 1.7296,
      "step": 67
    },
    {
      "epoch": 0.02277294038847957,
      "grad_norm": 0.1519310474395752,
      "learning_rate": 8e-05,
      "loss": 1.8439,
      "step": 68
    },
    {
      "epoch": 0.023107836570663093,
      "grad_norm": 0.1384143829345703,
      "learning_rate": 8e-05,
      "loss": 1.6079,
      "step": 69
    },
    {
      "epoch": 0.02344273275284662,
      "grad_norm": 0.15407218039035797,
      "learning_rate": 8e-05,
      "loss": 1.677,
      "step": 70
    },
    {
      "epoch": 0.023777628935030142,
      "grad_norm": 0.13523827493190765,
      "learning_rate": 8e-05,
      "loss": 1.5692,
      "step": 71
    },
    {
      "epoch": 0.024112525117213665,
      "grad_norm": 0.12505467236042023,
      "learning_rate": 8e-05,
      "loss": 1.5602,
      "step": 72
    },
    {
      "epoch": 0.024447421299397188,
      "grad_norm": 0.13626372814178467,
      "learning_rate": 8e-05,
      "loss": 1.6524,
      "step": 73
    },
    {
      "epoch": 0.02478231748158071,
      "grad_norm": 0.13007895648479462,
      "learning_rate": 8e-05,
      "loss": 1.6774,
      "step": 74
    },
    {
      "epoch": 0.025117213663764234,
      "grad_norm": 0.1315409243106842,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 75
    },
    {
      "epoch": 0.025452109845947757,
      "grad_norm": 0.13155469298362732,
      "learning_rate": 8e-05,
      "loss": 1.6704,
      "step": 76
    },
    {
      "epoch": 0.02578700602813128,
      "grad_norm": 0.12630128860473633,
      "learning_rate": 8e-05,
      "loss": 1.5701,
      "step": 77
    },
    {
      "epoch": 0.026121902210314803,
      "grad_norm": 0.13431835174560547,
      "learning_rate": 8e-05,
      "loss": 1.6653,
      "step": 78
    },
    {
      "epoch": 0.026456798392498326,
      "grad_norm": 0.135056272149086,
      "learning_rate": 8e-05,
      "loss": 1.6553,
      "step": 79
    },
    {
      "epoch": 0.02679169457468185,
      "grad_norm": 0.12763765454292297,
      "learning_rate": 8e-05,
      "loss": 1.6905,
      "step": 80
    },
    {
      "epoch": 0.02712659075686537,
      "grad_norm": 0.14637380838394165,
      "learning_rate": 8e-05,
      "loss": 1.688,
      "step": 81
    },
    {
      "epoch": 0.027461486939048894,
      "grad_norm": 0.1297517865896225,
      "learning_rate": 8e-05,
      "loss": 1.6268,
      "step": 82
    },
    {
      "epoch": 0.027796383121232417,
      "grad_norm": 0.1372605413198471,
      "learning_rate": 8e-05,
      "loss": 1.6713,
      "step": 83
    },
    {
      "epoch": 0.02813127930341594,
      "grad_norm": 0.13095134496688843,
      "learning_rate": 8e-05,
      "loss": 1.6652,
      "step": 84
    },
    {
      "epoch": 0.028466175485599463,
      "grad_norm": 0.1276548206806183,
      "learning_rate": 8e-05,
      "loss": 1.5863,
      "step": 85
    },
    {
      "epoch": 0.028801071667782986,
      "grad_norm": 0.22046029567718506,
      "learning_rate": 8e-05,
      "loss": 1.753,
      "step": 86
    },
    {
      "epoch": 0.02913596784996651,
      "grad_norm": 0.12783803045749664,
      "learning_rate": 8e-05,
      "loss": 1.59,
      "step": 87
    },
    {
      "epoch": 0.029470864032150032,
      "grad_norm": 0.13895952701568604,
      "learning_rate": 8e-05,
      "loss": 1.6398,
      "step": 88
    },
    {
      "epoch": 0.029805760214333555,
      "grad_norm": 0.14574961364269257,
      "learning_rate": 8e-05,
      "loss": 1.7269,
      "step": 89
    },
    {
      "epoch": 0.03014065639651708,
      "grad_norm": 0.14621688425540924,
      "learning_rate": 8e-05,
      "loss": 1.6443,
      "step": 90
    },
    {
      "epoch": 0.030475552578700604,
      "grad_norm": 0.14057409763336182,
      "learning_rate": 8e-05,
      "loss": 1.6571,
      "step": 91
    },
    {
      "epoch": 0.030810448760884127,
      "grad_norm": 0.14060133695602417,
      "learning_rate": 8e-05,
      "loss": 1.6826,
      "step": 92
    },
    {
      "epoch": 0.03114534494306765,
      "grad_norm": 0.13865897059440613,
      "learning_rate": 8e-05,
      "loss": 1.6349,
      "step": 93
    },
    {
      "epoch": 0.03148024112525117,
      "grad_norm": 0.1305728554725647,
      "learning_rate": 8e-05,
      "loss": 1.6328,
      "step": 94
    },
    {
      "epoch": 0.031815137307434696,
      "grad_norm": 0.14158983528614044,
      "learning_rate": 8e-05,
      "loss": 1.7214,
      "step": 95
    },
    {
      "epoch": 0.032150033489618215,
      "grad_norm": 0.14718781411647797,
      "learning_rate": 8e-05,
      "loss": 1.6909,
      "step": 96
    },
    {
      "epoch": 0.03248492967180174,
      "grad_norm": 0.12194442749023438,
      "learning_rate": 8e-05,
      "loss": 1.5535,
      "step": 97
    },
    {
      "epoch": 0.03281982585398526,
      "grad_norm": 0.13725946843624115,
      "learning_rate": 8e-05,
      "loss": 1.6678,
      "step": 98
    },
    {
      "epoch": 0.03315472203616879,
      "grad_norm": 0.1362965703010559,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 99
    },
    {
      "epoch": 0.033489618218352314,
      "grad_norm": 0.13613998889923096,
      "learning_rate": 8e-05,
      "loss": 1.6175,
      "step": 100
    },
    {
      "epoch": 0.033824514400535834,
      "grad_norm": 0.14141033589839935,
      "learning_rate": 8e-05,
      "loss": 1.6488,
      "step": 101
    },
    {
      "epoch": 0.03415941058271936,
      "grad_norm": 0.13805681467056274,
      "learning_rate": 8e-05,
      "loss": 1.6893,
      "step": 102
    },
    {
      "epoch": 0.03449430676490288,
      "grad_norm": 0.13900387287139893,
      "learning_rate": 8e-05,
      "loss": 1.8045,
      "step": 103
    },
    {
      "epoch": 0.034829202947086406,
      "grad_norm": 0.13935939967632294,
      "learning_rate": 8e-05,
      "loss": 1.7375,
      "step": 104
    },
    {
      "epoch": 0.035164099129269925,
      "grad_norm": 0.1577659398317337,
      "learning_rate": 8e-05,
      "loss": 1.7788,
      "step": 105
    },
    {
      "epoch": 0.03549899531145345,
      "grad_norm": 0.13430488109588623,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 106
    },
    {
      "epoch": 0.03583389149363697,
      "grad_norm": 0.16263632476329803,
      "learning_rate": 8e-05,
      "loss": 1.7322,
      "step": 107
    },
    {
      "epoch": 0.0361687876758205,
      "grad_norm": 0.13131676614284515,
      "learning_rate": 8e-05,
      "loss": 1.5999,
      "step": 108
    },
    {
      "epoch": 0.03650368385800402,
      "grad_norm": 0.17317074537277222,
      "learning_rate": 8e-05,
      "loss": 1.6454,
      "step": 109
    },
    {
      "epoch": 0.036838580040187544,
      "grad_norm": 0.12704306840896606,
      "learning_rate": 8e-05,
      "loss": 1.6431,
      "step": 110
    },
    {
      "epoch": 0.03717347622237106,
      "grad_norm": 0.1616016924381256,
      "learning_rate": 8e-05,
      "loss": 1.6905,
      "step": 111
    },
    {
      "epoch": 0.03750837240455459,
      "grad_norm": 0.13819578289985657,
      "learning_rate": 8e-05,
      "loss": 1.6329,
      "step": 112
    },
    {
      "epoch": 0.03784326858673811,
      "grad_norm": 0.16526983678340912,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 113
    },
    {
      "epoch": 0.038178164768921635,
      "grad_norm": 0.15346211194992065,
      "learning_rate": 8e-05,
      "loss": 1.7158,
      "step": 114
    },
    {
      "epoch": 0.038513060951105155,
      "grad_norm": 0.13235461711883545,
      "learning_rate": 8e-05,
      "loss": 1.6546,
      "step": 115
    },
    {
      "epoch": 0.03884795713328868,
      "grad_norm": 0.14952686429023743,
      "learning_rate": 8e-05,
      "loss": 1.6895,
      "step": 116
    },
    {
      "epoch": 0.0391828533154722,
      "grad_norm": 0.13437524437904358,
      "learning_rate": 8e-05,
      "loss": 1.575,
      "step": 117
    },
    {
      "epoch": 0.03951774949765573,
      "grad_norm": 0.14430561661720276,
      "learning_rate": 8e-05,
      "loss": 1.6578,
      "step": 118
    },
    {
      "epoch": 0.039852645679839246,
      "grad_norm": 0.12947961688041687,
      "learning_rate": 8e-05,
      "loss": 1.6036,
      "step": 119
    },
    {
      "epoch": 0.04018754186202277,
      "grad_norm": 0.12875418365001678,
      "learning_rate": 8e-05,
      "loss": 1.6411,
      "step": 120
    },
    {
      "epoch": 0.0405224380442063,
      "grad_norm": 0.13649991154670715,
      "learning_rate": 8e-05,
      "loss": 1.6428,
      "step": 121
    },
    {
      "epoch": 0.04085733422638982,
      "grad_norm": 0.1279270201921463,
      "learning_rate": 8e-05,
      "loss": 1.5752,
      "step": 122
    },
    {
      "epoch": 0.041192230408573345,
      "grad_norm": 0.12864024937152863,
      "learning_rate": 8e-05,
      "loss": 1.6443,
      "step": 123
    },
    {
      "epoch": 0.041527126590756865,
      "grad_norm": 0.1378841996192932,
      "learning_rate": 8e-05,
      "loss": 1.6459,
      "step": 124
    },
    {
      "epoch": 0.04186202277294039,
      "grad_norm": 0.12667427957057953,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 125
    },
    {
      "epoch": 0.04219691895512391,
      "grad_norm": 0.12754195928573608,
      "learning_rate": 8e-05,
      "loss": 1.5229,
      "step": 126
    },
    {
      "epoch": 0.04253181513730744,
      "grad_norm": 0.1369989514350891,
      "learning_rate": 8e-05,
      "loss": 1.5497,
      "step": 127
    },
    {
      "epoch": 0.042866711319490956,
      "grad_norm": 0.13526515662670135,
      "learning_rate": 8e-05,
      "loss": 1.7249,
      "step": 128
    },
    {
      "epoch": 0.04320160750167448,
      "grad_norm": 0.1434253454208374,
      "learning_rate": 8e-05,
      "loss": 1.7323,
      "step": 129
    },
    {
      "epoch": 0.043536503683858,
      "grad_norm": 0.13899651169776917,
      "learning_rate": 8e-05,
      "loss": 1.7257,
      "step": 130
    },
    {
      "epoch": 0.04387139986604153,
      "grad_norm": 0.12918458878993988,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 131
    },
    {
      "epoch": 0.04420629604822505,
      "grad_norm": 0.14122548699378967,
      "learning_rate": 8e-05,
      "loss": 1.6206,
      "step": 132
    },
    {
      "epoch": 0.044541192230408574,
      "grad_norm": 0.13042569160461426,
      "learning_rate": 8e-05,
      "loss": 1.6501,
      "step": 133
    },
    {
      "epoch": 0.044876088412592094,
      "grad_norm": 0.13046392798423767,
      "learning_rate": 8e-05,
      "loss": 1.5429,
      "step": 134
    },
    {
      "epoch": 0.04521098459477562,
      "grad_norm": 0.13527311384677887,
      "learning_rate": 8e-05,
      "loss": 1.6827,
      "step": 135
    },
    {
      "epoch": 0.04554588077695914,
      "grad_norm": 0.1313592940568924,
      "learning_rate": 8e-05,
      "loss": 1.6099,
      "step": 136
    },
    {
      "epoch": 0.045880776959142666,
      "grad_norm": 0.13745155930519104,
      "learning_rate": 8e-05,
      "loss": 1.6025,
      "step": 137
    },
    {
      "epoch": 0.046215673141326186,
      "grad_norm": 0.13144057989120483,
      "learning_rate": 8e-05,
      "loss": 1.6731,
      "step": 138
    },
    {
      "epoch": 0.04655056932350971,
      "grad_norm": 0.13070990145206451,
      "learning_rate": 8e-05,
      "loss": 1.5874,
      "step": 139
    },
    {
      "epoch": 0.04688546550569324,
      "grad_norm": 0.14795616269111633,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 140
    },
    {
      "epoch": 0.04722036168787676,
      "grad_norm": 0.12657715380191803,
      "learning_rate": 8e-05,
      "loss": 1.6612,
      "step": 141
    },
    {
      "epoch": 0.047555257870060284,
      "grad_norm": 0.15591903030872345,
      "learning_rate": 8e-05,
      "loss": 1.654,
      "step": 142
    },
    {
      "epoch": 0.047890154052243804,
      "grad_norm": 0.1429819017648697,
      "learning_rate": 8e-05,
      "loss": 1.6748,
      "step": 143
    },
    {
      "epoch": 0.04822505023442733,
      "grad_norm": 0.1351274698972702,
      "learning_rate": 8e-05,
      "loss": 1.6,
      "step": 144
    },
    {
      "epoch": 0.04855994641661085,
      "grad_norm": 0.12555386126041412,
      "learning_rate": 8e-05,
      "loss": 1.5852,
      "step": 145
    },
    {
      "epoch": 0.048894842598794376,
      "grad_norm": 0.1394919902086258,
      "learning_rate": 8e-05,
      "loss": 1.6265,
      "step": 146
    },
    {
      "epoch": 0.049229738780977896,
      "grad_norm": 0.13021890819072723,
      "learning_rate": 8e-05,
      "loss": 1.6204,
      "step": 147
    },
    {
      "epoch": 0.04956463496316142,
      "grad_norm": 0.12327662110328674,
      "learning_rate": 8e-05,
      "loss": 1.5531,
      "step": 148
    },
    {
      "epoch": 0.04989953114534494,
      "grad_norm": 0.1383059322834015,
      "learning_rate": 8e-05,
      "loss": 1.6404,
      "step": 149
    },
    {
      "epoch": 0.05023442732752847,
      "grad_norm": 0.13159964978694916,
      "learning_rate": 8e-05,
      "loss": 1.6437,
      "step": 150
    },
    {
      "epoch": 0.05056932350971199,
      "grad_norm": 0.1284051239490509,
      "learning_rate": 8e-05,
      "loss": 1.6579,
      "step": 151
    },
    {
      "epoch": 0.050904219691895514,
      "grad_norm": 0.1344885528087616,
      "learning_rate": 8e-05,
      "loss": 1.6282,
      "step": 152
    },
    {
      "epoch": 0.05123911587407903,
      "grad_norm": 0.13154742121696472,
      "learning_rate": 8e-05,
      "loss": 1.6286,
      "step": 153
    },
    {
      "epoch": 0.05157401205626256,
      "grad_norm": 0.13137654960155487,
      "learning_rate": 8e-05,
      "loss": 1.6287,
      "step": 154
    },
    {
      "epoch": 0.05190890823844608,
      "grad_norm": 0.14541304111480713,
      "learning_rate": 8e-05,
      "loss": 1.7461,
      "step": 155
    },
    {
      "epoch": 0.052243804420629605,
      "grad_norm": 0.1357010453939438,
      "learning_rate": 8e-05,
      "loss": 1.5524,
      "step": 156
    },
    {
      "epoch": 0.052578700602813125,
      "grad_norm": 0.1376865804195404,
      "learning_rate": 8e-05,
      "loss": 1.7128,
      "step": 157
    },
    {
      "epoch": 0.05291359678499665,
      "grad_norm": 0.13592389225959778,
      "learning_rate": 8e-05,
      "loss": 1.6807,
      "step": 158
    },
    {
      "epoch": 0.05324849296718017,
      "grad_norm": 0.13557550311088562,
      "learning_rate": 8e-05,
      "loss": 1.6131,
      "step": 159
    },
    {
      "epoch": 0.0535833891493637,
      "grad_norm": 0.14435061812400818,
      "learning_rate": 8e-05,
      "loss": 1.6388,
      "step": 160
    },
    {
      "epoch": 0.053918285331547224,
      "grad_norm": 0.12925972044467926,
      "learning_rate": 8e-05,
      "loss": 1.6692,
      "step": 161
    },
    {
      "epoch": 0.05425318151373074,
      "grad_norm": 0.12746796011924744,
      "learning_rate": 8e-05,
      "loss": 1.5774,
      "step": 162
    },
    {
      "epoch": 0.05458807769591427,
      "grad_norm": 0.12856397032737732,
      "learning_rate": 8e-05,
      "loss": 1.5764,
      "step": 163
    },
    {
      "epoch": 0.05492297387809779,
      "grad_norm": 0.1379776895046234,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 164
    },
    {
      "epoch": 0.055257870060281315,
      "grad_norm": 0.1373959183692932,
      "learning_rate": 8e-05,
      "loss": 1.6007,
      "step": 165
    },
    {
      "epoch": 0.055592766242464835,
      "grad_norm": 0.12646304070949554,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 166
    },
    {
      "epoch": 0.05592766242464836,
      "grad_norm": 0.12433875352144241,
      "learning_rate": 8e-05,
      "loss": 1.6456,
      "step": 167
    },
    {
      "epoch": 0.05626255860683188,
      "grad_norm": 0.13133502006530762,
      "learning_rate": 8e-05,
      "loss": 1.6801,
      "step": 168
    },
    {
      "epoch": 0.05659745478901541,
      "grad_norm": 0.1320537030696869,
      "learning_rate": 8e-05,
      "loss": 1.6397,
      "step": 169
    },
    {
      "epoch": 0.056932350971198926,
      "grad_norm": 0.12571954727172852,
      "learning_rate": 8e-05,
      "loss": 1.6095,
      "step": 170
    },
    {
      "epoch": 0.05726724715338245,
      "grad_norm": 0.12297097593545914,
      "learning_rate": 8e-05,
      "loss": 1.6281,
      "step": 171
    },
    {
      "epoch": 0.05760214333556597,
      "grad_norm": 0.1247854232788086,
      "learning_rate": 8e-05,
      "loss": 1.6052,
      "step": 172
    },
    {
      "epoch": 0.0579370395177495,
      "grad_norm": 0.13686206936836243,
      "learning_rate": 8e-05,
      "loss": 1.6671,
      "step": 173
    },
    {
      "epoch": 0.05827193569993302,
      "grad_norm": 0.1285526305437088,
      "learning_rate": 8e-05,
      "loss": 1.6534,
      "step": 174
    },
    {
      "epoch": 0.058606831882116545,
      "grad_norm": 0.13011367619037628,
      "learning_rate": 8e-05,
      "loss": 1.6649,
      "step": 175
    },
    {
      "epoch": 0.058941728064300064,
      "grad_norm": 0.13596585392951965,
      "learning_rate": 8e-05,
      "loss": 1.6364,
      "step": 176
    },
    {
      "epoch": 0.05927662424648359,
      "grad_norm": 0.1251242458820343,
      "learning_rate": 8e-05,
      "loss": 1.602,
      "step": 177
    },
    {
      "epoch": 0.05961152042866711,
      "grad_norm": 0.12897132337093353,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 178
    },
    {
      "epoch": 0.059946416610850636,
      "grad_norm": 0.13146603107452393,
      "learning_rate": 8e-05,
      "loss": 1.6847,
      "step": 179
    },
    {
      "epoch": 0.06028131279303416,
      "grad_norm": 0.13487423956394196,
      "learning_rate": 8e-05,
      "loss": 1.6548,
      "step": 180
    },
    {
      "epoch": 0.06061620897521768,
      "grad_norm": 0.14121943712234497,
      "learning_rate": 8e-05,
      "loss": 1.7256,
      "step": 181
    },
    {
      "epoch": 0.06095110515740121,
      "grad_norm": 0.1379179209470749,
      "learning_rate": 8e-05,
      "loss": 1.6125,
      "step": 182
    },
    {
      "epoch": 0.06128600133958473,
      "grad_norm": 0.13541792333126068,
      "learning_rate": 8e-05,
      "loss": 1.6082,
      "step": 183
    },
    {
      "epoch": 0.061620897521768254,
      "grad_norm": 0.13227300345897675,
      "learning_rate": 8e-05,
      "loss": 1.6123,
      "step": 184
    },
    {
      "epoch": 0.061955793703951774,
      "grad_norm": 0.13347981870174408,
      "learning_rate": 8e-05,
      "loss": 1.6861,
      "step": 185
    },
    {
      "epoch": 0.0622906898861353,
      "grad_norm": 0.14201989769935608,
      "learning_rate": 8e-05,
      "loss": 1.6123,
      "step": 186
    },
    {
      "epoch": 0.06262558606831882,
      "grad_norm": 0.13377691805362701,
      "learning_rate": 8e-05,
      "loss": 1.6354,
      "step": 187
    },
    {
      "epoch": 0.06296048225050234,
      "grad_norm": 0.12769708037376404,
      "learning_rate": 8e-05,
      "loss": 1.4981,
      "step": 188
    },
    {
      "epoch": 0.06329537843268587,
      "grad_norm": 0.14207006990909576,
      "learning_rate": 8e-05,
      "loss": 1.6493,
      "step": 189
    },
    {
      "epoch": 0.06363027461486939,
      "grad_norm": 0.13819126784801483,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 190
    },
    {
      "epoch": 0.06396517079705291,
      "grad_norm": 0.13520517945289612,
      "learning_rate": 8e-05,
      "loss": 1.6931,
      "step": 191
    },
    {
      "epoch": 0.06430006697923643,
      "grad_norm": 0.14047394692897797,
      "learning_rate": 8e-05,
      "loss": 1.5818,
      "step": 192
    },
    {
      "epoch": 0.06463496316141996,
      "grad_norm": 0.14297664165496826,
      "learning_rate": 8e-05,
      "loss": 1.6093,
      "step": 193
    },
    {
      "epoch": 0.06496985934360348,
      "grad_norm": 0.15324518084526062,
      "learning_rate": 8e-05,
      "loss": 1.6242,
      "step": 194
    },
    {
      "epoch": 0.065304755525787,
      "grad_norm": 0.14142198860645294,
      "learning_rate": 8e-05,
      "loss": 1.6596,
      "step": 195
    },
    {
      "epoch": 0.06563965170797052,
      "grad_norm": 0.13463930785655975,
      "learning_rate": 8e-05,
      "loss": 1.674,
      "step": 196
    },
    {
      "epoch": 0.06597454789015406,
      "grad_norm": 0.12904107570648193,
      "learning_rate": 8e-05,
      "loss": 1.6099,
      "step": 197
    },
    {
      "epoch": 0.06630944407233758,
      "grad_norm": 0.14056865870952606,
      "learning_rate": 8e-05,
      "loss": 1.6516,
      "step": 198
    },
    {
      "epoch": 0.0666443402545211,
      "grad_norm": 0.1392846405506134,
      "learning_rate": 8e-05,
      "loss": 1.6581,
      "step": 199
    },
    {
      "epoch": 0.06697923643670463,
      "grad_norm": 0.125335231423378,
      "learning_rate": 8e-05,
      "loss": 1.5345,
      "step": 200
    },
    {
      "epoch": 0.06731413261888815,
      "grad_norm": 0.14245916903018951,
      "learning_rate": 8e-05,
      "loss": 1.7019,
      "step": 201
    },
    {
      "epoch": 0.06764902880107167,
      "grad_norm": 0.14225223660469055,
      "learning_rate": 8e-05,
      "loss": 1.7456,
      "step": 202
    },
    {
      "epoch": 0.06798392498325519,
      "grad_norm": 0.13811221718788147,
      "learning_rate": 8e-05,
      "loss": 1.66,
      "step": 203
    },
    {
      "epoch": 0.06831882116543872,
      "grad_norm": 0.14611570537090302,
      "learning_rate": 8e-05,
      "loss": 1.5883,
      "step": 204
    },
    {
      "epoch": 0.06865371734762224,
      "grad_norm": 0.12489788979291916,
      "learning_rate": 8e-05,
      "loss": 1.5417,
      "step": 205
    },
    {
      "epoch": 0.06898861352980576,
      "grad_norm": 0.12978185713291168,
      "learning_rate": 8e-05,
      "loss": 1.5948,
      "step": 206
    },
    {
      "epoch": 0.06932350971198928,
      "grad_norm": 0.13339710235595703,
      "learning_rate": 8e-05,
      "loss": 1.6601,
      "step": 207
    },
    {
      "epoch": 0.06965840589417281,
      "grad_norm": 0.1716604232788086,
      "learning_rate": 8e-05,
      "loss": 1.6126,
      "step": 208
    },
    {
      "epoch": 0.06999330207635633,
      "grad_norm": 0.12506715953350067,
      "learning_rate": 8e-05,
      "loss": 1.5425,
      "step": 209
    },
    {
      "epoch": 0.07032819825853985,
      "grad_norm": 0.1334909051656723,
      "learning_rate": 8e-05,
      "loss": 1.6456,
      "step": 210
    },
    {
      "epoch": 0.07066309444072337,
      "grad_norm": 0.13649480044841766,
      "learning_rate": 8e-05,
      "loss": 1.7391,
      "step": 211
    },
    {
      "epoch": 0.0709979906229069,
      "grad_norm": 0.12592899799346924,
      "learning_rate": 8e-05,
      "loss": 1.6359,
      "step": 212
    },
    {
      "epoch": 0.07133288680509042,
      "grad_norm": 0.14552612602710724,
      "learning_rate": 8e-05,
      "loss": 1.6661,
      "step": 213
    },
    {
      "epoch": 0.07166778298727394,
      "grad_norm": 0.13432036340236664,
      "learning_rate": 8e-05,
      "loss": 1.7647,
      "step": 214
    },
    {
      "epoch": 0.07200267916945746,
      "grad_norm": 0.13139139115810394,
      "learning_rate": 8e-05,
      "loss": 1.6482,
      "step": 215
    },
    {
      "epoch": 0.072337575351641,
      "grad_norm": 0.13515838980674744,
      "learning_rate": 8e-05,
      "loss": 1.5916,
      "step": 216
    },
    {
      "epoch": 0.07267247153382451,
      "grad_norm": 0.13174721598625183,
      "learning_rate": 8e-05,
      "loss": 1.6007,
      "step": 217
    },
    {
      "epoch": 0.07300736771600803,
      "grad_norm": 0.13372114300727844,
      "learning_rate": 8e-05,
      "loss": 1.6192,
      "step": 218
    },
    {
      "epoch": 0.07334226389819157,
      "grad_norm": 0.12960688769817352,
      "learning_rate": 8e-05,
      "loss": 1.6601,
      "step": 219
    },
    {
      "epoch": 0.07367716008037509,
      "grad_norm": 0.14066988229751587,
      "learning_rate": 8e-05,
      "loss": 1.6643,
      "step": 220
    },
    {
      "epoch": 0.0740120562625586,
      "grad_norm": 0.13216546177864075,
      "learning_rate": 8e-05,
      "loss": 1.5781,
      "step": 221
    },
    {
      "epoch": 0.07434695244474213,
      "grad_norm": 0.134221151471138,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 222
    },
    {
      "epoch": 0.07468184862692566,
      "grad_norm": 0.1542084515094757,
      "learning_rate": 8e-05,
      "loss": 1.6952,
      "step": 223
    },
    {
      "epoch": 0.07501674480910918,
      "grad_norm": 0.13699911534786224,
      "learning_rate": 8e-05,
      "loss": 1.7092,
      "step": 224
    },
    {
      "epoch": 0.0753516409912927,
      "grad_norm": 0.14500920474529266,
      "learning_rate": 8e-05,
      "loss": 1.5552,
      "step": 225
    },
    {
      "epoch": 0.07568653717347622,
      "grad_norm": 0.12746167182922363,
      "learning_rate": 8e-05,
      "loss": 1.6331,
      "step": 226
    },
    {
      "epoch": 0.07602143335565975,
      "grad_norm": 0.1480415016412735,
      "learning_rate": 8e-05,
      "loss": 1.7011,
      "step": 227
    },
    {
      "epoch": 0.07635632953784327,
      "grad_norm": 0.13693033158779144,
      "learning_rate": 8e-05,
      "loss": 1.6481,
      "step": 228
    },
    {
      "epoch": 0.07669122572002679,
      "grad_norm": 0.13957904279232025,
      "learning_rate": 8e-05,
      "loss": 1.6528,
      "step": 229
    },
    {
      "epoch": 0.07702612190221031,
      "grad_norm": 0.13703952729701996,
      "learning_rate": 8e-05,
      "loss": 1.8067,
      "step": 230
    },
    {
      "epoch": 0.07736101808439384,
      "grad_norm": 0.12176784873008728,
      "learning_rate": 8e-05,
      "loss": 1.5052,
      "step": 231
    },
    {
      "epoch": 0.07769591426657736,
      "grad_norm": 0.12224642932415009,
      "learning_rate": 8e-05,
      "loss": 1.4949,
      "step": 232
    },
    {
      "epoch": 0.07803081044876088,
      "grad_norm": 0.1266046017408371,
      "learning_rate": 8e-05,
      "loss": 1.6267,
      "step": 233
    },
    {
      "epoch": 0.0783657066309444,
      "grad_norm": 0.129744753241539,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 234
    },
    {
      "epoch": 0.07870060281312793,
      "grad_norm": 0.12953703105449677,
      "learning_rate": 8e-05,
      "loss": 1.6294,
      "step": 235
    },
    {
      "epoch": 0.07903549899531145,
      "grad_norm": 0.12739580869674683,
      "learning_rate": 8e-05,
      "loss": 1.6028,
      "step": 236
    },
    {
      "epoch": 0.07937039517749497,
      "grad_norm": 0.12842205166816711,
      "learning_rate": 8e-05,
      "loss": 1.6625,
      "step": 237
    },
    {
      "epoch": 0.07970529135967849,
      "grad_norm": 0.1287446767091751,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 238
    },
    {
      "epoch": 0.08004018754186203,
      "grad_norm": 0.1276853084564209,
      "learning_rate": 8e-05,
      "loss": 1.6234,
      "step": 239
    },
    {
      "epoch": 0.08037508372404555,
      "grad_norm": 0.11986161768436432,
      "learning_rate": 8e-05,
      "loss": 1.5695,
      "step": 240
    },
    {
      "epoch": 0.08070997990622907,
      "grad_norm": 0.15420754253864288,
      "learning_rate": 8e-05,
      "loss": 1.6242,
      "step": 241
    },
    {
      "epoch": 0.0810448760884126,
      "grad_norm": 0.13341009616851807,
      "learning_rate": 8e-05,
      "loss": 1.6636,
      "step": 242
    },
    {
      "epoch": 0.08137977227059612,
      "grad_norm": 0.13017718493938446,
      "learning_rate": 8e-05,
      "loss": 1.5764,
      "step": 243
    },
    {
      "epoch": 0.08171466845277964,
      "grad_norm": 0.1333867609500885,
      "learning_rate": 8e-05,
      "loss": 1.6226,
      "step": 244
    },
    {
      "epoch": 0.08204956463496316,
      "grad_norm": 0.12038980424404144,
      "learning_rate": 8e-05,
      "loss": 1.5324,
      "step": 245
    },
    {
      "epoch": 0.08238446081714669,
      "grad_norm": 0.13799628615379333,
      "learning_rate": 8e-05,
      "loss": 1.7581,
      "step": 246
    },
    {
      "epoch": 0.08271935699933021,
      "grad_norm": 0.12954330444335938,
      "learning_rate": 8e-05,
      "loss": 1.7118,
      "step": 247
    },
    {
      "epoch": 0.08305425318151373,
      "grad_norm": 0.12692566215991974,
      "learning_rate": 8e-05,
      "loss": 1.5337,
      "step": 248
    },
    {
      "epoch": 0.08338914936369725,
      "grad_norm": 0.12862838804721832,
      "learning_rate": 8e-05,
      "loss": 1.7025,
      "step": 249
    },
    {
      "epoch": 0.08372404554588078,
      "grad_norm": 0.1298748403787613,
      "learning_rate": 8e-05,
      "loss": 1.583,
      "step": 250
    },
    {
      "epoch": 0.0840589417280643,
      "grad_norm": 0.13790510594844818,
      "learning_rate": 8e-05,
      "loss": 1.6087,
      "step": 251
    },
    {
      "epoch": 0.08439383791024782,
      "grad_norm": 0.14163529872894287,
      "learning_rate": 8e-05,
      "loss": 1.4773,
      "step": 252
    },
    {
      "epoch": 0.08472873409243134,
      "grad_norm": 0.14391234517097473,
      "learning_rate": 8e-05,
      "loss": 1.7762,
      "step": 253
    },
    {
      "epoch": 0.08506363027461487,
      "grad_norm": 0.13988402485847473,
      "learning_rate": 8e-05,
      "loss": 1.6898,
      "step": 254
    },
    {
      "epoch": 0.0853985264567984,
      "grad_norm": 0.1351778358221054,
      "learning_rate": 8e-05,
      "loss": 1.5786,
      "step": 255
    },
    {
      "epoch": 0.08573342263898191,
      "grad_norm": 0.13305111229419708,
      "learning_rate": 8e-05,
      "loss": 1.5679,
      "step": 256
    },
    {
      "epoch": 0.08606831882116543,
      "grad_norm": 0.14515267312526703,
      "learning_rate": 8e-05,
      "loss": 1.6364,
      "step": 257
    },
    {
      "epoch": 0.08640321500334897,
      "grad_norm": 0.14456474781036377,
      "learning_rate": 8e-05,
      "loss": 1.5563,
      "step": 258
    },
    {
      "epoch": 0.08673811118553248,
      "grad_norm": 0.1505035012960434,
      "learning_rate": 8e-05,
      "loss": 1.6767,
      "step": 259
    },
    {
      "epoch": 0.087073007367716,
      "grad_norm": 0.13560758531093597,
      "learning_rate": 8e-05,
      "loss": 1.6272,
      "step": 260
    },
    {
      "epoch": 0.08740790354989954,
      "grad_norm": 0.1530362069606781,
      "learning_rate": 8e-05,
      "loss": 1.6504,
      "step": 261
    },
    {
      "epoch": 0.08774279973208306,
      "grad_norm": 0.13376513123512268,
      "learning_rate": 8e-05,
      "loss": 1.6268,
      "step": 262
    },
    {
      "epoch": 0.08807769591426658,
      "grad_norm": 0.159111887216568,
      "learning_rate": 8e-05,
      "loss": 1.7018,
      "step": 263
    },
    {
      "epoch": 0.0884125920964501,
      "grad_norm": 0.13603508472442627,
      "learning_rate": 8e-05,
      "loss": 1.634,
      "step": 264
    },
    {
      "epoch": 0.08874748827863363,
      "grad_norm": 0.12464874237775803,
      "learning_rate": 8e-05,
      "loss": 1.5871,
      "step": 265
    },
    {
      "epoch": 0.08908238446081715,
      "grad_norm": 0.1453225016593933,
      "learning_rate": 8e-05,
      "loss": 1.6764,
      "step": 266
    },
    {
      "epoch": 0.08941728064300067,
      "grad_norm": 0.13249950110912323,
      "learning_rate": 8e-05,
      "loss": 1.6361,
      "step": 267
    },
    {
      "epoch": 0.08975217682518419,
      "grad_norm": 0.1294647455215454,
      "learning_rate": 8e-05,
      "loss": 1.6061,
      "step": 268
    },
    {
      "epoch": 0.09008707300736772,
      "grad_norm": 0.1419537514448166,
      "learning_rate": 8e-05,
      "loss": 1.5646,
      "step": 269
    },
    {
      "epoch": 0.09042196918955124,
      "grad_norm": 0.13805575668811798,
      "learning_rate": 8e-05,
      "loss": 1.5526,
      "step": 270
    },
    {
      "epoch": 0.09075686537173476,
      "grad_norm": 0.15964828431606293,
      "learning_rate": 8e-05,
      "loss": 1.6277,
      "step": 271
    },
    {
      "epoch": 0.09109176155391828,
      "grad_norm": 0.12985216081142426,
      "learning_rate": 8e-05,
      "loss": 1.6549,
      "step": 272
    },
    {
      "epoch": 0.09142665773610181,
      "grad_norm": 0.16439229249954224,
      "learning_rate": 8e-05,
      "loss": 1.6423,
      "step": 273
    },
    {
      "epoch": 0.09176155391828533,
      "grad_norm": 0.14333172142505646,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 274
    },
    {
      "epoch": 0.09209645010046885,
      "grad_norm": 0.14671702682971954,
      "learning_rate": 8e-05,
      "loss": 1.6214,
      "step": 275
    },
    {
      "epoch": 0.09243134628265237,
      "grad_norm": 0.14508962631225586,
      "learning_rate": 8e-05,
      "loss": 1.5411,
      "step": 276
    },
    {
      "epoch": 0.0927662424648359,
      "grad_norm": 0.12863118946552277,
      "learning_rate": 8e-05,
      "loss": 1.7015,
      "step": 277
    },
    {
      "epoch": 0.09310113864701942,
      "grad_norm": 0.1415577530860901,
      "learning_rate": 8e-05,
      "loss": 1.633,
      "step": 278
    },
    {
      "epoch": 0.09343603482920294,
      "grad_norm": 0.14167243242263794,
      "learning_rate": 8e-05,
      "loss": 1.6623,
      "step": 279
    },
    {
      "epoch": 0.09377093101138648,
      "grad_norm": 0.13272728025913239,
      "learning_rate": 8e-05,
      "loss": 1.6312,
      "step": 280
    },
    {
      "epoch": 0.09410582719357,
      "grad_norm": 0.1386936902999878,
      "learning_rate": 8e-05,
      "loss": 1.5674,
      "step": 281
    },
    {
      "epoch": 0.09444072337575352,
      "grad_norm": 0.12839989364147186,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 282
    },
    {
      "epoch": 0.09477561955793704,
      "grad_norm": 0.14289548993110657,
      "learning_rate": 8e-05,
      "loss": 1.6375,
      "step": 283
    },
    {
      "epoch": 0.09511051574012057,
      "grad_norm": 0.12183179706335068,
      "learning_rate": 8e-05,
      "loss": 1.5347,
      "step": 284
    },
    {
      "epoch": 0.09544541192230409,
      "grad_norm": 0.14573480188846588,
      "learning_rate": 8e-05,
      "loss": 1.6439,
      "step": 285
    },
    {
      "epoch": 0.09578030810448761,
      "grad_norm": 0.12331729382276535,
      "learning_rate": 8e-05,
      "loss": 1.5624,
      "step": 286
    },
    {
      "epoch": 0.09611520428667113,
      "grad_norm": 0.13500013947486877,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 287
    },
    {
      "epoch": 0.09645010046885466,
      "grad_norm": 0.13146473467350006,
      "learning_rate": 8e-05,
      "loss": 1.5359,
      "step": 288
    },
    {
      "epoch": 0.09678499665103818,
      "grad_norm": 0.1350795328617096,
      "learning_rate": 8e-05,
      "loss": 1.6617,
      "step": 289
    },
    {
      "epoch": 0.0971198928332217,
      "grad_norm": 0.1416560262441635,
      "learning_rate": 8e-05,
      "loss": 1.6238,
      "step": 290
    },
    {
      "epoch": 0.09745478901540522,
      "grad_norm": 0.13051164150238037,
      "learning_rate": 8e-05,
      "loss": 1.6081,
      "step": 291
    },
    {
      "epoch": 0.09778968519758875,
      "grad_norm": 0.12652809917926788,
      "learning_rate": 8e-05,
      "loss": 1.6588,
      "step": 292
    },
    {
      "epoch": 0.09812458137977227,
      "grad_norm": 0.12770383059978485,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 293
    },
    {
      "epoch": 0.09845947756195579,
      "grad_norm": 0.12375983595848083,
      "learning_rate": 8e-05,
      "loss": 1.5734,
      "step": 294
    },
    {
      "epoch": 0.09879437374413931,
      "grad_norm": 0.13432243466377258,
      "learning_rate": 8e-05,
      "loss": 1.7354,
      "step": 295
    },
    {
      "epoch": 0.09912926992632284,
      "grad_norm": 0.13002386689186096,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 296
    },
    {
      "epoch": 0.09946416610850636,
      "grad_norm": 0.13808605074882507,
      "learning_rate": 8e-05,
      "loss": 1.5978,
      "step": 297
    },
    {
      "epoch": 0.09979906229068988,
      "grad_norm": 0.1292102336883545,
      "learning_rate": 8e-05,
      "loss": 1.6465,
      "step": 298
    },
    {
      "epoch": 0.10013395847287342,
      "grad_norm": 0.1265101581811905,
      "learning_rate": 8e-05,
      "loss": 1.5064,
      "step": 299
    },
    {
      "epoch": 0.10046885465505694,
      "grad_norm": 0.14262820780277252,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 300
    },
    {
      "epoch": 0.10080375083724046,
      "grad_norm": 0.12435801327228546,
      "learning_rate": 8e-05,
      "loss": 1.5567,
      "step": 301
    },
    {
      "epoch": 0.10113864701942397,
      "grad_norm": 0.15577438473701477,
      "learning_rate": 8e-05,
      "loss": 1.5633,
      "step": 302
    },
    {
      "epoch": 0.10147354320160751,
      "grad_norm": 0.132902130484581,
      "learning_rate": 8e-05,
      "loss": 1.6529,
      "step": 303
    },
    {
      "epoch": 0.10180843938379103,
      "grad_norm": 0.13546474277973175,
      "learning_rate": 8e-05,
      "loss": 1.5741,
      "step": 304
    },
    {
      "epoch": 0.10214333556597455,
      "grad_norm": 0.16034458577632904,
      "learning_rate": 8e-05,
      "loss": 1.6897,
      "step": 305
    },
    {
      "epoch": 0.10247823174815807,
      "grad_norm": 0.1373920887708664,
      "learning_rate": 8e-05,
      "loss": 1.6205,
      "step": 306
    },
    {
      "epoch": 0.1028131279303416,
      "grad_norm": 0.15001803636550903,
      "learning_rate": 8e-05,
      "loss": 1.5794,
      "step": 307
    },
    {
      "epoch": 0.10314802411252512,
      "grad_norm": 0.13629880547523499,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 308
    },
    {
      "epoch": 0.10348292029470864,
      "grad_norm": 0.13363684713840485,
      "learning_rate": 8e-05,
      "loss": 1.634,
      "step": 309
    },
    {
      "epoch": 0.10381781647689216,
      "grad_norm": 0.1303631067276001,
      "learning_rate": 8e-05,
      "loss": 1.6467,
      "step": 310
    },
    {
      "epoch": 0.10415271265907569,
      "grad_norm": 0.1430165022611618,
      "learning_rate": 8e-05,
      "loss": 1.5346,
      "step": 311
    },
    {
      "epoch": 0.10448760884125921,
      "grad_norm": 0.12701477110385895,
      "learning_rate": 8e-05,
      "loss": 1.6324,
      "step": 312
    },
    {
      "epoch": 0.10482250502344273,
      "grad_norm": 0.12212160229682922,
      "learning_rate": 8e-05,
      "loss": 1.5645,
      "step": 313
    },
    {
      "epoch": 0.10515740120562625,
      "grad_norm": 0.14951957762241364,
      "learning_rate": 8e-05,
      "loss": 1.6353,
      "step": 314
    },
    {
      "epoch": 0.10549229738780978,
      "grad_norm": 0.13049724698066711,
      "learning_rate": 8e-05,
      "loss": 1.5468,
      "step": 315
    },
    {
      "epoch": 0.1058271935699933,
      "grad_norm": 0.13729169964790344,
      "learning_rate": 8e-05,
      "loss": 1.6731,
      "step": 316
    },
    {
      "epoch": 0.10616208975217682,
      "grad_norm": 0.1670583188533783,
      "learning_rate": 8e-05,
      "loss": 1.6332,
      "step": 317
    },
    {
      "epoch": 0.10649698593436034,
      "grad_norm": 0.13363654911518097,
      "learning_rate": 8e-05,
      "loss": 1.6821,
      "step": 318
    },
    {
      "epoch": 0.10683188211654387,
      "grad_norm": 0.16493171453475952,
      "learning_rate": 8e-05,
      "loss": 1.6387,
      "step": 319
    },
    {
      "epoch": 0.1071667782987274,
      "grad_norm": 0.12711116671562195,
      "learning_rate": 8e-05,
      "loss": 1.5287,
      "step": 320
    },
    {
      "epoch": 0.10750167448091091,
      "grad_norm": 0.12665478885173798,
      "learning_rate": 8e-05,
      "loss": 1.4935,
      "step": 321
    },
    {
      "epoch": 0.10783657066309445,
      "grad_norm": 0.13528165221214294,
      "learning_rate": 8e-05,
      "loss": 1.6411,
      "step": 322
    },
    {
      "epoch": 0.10817146684527797,
      "grad_norm": 0.13710694015026093,
      "learning_rate": 8e-05,
      "loss": 1.6292,
      "step": 323
    },
    {
      "epoch": 0.10850636302746149,
      "grad_norm": 0.14999240636825562,
      "learning_rate": 8e-05,
      "loss": 1.6179,
      "step": 324
    },
    {
      "epoch": 0.108841259209645,
      "grad_norm": 0.15133912861347198,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 325
    },
    {
      "epoch": 0.10917615539182854,
      "grad_norm": 0.12932133674621582,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 326
    },
    {
      "epoch": 0.10951105157401206,
      "grad_norm": 0.1577955186367035,
      "learning_rate": 8e-05,
      "loss": 1.5343,
      "step": 327
    },
    {
      "epoch": 0.10984594775619558,
      "grad_norm": 0.12615320086479187,
      "learning_rate": 8e-05,
      "loss": 1.6224,
      "step": 328
    },
    {
      "epoch": 0.1101808439383791,
      "grad_norm": 0.14010567963123322,
      "learning_rate": 8e-05,
      "loss": 1.5549,
      "step": 329
    },
    {
      "epoch": 0.11051574012056263,
      "grad_norm": 0.13906815648078918,
      "learning_rate": 8e-05,
      "loss": 1.6354,
      "step": 330
    },
    {
      "epoch": 0.11085063630274615,
      "grad_norm": 0.13214704394340515,
      "learning_rate": 8e-05,
      "loss": 1.6533,
      "step": 331
    },
    {
      "epoch": 0.11118553248492967,
      "grad_norm": 0.14559617638587952,
      "learning_rate": 8e-05,
      "loss": 1.6121,
      "step": 332
    },
    {
      "epoch": 0.11152042866711319,
      "grad_norm": 0.15021130442619324,
      "learning_rate": 8e-05,
      "loss": 1.6938,
      "step": 333
    },
    {
      "epoch": 0.11185532484929672,
      "grad_norm": 0.13228720426559448,
      "learning_rate": 8e-05,
      "loss": 1.6329,
      "step": 334
    },
    {
      "epoch": 0.11219022103148024,
      "grad_norm": 0.17142754793167114,
      "learning_rate": 8e-05,
      "loss": 1.6566,
      "step": 335
    },
    {
      "epoch": 0.11252511721366376,
      "grad_norm": 0.12142433971166611,
      "learning_rate": 8e-05,
      "loss": 1.4618,
      "step": 336
    },
    {
      "epoch": 0.11286001339584728,
      "grad_norm": 0.14100106060504913,
      "learning_rate": 8e-05,
      "loss": 1.6868,
      "step": 337
    },
    {
      "epoch": 0.11319490957803081,
      "grad_norm": 0.14501596987247467,
      "learning_rate": 8e-05,
      "loss": 1.6135,
      "step": 338
    },
    {
      "epoch": 0.11352980576021433,
      "grad_norm": 0.12176904082298279,
      "learning_rate": 8e-05,
      "loss": 1.512,
      "step": 339
    },
    {
      "epoch": 0.11386470194239785,
      "grad_norm": 0.13086272776126862,
      "learning_rate": 8e-05,
      "loss": 1.5907,
      "step": 340
    },
    {
      "epoch": 0.11419959812458139,
      "grad_norm": 0.14280778169631958,
      "learning_rate": 8e-05,
      "loss": 1.7079,
      "step": 341
    },
    {
      "epoch": 0.1145344943067649,
      "grad_norm": 0.13113300502300262,
      "learning_rate": 8e-05,
      "loss": 1.6784,
      "step": 342
    },
    {
      "epoch": 0.11486939048894843,
      "grad_norm": 0.12761156260967255,
      "learning_rate": 8e-05,
      "loss": 1.5767,
      "step": 343
    },
    {
      "epoch": 0.11520428667113194,
      "grad_norm": 0.13763435184955597,
      "learning_rate": 8e-05,
      "loss": 1.6306,
      "step": 344
    },
    {
      "epoch": 0.11553918285331548,
      "grad_norm": 0.12729217112064362,
      "learning_rate": 8e-05,
      "loss": 1.5662,
      "step": 345
    },
    {
      "epoch": 0.115874079035499,
      "grad_norm": 0.12821567058563232,
      "learning_rate": 8e-05,
      "loss": 1.6538,
      "step": 346
    },
    {
      "epoch": 0.11620897521768252,
      "grad_norm": 0.13095293939113617,
      "learning_rate": 8e-05,
      "loss": 1.6121,
      "step": 347
    },
    {
      "epoch": 0.11654387139986604,
      "grad_norm": 0.1328771561384201,
      "learning_rate": 8e-05,
      "loss": 1.6736,
      "step": 348
    },
    {
      "epoch": 0.11687876758204957,
      "grad_norm": 0.1241132840514183,
      "learning_rate": 8e-05,
      "loss": 1.6193,
      "step": 349
    },
    {
      "epoch": 0.11721366376423309,
      "grad_norm": 0.14237681031227112,
      "learning_rate": 8e-05,
      "loss": 1.7792,
      "step": 350
    },
    {
      "epoch": 0.11754855994641661,
      "grad_norm": 0.13415323197841644,
      "learning_rate": 8e-05,
      "loss": 1.6551,
      "step": 351
    },
    {
      "epoch": 0.11788345612860013,
      "grad_norm": 0.12870872020721436,
      "learning_rate": 8e-05,
      "loss": 1.4918,
      "step": 352
    },
    {
      "epoch": 0.11821835231078366,
      "grad_norm": 0.1433587670326233,
      "learning_rate": 8e-05,
      "loss": 1.6071,
      "step": 353
    },
    {
      "epoch": 0.11855324849296718,
      "grad_norm": 0.12375536561012268,
      "learning_rate": 8e-05,
      "loss": 1.5925,
      "step": 354
    },
    {
      "epoch": 0.1188881446751507,
      "grad_norm": 0.14355725049972534,
      "learning_rate": 8e-05,
      "loss": 1.6132,
      "step": 355
    },
    {
      "epoch": 0.11922304085733422,
      "grad_norm": 0.13450586795806885,
      "learning_rate": 8e-05,
      "loss": 1.6497,
      "step": 356
    },
    {
      "epoch": 0.11955793703951775,
      "grad_norm": 0.13042278587818146,
      "learning_rate": 8e-05,
      "loss": 1.6677,
      "step": 357
    },
    {
      "epoch": 0.11989283322170127,
      "grad_norm": 0.16174064576625824,
      "learning_rate": 8e-05,
      "loss": 1.6161,
      "step": 358
    },
    {
      "epoch": 0.12022772940388479,
      "grad_norm": 0.12506970763206482,
      "learning_rate": 8e-05,
      "loss": 1.6111,
      "step": 359
    },
    {
      "epoch": 0.12056262558606833,
      "grad_norm": 0.15299761295318604,
      "learning_rate": 8e-05,
      "loss": 1.6863,
      "step": 360
    },
    {
      "epoch": 0.12089752176825184,
      "grad_norm": 0.13803331553936005,
      "learning_rate": 8e-05,
      "loss": 1.6225,
      "step": 361
    },
    {
      "epoch": 0.12123241795043536,
      "grad_norm": 0.12191504240036011,
      "learning_rate": 8e-05,
      "loss": 1.4486,
      "step": 362
    },
    {
      "epoch": 0.12156731413261888,
      "grad_norm": 0.14491215348243713,
      "learning_rate": 8e-05,
      "loss": 1.6217,
      "step": 363
    },
    {
      "epoch": 0.12190221031480242,
      "grad_norm": 0.1296664923429489,
      "learning_rate": 8e-05,
      "loss": 1.5996,
      "step": 364
    },
    {
      "epoch": 0.12223710649698594,
      "grad_norm": 0.13325826823711395,
      "learning_rate": 8e-05,
      "loss": 1.5969,
      "step": 365
    },
    {
      "epoch": 0.12257200267916946,
      "grad_norm": 0.1380356252193451,
      "learning_rate": 8e-05,
      "loss": 1.6161,
      "step": 366
    },
    {
      "epoch": 0.12290689886135298,
      "grad_norm": 0.13105647265911102,
      "learning_rate": 8e-05,
      "loss": 1.6761,
      "step": 367
    },
    {
      "epoch": 0.12324179504353651,
      "grad_norm": 0.14863356947898865,
      "learning_rate": 8e-05,
      "loss": 1.5867,
      "step": 368
    },
    {
      "epoch": 0.12357669122572003,
      "grad_norm": 0.1238437071442604,
      "learning_rate": 8e-05,
      "loss": 1.5829,
      "step": 369
    },
    {
      "epoch": 0.12391158740790355,
      "grad_norm": 0.12522375583648682,
      "learning_rate": 8e-05,
      "loss": 1.6404,
      "step": 370
    },
    {
      "epoch": 0.12424648359008707,
      "grad_norm": 0.12809938192367554,
      "learning_rate": 8e-05,
      "loss": 1.6545,
      "step": 371
    },
    {
      "epoch": 0.1245813797722706,
      "grad_norm": 0.12585054337978363,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 372
    },
    {
      "epoch": 0.12491627595445412,
      "grad_norm": 0.13621467351913452,
      "learning_rate": 8e-05,
      "loss": 1.6721,
      "step": 373
    },
    {
      "epoch": 0.12525117213663764,
      "grad_norm": 0.13385498523712158,
      "learning_rate": 8e-05,
      "loss": 1.6394,
      "step": 374
    },
    {
      "epoch": 0.12558606831882116,
      "grad_norm": 0.1331118494272232,
      "learning_rate": 8e-05,
      "loss": 1.6151,
      "step": 375
    },
    {
      "epoch": 0.12592096450100468,
      "grad_norm": 0.1328865885734558,
      "learning_rate": 8e-05,
      "loss": 1.6657,
      "step": 376
    },
    {
      "epoch": 0.1262558606831882,
      "grad_norm": 0.12828217446804047,
      "learning_rate": 8e-05,
      "loss": 1.6507,
      "step": 377
    },
    {
      "epoch": 0.12659075686537175,
      "grad_norm": 0.1252257376909256,
      "learning_rate": 8e-05,
      "loss": 1.5429,
      "step": 378
    },
    {
      "epoch": 0.12692565304755526,
      "grad_norm": 0.13641513884067535,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 379
    },
    {
      "epoch": 0.12726054922973878,
      "grad_norm": 0.12115569412708282,
      "learning_rate": 8e-05,
      "loss": 1.4977,
      "step": 380
    },
    {
      "epoch": 0.1275954454119223,
      "grad_norm": 0.127084419131279,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 381
    },
    {
      "epoch": 0.12793034159410582,
      "grad_norm": 0.12692339718341827,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 382
    },
    {
      "epoch": 0.12826523777628934,
      "grad_norm": 0.1293323040008545,
      "learning_rate": 8e-05,
      "loss": 1.6182,
      "step": 383
    },
    {
      "epoch": 0.12860013395847286,
      "grad_norm": 0.1293933242559433,
      "learning_rate": 8e-05,
      "loss": 1.6582,
      "step": 384
    },
    {
      "epoch": 0.1289350301406564,
      "grad_norm": 0.12225325405597687,
      "learning_rate": 8e-05,
      "loss": 1.5667,
      "step": 385
    },
    {
      "epoch": 0.12926992632283993,
      "grad_norm": 0.13350380957126617,
      "learning_rate": 8e-05,
      "loss": 1.6304,
      "step": 386
    },
    {
      "epoch": 0.12960482250502345,
      "grad_norm": 0.12509576976299286,
      "learning_rate": 8e-05,
      "loss": 1.5679,
      "step": 387
    },
    {
      "epoch": 0.12993971868720697,
      "grad_norm": 0.13482020795345306,
      "learning_rate": 8e-05,
      "loss": 1.6827,
      "step": 388
    },
    {
      "epoch": 0.1302746148693905,
      "grad_norm": 0.13278841972351074,
      "learning_rate": 8e-05,
      "loss": 1.5276,
      "step": 389
    },
    {
      "epoch": 0.130609511051574,
      "grad_norm": 0.12313792109489441,
      "learning_rate": 8e-05,
      "loss": 1.5421,
      "step": 390
    },
    {
      "epoch": 0.13094440723375753,
      "grad_norm": 0.1197550818324089,
      "learning_rate": 8e-05,
      "loss": 1.5418,
      "step": 391
    },
    {
      "epoch": 0.13127930341594105,
      "grad_norm": 0.14532947540283203,
      "learning_rate": 8e-05,
      "loss": 1.6568,
      "step": 392
    },
    {
      "epoch": 0.1316141995981246,
      "grad_norm": 0.1265089213848114,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 393
    },
    {
      "epoch": 0.1319490957803081,
      "grad_norm": 0.1229051873087883,
      "learning_rate": 8e-05,
      "loss": 1.5226,
      "step": 394
    },
    {
      "epoch": 0.13228399196249163,
      "grad_norm": 0.14637337625026703,
      "learning_rate": 8e-05,
      "loss": 1.7284,
      "step": 395
    },
    {
      "epoch": 0.13261888814467515,
      "grad_norm": 0.12465133517980576,
      "learning_rate": 8e-05,
      "loss": 1.6187,
      "step": 396
    },
    {
      "epoch": 0.13295378432685867,
      "grad_norm": 0.13505584001541138,
      "learning_rate": 8e-05,
      "loss": 1.6867,
      "step": 397
    },
    {
      "epoch": 0.1332886805090422,
      "grad_norm": 0.13241641223430634,
      "learning_rate": 8e-05,
      "loss": 1.5626,
      "step": 398
    },
    {
      "epoch": 0.1336235766912257,
      "grad_norm": 0.12877307832241058,
      "learning_rate": 8e-05,
      "loss": 1.622,
      "step": 399
    },
    {
      "epoch": 0.13395847287340926,
      "grad_norm": 0.12200705707073212,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 400
    },
    {
      "epoch": 0.13429336905559278,
      "grad_norm": 0.1390073299407959,
      "learning_rate": 8e-05,
      "loss": 1.7786,
      "step": 401
    },
    {
      "epoch": 0.1346282652377763,
      "grad_norm": 0.14014361798763275,
      "learning_rate": 8e-05,
      "loss": 1.6488,
      "step": 402
    },
    {
      "epoch": 0.13496316141995982,
      "grad_norm": 0.12359379231929779,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 403
    },
    {
      "epoch": 0.13529805760214333,
      "grad_norm": 0.12996888160705566,
      "learning_rate": 8e-05,
      "loss": 1.6153,
      "step": 404
    },
    {
      "epoch": 0.13563295378432685,
      "grad_norm": 0.14018549025058746,
      "learning_rate": 8e-05,
      "loss": 1.5458,
      "step": 405
    },
    {
      "epoch": 0.13596784996651037,
      "grad_norm": 0.1212407648563385,
      "learning_rate": 8e-05,
      "loss": 1.5155,
      "step": 406
    },
    {
      "epoch": 0.1363027461486939,
      "grad_norm": 0.12940961122512817,
      "learning_rate": 8e-05,
      "loss": 1.5354,
      "step": 407
    },
    {
      "epoch": 0.13663764233087744,
      "grad_norm": 0.15821991860866547,
      "learning_rate": 8e-05,
      "loss": 1.6564,
      "step": 408
    },
    {
      "epoch": 0.13697253851306096,
      "grad_norm": 0.13212034106254578,
      "learning_rate": 8e-05,
      "loss": 1.6676,
      "step": 409
    },
    {
      "epoch": 0.13730743469524448,
      "grad_norm": 0.13419748842716217,
      "learning_rate": 8e-05,
      "loss": 1.5498,
      "step": 410
    },
    {
      "epoch": 0.137642330877428,
      "grad_norm": 0.13691389560699463,
      "learning_rate": 8e-05,
      "loss": 1.5413,
      "step": 411
    },
    {
      "epoch": 0.13797722705961152,
      "grad_norm": 0.13718146085739136,
      "learning_rate": 8e-05,
      "loss": 1.56,
      "step": 412
    },
    {
      "epoch": 0.13831212324179504,
      "grad_norm": 0.1301390379667282,
      "learning_rate": 8e-05,
      "loss": 1.6732,
      "step": 413
    },
    {
      "epoch": 0.13864701942397856,
      "grad_norm": 0.1306130737066269,
      "learning_rate": 8e-05,
      "loss": 1.5879,
      "step": 414
    },
    {
      "epoch": 0.13898191560616208,
      "grad_norm": 0.13470587134361267,
      "learning_rate": 8e-05,
      "loss": 1.6049,
      "step": 415
    },
    {
      "epoch": 0.13931681178834562,
      "grad_norm": 0.13014133274555206,
      "learning_rate": 8e-05,
      "loss": 1.5956,
      "step": 416
    },
    {
      "epoch": 0.13965170797052914,
      "grad_norm": 0.13020925223827362,
      "learning_rate": 8e-05,
      "loss": 1.5523,
      "step": 417
    },
    {
      "epoch": 0.13998660415271266,
      "grad_norm": 0.13919077813625336,
      "learning_rate": 8e-05,
      "loss": 1.6297,
      "step": 418
    },
    {
      "epoch": 0.14032150033489618,
      "grad_norm": 0.1416609138250351,
      "learning_rate": 8e-05,
      "loss": 1.5702,
      "step": 419
    },
    {
      "epoch": 0.1406563965170797,
      "grad_norm": 0.12856781482696533,
      "learning_rate": 8e-05,
      "loss": 1.5276,
      "step": 420
    },
    {
      "epoch": 0.14099129269926322,
      "grad_norm": 0.13547192513942719,
      "learning_rate": 8e-05,
      "loss": 1.6297,
      "step": 421
    },
    {
      "epoch": 0.14132618888144674,
      "grad_norm": 0.1383880227804184,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 422
    },
    {
      "epoch": 0.1416610850636303,
      "grad_norm": 0.12222875654697418,
      "learning_rate": 8e-05,
      "loss": 1.5552,
      "step": 423
    },
    {
      "epoch": 0.1419959812458138,
      "grad_norm": 0.1255347579717636,
      "learning_rate": 8e-05,
      "loss": 1.5277,
      "step": 424
    },
    {
      "epoch": 0.14233087742799733,
      "grad_norm": 0.13630975782871246,
      "learning_rate": 8e-05,
      "loss": 1.6292,
      "step": 425
    },
    {
      "epoch": 0.14266577361018085,
      "grad_norm": 0.12702496349811554,
      "learning_rate": 8e-05,
      "loss": 1.6118,
      "step": 426
    },
    {
      "epoch": 0.14300066979236437,
      "grad_norm": 0.13818618655204773,
      "learning_rate": 8e-05,
      "loss": 1.5871,
      "step": 427
    },
    {
      "epoch": 0.14333556597454788,
      "grad_norm": 0.12235737591981888,
      "learning_rate": 8e-05,
      "loss": 1.5735,
      "step": 428
    },
    {
      "epoch": 0.1436704621567314,
      "grad_norm": 0.12517410516738892,
      "learning_rate": 8e-05,
      "loss": 1.6176,
      "step": 429
    },
    {
      "epoch": 0.14400535833891492,
      "grad_norm": 0.1344120353460312,
      "learning_rate": 8e-05,
      "loss": 1.5991,
      "step": 430
    },
    {
      "epoch": 0.14434025452109847,
      "grad_norm": 0.13071677088737488,
      "learning_rate": 8e-05,
      "loss": 1.6642,
      "step": 431
    },
    {
      "epoch": 0.144675150703282,
      "grad_norm": 0.13913211226463318,
      "learning_rate": 8e-05,
      "loss": 1.6042,
      "step": 432
    },
    {
      "epoch": 0.1450100468854655,
      "grad_norm": 0.12745611369609833,
      "learning_rate": 8e-05,
      "loss": 1.5706,
      "step": 433
    },
    {
      "epoch": 0.14534494306764903,
      "grad_norm": 0.12724733352661133,
      "learning_rate": 8e-05,
      "loss": 1.5938,
      "step": 434
    },
    {
      "epoch": 0.14567983924983255,
      "grad_norm": 0.13581429421901703,
      "learning_rate": 8e-05,
      "loss": 1.5988,
      "step": 435
    },
    {
      "epoch": 0.14601473543201607,
      "grad_norm": 0.12753266096115112,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 436
    },
    {
      "epoch": 0.1463496316141996,
      "grad_norm": 0.13195131719112396,
      "learning_rate": 8e-05,
      "loss": 1.5564,
      "step": 437
    },
    {
      "epoch": 0.14668452779638314,
      "grad_norm": 0.12851957976818085,
      "learning_rate": 8e-05,
      "loss": 1.5903,
      "step": 438
    },
    {
      "epoch": 0.14701942397856665,
      "grad_norm": 0.12762846052646637,
      "learning_rate": 8e-05,
      "loss": 1.6469,
      "step": 439
    },
    {
      "epoch": 0.14735432016075017,
      "grad_norm": 0.12404768913984299,
      "learning_rate": 8e-05,
      "loss": 1.5976,
      "step": 440
    },
    {
      "epoch": 0.1476892163429337,
      "grad_norm": 0.12643830478191376,
      "learning_rate": 8e-05,
      "loss": 1.5578,
      "step": 441
    },
    {
      "epoch": 0.1480241125251172,
      "grad_norm": 0.12822367250919342,
      "learning_rate": 8e-05,
      "loss": 1.5675,
      "step": 442
    },
    {
      "epoch": 0.14835900870730073,
      "grad_norm": 0.12617523968219757,
      "learning_rate": 8e-05,
      "loss": 1.5333,
      "step": 443
    },
    {
      "epoch": 0.14869390488948425,
      "grad_norm": 0.13286514580249786,
      "learning_rate": 8e-05,
      "loss": 1.7077,
      "step": 444
    },
    {
      "epoch": 0.14902880107166777,
      "grad_norm": 0.137756809592247,
      "learning_rate": 8e-05,
      "loss": 1.6734,
      "step": 445
    },
    {
      "epoch": 0.14936369725385132,
      "grad_norm": 0.12570279836654663,
      "learning_rate": 8e-05,
      "loss": 1.62,
      "step": 446
    },
    {
      "epoch": 0.14969859343603484,
      "grad_norm": 0.13079990446567535,
      "learning_rate": 8e-05,
      "loss": 1.5643,
      "step": 447
    },
    {
      "epoch": 0.15003348961821836,
      "grad_norm": 0.12616747617721558,
      "learning_rate": 8e-05,
      "loss": 1.625,
      "step": 448
    },
    {
      "epoch": 0.15036838580040188,
      "grad_norm": 0.12348031252622604,
      "learning_rate": 8e-05,
      "loss": 1.5425,
      "step": 449
    },
    {
      "epoch": 0.1507032819825854,
      "grad_norm": 0.1285775601863861,
      "learning_rate": 8e-05,
      "loss": 1.622,
      "step": 450
    },
    {
      "epoch": 0.15103817816476892,
      "grad_norm": 0.1266283541917801,
      "learning_rate": 8e-05,
      "loss": 1.6738,
      "step": 451
    },
    {
      "epoch": 0.15137307434695244,
      "grad_norm": 0.13568246364593506,
      "learning_rate": 8e-05,
      "loss": 1.5484,
      "step": 452
    },
    {
      "epoch": 0.15170797052913595,
      "grad_norm": 0.12279605865478516,
      "learning_rate": 8e-05,
      "loss": 1.5527,
      "step": 453
    },
    {
      "epoch": 0.1520428667113195,
      "grad_norm": 0.12912510335445404,
      "learning_rate": 8e-05,
      "loss": 1.5417,
      "step": 454
    },
    {
      "epoch": 0.15237776289350302,
      "grad_norm": 0.12676158547401428,
      "learning_rate": 8e-05,
      "loss": 1.5159,
      "step": 455
    },
    {
      "epoch": 0.15271265907568654,
      "grad_norm": 0.13084645569324493,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 456
    },
    {
      "epoch": 0.15304755525787006,
      "grad_norm": 0.12528519332408905,
      "learning_rate": 8e-05,
      "loss": 1.5018,
      "step": 457
    },
    {
      "epoch": 0.15338245144005358,
      "grad_norm": 0.14163222908973694,
      "learning_rate": 8e-05,
      "loss": 1.663,
      "step": 458
    },
    {
      "epoch": 0.1537173476222371,
      "grad_norm": 0.13563640415668488,
      "learning_rate": 8e-05,
      "loss": 1.7279,
      "step": 459
    },
    {
      "epoch": 0.15405224380442062,
      "grad_norm": 0.13989901542663574,
      "learning_rate": 8e-05,
      "loss": 1.6746,
      "step": 460
    },
    {
      "epoch": 0.15438713998660417,
      "grad_norm": 0.1254369020462036,
      "learning_rate": 8e-05,
      "loss": 1.5961,
      "step": 461
    },
    {
      "epoch": 0.15472203616878769,
      "grad_norm": 0.1333695650100708,
      "learning_rate": 8e-05,
      "loss": 1.5595,
      "step": 462
    },
    {
      "epoch": 0.1550569323509712,
      "grad_norm": 0.13535459339618683,
      "learning_rate": 8e-05,
      "loss": 1.6434,
      "step": 463
    },
    {
      "epoch": 0.15539182853315472,
      "grad_norm": 0.13424526154994965,
      "learning_rate": 8e-05,
      "loss": 1.6246,
      "step": 464
    },
    {
      "epoch": 0.15572672471533824,
      "grad_norm": 0.15918241441249847,
      "learning_rate": 8e-05,
      "loss": 1.5495,
      "step": 465
    },
    {
      "epoch": 0.15606162089752176,
      "grad_norm": 0.13146637380123138,
      "learning_rate": 8e-05,
      "loss": 1.6771,
      "step": 466
    },
    {
      "epoch": 0.15639651707970528,
      "grad_norm": 0.13149484992027283,
      "learning_rate": 8e-05,
      "loss": 1.5689,
      "step": 467
    },
    {
      "epoch": 0.1567314132618888,
      "grad_norm": 0.1319151669740677,
      "learning_rate": 8e-05,
      "loss": 1.5839,
      "step": 468
    },
    {
      "epoch": 0.15706630944407235,
      "grad_norm": 0.12628664076328278,
      "learning_rate": 8e-05,
      "loss": 1.6334,
      "step": 469
    },
    {
      "epoch": 0.15740120562625587,
      "grad_norm": 0.134039506316185,
      "learning_rate": 8e-05,
      "loss": 1.675,
      "step": 470
    },
    {
      "epoch": 0.1577361018084394,
      "grad_norm": 0.12878106534481049,
      "learning_rate": 8e-05,
      "loss": 1.6506,
      "step": 471
    },
    {
      "epoch": 0.1580709979906229,
      "grad_norm": 0.12769190967082977,
      "learning_rate": 8e-05,
      "loss": 1.6033,
      "step": 472
    },
    {
      "epoch": 0.15840589417280643,
      "grad_norm": 0.129012331366539,
      "learning_rate": 8e-05,
      "loss": 1.6608,
      "step": 473
    },
    {
      "epoch": 0.15874079035498995,
      "grad_norm": 0.13611294329166412,
      "learning_rate": 8e-05,
      "loss": 1.6504,
      "step": 474
    },
    {
      "epoch": 0.15907568653717347,
      "grad_norm": 0.12331051379442215,
      "learning_rate": 8e-05,
      "loss": 1.574,
      "step": 475
    },
    {
      "epoch": 0.15941058271935699,
      "grad_norm": 0.12994658946990967,
      "learning_rate": 8e-05,
      "loss": 1.5843,
      "step": 476
    },
    {
      "epoch": 0.15974547890154053,
      "grad_norm": 0.12781530618667603,
      "learning_rate": 8e-05,
      "loss": 1.6251,
      "step": 477
    },
    {
      "epoch": 0.16008037508372405,
      "grad_norm": 0.13178999722003937,
      "learning_rate": 8e-05,
      "loss": 1.5573,
      "step": 478
    },
    {
      "epoch": 0.16041527126590757,
      "grad_norm": 0.12682422995567322,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 479
    },
    {
      "epoch": 0.1607501674480911,
      "grad_norm": 0.1209898293018341,
      "learning_rate": 8e-05,
      "loss": 1.5578,
      "step": 480
    },
    {
      "epoch": 0.1610850636302746,
      "grad_norm": 0.1279502660036087,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 481
    },
    {
      "epoch": 0.16141995981245813,
      "grad_norm": 0.12831218540668488,
      "learning_rate": 8e-05,
      "loss": 1.6616,
      "step": 482
    },
    {
      "epoch": 0.16175485599464165,
      "grad_norm": 0.1296817511320114,
      "learning_rate": 8e-05,
      "loss": 1.6946,
      "step": 483
    },
    {
      "epoch": 0.1620897521768252,
      "grad_norm": 0.12719739973545074,
      "learning_rate": 8e-05,
      "loss": 1.4737,
      "step": 484
    },
    {
      "epoch": 0.16242464835900872,
      "grad_norm": 0.13770955801010132,
      "learning_rate": 8e-05,
      "loss": 1.5864,
      "step": 485
    },
    {
      "epoch": 0.16275954454119224,
      "grad_norm": 0.12656912207603455,
      "learning_rate": 8e-05,
      "loss": 1.5355,
      "step": 486
    },
    {
      "epoch": 0.16309444072337576,
      "grad_norm": 0.12855477631092072,
      "learning_rate": 8e-05,
      "loss": 1.6397,
      "step": 487
    },
    {
      "epoch": 0.16342933690555927,
      "grad_norm": 0.12420003861188889,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 488
    },
    {
      "epoch": 0.1637642330877428,
      "grad_norm": 0.12392479926347733,
      "learning_rate": 8e-05,
      "loss": 1.5301,
      "step": 489
    },
    {
      "epoch": 0.1640991292699263,
      "grad_norm": 0.11958851665258408,
      "learning_rate": 8e-05,
      "loss": 1.5236,
      "step": 490
    },
    {
      "epoch": 0.16443402545210983,
      "grad_norm": 0.12865790724754333,
      "learning_rate": 8e-05,
      "loss": 1.6581,
      "step": 491
    },
    {
      "epoch": 0.16476892163429338,
      "grad_norm": 0.12557639181613922,
      "learning_rate": 8e-05,
      "loss": 1.583,
      "step": 492
    },
    {
      "epoch": 0.1651038178164769,
      "grad_norm": 0.13103145360946655,
      "learning_rate": 8e-05,
      "loss": 1.6865,
      "step": 493
    },
    {
      "epoch": 0.16543871399866042,
      "grad_norm": 0.12919192016124725,
      "learning_rate": 8e-05,
      "loss": 1.7036,
      "step": 494
    },
    {
      "epoch": 0.16577361018084394,
      "grad_norm": 0.12748879194259644,
      "learning_rate": 8e-05,
      "loss": 1.6258,
      "step": 495
    },
    {
      "epoch": 0.16610850636302746,
      "grad_norm": 0.1275051236152649,
      "learning_rate": 8e-05,
      "loss": 1.6514,
      "step": 496
    },
    {
      "epoch": 0.16644340254521098,
      "grad_norm": 0.13048359751701355,
      "learning_rate": 8e-05,
      "loss": 1.4981,
      "step": 497
    },
    {
      "epoch": 0.1667782987273945,
      "grad_norm": 0.1327805370092392,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 498
    },
    {
      "epoch": 0.16711319490957804,
      "grad_norm": 0.1276085525751114,
      "learning_rate": 8e-05,
      "loss": 1.5942,
      "step": 499
    },
    {
      "epoch": 0.16744809109176156,
      "grad_norm": 0.12235596030950546,
      "learning_rate": 8e-05,
      "loss": 1.4967,
      "step": 500
    },
    {
      "epoch": 0.16778298727394508,
      "grad_norm": 0.12662802636623383,
      "learning_rate": 8e-05,
      "loss": 1.597,
      "step": 501
    },
    {
      "epoch": 0.1681178834561286,
      "grad_norm": 0.1307346671819687,
      "learning_rate": 8e-05,
      "loss": 1.5959,
      "step": 502
    },
    {
      "epoch": 0.16845277963831212,
      "grad_norm": 0.1473594754934311,
      "learning_rate": 8e-05,
      "loss": 1.6284,
      "step": 503
    },
    {
      "epoch": 0.16878767582049564,
      "grad_norm": 0.12997916340827942,
      "learning_rate": 8e-05,
      "loss": 1.6144,
      "step": 504
    },
    {
      "epoch": 0.16912257200267916,
      "grad_norm": 0.13634514808654785,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 505
    },
    {
      "epoch": 0.16945746818486268,
      "grad_norm": 0.12623892724514008,
      "learning_rate": 8e-05,
      "loss": 1.5876,
      "step": 506
    },
    {
      "epoch": 0.16979236436704623,
      "grad_norm": 0.13536874949932098,
      "learning_rate": 8e-05,
      "loss": 1.5424,
      "step": 507
    },
    {
      "epoch": 0.17012726054922975,
      "grad_norm": 0.13530270755290985,
      "learning_rate": 8e-05,
      "loss": 1.6331,
      "step": 508
    },
    {
      "epoch": 0.17046215673141327,
      "grad_norm": 0.14404425024986267,
      "learning_rate": 8e-05,
      "loss": 1.6518,
      "step": 509
    },
    {
      "epoch": 0.1707970529135968,
      "grad_norm": 0.12791600823402405,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 510
    },
    {
      "epoch": 0.1711319490957803,
      "grad_norm": 0.12322878837585449,
      "learning_rate": 8e-05,
      "loss": 1.5368,
      "step": 511
    },
    {
      "epoch": 0.17146684527796383,
      "grad_norm": 0.1251021772623062,
      "learning_rate": 8e-05,
      "loss": 1.6447,
      "step": 512
    },
    {
      "epoch": 0.17180174146014734,
      "grad_norm": 0.14288383722305298,
      "learning_rate": 8e-05,
      "loss": 1.541,
      "step": 513
    },
    {
      "epoch": 0.17213663764233086,
      "grad_norm": 0.13200585544109344,
      "learning_rate": 8e-05,
      "loss": 1.7025,
      "step": 514
    },
    {
      "epoch": 0.1724715338245144,
      "grad_norm": 0.1323479562997818,
      "learning_rate": 8e-05,
      "loss": 1.6324,
      "step": 515
    },
    {
      "epoch": 0.17280643000669793,
      "grad_norm": 0.12109513580799103,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 516
    },
    {
      "epoch": 0.17314132618888145,
      "grad_norm": 0.13594083487987518,
      "learning_rate": 8e-05,
      "loss": 1.5631,
      "step": 517
    },
    {
      "epoch": 0.17347622237106497,
      "grad_norm": 0.1257733702659607,
      "learning_rate": 8e-05,
      "loss": 1.562,
      "step": 518
    },
    {
      "epoch": 0.1738111185532485,
      "grad_norm": 0.12631259858608246,
      "learning_rate": 8e-05,
      "loss": 1.5059,
      "step": 519
    },
    {
      "epoch": 0.174146014735432,
      "grad_norm": 0.1324077993631363,
      "learning_rate": 8e-05,
      "loss": 1.5343,
      "step": 520
    },
    {
      "epoch": 0.17448091091761553,
      "grad_norm": 0.13295979797840118,
      "learning_rate": 8e-05,
      "loss": 1.5234,
      "step": 521
    },
    {
      "epoch": 0.17481580709979908,
      "grad_norm": 0.13730348646640778,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 522
    },
    {
      "epoch": 0.1751507032819826,
      "grad_norm": 0.13887625932693481,
      "learning_rate": 8e-05,
      "loss": 1.5781,
      "step": 523
    },
    {
      "epoch": 0.17548559946416611,
      "grad_norm": 0.13674935698509216,
      "learning_rate": 8e-05,
      "loss": 1.7046,
      "step": 524
    },
    {
      "epoch": 0.17582049564634963,
      "grad_norm": 0.1312791258096695,
      "learning_rate": 8e-05,
      "loss": 1.6564,
      "step": 525
    },
    {
      "epoch": 0.17615539182853315,
      "grad_norm": 0.13341623544692993,
      "learning_rate": 8e-05,
      "loss": 1.548,
      "step": 526
    },
    {
      "epoch": 0.17649028801071667,
      "grad_norm": 0.12605854868888855,
      "learning_rate": 8e-05,
      "loss": 1.601,
      "step": 527
    },
    {
      "epoch": 0.1768251841929002,
      "grad_norm": 0.1298142820596695,
      "learning_rate": 8e-05,
      "loss": 1.6824,
      "step": 528
    },
    {
      "epoch": 0.1771600803750837,
      "grad_norm": 0.1311623603105545,
      "learning_rate": 8e-05,
      "loss": 1.6189,
      "step": 529
    },
    {
      "epoch": 0.17749497655726726,
      "grad_norm": 0.12505728006362915,
      "learning_rate": 8e-05,
      "loss": 1.5102,
      "step": 530
    },
    {
      "epoch": 0.17782987273945078,
      "grad_norm": 0.13691647350788116,
      "learning_rate": 8e-05,
      "loss": 1.5512,
      "step": 531
    },
    {
      "epoch": 0.1781647689216343,
      "grad_norm": 0.12755127251148224,
      "learning_rate": 8e-05,
      "loss": 1.5518,
      "step": 532
    },
    {
      "epoch": 0.17849966510381782,
      "grad_norm": 0.12900443375110626,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 533
    },
    {
      "epoch": 0.17883456128600134,
      "grad_norm": 0.12382646650075912,
      "learning_rate": 8e-05,
      "loss": 1.5426,
      "step": 534
    },
    {
      "epoch": 0.17916945746818486,
      "grad_norm": 0.13243038952350616,
      "learning_rate": 8e-05,
      "loss": 1.6745,
      "step": 535
    },
    {
      "epoch": 0.17950435365036838,
      "grad_norm": 0.1327180415391922,
      "learning_rate": 8e-05,
      "loss": 1.604,
      "step": 536
    },
    {
      "epoch": 0.1798392498325519,
      "grad_norm": 0.13317514955997467,
      "learning_rate": 8e-05,
      "loss": 1.6324,
      "step": 537
    },
    {
      "epoch": 0.18017414601473544,
      "grad_norm": 0.12609048187732697,
      "learning_rate": 8e-05,
      "loss": 1.5267,
      "step": 538
    },
    {
      "epoch": 0.18050904219691896,
      "grad_norm": 0.12995949387550354,
      "learning_rate": 8e-05,
      "loss": 1.7106,
      "step": 539
    },
    {
      "epoch": 0.18084393837910248,
      "grad_norm": 0.1330689787864685,
      "learning_rate": 8e-05,
      "loss": 1.6544,
      "step": 540
    },
    {
      "epoch": 0.181178834561286,
      "grad_norm": 0.12626990675926208,
      "learning_rate": 8e-05,
      "loss": 1.5551,
      "step": 541
    },
    {
      "epoch": 0.18151373074346952,
      "grad_norm": 0.12268874049186707,
      "learning_rate": 8e-05,
      "loss": 1.5524,
      "step": 542
    },
    {
      "epoch": 0.18184862692565304,
      "grad_norm": 0.1197749674320221,
      "learning_rate": 8e-05,
      "loss": 1.524,
      "step": 543
    },
    {
      "epoch": 0.18218352310783656,
      "grad_norm": 0.12565189599990845,
      "learning_rate": 8e-05,
      "loss": 1.5231,
      "step": 544
    },
    {
      "epoch": 0.1825184192900201,
      "grad_norm": 0.12756536900997162,
      "learning_rate": 8e-05,
      "loss": 1.6298,
      "step": 545
    },
    {
      "epoch": 0.18285331547220363,
      "grad_norm": 0.1260419636964798,
      "learning_rate": 8e-05,
      "loss": 1.5854,
      "step": 546
    },
    {
      "epoch": 0.18318821165438715,
      "grad_norm": 0.13049975037574768,
      "learning_rate": 8e-05,
      "loss": 1.681,
      "step": 547
    },
    {
      "epoch": 0.18352310783657066,
      "grad_norm": 0.1376892626285553,
      "learning_rate": 8e-05,
      "loss": 1.6369,
      "step": 548
    },
    {
      "epoch": 0.18385800401875418,
      "grad_norm": 0.13083089888095856,
      "learning_rate": 8e-05,
      "loss": 1.5331,
      "step": 549
    },
    {
      "epoch": 0.1841929002009377,
      "grad_norm": 0.13433463871479034,
      "learning_rate": 8e-05,
      "loss": 1.5484,
      "step": 550
    },
    {
      "epoch": 0.18452779638312122,
      "grad_norm": 0.13173434138298035,
      "learning_rate": 8e-05,
      "loss": 1.6011,
      "step": 551
    },
    {
      "epoch": 0.18486269256530474,
      "grad_norm": 0.13381533324718475,
      "learning_rate": 8e-05,
      "loss": 1.5356,
      "step": 552
    },
    {
      "epoch": 0.1851975887474883,
      "grad_norm": 0.13115955889225006,
      "learning_rate": 8e-05,
      "loss": 1.6026,
      "step": 553
    },
    {
      "epoch": 0.1855324849296718,
      "grad_norm": 0.12366572767496109,
      "learning_rate": 8e-05,
      "loss": 1.5363,
      "step": 554
    },
    {
      "epoch": 0.18586738111185533,
      "grad_norm": 0.13431601226329803,
      "learning_rate": 8e-05,
      "loss": 1.485,
      "step": 555
    },
    {
      "epoch": 0.18620227729403885,
      "grad_norm": 0.13332775235176086,
      "learning_rate": 8e-05,
      "loss": 1.6282,
      "step": 556
    },
    {
      "epoch": 0.18653717347622237,
      "grad_norm": 0.12819485366344452,
      "learning_rate": 8e-05,
      "loss": 1.5197,
      "step": 557
    },
    {
      "epoch": 0.1868720696584059,
      "grad_norm": 0.12127494066953659,
      "learning_rate": 8e-05,
      "loss": 1.5658,
      "step": 558
    },
    {
      "epoch": 0.1872069658405894,
      "grad_norm": 0.13338150084018707,
      "learning_rate": 8e-05,
      "loss": 1.646,
      "step": 559
    },
    {
      "epoch": 0.18754186202277295,
      "grad_norm": 0.1276269406080246,
      "learning_rate": 8e-05,
      "loss": 1.5315,
      "step": 560
    },
    {
      "epoch": 0.18787675820495647,
      "grad_norm": 0.1392403244972229,
      "learning_rate": 8e-05,
      "loss": 1.7176,
      "step": 561
    },
    {
      "epoch": 0.18821165438714,
      "grad_norm": 0.11991127580404282,
      "learning_rate": 8e-05,
      "loss": 1.5117,
      "step": 562
    },
    {
      "epoch": 0.1885465505693235,
      "grad_norm": 0.14441195130348206,
      "learning_rate": 8e-05,
      "loss": 1.5597,
      "step": 563
    },
    {
      "epoch": 0.18888144675150703,
      "grad_norm": 0.1247161328792572,
      "learning_rate": 8e-05,
      "loss": 1.608,
      "step": 564
    },
    {
      "epoch": 0.18921634293369055,
      "grad_norm": 0.12829847633838654,
      "learning_rate": 8e-05,
      "loss": 1.5539,
      "step": 565
    },
    {
      "epoch": 0.18955123911587407,
      "grad_norm": 0.13440875709056854,
      "learning_rate": 8e-05,
      "loss": 1.6348,
      "step": 566
    },
    {
      "epoch": 0.1898861352980576,
      "grad_norm": 0.1285361498594284,
      "learning_rate": 8e-05,
      "loss": 1.6426,
      "step": 567
    },
    {
      "epoch": 0.19022103148024114,
      "grad_norm": 0.12674525380134583,
      "learning_rate": 8e-05,
      "loss": 1.5544,
      "step": 568
    },
    {
      "epoch": 0.19055592766242466,
      "grad_norm": 0.1283489167690277,
      "learning_rate": 8e-05,
      "loss": 1.5947,
      "step": 569
    },
    {
      "epoch": 0.19089082384460818,
      "grad_norm": 0.13115115463733673,
      "learning_rate": 8e-05,
      "loss": 1.6006,
      "step": 570
    },
    {
      "epoch": 0.1912257200267917,
      "grad_norm": 0.12626484036445618,
      "learning_rate": 8e-05,
      "loss": 1.5496,
      "step": 571
    },
    {
      "epoch": 0.19156061620897522,
      "grad_norm": 0.12167833745479584,
      "learning_rate": 8e-05,
      "loss": 1.5043,
      "step": 572
    },
    {
      "epoch": 0.19189551239115873,
      "grad_norm": 0.1362580806016922,
      "learning_rate": 8e-05,
      "loss": 1.6999,
      "step": 573
    },
    {
      "epoch": 0.19223040857334225,
      "grad_norm": 0.13136154413223267,
      "learning_rate": 8e-05,
      "loss": 1.6707,
      "step": 574
    },
    {
      "epoch": 0.19256530475552577,
      "grad_norm": 0.12873783707618713,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 575
    },
    {
      "epoch": 0.19290020093770932,
      "grad_norm": 0.12827153503894806,
      "learning_rate": 8e-05,
      "loss": 1.5198,
      "step": 576
    },
    {
      "epoch": 0.19323509711989284,
      "grad_norm": 0.1259436458349228,
      "learning_rate": 8e-05,
      "loss": 1.6193,
      "step": 577
    },
    {
      "epoch": 0.19356999330207636,
      "grad_norm": 0.12563464045524597,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 578
    },
    {
      "epoch": 0.19390488948425988,
      "grad_norm": 0.1230887696146965,
      "learning_rate": 8e-05,
      "loss": 1.5593,
      "step": 579
    },
    {
      "epoch": 0.1942397856664434,
      "grad_norm": 0.13291777670383453,
      "learning_rate": 8e-05,
      "loss": 1.6199,
      "step": 580
    },
    {
      "epoch": 0.19457468184862692,
      "grad_norm": 0.12759481370449066,
      "learning_rate": 8e-05,
      "loss": 1.5754,
      "step": 581
    },
    {
      "epoch": 0.19490957803081044,
      "grad_norm": 0.12623055279254913,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 582
    },
    {
      "epoch": 0.19524447421299398,
      "grad_norm": 0.12634161114692688,
      "learning_rate": 8e-05,
      "loss": 1.5757,
      "step": 583
    },
    {
      "epoch": 0.1955793703951775,
      "grad_norm": 0.12869417667388916,
      "learning_rate": 8e-05,
      "loss": 1.5484,
      "step": 584
    },
    {
      "epoch": 0.19591426657736102,
      "grad_norm": 0.1234048381447792,
      "learning_rate": 8e-05,
      "loss": 1.6084,
      "step": 585
    },
    {
      "epoch": 0.19624916275954454,
      "grad_norm": 0.13279233872890472,
      "learning_rate": 8e-05,
      "loss": 1.699,
      "step": 586
    },
    {
      "epoch": 0.19658405894172806,
      "grad_norm": 0.12729190289974213,
      "learning_rate": 8e-05,
      "loss": 1.5582,
      "step": 587
    },
    {
      "epoch": 0.19691895512391158,
      "grad_norm": 0.12876980006694794,
      "learning_rate": 8e-05,
      "loss": 1.6177,
      "step": 588
    },
    {
      "epoch": 0.1972538513060951,
      "grad_norm": 0.12365009635686874,
      "learning_rate": 8e-05,
      "loss": 1.5891,
      "step": 589
    },
    {
      "epoch": 0.19758874748827862,
      "grad_norm": 0.12838847935199738,
      "learning_rate": 8e-05,
      "loss": 1.5921,
      "step": 590
    },
    {
      "epoch": 0.19792364367046217,
      "grad_norm": 0.12606742978096008,
      "learning_rate": 8e-05,
      "loss": 1.5371,
      "step": 591
    },
    {
      "epoch": 0.1982585398526457,
      "grad_norm": 0.13206101953983307,
      "learning_rate": 8e-05,
      "loss": 1.5321,
      "step": 592
    },
    {
      "epoch": 0.1985934360348292,
      "grad_norm": 0.1270192563533783,
      "learning_rate": 8e-05,
      "loss": 1.582,
      "step": 593
    },
    {
      "epoch": 0.19892833221701273,
      "grad_norm": 0.12194784730672836,
      "learning_rate": 8e-05,
      "loss": 1.3985,
      "step": 594
    },
    {
      "epoch": 0.19926322839919625,
      "grad_norm": 0.12635566294193268,
      "learning_rate": 8e-05,
      "loss": 1.5988,
      "step": 595
    },
    {
      "epoch": 0.19959812458137977,
      "grad_norm": 0.14296498894691467,
      "learning_rate": 8e-05,
      "loss": 1.7145,
      "step": 596
    },
    {
      "epoch": 0.19993302076356329,
      "grad_norm": 0.12753994762897491,
      "learning_rate": 8e-05,
      "loss": 1.6479,
      "step": 597
    },
    {
      "epoch": 0.20026791694574683,
      "grad_norm": 0.13086986541748047,
      "learning_rate": 8e-05,
      "loss": 1.5801,
      "step": 598
    },
    {
      "epoch": 0.20060281312793035,
      "grad_norm": 0.13292589783668518,
      "learning_rate": 8e-05,
      "loss": 1.6822,
      "step": 599
    },
    {
      "epoch": 0.20093770931011387,
      "grad_norm": 0.13023072481155396,
      "learning_rate": 8e-05,
      "loss": 1.5254,
      "step": 600
    },
    {
      "epoch": 0.2012726054922974,
      "grad_norm": 0.12855617702007294,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 601
    },
    {
      "epoch": 0.2016075016744809,
      "grad_norm": 0.12648989260196686,
      "learning_rate": 8e-05,
      "loss": 1.4959,
      "step": 602
    },
    {
      "epoch": 0.20194239785666443,
      "grad_norm": 0.13070736825466156,
      "learning_rate": 8e-05,
      "loss": 1.5865,
      "step": 603
    },
    {
      "epoch": 0.20227729403884795,
      "grad_norm": 0.1325872391462326,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 604
    },
    {
      "epoch": 0.20261219022103147,
      "grad_norm": 0.14224882423877716,
      "learning_rate": 8e-05,
      "loss": 1.6343,
      "step": 605
    },
    {
      "epoch": 0.20294708640321502,
      "grad_norm": 0.126477912068367,
      "learning_rate": 8e-05,
      "loss": 1.5605,
      "step": 606
    },
    {
      "epoch": 0.20328198258539854,
      "grad_norm": 0.13971836864948273,
      "learning_rate": 8e-05,
      "loss": 1.5276,
      "step": 607
    },
    {
      "epoch": 0.20361687876758205,
      "grad_norm": 0.12502697110176086,
      "learning_rate": 8e-05,
      "loss": 1.5265,
      "step": 608
    },
    {
      "epoch": 0.20395177494976557,
      "grad_norm": 0.1305292248725891,
      "learning_rate": 8e-05,
      "loss": 1.5621,
      "step": 609
    },
    {
      "epoch": 0.2042866711319491,
      "grad_norm": 0.12923762202262878,
      "learning_rate": 8e-05,
      "loss": 1.4831,
      "step": 610
    },
    {
      "epoch": 0.2046215673141326,
      "grad_norm": 0.12220828980207443,
      "learning_rate": 8e-05,
      "loss": 1.4558,
      "step": 611
    },
    {
      "epoch": 0.20495646349631613,
      "grad_norm": 0.13148343563079834,
      "learning_rate": 8e-05,
      "loss": 1.5757,
      "step": 612
    },
    {
      "epoch": 0.20529135967849965,
      "grad_norm": 0.13613486289978027,
      "learning_rate": 8e-05,
      "loss": 1.5915,
      "step": 613
    },
    {
      "epoch": 0.2056262558606832,
      "grad_norm": 0.12734317779541016,
      "learning_rate": 8e-05,
      "loss": 1.569,
      "step": 614
    },
    {
      "epoch": 0.20596115204286672,
      "grad_norm": 0.12359686195850372,
      "learning_rate": 8e-05,
      "loss": 1.477,
      "step": 615
    },
    {
      "epoch": 0.20629604822505024,
      "grad_norm": 0.1262001246213913,
      "learning_rate": 8e-05,
      "loss": 1.5373,
      "step": 616
    },
    {
      "epoch": 0.20663094440723376,
      "grad_norm": 0.12891827523708344,
      "learning_rate": 8e-05,
      "loss": 1.5442,
      "step": 617
    },
    {
      "epoch": 0.20696584058941728,
      "grad_norm": 0.12841424345970154,
      "learning_rate": 8e-05,
      "loss": 1.6465,
      "step": 618
    },
    {
      "epoch": 0.2073007367716008,
      "grad_norm": 0.1425992101430893,
      "learning_rate": 8e-05,
      "loss": 1.5675,
      "step": 619
    },
    {
      "epoch": 0.20763563295378432,
      "grad_norm": 0.13645824790000916,
      "learning_rate": 8e-05,
      "loss": 1.5946,
      "step": 620
    },
    {
      "epoch": 0.20797052913596786,
      "grad_norm": 0.1466437727212906,
      "learning_rate": 8e-05,
      "loss": 1.4903,
      "step": 621
    },
    {
      "epoch": 0.20830542531815138,
      "grad_norm": 0.14364510774612427,
      "learning_rate": 8e-05,
      "loss": 1.6541,
      "step": 622
    },
    {
      "epoch": 0.2086403215003349,
      "grad_norm": 0.14742949604988098,
      "learning_rate": 8e-05,
      "loss": 1.6899,
      "step": 623
    },
    {
      "epoch": 0.20897521768251842,
      "grad_norm": 0.13964305818080902,
      "learning_rate": 8e-05,
      "loss": 1.5377,
      "step": 624
    },
    {
      "epoch": 0.20931011386470194,
      "grad_norm": 0.13140493631362915,
      "learning_rate": 8e-05,
      "loss": 1.6068,
      "step": 625
    },
    {
      "epoch": 0.20964501004688546,
      "grad_norm": 0.1288304626941681,
      "learning_rate": 8e-05,
      "loss": 1.6335,
      "step": 626
    },
    {
      "epoch": 0.20997990622906898,
      "grad_norm": 0.14150886237621307,
      "learning_rate": 8e-05,
      "loss": 1.5196,
      "step": 627
    },
    {
      "epoch": 0.2103148024112525,
      "grad_norm": 0.1329626888036728,
      "learning_rate": 8e-05,
      "loss": 1.5786,
      "step": 628
    },
    {
      "epoch": 0.21064969859343605,
      "grad_norm": 0.13679715991020203,
      "learning_rate": 8e-05,
      "loss": 1.6054,
      "step": 629
    },
    {
      "epoch": 0.21098459477561957,
      "grad_norm": 0.13547085225582123,
      "learning_rate": 8e-05,
      "loss": 1.6027,
      "step": 630
    },
    {
      "epoch": 0.21131949095780309,
      "grad_norm": 0.12769602239131927,
      "learning_rate": 8e-05,
      "loss": 1.4861,
      "step": 631
    },
    {
      "epoch": 0.2116543871399866,
      "grad_norm": 0.14115950465202332,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 632
    },
    {
      "epoch": 0.21198928332217012,
      "grad_norm": 0.13571858406066895,
      "learning_rate": 8e-05,
      "loss": 1.5412,
      "step": 633
    },
    {
      "epoch": 0.21232417950435364,
      "grad_norm": 0.14310427010059357,
      "learning_rate": 8e-05,
      "loss": 1.5927,
      "step": 634
    },
    {
      "epoch": 0.21265907568653716,
      "grad_norm": 0.1246613934636116,
      "learning_rate": 8e-05,
      "loss": 1.5605,
      "step": 635
    },
    {
      "epoch": 0.21299397186872068,
      "grad_norm": 0.14053121209144592,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 636
    },
    {
      "epoch": 0.21332886805090423,
      "grad_norm": 0.13644513487815857,
      "learning_rate": 8e-05,
      "loss": 1.6259,
      "step": 637
    },
    {
      "epoch": 0.21366376423308775,
      "grad_norm": 0.1301324963569641,
      "learning_rate": 8e-05,
      "loss": 1.5692,
      "step": 638
    },
    {
      "epoch": 0.21399866041527127,
      "grad_norm": 0.13396474719047546,
      "learning_rate": 8e-05,
      "loss": 1.6393,
      "step": 639
    },
    {
      "epoch": 0.2143335565974548,
      "grad_norm": 0.14554868638515472,
      "learning_rate": 8e-05,
      "loss": 1.5085,
      "step": 640
    },
    {
      "epoch": 0.2146684527796383,
      "grad_norm": 0.1271897554397583,
      "learning_rate": 8e-05,
      "loss": 1.5888,
      "step": 641
    },
    {
      "epoch": 0.21500334896182183,
      "grad_norm": 0.12909838557243347,
      "learning_rate": 8e-05,
      "loss": 1.5909,
      "step": 642
    },
    {
      "epoch": 0.21533824514400535,
      "grad_norm": 0.14184337854385376,
      "learning_rate": 8e-05,
      "loss": 1.6298,
      "step": 643
    },
    {
      "epoch": 0.2156731413261889,
      "grad_norm": 0.134402796626091,
      "learning_rate": 8e-05,
      "loss": 1.6064,
      "step": 644
    },
    {
      "epoch": 0.2160080375083724,
      "grad_norm": 0.1374359130859375,
      "learning_rate": 8e-05,
      "loss": 1.6161,
      "step": 645
    },
    {
      "epoch": 0.21634293369055593,
      "grad_norm": 0.1307520717382431,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 646
    },
    {
      "epoch": 0.21667782987273945,
      "grad_norm": 0.14343760907649994,
      "learning_rate": 8e-05,
      "loss": 1.6312,
      "step": 647
    },
    {
      "epoch": 0.21701272605492297,
      "grad_norm": 0.13176044821739197,
      "learning_rate": 8e-05,
      "loss": 1.516,
      "step": 648
    },
    {
      "epoch": 0.2173476222371065,
      "grad_norm": 0.13530372083187103,
      "learning_rate": 8e-05,
      "loss": 1.6744,
      "step": 649
    },
    {
      "epoch": 0.21768251841929,
      "grad_norm": 0.14039388298988342,
      "learning_rate": 8e-05,
      "loss": 1.741,
      "step": 650
    },
    {
      "epoch": 0.21801741460147353,
      "grad_norm": 0.12899957597255707,
      "learning_rate": 8e-05,
      "loss": 1.5678,
      "step": 651
    },
    {
      "epoch": 0.21835231078365708,
      "grad_norm": 0.12973394989967346,
      "learning_rate": 8e-05,
      "loss": 1.5924,
      "step": 652
    },
    {
      "epoch": 0.2186872069658406,
      "grad_norm": 0.12858198583126068,
      "learning_rate": 8e-05,
      "loss": 1.523,
      "step": 653
    },
    {
      "epoch": 0.21902210314802412,
      "grad_norm": 0.1281195878982544,
      "learning_rate": 8e-05,
      "loss": 1.6,
      "step": 654
    },
    {
      "epoch": 0.21935699933020764,
      "grad_norm": 0.1455165296792984,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 655
    },
    {
      "epoch": 0.21969189551239116,
      "grad_norm": 0.1350770890712738,
      "learning_rate": 8e-05,
      "loss": 1.5206,
      "step": 656
    },
    {
      "epoch": 0.22002679169457467,
      "grad_norm": 0.1339283585548401,
      "learning_rate": 8e-05,
      "loss": 1.5476,
      "step": 657
    },
    {
      "epoch": 0.2203616878767582,
      "grad_norm": 0.14237312972545624,
      "learning_rate": 8e-05,
      "loss": 1.6279,
      "step": 658
    },
    {
      "epoch": 0.22069658405894174,
      "grad_norm": 0.13655975461006165,
      "learning_rate": 8e-05,
      "loss": 1.5662,
      "step": 659
    },
    {
      "epoch": 0.22103148024112526,
      "grad_norm": 0.13979509472846985,
      "learning_rate": 8e-05,
      "loss": 1.5736,
      "step": 660
    },
    {
      "epoch": 0.22136637642330878,
      "grad_norm": 0.12586542963981628,
      "learning_rate": 8e-05,
      "loss": 1.5562,
      "step": 661
    },
    {
      "epoch": 0.2217012726054923,
      "grad_norm": 0.12600775063037872,
      "learning_rate": 8e-05,
      "loss": 1.4375,
      "step": 662
    },
    {
      "epoch": 0.22203616878767582,
      "grad_norm": 0.13739889860153198,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 663
    },
    {
      "epoch": 0.22237106496985934,
      "grad_norm": 0.12738633155822754,
      "learning_rate": 8e-05,
      "loss": 1.623,
      "step": 664
    },
    {
      "epoch": 0.22270596115204286,
      "grad_norm": 0.12844489514827728,
      "learning_rate": 8e-05,
      "loss": 1.6115,
      "step": 665
    },
    {
      "epoch": 0.22304085733422638,
      "grad_norm": 0.13227851688861847,
      "learning_rate": 8e-05,
      "loss": 1.5639,
      "step": 666
    },
    {
      "epoch": 0.22337575351640993,
      "grad_norm": 0.13292500376701355,
      "learning_rate": 8e-05,
      "loss": 1.5812,
      "step": 667
    },
    {
      "epoch": 0.22371064969859344,
      "grad_norm": 0.14957484602928162,
      "learning_rate": 8e-05,
      "loss": 1.6352,
      "step": 668
    },
    {
      "epoch": 0.22404554588077696,
      "grad_norm": 0.14035020768642426,
      "learning_rate": 8e-05,
      "loss": 1.5153,
      "step": 669
    },
    {
      "epoch": 0.22438044206296048,
      "grad_norm": 0.14439226686954498,
      "learning_rate": 8e-05,
      "loss": 1.6025,
      "step": 670
    },
    {
      "epoch": 0.224715338245144,
      "grad_norm": 0.13622607290744781,
      "learning_rate": 8e-05,
      "loss": 1.5362,
      "step": 671
    },
    {
      "epoch": 0.22505023442732752,
      "grad_norm": 0.13393957912921906,
      "learning_rate": 8e-05,
      "loss": 1.6625,
      "step": 672
    },
    {
      "epoch": 0.22538513060951104,
      "grad_norm": 0.15238507091999054,
      "learning_rate": 8e-05,
      "loss": 1.5492,
      "step": 673
    },
    {
      "epoch": 0.22572002679169456,
      "grad_norm": 0.14094413816928864,
      "learning_rate": 8e-05,
      "loss": 1.5887,
      "step": 674
    },
    {
      "epoch": 0.2260549229738781,
      "grad_norm": 0.1322038471698761,
      "learning_rate": 8e-05,
      "loss": 1.626,
      "step": 675
    },
    {
      "epoch": 0.22638981915606163,
      "grad_norm": 0.17318345606327057,
      "learning_rate": 8e-05,
      "loss": 1.6139,
      "step": 676
    },
    {
      "epoch": 0.22672471533824515,
      "grad_norm": 0.1260765939950943,
      "learning_rate": 8e-05,
      "loss": 1.5066,
      "step": 677
    },
    {
      "epoch": 0.22705961152042867,
      "grad_norm": 0.15389199554920197,
      "learning_rate": 8e-05,
      "loss": 1.6689,
      "step": 678
    },
    {
      "epoch": 0.2273945077026122,
      "grad_norm": 0.1252533346414566,
      "learning_rate": 8e-05,
      "loss": 1.5138,
      "step": 679
    },
    {
      "epoch": 0.2277294038847957,
      "grad_norm": 0.1278068572282791,
      "learning_rate": 8e-05,
      "loss": 1.6032,
      "step": 680
    },
    {
      "epoch": 0.22806430006697923,
      "grad_norm": 0.14942674338817596,
      "learning_rate": 8e-05,
      "loss": 1.5516,
      "step": 681
    },
    {
      "epoch": 0.22839919624916277,
      "grad_norm": 0.12707868218421936,
      "learning_rate": 8e-05,
      "loss": 1.5793,
      "step": 682
    },
    {
      "epoch": 0.2287340924313463,
      "grad_norm": 0.1387845277786255,
      "learning_rate": 8e-05,
      "loss": 1.5131,
      "step": 683
    },
    {
      "epoch": 0.2290689886135298,
      "grad_norm": 0.13564585149288177,
      "learning_rate": 8e-05,
      "loss": 1.6046,
      "step": 684
    },
    {
      "epoch": 0.22940388479571333,
      "grad_norm": 0.12687429785728455,
      "learning_rate": 8e-05,
      "loss": 1.585,
      "step": 685
    },
    {
      "epoch": 0.22973878097789685,
      "grad_norm": 0.13607680797576904,
      "learning_rate": 8e-05,
      "loss": 1.6438,
      "step": 686
    },
    {
      "epoch": 0.23007367716008037,
      "grad_norm": 0.12515927851200104,
      "learning_rate": 8e-05,
      "loss": 1.5684,
      "step": 687
    },
    {
      "epoch": 0.2304085733422639,
      "grad_norm": 0.1219494640827179,
      "learning_rate": 8e-05,
      "loss": 1.3899,
      "step": 688
    },
    {
      "epoch": 0.2307434695244474,
      "grad_norm": 0.1327483057975769,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 689
    },
    {
      "epoch": 0.23107836570663096,
      "grad_norm": 0.13279853761196136,
      "learning_rate": 8e-05,
      "loss": 1.6513,
      "step": 690
    },
    {
      "epoch": 0.23141326188881448,
      "grad_norm": 0.1396617740392685,
      "learning_rate": 8e-05,
      "loss": 1.5252,
      "step": 691
    },
    {
      "epoch": 0.231748158070998,
      "grad_norm": 0.1332201063632965,
      "learning_rate": 8e-05,
      "loss": 1.5838,
      "step": 692
    },
    {
      "epoch": 0.23208305425318151,
      "grad_norm": 0.1303863525390625,
      "learning_rate": 8e-05,
      "loss": 1.5561,
      "step": 693
    },
    {
      "epoch": 0.23241795043536503,
      "grad_norm": 0.13212567567825317,
      "learning_rate": 8e-05,
      "loss": 1.5108,
      "step": 694
    },
    {
      "epoch": 0.23275284661754855,
      "grad_norm": 0.13442017138004303,
      "learning_rate": 8e-05,
      "loss": 1.5614,
      "step": 695
    },
    {
      "epoch": 0.23308774279973207,
      "grad_norm": 0.13149197399616241,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 696
    },
    {
      "epoch": 0.23342263898191562,
      "grad_norm": 0.14195789396762848,
      "learning_rate": 8e-05,
      "loss": 1.4817,
      "step": 697
    },
    {
      "epoch": 0.23375753516409914,
      "grad_norm": 0.12508352100849152,
      "learning_rate": 8e-05,
      "loss": 1.5957,
      "step": 698
    },
    {
      "epoch": 0.23409243134628266,
      "grad_norm": 0.14304782450199127,
      "learning_rate": 8e-05,
      "loss": 1.6295,
      "step": 699
    },
    {
      "epoch": 0.23442732752846618,
      "grad_norm": 0.13212904334068298,
      "learning_rate": 8e-05,
      "loss": 1.5487,
      "step": 700
    },
    {
      "epoch": 0.2347622237106497,
      "grad_norm": 0.12558919191360474,
      "learning_rate": 8e-05,
      "loss": 1.5749,
      "step": 701
    },
    {
      "epoch": 0.23509711989283322,
      "grad_norm": 0.12775059044361115,
      "learning_rate": 8e-05,
      "loss": 1.6092,
      "step": 702
    },
    {
      "epoch": 0.23543201607501674,
      "grad_norm": 0.14252914488315582,
      "learning_rate": 8e-05,
      "loss": 1.4852,
      "step": 703
    },
    {
      "epoch": 0.23576691225720026,
      "grad_norm": 0.13113269209861755,
      "learning_rate": 8e-05,
      "loss": 1.5833,
      "step": 704
    },
    {
      "epoch": 0.2361018084393838,
      "grad_norm": 0.14111055433750153,
      "learning_rate": 8e-05,
      "loss": 1.5509,
      "step": 705
    },
    {
      "epoch": 0.23643670462156732,
      "grad_norm": 0.14937713742256165,
      "learning_rate": 8e-05,
      "loss": 1.613,
      "step": 706
    },
    {
      "epoch": 0.23677160080375084,
      "grad_norm": 0.1372259259223938,
      "learning_rate": 8e-05,
      "loss": 1.6225,
      "step": 707
    },
    {
      "epoch": 0.23710649698593436,
      "grad_norm": 0.13888108730316162,
      "learning_rate": 8e-05,
      "loss": 1.6519,
      "step": 708
    },
    {
      "epoch": 0.23744139316811788,
      "grad_norm": 0.1387958973646164,
      "learning_rate": 8e-05,
      "loss": 1.5888,
      "step": 709
    },
    {
      "epoch": 0.2377762893503014,
      "grad_norm": 0.12504947185516357,
      "learning_rate": 8e-05,
      "loss": 1.4319,
      "step": 710
    },
    {
      "epoch": 0.23811118553248492,
      "grad_norm": 0.15653586387634277,
      "learning_rate": 8e-05,
      "loss": 1.6353,
      "step": 711
    },
    {
      "epoch": 0.23844608171466844,
      "grad_norm": 0.1260928064584732,
      "learning_rate": 8e-05,
      "loss": 1.5015,
      "step": 712
    },
    {
      "epoch": 0.238780977896852,
      "grad_norm": 0.12750409543514252,
      "learning_rate": 8e-05,
      "loss": 1.5978,
      "step": 713
    },
    {
      "epoch": 0.2391158740790355,
      "grad_norm": 0.134813591837883,
      "learning_rate": 8e-05,
      "loss": 1.5815,
      "step": 714
    },
    {
      "epoch": 0.23945077026121903,
      "grad_norm": 0.12683942914009094,
      "learning_rate": 8e-05,
      "loss": 1.5965,
      "step": 715
    },
    {
      "epoch": 0.23978566644340255,
      "grad_norm": 0.1285449117422104,
      "learning_rate": 8e-05,
      "loss": 1.6165,
      "step": 716
    },
    {
      "epoch": 0.24012056262558606,
      "grad_norm": 0.13201725482940674,
      "learning_rate": 8e-05,
      "loss": 1.5953,
      "step": 717
    },
    {
      "epoch": 0.24045545880776958,
      "grad_norm": 0.13362492620944977,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 718
    },
    {
      "epoch": 0.2407903549899531,
      "grad_norm": 0.13649918138980865,
      "learning_rate": 8e-05,
      "loss": 1.6517,
      "step": 719
    },
    {
      "epoch": 0.24112525117213665,
      "grad_norm": 0.14500147104263306,
      "learning_rate": 8e-05,
      "loss": 1.5513,
      "step": 720
    },
    {
      "epoch": 0.24146014735432017,
      "grad_norm": 0.12535110116004944,
      "learning_rate": 8e-05,
      "loss": 1.5615,
      "step": 721
    },
    {
      "epoch": 0.2417950435365037,
      "grad_norm": 0.13310779631137848,
      "learning_rate": 8e-05,
      "loss": 1.5898,
      "step": 722
    },
    {
      "epoch": 0.2421299397186872,
      "grad_norm": 0.13635513186454773,
      "learning_rate": 8e-05,
      "loss": 1.5632,
      "step": 723
    },
    {
      "epoch": 0.24246483590087073,
      "grad_norm": 0.13222207129001617,
      "learning_rate": 8e-05,
      "loss": 1.6144,
      "step": 724
    },
    {
      "epoch": 0.24279973208305425,
      "grad_norm": 0.1378384232521057,
      "learning_rate": 8e-05,
      "loss": 1.5829,
      "step": 725
    },
    {
      "epoch": 0.24313462826523777,
      "grad_norm": 0.1320658177137375,
      "learning_rate": 8e-05,
      "loss": 1.5363,
      "step": 726
    },
    {
      "epoch": 0.2434695244474213,
      "grad_norm": 0.12950828671455383,
      "learning_rate": 8e-05,
      "loss": 1.5538,
      "step": 727
    },
    {
      "epoch": 0.24380442062960483,
      "grad_norm": 0.13491854071617126,
      "learning_rate": 8e-05,
      "loss": 1.5115,
      "step": 728
    },
    {
      "epoch": 0.24413931681178835,
      "grad_norm": 0.12771925330162048,
      "learning_rate": 8e-05,
      "loss": 1.5854,
      "step": 729
    },
    {
      "epoch": 0.24447421299397187,
      "grad_norm": 0.12585267424583435,
      "learning_rate": 8e-05,
      "loss": 1.4955,
      "step": 730
    },
    {
      "epoch": 0.2448091091761554,
      "grad_norm": 0.12429355829954147,
      "learning_rate": 8e-05,
      "loss": 1.6171,
      "step": 731
    },
    {
      "epoch": 0.2451440053583389,
      "grad_norm": 0.13368931412696838,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 732
    },
    {
      "epoch": 0.24547890154052243,
      "grad_norm": 0.13619786500930786,
      "learning_rate": 8e-05,
      "loss": 1.6527,
      "step": 733
    },
    {
      "epoch": 0.24581379772270595,
      "grad_norm": 0.12950246036052704,
      "learning_rate": 8e-05,
      "loss": 1.5715,
      "step": 734
    },
    {
      "epoch": 0.24614869390488947,
      "grad_norm": 0.1338881105184555,
      "learning_rate": 8e-05,
      "loss": 1.6101,
      "step": 735
    },
    {
      "epoch": 0.24648359008707302,
      "grad_norm": 0.12774790823459625,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 736
    },
    {
      "epoch": 0.24681848626925654,
      "grad_norm": 0.12720195949077606,
      "learning_rate": 8e-05,
      "loss": 1.5617,
      "step": 737
    },
    {
      "epoch": 0.24715338245144006,
      "grad_norm": 0.12516498565673828,
      "learning_rate": 8e-05,
      "loss": 1.5285,
      "step": 738
    },
    {
      "epoch": 0.24748827863362358,
      "grad_norm": 0.13168016076087952,
      "learning_rate": 8e-05,
      "loss": 1.5821,
      "step": 739
    },
    {
      "epoch": 0.2478231748158071,
      "grad_norm": 0.13428889214992523,
      "learning_rate": 8e-05,
      "loss": 1.6222,
      "step": 740
    },
    {
      "epoch": 0.24815807099799062,
      "grad_norm": 0.1399843543767929,
      "learning_rate": 8e-05,
      "loss": 1.6262,
      "step": 741
    },
    {
      "epoch": 0.24849296718017413,
      "grad_norm": 0.12643392384052277,
      "learning_rate": 8e-05,
      "loss": 1.5719,
      "step": 742
    },
    {
      "epoch": 0.24882786336235768,
      "grad_norm": 0.13919270038604736,
      "learning_rate": 8e-05,
      "loss": 1.6646,
      "step": 743
    },
    {
      "epoch": 0.2491627595445412,
      "grad_norm": 0.1315983086824417,
      "learning_rate": 8e-05,
      "loss": 1.5676,
      "step": 744
    },
    {
      "epoch": 0.24949765572672472,
      "grad_norm": 0.1415439397096634,
      "learning_rate": 8e-05,
      "loss": 1.7324,
      "step": 745
    },
    {
      "epoch": 0.24983255190890824,
      "grad_norm": 0.12503620982170105,
      "learning_rate": 8e-05,
      "loss": 1.5794,
      "step": 746
    },
    {
      "epoch": 0.25016744809109176,
      "grad_norm": 0.12622873485088348,
      "learning_rate": 8e-05,
      "loss": 1.618,
      "step": 747
    },
    {
      "epoch": 0.2505023442732753,
      "grad_norm": 0.12904556095600128,
      "learning_rate": 8e-05,
      "loss": 1.5629,
      "step": 748
    },
    {
      "epoch": 0.2508372404554588,
      "grad_norm": 0.1337531954050064,
      "learning_rate": 8e-05,
      "loss": 1.5759,
      "step": 749
    },
    {
      "epoch": 0.2511721366376423,
      "grad_norm": 0.12069486081600189,
      "learning_rate": 8e-05,
      "loss": 1.5191,
      "step": 750
    },
    {
      "epoch": 0.25150703281982584,
      "grad_norm": 0.13307403028011322,
      "learning_rate": 8e-05,
      "loss": 1.5867,
      "step": 751
    },
    {
      "epoch": 0.25184192900200936,
      "grad_norm": 0.12985022366046906,
      "learning_rate": 8e-05,
      "loss": 1.5964,
      "step": 752
    },
    {
      "epoch": 0.2521768251841929,
      "grad_norm": 0.13041792809963226,
      "learning_rate": 8e-05,
      "loss": 1.5759,
      "step": 753
    },
    {
      "epoch": 0.2525117213663764,
      "grad_norm": 0.131996288895607,
      "learning_rate": 8e-05,
      "loss": 1.4858,
      "step": 754
    },
    {
      "epoch": 0.25284661754855997,
      "grad_norm": 0.13691583275794983,
      "learning_rate": 8e-05,
      "loss": 1.6836,
      "step": 755
    },
    {
      "epoch": 0.2531815137307435,
      "grad_norm": 0.1419282704591751,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 756
    },
    {
      "epoch": 0.253516409912927,
      "grad_norm": 0.12938514351844788,
      "learning_rate": 8e-05,
      "loss": 1.5643,
      "step": 757
    },
    {
      "epoch": 0.25385130609511053,
      "grad_norm": 0.13646931946277618,
      "learning_rate": 8e-05,
      "loss": 1.7035,
      "step": 758
    },
    {
      "epoch": 0.25418620227729405,
      "grad_norm": 0.13911955058574677,
      "learning_rate": 8e-05,
      "loss": 1.5911,
      "step": 759
    },
    {
      "epoch": 0.25452109845947757,
      "grad_norm": 0.12548790872097015,
      "learning_rate": 8e-05,
      "loss": 1.5138,
      "step": 760
    },
    {
      "epoch": 0.2548559946416611,
      "grad_norm": 0.13062645494937897,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 761
    },
    {
      "epoch": 0.2551908908238446,
      "grad_norm": 0.12768352031707764,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 762
    },
    {
      "epoch": 0.2555257870060281,
      "grad_norm": 0.12880420684814453,
      "learning_rate": 8e-05,
      "loss": 1.4925,
      "step": 763
    },
    {
      "epoch": 0.25586068318821165,
      "grad_norm": 0.12598992884159088,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 764
    },
    {
      "epoch": 0.25619557937039517,
      "grad_norm": 0.13539069890975952,
      "learning_rate": 8e-05,
      "loss": 1.6927,
      "step": 765
    },
    {
      "epoch": 0.2565304755525787,
      "grad_norm": 0.13152951002120972,
      "learning_rate": 8e-05,
      "loss": 1.6138,
      "step": 766
    },
    {
      "epoch": 0.2568653717347622,
      "grad_norm": 0.13285508751869202,
      "learning_rate": 8e-05,
      "loss": 1.5043,
      "step": 767
    },
    {
      "epoch": 0.2572002679169457,
      "grad_norm": 0.1288931518793106,
      "learning_rate": 8e-05,
      "loss": 1.5987,
      "step": 768
    },
    {
      "epoch": 0.25753516409912924,
      "grad_norm": 0.12680785357952118,
      "learning_rate": 8e-05,
      "loss": 1.5234,
      "step": 769
    },
    {
      "epoch": 0.2578700602813128,
      "grad_norm": 0.13806788623332977,
      "learning_rate": 8e-05,
      "loss": 1.5352,
      "step": 770
    },
    {
      "epoch": 0.25820495646349634,
      "grad_norm": 0.13475541770458221,
      "learning_rate": 8e-05,
      "loss": 1.5543,
      "step": 771
    },
    {
      "epoch": 0.25853985264567986,
      "grad_norm": 0.12584535777568817,
      "learning_rate": 8e-05,
      "loss": 1.4722,
      "step": 772
    },
    {
      "epoch": 0.2588747488278634,
      "grad_norm": 0.12770451605319977,
      "learning_rate": 8e-05,
      "loss": 1.5242,
      "step": 773
    },
    {
      "epoch": 0.2592096450100469,
      "grad_norm": 0.13165010511875153,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 774
    },
    {
      "epoch": 0.2595445411922304,
      "grad_norm": 0.13398289680480957,
      "learning_rate": 8e-05,
      "loss": 1.6425,
      "step": 775
    },
    {
      "epoch": 0.25987943737441394,
      "grad_norm": 0.12428684532642365,
      "learning_rate": 8e-05,
      "loss": 1.5377,
      "step": 776
    },
    {
      "epoch": 0.26021433355659745,
      "grad_norm": 0.14919427037239075,
      "learning_rate": 8e-05,
      "loss": 1.6257,
      "step": 777
    },
    {
      "epoch": 0.260549229738781,
      "grad_norm": 0.13437622785568237,
      "learning_rate": 8e-05,
      "loss": 1.5599,
      "step": 778
    },
    {
      "epoch": 0.2608841259209645,
      "grad_norm": 0.13978511095046997,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 779
    },
    {
      "epoch": 0.261219022103148,
      "grad_norm": 0.13784627616405487,
      "learning_rate": 8e-05,
      "loss": 1.533,
      "step": 780
    },
    {
      "epoch": 0.26155391828533153,
      "grad_norm": 0.13427339494228363,
      "learning_rate": 8e-05,
      "loss": 1.4922,
      "step": 781
    },
    {
      "epoch": 0.26188881446751505,
      "grad_norm": 0.13782382011413574,
      "learning_rate": 8e-05,
      "loss": 1.6899,
      "step": 782
    },
    {
      "epoch": 0.26222371064969857,
      "grad_norm": 0.1329202800989151,
      "learning_rate": 8e-05,
      "loss": 1.5805,
      "step": 783
    },
    {
      "epoch": 0.2625586068318821,
      "grad_norm": 0.13564689457416534,
      "learning_rate": 8e-05,
      "loss": 1.6409,
      "step": 784
    },
    {
      "epoch": 0.26289350301406567,
      "grad_norm": 0.13041304051876068,
      "learning_rate": 8e-05,
      "loss": 1.6136,
      "step": 785
    },
    {
      "epoch": 0.2632283991962492,
      "grad_norm": 0.1268996000289917,
      "learning_rate": 8e-05,
      "loss": 1.4664,
      "step": 786
    },
    {
      "epoch": 0.2635632953784327,
      "grad_norm": 0.1395818591117859,
      "learning_rate": 8e-05,
      "loss": 1.5319,
      "step": 787
    },
    {
      "epoch": 0.2638981915606162,
      "grad_norm": 0.13246850669384003,
      "learning_rate": 8e-05,
      "loss": 1.5534,
      "step": 788
    },
    {
      "epoch": 0.26423308774279974,
      "grad_norm": 0.12399803102016449,
      "learning_rate": 8e-05,
      "loss": 1.4276,
      "step": 789
    },
    {
      "epoch": 0.26456798392498326,
      "grad_norm": 0.13108272850513458,
      "learning_rate": 8e-05,
      "loss": 1.4973,
      "step": 790
    },
    {
      "epoch": 0.2649028801071668,
      "grad_norm": 0.13151343166828156,
      "learning_rate": 8e-05,
      "loss": 1.5961,
      "step": 791
    },
    {
      "epoch": 0.2652377762893503,
      "grad_norm": 0.14603430032730103,
      "learning_rate": 8e-05,
      "loss": 1.7338,
      "step": 792
    },
    {
      "epoch": 0.2655726724715338,
      "grad_norm": 0.1468428671360016,
      "learning_rate": 8e-05,
      "loss": 1.6282,
      "step": 793
    },
    {
      "epoch": 0.26590756865371734,
      "grad_norm": 0.12955978512763977,
      "learning_rate": 8e-05,
      "loss": 1.4755,
      "step": 794
    },
    {
      "epoch": 0.26624246483590086,
      "grad_norm": 0.13324904441833496,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 795
    },
    {
      "epoch": 0.2665773610180844,
      "grad_norm": 0.13578571379184723,
      "learning_rate": 8e-05,
      "loss": 1.5404,
      "step": 796
    },
    {
      "epoch": 0.2669122572002679,
      "grad_norm": 0.131987527012825,
      "learning_rate": 8e-05,
      "loss": 1.5271,
      "step": 797
    },
    {
      "epoch": 0.2672471533824514,
      "grad_norm": 0.1355757713317871,
      "learning_rate": 8e-05,
      "loss": 1.6055,
      "step": 798
    },
    {
      "epoch": 0.26758204956463494,
      "grad_norm": 0.1297028511762619,
      "learning_rate": 8e-05,
      "loss": 1.6284,
      "step": 799
    },
    {
      "epoch": 0.2679169457468185,
      "grad_norm": 0.12846900522708893,
      "learning_rate": 8e-05,
      "loss": 1.5172,
      "step": 800
    },
    {
      "epoch": 0.26825184192900203,
      "grad_norm": 0.142600879073143,
      "learning_rate": 8e-05,
      "loss": 1.5838,
      "step": 801
    },
    {
      "epoch": 0.26858673811118555,
      "grad_norm": 0.13587899506092072,
      "learning_rate": 8e-05,
      "loss": 1.5517,
      "step": 802
    },
    {
      "epoch": 0.26892163429336907,
      "grad_norm": 0.13015632331371307,
      "learning_rate": 8e-05,
      "loss": 1.6242,
      "step": 803
    },
    {
      "epoch": 0.2692565304755526,
      "grad_norm": 0.1421559453010559,
      "learning_rate": 8e-05,
      "loss": 1.5837,
      "step": 804
    },
    {
      "epoch": 0.2695914266577361,
      "grad_norm": 0.1381450742483139,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 805
    },
    {
      "epoch": 0.26992632283991963,
      "grad_norm": 0.13914501667022705,
      "learning_rate": 8e-05,
      "loss": 1.5579,
      "step": 806
    },
    {
      "epoch": 0.27026121902210315,
      "grad_norm": 0.14403580129146576,
      "learning_rate": 8e-05,
      "loss": 1.5886,
      "step": 807
    },
    {
      "epoch": 0.27059611520428667,
      "grad_norm": 0.13505136966705322,
      "learning_rate": 8e-05,
      "loss": 1.6169,
      "step": 808
    },
    {
      "epoch": 0.2709310113864702,
      "grad_norm": 0.15877971053123474,
      "learning_rate": 8e-05,
      "loss": 1.612,
      "step": 809
    },
    {
      "epoch": 0.2712659075686537,
      "grad_norm": 0.1230534091591835,
      "learning_rate": 8e-05,
      "loss": 1.5706,
      "step": 810
    },
    {
      "epoch": 0.2716008037508372,
      "grad_norm": 0.1434101015329361,
      "learning_rate": 8e-05,
      "loss": 1.5798,
      "step": 811
    },
    {
      "epoch": 0.27193569993302075,
      "grad_norm": 0.15008553862571716,
      "learning_rate": 8e-05,
      "loss": 1.6222,
      "step": 812
    },
    {
      "epoch": 0.27227059611520427,
      "grad_norm": 0.12951186299324036,
      "learning_rate": 8e-05,
      "loss": 1.5561,
      "step": 813
    },
    {
      "epoch": 0.2726054922973878,
      "grad_norm": 0.13263414800167084,
      "learning_rate": 8e-05,
      "loss": 1.5184,
      "step": 814
    },
    {
      "epoch": 0.2729403884795713,
      "grad_norm": 0.1413082331418991,
      "learning_rate": 8e-05,
      "loss": 1.5675,
      "step": 815
    },
    {
      "epoch": 0.2732752846617549,
      "grad_norm": 0.13131369650363922,
      "learning_rate": 8e-05,
      "loss": 1.6297,
      "step": 816
    },
    {
      "epoch": 0.2736101808439384,
      "grad_norm": 0.13274845480918884,
      "learning_rate": 8e-05,
      "loss": 1.5903,
      "step": 817
    },
    {
      "epoch": 0.2739450770261219,
      "grad_norm": 0.13420841097831726,
      "learning_rate": 8e-05,
      "loss": 1.4932,
      "step": 818
    },
    {
      "epoch": 0.27427997320830544,
      "grad_norm": 0.12611226737499237,
      "learning_rate": 8e-05,
      "loss": 1.5776,
      "step": 819
    },
    {
      "epoch": 0.27461486939048896,
      "grad_norm": 0.1375024914741516,
      "learning_rate": 8e-05,
      "loss": 1.6447,
      "step": 820
    },
    {
      "epoch": 0.2749497655726725,
      "grad_norm": 0.12672987580299377,
      "learning_rate": 8e-05,
      "loss": 1.5107,
      "step": 821
    },
    {
      "epoch": 0.275284661754856,
      "grad_norm": 0.13180498778820038,
      "learning_rate": 8e-05,
      "loss": 1.4815,
      "step": 822
    },
    {
      "epoch": 0.2756195579370395,
      "grad_norm": 0.13017866015434265,
      "learning_rate": 8e-05,
      "loss": 1.5307,
      "step": 823
    },
    {
      "epoch": 0.27595445411922304,
      "grad_norm": 0.12504927814006805,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 824
    },
    {
      "epoch": 0.27628935030140656,
      "grad_norm": 0.14643152058124542,
      "learning_rate": 8e-05,
      "loss": 1.5688,
      "step": 825
    },
    {
      "epoch": 0.2766242464835901,
      "grad_norm": 0.12704408168792725,
      "learning_rate": 8e-05,
      "loss": 1.5538,
      "step": 826
    },
    {
      "epoch": 0.2769591426657736,
      "grad_norm": 0.1282750964164734,
      "learning_rate": 8e-05,
      "loss": 1.6128,
      "step": 827
    },
    {
      "epoch": 0.2772940388479571,
      "grad_norm": 0.12893646955490112,
      "learning_rate": 8e-05,
      "loss": 1.6067,
      "step": 828
    },
    {
      "epoch": 0.27762893503014063,
      "grad_norm": 0.12650758028030396,
      "learning_rate": 8e-05,
      "loss": 1.5376,
      "step": 829
    },
    {
      "epoch": 0.27796383121232415,
      "grad_norm": 0.13246691226959229,
      "learning_rate": 8e-05,
      "loss": 1.5516,
      "step": 830
    },
    {
      "epoch": 0.27829872739450773,
      "grad_norm": 0.13312768936157227,
      "learning_rate": 8e-05,
      "loss": 1.566,
      "step": 831
    },
    {
      "epoch": 0.27863362357669125,
      "grad_norm": 0.12865614891052246,
      "learning_rate": 8e-05,
      "loss": 1.5388,
      "step": 832
    },
    {
      "epoch": 0.27896851975887477,
      "grad_norm": 0.1370832324028015,
      "learning_rate": 8e-05,
      "loss": 1.7098,
      "step": 833
    },
    {
      "epoch": 0.2793034159410583,
      "grad_norm": 0.1310940831899643,
      "learning_rate": 8e-05,
      "loss": 1.6832,
      "step": 834
    },
    {
      "epoch": 0.2796383121232418,
      "grad_norm": 0.12810048460960388,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 835
    },
    {
      "epoch": 0.2799732083054253,
      "grad_norm": 0.12749645113945007,
      "learning_rate": 8e-05,
      "loss": 1.5525,
      "step": 836
    },
    {
      "epoch": 0.28030810448760884,
      "grad_norm": 0.12761276960372925,
      "learning_rate": 8e-05,
      "loss": 1.5725,
      "step": 837
    },
    {
      "epoch": 0.28064300066979236,
      "grad_norm": 0.1258259415626526,
      "learning_rate": 8e-05,
      "loss": 1.5098,
      "step": 838
    },
    {
      "epoch": 0.2809778968519759,
      "grad_norm": 0.1534184366464615,
      "learning_rate": 8e-05,
      "loss": 1.6942,
      "step": 839
    },
    {
      "epoch": 0.2813127930341594,
      "grad_norm": 0.13205264508724213,
      "learning_rate": 8e-05,
      "loss": 1.5424,
      "step": 840
    },
    {
      "epoch": 0.2816476892163429,
      "grad_norm": 0.13070262968540192,
      "learning_rate": 8e-05,
      "loss": 1.5775,
      "step": 841
    },
    {
      "epoch": 0.28198258539852644,
      "grad_norm": 0.14288297295570374,
      "learning_rate": 8e-05,
      "loss": 1.5384,
      "step": 842
    },
    {
      "epoch": 0.28231748158070996,
      "grad_norm": 0.1252538114786148,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 843
    },
    {
      "epoch": 0.2826523777628935,
      "grad_norm": 0.14572954177856445,
      "learning_rate": 8e-05,
      "loss": 1.492,
      "step": 844
    },
    {
      "epoch": 0.282987273945077,
      "grad_norm": 0.12701140344142914,
      "learning_rate": 8e-05,
      "loss": 1.6482,
      "step": 845
    },
    {
      "epoch": 0.2833221701272606,
      "grad_norm": 0.13496054708957672,
      "learning_rate": 8e-05,
      "loss": 1.5366,
      "step": 846
    },
    {
      "epoch": 0.2836570663094441,
      "grad_norm": 0.1333881914615631,
      "learning_rate": 8e-05,
      "loss": 1.4904,
      "step": 847
    },
    {
      "epoch": 0.2839919624916276,
      "grad_norm": 0.12623825669288635,
      "learning_rate": 8e-05,
      "loss": 1.6049,
      "step": 848
    },
    {
      "epoch": 0.28432685867381113,
      "grad_norm": 0.13467097282409668,
      "learning_rate": 8e-05,
      "loss": 1.6031,
      "step": 849
    },
    {
      "epoch": 0.28466175485599465,
      "grad_norm": 0.13897009193897247,
      "learning_rate": 8e-05,
      "loss": 1.5399,
      "step": 850
    },
    {
      "epoch": 0.2849966510381782,
      "grad_norm": 0.13542214035987854,
      "learning_rate": 8e-05,
      "loss": 1.6308,
      "step": 851
    },
    {
      "epoch": 0.2853315472203617,
      "grad_norm": 0.13921433687210083,
      "learning_rate": 8e-05,
      "loss": 1.5396,
      "step": 852
    },
    {
      "epoch": 0.2856664434025452,
      "grad_norm": 0.13067527115345,
      "learning_rate": 8e-05,
      "loss": 1.5671,
      "step": 853
    },
    {
      "epoch": 0.28600133958472873,
      "grad_norm": 0.1551179736852646,
      "learning_rate": 8e-05,
      "loss": 1.6057,
      "step": 854
    },
    {
      "epoch": 0.28633623576691225,
      "grad_norm": 0.1437058448791504,
      "learning_rate": 8e-05,
      "loss": 1.6031,
      "step": 855
    },
    {
      "epoch": 0.28667113194909577,
      "grad_norm": 0.13446955382823944,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 856
    },
    {
      "epoch": 0.2870060281312793,
      "grad_norm": 0.13620354235172272,
      "learning_rate": 8e-05,
      "loss": 1.5125,
      "step": 857
    },
    {
      "epoch": 0.2873409243134628,
      "grad_norm": 0.14432457089424133,
      "learning_rate": 8e-05,
      "loss": 1.5702,
      "step": 858
    },
    {
      "epoch": 0.28767582049564633,
      "grad_norm": 0.14485962688922882,
      "learning_rate": 8e-05,
      "loss": 1.6099,
      "step": 859
    },
    {
      "epoch": 0.28801071667782985,
      "grad_norm": 0.14911822974681854,
      "learning_rate": 8e-05,
      "loss": 1.5118,
      "step": 860
    },
    {
      "epoch": 0.2883456128600134,
      "grad_norm": 0.12926478683948517,
      "learning_rate": 8e-05,
      "loss": 1.5099,
      "step": 861
    },
    {
      "epoch": 0.28868050904219694,
      "grad_norm": 0.13876453042030334,
      "learning_rate": 8e-05,
      "loss": 1.6103,
      "step": 862
    },
    {
      "epoch": 0.28901540522438046,
      "grad_norm": 0.12467885762453079,
      "learning_rate": 8e-05,
      "loss": 1.5391,
      "step": 863
    },
    {
      "epoch": 0.289350301406564,
      "grad_norm": 0.12399441003799438,
      "learning_rate": 8e-05,
      "loss": 1.602,
      "step": 864
    },
    {
      "epoch": 0.2896851975887475,
      "grad_norm": 0.13431240618228912,
      "learning_rate": 8e-05,
      "loss": 1.5474,
      "step": 865
    },
    {
      "epoch": 0.290020093770931,
      "grad_norm": 0.13138899207115173,
      "learning_rate": 8e-05,
      "loss": 1.6078,
      "step": 866
    },
    {
      "epoch": 0.29035498995311454,
      "grad_norm": 0.13111375272274017,
      "learning_rate": 8e-05,
      "loss": 1.5361,
      "step": 867
    },
    {
      "epoch": 0.29068988613529806,
      "grad_norm": 0.14043842256069183,
      "learning_rate": 8e-05,
      "loss": 1.6603,
      "step": 868
    },
    {
      "epoch": 0.2910247823174816,
      "grad_norm": 0.12573857605457306,
      "learning_rate": 8e-05,
      "loss": 1.5724,
      "step": 869
    },
    {
      "epoch": 0.2913596784996651,
      "grad_norm": 0.14294198155403137,
      "learning_rate": 8e-05,
      "loss": 1.5601,
      "step": 870
    },
    {
      "epoch": 0.2916945746818486,
      "grad_norm": 0.12831498682498932,
      "learning_rate": 8e-05,
      "loss": 1.6207,
      "step": 871
    },
    {
      "epoch": 0.29202947086403214,
      "grad_norm": 0.13977579772472382,
      "learning_rate": 8e-05,
      "loss": 1.6821,
      "step": 872
    },
    {
      "epoch": 0.29236436704621566,
      "grad_norm": 0.12402822822332382,
      "learning_rate": 8e-05,
      "loss": 1.4702,
      "step": 873
    },
    {
      "epoch": 0.2926992632283992,
      "grad_norm": 0.12975111603736877,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 874
    },
    {
      "epoch": 0.2930341594105827,
      "grad_norm": 0.13009095191955566,
      "learning_rate": 8e-05,
      "loss": 1.509,
      "step": 875
    },
    {
      "epoch": 0.29336905559276627,
      "grad_norm": 0.12669698894023895,
      "learning_rate": 8e-05,
      "loss": 1.5737,
      "step": 876
    },
    {
      "epoch": 0.2937039517749498,
      "grad_norm": 0.1269627958536148,
      "learning_rate": 8e-05,
      "loss": 1.5963,
      "step": 877
    },
    {
      "epoch": 0.2940388479571333,
      "grad_norm": 0.12993007898330688,
      "learning_rate": 8e-05,
      "loss": 1.6397,
      "step": 878
    },
    {
      "epoch": 0.29437374413931683,
      "grad_norm": 0.13023801147937775,
      "learning_rate": 8e-05,
      "loss": 1.6162,
      "step": 879
    },
    {
      "epoch": 0.29470864032150035,
      "grad_norm": 0.12906205654144287,
      "learning_rate": 8e-05,
      "loss": 1.5883,
      "step": 880
    },
    {
      "epoch": 0.29504353650368387,
      "grad_norm": 0.12893904745578766,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 881
    },
    {
      "epoch": 0.2953784326858674,
      "grad_norm": 0.12341166287660599,
      "learning_rate": 8e-05,
      "loss": 1.4684,
      "step": 882
    },
    {
      "epoch": 0.2957133288680509,
      "grad_norm": 0.1270308643579483,
      "learning_rate": 8e-05,
      "loss": 1.4887,
      "step": 883
    },
    {
      "epoch": 0.2960482250502344,
      "grad_norm": 0.1316615641117096,
      "learning_rate": 8e-05,
      "loss": 1.6082,
      "step": 884
    },
    {
      "epoch": 0.29638312123241795,
      "grad_norm": 0.1389220803976059,
      "learning_rate": 8e-05,
      "loss": 1.5367,
      "step": 885
    },
    {
      "epoch": 0.29671801741460146,
      "grad_norm": 0.1287021040916443,
      "learning_rate": 8e-05,
      "loss": 1.5625,
      "step": 886
    },
    {
      "epoch": 0.297052913596785,
      "grad_norm": 0.13095614314079285,
      "learning_rate": 8e-05,
      "loss": 1.5203,
      "step": 887
    },
    {
      "epoch": 0.2973878097789685,
      "grad_norm": 0.1398552507162094,
      "learning_rate": 8e-05,
      "loss": 1.6878,
      "step": 888
    },
    {
      "epoch": 0.297722705961152,
      "grad_norm": 0.13754625618457794,
      "learning_rate": 8e-05,
      "loss": 1.6043,
      "step": 889
    },
    {
      "epoch": 0.29805760214333554,
      "grad_norm": 0.14075177907943726,
      "learning_rate": 8e-05,
      "loss": 1.6033,
      "step": 890
    },
    {
      "epoch": 0.29839249832551906,
      "grad_norm": 0.13437634706497192,
      "learning_rate": 8e-05,
      "loss": 1.6141,
      "step": 891
    },
    {
      "epoch": 0.29872739450770264,
      "grad_norm": 0.135538250207901,
      "learning_rate": 8e-05,
      "loss": 1.5659,
      "step": 892
    },
    {
      "epoch": 0.29906229068988616,
      "grad_norm": 0.1452537328004837,
      "learning_rate": 8e-05,
      "loss": 1.5494,
      "step": 893
    },
    {
      "epoch": 0.2993971868720697,
      "grad_norm": 0.12842579185962677,
      "learning_rate": 8e-05,
      "loss": 1.5263,
      "step": 894
    },
    {
      "epoch": 0.2997320830542532,
      "grad_norm": 0.14185068011283875,
      "learning_rate": 8e-05,
      "loss": 1.5753,
      "step": 895
    },
    {
      "epoch": 0.3000669792364367,
      "grad_norm": 0.13031187653541565,
      "learning_rate": 8e-05,
      "loss": 1.551,
      "step": 896
    },
    {
      "epoch": 0.30040187541862023,
      "grad_norm": 0.13001921772956848,
      "learning_rate": 8e-05,
      "loss": 1.5065,
      "step": 897
    },
    {
      "epoch": 0.30073677160080375,
      "grad_norm": 0.12155533581972122,
      "learning_rate": 8e-05,
      "loss": 1.4402,
      "step": 898
    },
    {
      "epoch": 0.3010716677829873,
      "grad_norm": 0.13820426166057587,
      "learning_rate": 8e-05,
      "loss": 1.6747,
      "step": 899
    },
    {
      "epoch": 0.3014065639651708,
      "grad_norm": 0.13313652575016022,
      "learning_rate": 8e-05,
      "loss": 1.6029,
      "step": 900
    },
    {
      "epoch": 0.3017414601473543,
      "grad_norm": 0.13543376326560974,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 901
    },
    {
      "epoch": 0.30207635632953783,
      "grad_norm": 0.12439572066068649,
      "learning_rate": 8e-05,
      "loss": 1.61,
      "step": 902
    },
    {
      "epoch": 0.30241125251172135,
      "grad_norm": 0.12762728333473206,
      "learning_rate": 8e-05,
      "loss": 1.4349,
      "step": 903
    },
    {
      "epoch": 0.30274614869390487,
      "grad_norm": 0.13189052045345306,
      "learning_rate": 8e-05,
      "loss": 1.619,
      "step": 904
    },
    {
      "epoch": 0.3030810448760884,
      "grad_norm": 0.1322561800479889,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 905
    },
    {
      "epoch": 0.3034159410582719,
      "grad_norm": 0.12980064749717712,
      "learning_rate": 8e-05,
      "loss": 1.5554,
      "step": 906
    },
    {
      "epoch": 0.3037508372404555,
      "grad_norm": 0.12505723536014557,
      "learning_rate": 8e-05,
      "loss": 1.4445,
      "step": 907
    },
    {
      "epoch": 0.304085733422639,
      "grad_norm": 0.1277865320444107,
      "learning_rate": 8e-05,
      "loss": 1.539,
      "step": 908
    },
    {
      "epoch": 0.3044206296048225,
      "grad_norm": 0.12552931904792786,
      "learning_rate": 8e-05,
      "loss": 1.4946,
      "step": 909
    },
    {
      "epoch": 0.30475552578700604,
      "grad_norm": 0.13355746865272522,
      "learning_rate": 8e-05,
      "loss": 1.5661,
      "step": 910
    },
    {
      "epoch": 0.30509042196918956,
      "grad_norm": 0.13673974573612213,
      "learning_rate": 8e-05,
      "loss": 1.5659,
      "step": 911
    },
    {
      "epoch": 0.3054253181513731,
      "grad_norm": 0.12781760096549988,
      "learning_rate": 8e-05,
      "loss": 1.6264,
      "step": 912
    },
    {
      "epoch": 0.3057602143335566,
      "grad_norm": 0.13222964107990265,
      "learning_rate": 8e-05,
      "loss": 1.6382,
      "step": 913
    },
    {
      "epoch": 0.3060951105157401,
      "grad_norm": 0.13267521560192108,
      "learning_rate": 8e-05,
      "loss": 1.5568,
      "step": 914
    },
    {
      "epoch": 0.30643000669792364,
      "grad_norm": 0.1228741705417633,
      "learning_rate": 8e-05,
      "loss": 1.5724,
      "step": 915
    },
    {
      "epoch": 0.30676490288010716,
      "grad_norm": 0.13394132256507874,
      "learning_rate": 8e-05,
      "loss": 1.4491,
      "step": 916
    },
    {
      "epoch": 0.3070997990622907,
      "grad_norm": 0.13297057151794434,
      "learning_rate": 8e-05,
      "loss": 1.5234,
      "step": 917
    },
    {
      "epoch": 0.3074346952444742,
      "grad_norm": 0.18455643951892853,
      "learning_rate": 8e-05,
      "loss": 1.4849,
      "step": 918
    },
    {
      "epoch": 0.3077695914266577,
      "grad_norm": 0.1492101550102234,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 919
    },
    {
      "epoch": 0.30810448760884124,
      "grad_norm": 0.12643784284591675,
      "learning_rate": 8e-05,
      "loss": 1.5194,
      "step": 920
    },
    {
      "epoch": 0.30843938379102476,
      "grad_norm": 0.1376117467880249,
      "learning_rate": 8e-05,
      "loss": 1.5356,
      "step": 921
    },
    {
      "epoch": 0.30877427997320833,
      "grad_norm": 0.1306251734495163,
      "learning_rate": 8e-05,
      "loss": 1.5438,
      "step": 922
    },
    {
      "epoch": 0.30910917615539185,
      "grad_norm": 0.13655993342399597,
      "learning_rate": 8e-05,
      "loss": 1.6973,
      "step": 923
    },
    {
      "epoch": 0.30944407233757537,
      "grad_norm": 0.12340030074119568,
      "learning_rate": 8e-05,
      "loss": 1.5554,
      "step": 924
    },
    {
      "epoch": 0.3097789685197589,
      "grad_norm": 0.13056370615959167,
      "learning_rate": 8e-05,
      "loss": 1.5715,
      "step": 925
    },
    {
      "epoch": 0.3101138647019424,
      "grad_norm": 0.1316404640674591,
      "learning_rate": 8e-05,
      "loss": 1.5879,
      "step": 926
    },
    {
      "epoch": 0.31044876088412593,
      "grad_norm": 0.12839408218860626,
      "learning_rate": 8e-05,
      "loss": 1.513,
      "step": 927
    },
    {
      "epoch": 0.31078365706630945,
      "grad_norm": 0.13420824706554413,
      "learning_rate": 8e-05,
      "loss": 1.5745,
      "step": 928
    },
    {
      "epoch": 0.31111855324849297,
      "grad_norm": 0.12772025167942047,
      "learning_rate": 8e-05,
      "loss": 1.5016,
      "step": 929
    },
    {
      "epoch": 0.3114534494306765,
      "grad_norm": 0.1314687281847,
      "learning_rate": 8e-05,
      "loss": 1.6019,
      "step": 930
    },
    {
      "epoch": 0.31178834561286,
      "grad_norm": 0.12784765660762787,
      "learning_rate": 8e-05,
      "loss": 1.5277,
      "step": 931
    },
    {
      "epoch": 0.3121232417950435,
      "grad_norm": 0.13444146513938904,
      "learning_rate": 8e-05,
      "loss": 1.6255,
      "step": 932
    },
    {
      "epoch": 0.31245813797722705,
      "grad_norm": 0.12903441488742828,
      "learning_rate": 8e-05,
      "loss": 1.5753,
      "step": 933
    },
    {
      "epoch": 0.31279303415941057,
      "grad_norm": 0.12991207838058472,
      "learning_rate": 8e-05,
      "loss": 1.5191,
      "step": 934
    },
    {
      "epoch": 0.3131279303415941,
      "grad_norm": 0.12654927372932434,
      "learning_rate": 8e-05,
      "loss": 1.5515,
      "step": 935
    },
    {
      "epoch": 0.3134628265237776,
      "grad_norm": 0.14301279187202454,
      "learning_rate": 8e-05,
      "loss": 1.6316,
      "step": 936
    },
    {
      "epoch": 0.3137977227059612,
      "grad_norm": 0.12224981933832169,
      "learning_rate": 8e-05,
      "loss": 1.4691,
      "step": 937
    },
    {
      "epoch": 0.3141326188881447,
      "grad_norm": 0.13355055451393127,
      "learning_rate": 8e-05,
      "loss": 1.5596,
      "step": 938
    },
    {
      "epoch": 0.3144675150703282,
      "grad_norm": 0.12944301962852478,
      "learning_rate": 8e-05,
      "loss": 1.5701,
      "step": 939
    },
    {
      "epoch": 0.31480241125251174,
      "grad_norm": 0.13770173490047455,
      "learning_rate": 8e-05,
      "loss": 1.5956,
      "step": 940
    },
    {
      "epoch": 0.31513730743469526,
      "grad_norm": 0.13330836594104767,
      "learning_rate": 8e-05,
      "loss": 1.5635,
      "step": 941
    },
    {
      "epoch": 0.3154722036168788,
      "grad_norm": 0.1299058049917221,
      "learning_rate": 8e-05,
      "loss": 1.6057,
      "step": 942
    },
    {
      "epoch": 0.3158070997990623,
      "grad_norm": 0.12798339128494263,
      "learning_rate": 8e-05,
      "loss": 1.6043,
      "step": 943
    },
    {
      "epoch": 0.3161419959812458,
      "grad_norm": 0.12720638513565063,
      "learning_rate": 8e-05,
      "loss": 1.4645,
      "step": 944
    },
    {
      "epoch": 0.31647689216342934,
      "grad_norm": 0.13470999896526337,
      "learning_rate": 8e-05,
      "loss": 1.5777,
      "step": 945
    },
    {
      "epoch": 0.31681178834561285,
      "grad_norm": 0.13033650815486908,
      "learning_rate": 8e-05,
      "loss": 1.5986,
      "step": 946
    },
    {
      "epoch": 0.3171466845277964,
      "grad_norm": 0.12877848744392395,
      "learning_rate": 8e-05,
      "loss": 1.596,
      "step": 947
    },
    {
      "epoch": 0.3174815807099799,
      "grad_norm": 0.1273515373468399,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 948
    },
    {
      "epoch": 0.3178164768921634,
      "grad_norm": 0.13672082126140594,
      "learning_rate": 8e-05,
      "loss": 1.6059,
      "step": 949
    },
    {
      "epoch": 0.31815137307434693,
      "grad_norm": 0.12320803105831146,
      "learning_rate": 8e-05,
      "loss": 1.471,
      "step": 950
    },
    {
      "epoch": 0.31848626925653045,
      "grad_norm": 0.12723857164382935,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 951
    },
    {
      "epoch": 0.31882116543871397,
      "grad_norm": 0.13589978218078613,
      "learning_rate": 8e-05,
      "loss": 1.5199,
      "step": 952
    },
    {
      "epoch": 0.31915606162089755,
      "grad_norm": 0.13483016192913055,
      "learning_rate": 8e-05,
      "loss": 1.6001,
      "step": 953
    },
    {
      "epoch": 0.31949095780308107,
      "grad_norm": 0.12625205516815186,
      "learning_rate": 8e-05,
      "loss": 1.5197,
      "step": 954
    },
    {
      "epoch": 0.3198258539852646,
      "grad_norm": 0.12133178114891052,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 955
    },
    {
      "epoch": 0.3201607501674481,
      "grad_norm": 0.13707436621189117,
      "learning_rate": 8e-05,
      "loss": 1.5778,
      "step": 956
    },
    {
      "epoch": 0.3204956463496316,
      "grad_norm": 0.12868443131446838,
      "learning_rate": 8e-05,
      "loss": 1.5455,
      "step": 957
    },
    {
      "epoch": 0.32083054253181514,
      "grad_norm": 0.12976983189582825,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 958
    },
    {
      "epoch": 0.32116543871399866,
      "grad_norm": 0.13820096850395203,
      "learning_rate": 8e-05,
      "loss": 1.5676,
      "step": 959
    },
    {
      "epoch": 0.3215003348961822,
      "grad_norm": 0.139744833111763,
      "learning_rate": 8e-05,
      "loss": 1.5334,
      "step": 960
    },
    {
      "epoch": 0.3218352310783657,
      "grad_norm": 0.13612404465675354,
      "learning_rate": 8e-05,
      "loss": 1.6175,
      "step": 961
    },
    {
      "epoch": 0.3221701272605492,
      "grad_norm": 0.13518410921096802,
      "learning_rate": 8e-05,
      "loss": 1.559,
      "step": 962
    },
    {
      "epoch": 0.32250502344273274,
      "grad_norm": 0.13413414359092712,
      "learning_rate": 8e-05,
      "loss": 1.5248,
      "step": 963
    },
    {
      "epoch": 0.32283991962491626,
      "grad_norm": 0.1324673742055893,
      "learning_rate": 8e-05,
      "loss": 1.5295,
      "step": 964
    },
    {
      "epoch": 0.3231748158070998,
      "grad_norm": 0.13459327816963196,
      "learning_rate": 8e-05,
      "loss": 1.6385,
      "step": 965
    },
    {
      "epoch": 0.3235097119892833,
      "grad_norm": 0.13489465415477753,
      "learning_rate": 8e-05,
      "loss": 1.552,
      "step": 966
    },
    {
      "epoch": 0.3238446081714668,
      "grad_norm": 0.1345088928937912,
      "learning_rate": 8e-05,
      "loss": 1.5583,
      "step": 967
    },
    {
      "epoch": 0.3241795043536504,
      "grad_norm": 0.13699717819690704,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 968
    },
    {
      "epoch": 0.3245144005358339,
      "grad_norm": 0.1270645707845688,
      "learning_rate": 8e-05,
      "loss": 1.4463,
      "step": 969
    },
    {
      "epoch": 0.32484929671801743,
      "grad_norm": 0.14498881995677948,
      "learning_rate": 8e-05,
      "loss": 1.6242,
      "step": 970
    },
    {
      "epoch": 0.32518419290020095,
      "grad_norm": 0.1312459409236908,
      "learning_rate": 8e-05,
      "loss": 1.5939,
      "step": 971
    },
    {
      "epoch": 0.32551908908238447,
      "grad_norm": 0.13562238216400146,
      "learning_rate": 8e-05,
      "loss": 1.4596,
      "step": 972
    },
    {
      "epoch": 0.325853985264568,
      "grad_norm": 0.13759374618530273,
      "learning_rate": 8e-05,
      "loss": 1.7034,
      "step": 973
    },
    {
      "epoch": 0.3261888814467515,
      "grad_norm": 0.13825400173664093,
      "learning_rate": 8e-05,
      "loss": 1.5639,
      "step": 974
    },
    {
      "epoch": 0.32652377762893503,
      "grad_norm": 0.12913240492343903,
      "learning_rate": 8e-05,
      "loss": 1.5684,
      "step": 975
    },
    {
      "epoch": 0.32685867381111855,
      "grad_norm": 0.13698391616344452,
      "learning_rate": 8e-05,
      "loss": 1.6313,
      "step": 976
    },
    {
      "epoch": 0.32719356999330207,
      "grad_norm": 0.1358000785112381,
      "learning_rate": 8e-05,
      "loss": 1.6413,
      "step": 977
    },
    {
      "epoch": 0.3275284661754856,
      "grad_norm": 0.12882907688617706,
      "learning_rate": 8e-05,
      "loss": 1.5071,
      "step": 978
    },
    {
      "epoch": 0.3278633623576691,
      "grad_norm": 0.13259215652942657,
      "learning_rate": 8e-05,
      "loss": 1.5973,
      "step": 979
    },
    {
      "epoch": 0.3281982585398526,
      "grad_norm": 0.1310102939605713,
      "learning_rate": 8e-05,
      "loss": 1.6508,
      "step": 980
    },
    {
      "epoch": 0.32853315472203615,
      "grad_norm": 0.13902033865451813,
      "learning_rate": 8e-05,
      "loss": 1.5193,
      "step": 981
    },
    {
      "epoch": 0.32886805090421967,
      "grad_norm": 0.12965404987335205,
      "learning_rate": 8e-05,
      "loss": 1.5029,
      "step": 982
    },
    {
      "epoch": 0.32920294708640324,
      "grad_norm": 0.1450577825307846,
      "learning_rate": 8e-05,
      "loss": 1.6272,
      "step": 983
    },
    {
      "epoch": 0.32953784326858676,
      "grad_norm": 0.13510821759700775,
      "learning_rate": 8e-05,
      "loss": 1.6743,
      "step": 984
    },
    {
      "epoch": 0.3298727394507703,
      "grad_norm": 0.14346115291118622,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 985
    },
    {
      "epoch": 0.3302076356329538,
      "grad_norm": 0.12319494038820267,
      "learning_rate": 8e-05,
      "loss": 1.4644,
      "step": 986
    },
    {
      "epoch": 0.3305425318151373,
      "grad_norm": 0.13054174184799194,
      "learning_rate": 8e-05,
      "loss": 1.4678,
      "step": 987
    },
    {
      "epoch": 0.33087742799732084,
      "grad_norm": 0.1310795694589615,
      "learning_rate": 8e-05,
      "loss": 1.6059,
      "step": 988
    },
    {
      "epoch": 0.33121232417950436,
      "grad_norm": 0.13240130245685577,
      "learning_rate": 8e-05,
      "loss": 1.5506,
      "step": 989
    },
    {
      "epoch": 0.3315472203616879,
      "grad_norm": 0.1329033076763153,
      "learning_rate": 8e-05,
      "loss": 1.6534,
      "step": 990
    },
    {
      "epoch": 0.3318821165438714,
      "grad_norm": 0.13081462681293488,
      "learning_rate": 8e-05,
      "loss": 1.5021,
      "step": 991
    },
    {
      "epoch": 0.3322170127260549,
      "grad_norm": 0.1264314502477646,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 992
    },
    {
      "epoch": 0.33255190890823844,
      "grad_norm": 0.12634682655334473,
      "learning_rate": 8e-05,
      "loss": 1.5062,
      "step": 993
    },
    {
      "epoch": 0.33288680509042196,
      "grad_norm": 0.13914386928081512,
      "learning_rate": 8e-05,
      "loss": 1.6246,
      "step": 994
    },
    {
      "epoch": 0.3332217012726055,
      "grad_norm": 0.1359160840511322,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 995
    },
    {
      "epoch": 0.333556597454789,
      "grad_norm": 0.1313653141260147,
      "learning_rate": 8e-05,
      "loss": 1.5487,
      "step": 996
    },
    {
      "epoch": 0.3338914936369725,
      "grad_norm": 0.13819873332977295,
      "learning_rate": 8e-05,
      "loss": 1.6736,
      "step": 997
    },
    {
      "epoch": 0.3342263898191561,
      "grad_norm": 0.12604205310344696,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 998
    },
    {
      "epoch": 0.3345612860013396,
      "grad_norm": 0.13970758020877838,
      "learning_rate": 8e-05,
      "loss": 1.5272,
      "step": 999
    },
    {
      "epoch": 0.33489618218352313,
      "grad_norm": 0.13551361858844757,
      "learning_rate": 8e-05,
      "loss": 1.525,
      "step": 1000
    },
    {
      "epoch": 0.33523107836570665,
      "grad_norm": 0.13703738152980804,
      "learning_rate": 8e-05,
      "loss": 1.5775,
      "step": 1001
    },
    {
      "epoch": 0.33556597454789017,
      "grad_norm": 0.13194788992404938,
      "learning_rate": 8e-05,
      "loss": 1.5227,
      "step": 1002
    },
    {
      "epoch": 0.3359008707300737,
      "grad_norm": 0.1442449986934662,
      "learning_rate": 8e-05,
      "loss": 1.6181,
      "step": 1003
    },
    {
      "epoch": 0.3362357669122572,
      "grad_norm": 0.13230116665363312,
      "learning_rate": 8e-05,
      "loss": 1.6292,
      "step": 1004
    },
    {
      "epoch": 0.3365706630944407,
      "grad_norm": 0.15156884491443634,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 1005
    },
    {
      "epoch": 0.33690555927662424,
      "grad_norm": 0.13065944612026215,
      "learning_rate": 8e-05,
      "loss": 1.6335,
      "step": 1006
    },
    {
      "epoch": 0.33724045545880776,
      "grad_norm": 0.1301802098751068,
      "learning_rate": 8e-05,
      "loss": 1.434,
      "step": 1007
    },
    {
      "epoch": 0.3375753516409913,
      "grad_norm": 0.12743952870368958,
      "learning_rate": 8e-05,
      "loss": 1.5195,
      "step": 1008
    },
    {
      "epoch": 0.3379102478231748,
      "grad_norm": 0.1298919916152954,
      "learning_rate": 8e-05,
      "loss": 1.5522,
      "step": 1009
    },
    {
      "epoch": 0.3382451440053583,
      "grad_norm": 0.13440625369548798,
      "learning_rate": 8e-05,
      "loss": 1.5461,
      "step": 1010
    },
    {
      "epoch": 0.33858004018754184,
      "grad_norm": 0.12996894121170044,
      "learning_rate": 8e-05,
      "loss": 1.4926,
      "step": 1011
    },
    {
      "epoch": 0.33891493636972536,
      "grad_norm": 0.12786002457141876,
      "learning_rate": 8e-05,
      "loss": 1.4489,
      "step": 1012
    },
    {
      "epoch": 0.3392498325519089,
      "grad_norm": 0.14357136189937592,
      "learning_rate": 8e-05,
      "loss": 1.7206,
      "step": 1013
    },
    {
      "epoch": 0.33958472873409246,
      "grad_norm": 0.1407151222229004,
      "learning_rate": 8e-05,
      "loss": 1.6067,
      "step": 1014
    },
    {
      "epoch": 0.339919624916276,
      "grad_norm": 0.1358192265033722,
      "learning_rate": 8e-05,
      "loss": 1.4945,
      "step": 1015
    },
    {
      "epoch": 0.3402545210984595,
      "grad_norm": 0.1328311413526535,
      "learning_rate": 8e-05,
      "loss": 1.6219,
      "step": 1016
    },
    {
      "epoch": 0.340589417280643,
      "grad_norm": 0.13880519568920135,
      "learning_rate": 8e-05,
      "loss": 1.548,
      "step": 1017
    },
    {
      "epoch": 0.34092431346282653,
      "grad_norm": 0.12885497510433197,
      "learning_rate": 8e-05,
      "loss": 1.4665,
      "step": 1018
    },
    {
      "epoch": 0.34125920964501005,
      "grad_norm": 0.13417167961597443,
      "learning_rate": 8e-05,
      "loss": 1.5781,
      "step": 1019
    },
    {
      "epoch": 0.3415941058271936,
      "grad_norm": 0.14466364681720734,
      "learning_rate": 8e-05,
      "loss": 1.6395,
      "step": 1020
    },
    {
      "epoch": 0.3419290020093771,
      "grad_norm": 0.13166135549545288,
      "learning_rate": 8e-05,
      "loss": 1.5805,
      "step": 1021
    },
    {
      "epoch": 0.3422638981915606,
      "grad_norm": 0.13645420968532562,
      "learning_rate": 8e-05,
      "loss": 1.6469,
      "step": 1022
    },
    {
      "epoch": 0.34259879437374413,
      "grad_norm": 0.13980740308761597,
      "learning_rate": 8e-05,
      "loss": 1.5334,
      "step": 1023
    },
    {
      "epoch": 0.34293369055592765,
      "grad_norm": 0.13232310116291046,
      "learning_rate": 8e-05,
      "loss": 1.5713,
      "step": 1024
    },
    {
      "epoch": 0.34326858673811117,
      "grad_norm": 0.14607025682926178,
      "learning_rate": 8e-05,
      "loss": 1.6075,
      "step": 1025
    },
    {
      "epoch": 0.3436034829202947,
      "grad_norm": 0.12906977534294128,
      "learning_rate": 8e-05,
      "loss": 1.5351,
      "step": 1026
    },
    {
      "epoch": 0.3439383791024782,
      "grad_norm": 0.1291840672492981,
      "learning_rate": 8e-05,
      "loss": 1.491,
      "step": 1027
    },
    {
      "epoch": 0.34427327528466173,
      "grad_norm": 0.13411249220371246,
      "learning_rate": 8e-05,
      "loss": 1.609,
      "step": 1028
    },
    {
      "epoch": 0.3446081714668453,
      "grad_norm": 0.1288759559392929,
      "learning_rate": 8e-05,
      "loss": 1.5323,
      "step": 1029
    },
    {
      "epoch": 0.3449430676490288,
      "grad_norm": 0.14127936959266663,
      "learning_rate": 8e-05,
      "loss": 1.6062,
      "step": 1030
    },
    {
      "epoch": 0.34527796383121234,
      "grad_norm": 0.13558867573738098,
      "learning_rate": 8e-05,
      "loss": 1.6367,
      "step": 1031
    },
    {
      "epoch": 0.34561286001339586,
      "grad_norm": 0.12294075638055801,
      "learning_rate": 8e-05,
      "loss": 1.5232,
      "step": 1032
    },
    {
      "epoch": 0.3459477561955794,
      "grad_norm": 0.1475956290960312,
      "learning_rate": 8e-05,
      "loss": 1.6897,
      "step": 1033
    },
    {
      "epoch": 0.3462826523777629,
      "grad_norm": 0.12888918817043304,
      "learning_rate": 8e-05,
      "loss": 1.5245,
      "step": 1034
    },
    {
      "epoch": 0.3466175485599464,
      "grad_norm": 0.1329401135444641,
      "learning_rate": 8e-05,
      "loss": 1.6012,
      "step": 1035
    },
    {
      "epoch": 0.34695244474212994,
      "grad_norm": 0.14566554129123688,
      "learning_rate": 8e-05,
      "loss": 1.6134,
      "step": 1036
    },
    {
      "epoch": 0.34728734092431346,
      "grad_norm": 0.13363684713840485,
      "learning_rate": 8e-05,
      "loss": 1.6192,
      "step": 1037
    },
    {
      "epoch": 0.347622237106497,
      "grad_norm": 0.14116698503494263,
      "learning_rate": 8e-05,
      "loss": 1.5965,
      "step": 1038
    },
    {
      "epoch": 0.3479571332886805,
      "grad_norm": 0.13872185349464417,
      "learning_rate": 8e-05,
      "loss": 1.5322,
      "step": 1039
    },
    {
      "epoch": 0.348292029470864,
      "grad_norm": 0.13171830773353577,
      "learning_rate": 8e-05,
      "loss": 1.5546,
      "step": 1040
    },
    {
      "epoch": 0.34862692565304754,
      "grad_norm": 0.13938450813293457,
      "learning_rate": 8e-05,
      "loss": 1.5295,
      "step": 1041
    },
    {
      "epoch": 0.34896182183523106,
      "grad_norm": 0.12911051511764526,
      "learning_rate": 8e-05,
      "loss": 1.6168,
      "step": 1042
    },
    {
      "epoch": 0.3492967180174146,
      "grad_norm": 0.13062910735607147,
      "learning_rate": 8e-05,
      "loss": 1.5126,
      "step": 1043
    },
    {
      "epoch": 0.34963161419959815,
      "grad_norm": 0.1359618455171585,
      "learning_rate": 8e-05,
      "loss": 1.5443,
      "step": 1044
    },
    {
      "epoch": 0.34996651038178167,
      "grad_norm": 0.13209740817546844,
      "learning_rate": 8e-05,
      "loss": 1.4975,
      "step": 1045
    },
    {
      "epoch": 0.3503014065639652,
      "grad_norm": 0.1629054695367813,
      "learning_rate": 8e-05,
      "loss": 1.6771,
      "step": 1046
    },
    {
      "epoch": 0.3506363027461487,
      "grad_norm": 0.13248220086097717,
      "learning_rate": 8e-05,
      "loss": 1.5415,
      "step": 1047
    },
    {
      "epoch": 0.35097119892833223,
      "grad_norm": 0.12892422080039978,
      "learning_rate": 8e-05,
      "loss": 1.6197,
      "step": 1048
    },
    {
      "epoch": 0.35130609511051575,
      "grad_norm": 0.14007604122161865,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 1049
    },
    {
      "epoch": 0.35164099129269927,
      "grad_norm": 0.12688404321670532,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 1050
    },
    {
      "epoch": 0.3519758874748828,
      "grad_norm": 0.13556437194347382,
      "learning_rate": 8e-05,
      "loss": 1.5074,
      "step": 1051
    },
    {
      "epoch": 0.3523107836570663,
      "grad_norm": 0.13047805428504944,
      "learning_rate": 8e-05,
      "loss": 1.4792,
      "step": 1052
    },
    {
      "epoch": 0.3526456798392498,
      "grad_norm": 0.13159802556037903,
      "learning_rate": 8e-05,
      "loss": 1.5594,
      "step": 1053
    },
    {
      "epoch": 0.35298057602143335,
      "grad_norm": 0.1419125199317932,
      "learning_rate": 8e-05,
      "loss": 1.5574,
      "step": 1054
    },
    {
      "epoch": 0.35331547220361686,
      "grad_norm": 0.13326700031757355,
      "learning_rate": 8e-05,
      "loss": 1.5415,
      "step": 1055
    },
    {
      "epoch": 0.3536503683858004,
      "grad_norm": 0.13112634420394897,
      "learning_rate": 8e-05,
      "loss": 1.5031,
      "step": 1056
    },
    {
      "epoch": 0.3539852645679839,
      "grad_norm": 0.13415643572807312,
      "learning_rate": 8e-05,
      "loss": 1.4698,
      "step": 1057
    },
    {
      "epoch": 0.3543201607501674,
      "grad_norm": 0.1313755214214325,
      "learning_rate": 8e-05,
      "loss": 1.5822,
      "step": 1058
    },
    {
      "epoch": 0.354655056932351,
      "grad_norm": 0.12887835502624512,
      "learning_rate": 8e-05,
      "loss": 1.4935,
      "step": 1059
    },
    {
      "epoch": 0.3549899531145345,
      "grad_norm": 0.13325469195842743,
      "learning_rate": 8e-05,
      "loss": 1.599,
      "step": 1060
    },
    {
      "epoch": 0.35532484929671804,
      "grad_norm": 0.13454914093017578,
      "learning_rate": 8e-05,
      "loss": 1.6274,
      "step": 1061
    },
    {
      "epoch": 0.35565974547890156,
      "grad_norm": 0.13077563047409058,
      "learning_rate": 8e-05,
      "loss": 1.537,
      "step": 1062
    },
    {
      "epoch": 0.3559946416610851,
      "grad_norm": 0.12971939146518707,
      "learning_rate": 8e-05,
      "loss": 1.5147,
      "step": 1063
    },
    {
      "epoch": 0.3563295378432686,
      "grad_norm": 0.13123884797096252,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1064
    },
    {
      "epoch": 0.3566644340254521,
      "grad_norm": 0.13057561218738556,
      "learning_rate": 8e-05,
      "loss": 1.5501,
      "step": 1065
    },
    {
      "epoch": 0.35699933020763563,
      "grad_norm": 0.12873758375644684,
      "learning_rate": 8e-05,
      "loss": 1.5418,
      "step": 1066
    },
    {
      "epoch": 0.35733422638981915,
      "grad_norm": 0.1439938098192215,
      "learning_rate": 8e-05,
      "loss": 1.5796,
      "step": 1067
    },
    {
      "epoch": 0.3576691225720027,
      "grad_norm": 0.12840260565280914,
      "learning_rate": 8e-05,
      "loss": 1.5712,
      "step": 1068
    },
    {
      "epoch": 0.3580040187541862,
      "grad_norm": 0.13125395774841309,
      "learning_rate": 8e-05,
      "loss": 1.6111,
      "step": 1069
    },
    {
      "epoch": 0.3583389149363697,
      "grad_norm": 0.1314440220594406,
      "learning_rate": 8e-05,
      "loss": 1.6021,
      "step": 1070
    },
    {
      "epoch": 0.35867381111855323,
      "grad_norm": 0.1325618177652359,
      "learning_rate": 8e-05,
      "loss": 1.6422,
      "step": 1071
    },
    {
      "epoch": 0.35900870730073675,
      "grad_norm": 0.12549267709255219,
      "learning_rate": 8e-05,
      "loss": 1.517,
      "step": 1072
    },
    {
      "epoch": 0.35934360348292027,
      "grad_norm": 0.12718451023101807,
      "learning_rate": 8e-05,
      "loss": 1.5784,
      "step": 1073
    },
    {
      "epoch": 0.3596784996651038,
      "grad_norm": 0.13298921287059784,
      "learning_rate": 8e-05,
      "loss": 1.5566,
      "step": 1074
    },
    {
      "epoch": 0.36001339584728737,
      "grad_norm": 0.1283767819404602,
      "learning_rate": 8e-05,
      "loss": 1.547,
      "step": 1075
    },
    {
      "epoch": 0.3603482920294709,
      "grad_norm": 0.13161425292491913,
      "learning_rate": 8e-05,
      "loss": 1.5178,
      "step": 1076
    },
    {
      "epoch": 0.3606831882116544,
      "grad_norm": 0.1301116794347763,
      "learning_rate": 8e-05,
      "loss": 1.5697,
      "step": 1077
    },
    {
      "epoch": 0.3610180843938379,
      "grad_norm": 0.13150863349437714,
      "learning_rate": 8e-05,
      "loss": 1.5417,
      "step": 1078
    },
    {
      "epoch": 0.36135298057602144,
      "grad_norm": 0.14730602502822876,
      "learning_rate": 8e-05,
      "loss": 1.6539,
      "step": 1079
    },
    {
      "epoch": 0.36168787675820496,
      "grad_norm": 0.13192163407802582,
      "learning_rate": 8e-05,
      "loss": 1.5307,
      "step": 1080
    },
    {
      "epoch": 0.3620227729403885,
      "grad_norm": 0.14221028983592987,
      "learning_rate": 8e-05,
      "loss": 1.4984,
      "step": 1081
    },
    {
      "epoch": 0.362357669122572,
      "grad_norm": 0.1304173469543457,
      "learning_rate": 8e-05,
      "loss": 1.5044,
      "step": 1082
    },
    {
      "epoch": 0.3626925653047555,
      "grad_norm": 0.1369858831167221,
      "learning_rate": 8e-05,
      "loss": 1.5264,
      "step": 1083
    },
    {
      "epoch": 0.36302746148693904,
      "grad_norm": 0.13556815683841705,
      "learning_rate": 8e-05,
      "loss": 1.6127,
      "step": 1084
    },
    {
      "epoch": 0.36336235766912256,
      "grad_norm": 0.13916903734207153,
      "learning_rate": 8e-05,
      "loss": 1.5405,
      "step": 1085
    },
    {
      "epoch": 0.3636972538513061,
      "grad_norm": 0.12921611964702606,
      "learning_rate": 8e-05,
      "loss": 1.5835,
      "step": 1086
    },
    {
      "epoch": 0.3640321500334896,
      "grad_norm": 0.13801270723342896,
      "learning_rate": 8e-05,
      "loss": 1.5591,
      "step": 1087
    },
    {
      "epoch": 0.3643670462156731,
      "grad_norm": 0.12935388088226318,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 1088
    },
    {
      "epoch": 0.36470194239785664,
      "grad_norm": 0.13330130279064178,
      "learning_rate": 8e-05,
      "loss": 1.5394,
      "step": 1089
    },
    {
      "epoch": 0.3650368385800402,
      "grad_norm": 0.12860313057899475,
      "learning_rate": 8e-05,
      "loss": 1.5076,
      "step": 1090
    },
    {
      "epoch": 0.36537173476222373,
      "grad_norm": 0.13359111547470093,
      "learning_rate": 8e-05,
      "loss": 1.5545,
      "step": 1091
    },
    {
      "epoch": 0.36570663094440725,
      "grad_norm": 0.142426997423172,
      "learning_rate": 8e-05,
      "loss": 1.6021,
      "step": 1092
    },
    {
      "epoch": 0.36604152712659077,
      "grad_norm": 0.13428418338298798,
      "learning_rate": 8e-05,
      "loss": 1.6496,
      "step": 1093
    },
    {
      "epoch": 0.3663764233087743,
      "grad_norm": 0.13094860315322876,
      "learning_rate": 8e-05,
      "loss": 1.5649,
      "step": 1094
    },
    {
      "epoch": 0.3667113194909578,
      "grad_norm": 0.14048536121845245,
      "learning_rate": 8e-05,
      "loss": 1.5804,
      "step": 1095
    },
    {
      "epoch": 0.36704621567314133,
      "grad_norm": 0.13849857449531555,
      "learning_rate": 8e-05,
      "loss": 1.4833,
      "step": 1096
    },
    {
      "epoch": 0.36738111185532485,
      "grad_norm": 0.1284637153148651,
      "learning_rate": 8e-05,
      "loss": 1.5778,
      "step": 1097
    },
    {
      "epoch": 0.36771600803750837,
      "grad_norm": 0.12754836678504944,
      "learning_rate": 8e-05,
      "loss": 1.5595,
      "step": 1098
    },
    {
      "epoch": 0.3680509042196919,
      "grad_norm": 0.13887593150138855,
      "learning_rate": 8e-05,
      "loss": 1.5551,
      "step": 1099
    },
    {
      "epoch": 0.3683858004018754,
      "grad_norm": 0.12660172581672668,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 1100
    },
    {
      "epoch": 0.3687206965840589,
      "grad_norm": 0.13428205251693726,
      "learning_rate": 8e-05,
      "loss": 1.5251,
      "step": 1101
    },
    {
      "epoch": 0.36905559276624245,
      "grad_norm": 0.13426941633224487,
      "learning_rate": 8e-05,
      "loss": 1.501,
      "step": 1102
    },
    {
      "epoch": 0.36939048894842597,
      "grad_norm": 0.12819364666938782,
      "learning_rate": 8e-05,
      "loss": 1.5332,
      "step": 1103
    },
    {
      "epoch": 0.3697253851306095,
      "grad_norm": 0.12847276031970978,
      "learning_rate": 8e-05,
      "loss": 1.5281,
      "step": 1104
    },
    {
      "epoch": 0.37006028131279306,
      "grad_norm": 0.12772487103939056,
      "learning_rate": 8e-05,
      "loss": 1.4539,
      "step": 1105
    },
    {
      "epoch": 0.3703951774949766,
      "grad_norm": 0.13142144680023193,
      "learning_rate": 8e-05,
      "loss": 1.5241,
      "step": 1106
    },
    {
      "epoch": 0.3707300736771601,
      "grad_norm": 0.13728605210781097,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1107
    },
    {
      "epoch": 0.3710649698593436,
      "grad_norm": 0.1335393637418747,
      "learning_rate": 8e-05,
      "loss": 1.6392,
      "step": 1108
    },
    {
      "epoch": 0.37139986604152714,
      "grad_norm": 0.13431330025196075,
      "learning_rate": 8e-05,
      "loss": 1.5963,
      "step": 1109
    },
    {
      "epoch": 0.37173476222371066,
      "grad_norm": 0.1413845419883728,
      "learning_rate": 8e-05,
      "loss": 1.6133,
      "step": 1110
    },
    {
      "epoch": 0.3720696584058942,
      "grad_norm": 0.1327686309814453,
      "learning_rate": 8e-05,
      "loss": 1.6108,
      "step": 1111
    },
    {
      "epoch": 0.3724045545880777,
      "grad_norm": 0.12949588894844055,
      "learning_rate": 8e-05,
      "loss": 1.5149,
      "step": 1112
    },
    {
      "epoch": 0.3727394507702612,
      "grad_norm": 0.1298668086528778,
      "learning_rate": 8e-05,
      "loss": 1.5175,
      "step": 1113
    },
    {
      "epoch": 0.37307434695244474,
      "grad_norm": 0.13521258533000946,
      "learning_rate": 8e-05,
      "loss": 1.6251,
      "step": 1114
    },
    {
      "epoch": 0.37340924313462825,
      "grad_norm": 0.12961983680725098,
      "learning_rate": 8e-05,
      "loss": 1.538,
      "step": 1115
    },
    {
      "epoch": 0.3737441393168118,
      "grad_norm": 0.12865962088108063,
      "learning_rate": 8e-05,
      "loss": 1.4422,
      "step": 1116
    },
    {
      "epoch": 0.3740790354989953,
      "grad_norm": 0.13097937405109406,
      "learning_rate": 8e-05,
      "loss": 1.5112,
      "step": 1117
    },
    {
      "epoch": 0.3744139316811788,
      "grad_norm": 0.1279972642660141,
      "learning_rate": 8e-05,
      "loss": 1.561,
      "step": 1118
    },
    {
      "epoch": 0.37474882786336233,
      "grad_norm": 0.12725596129894257,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 1119
    },
    {
      "epoch": 0.3750837240455459,
      "grad_norm": 0.13181322813034058,
      "learning_rate": 8e-05,
      "loss": 1.5464,
      "step": 1120
    },
    {
      "epoch": 0.3754186202277294,
      "grad_norm": 0.13595356047153473,
      "learning_rate": 8e-05,
      "loss": 1.5984,
      "step": 1121
    },
    {
      "epoch": 0.37575351640991295,
      "grad_norm": 0.13120420277118683,
      "learning_rate": 8e-05,
      "loss": 1.6374,
      "step": 1122
    },
    {
      "epoch": 0.37608841259209647,
      "grad_norm": 0.1300223022699356,
      "learning_rate": 8e-05,
      "loss": 1.5251,
      "step": 1123
    },
    {
      "epoch": 0.37642330877428,
      "grad_norm": 0.13171425461769104,
      "learning_rate": 8e-05,
      "loss": 1.6027,
      "step": 1124
    },
    {
      "epoch": 0.3767582049564635,
      "grad_norm": 0.13001634180545807,
      "learning_rate": 8e-05,
      "loss": 1.6705,
      "step": 1125
    },
    {
      "epoch": 0.377093101138647,
      "grad_norm": 0.13117456436157227,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 1126
    },
    {
      "epoch": 0.37742799732083054,
      "grad_norm": 0.1322060525417328,
      "learning_rate": 8e-05,
      "loss": 1.5687,
      "step": 1127
    },
    {
      "epoch": 0.37776289350301406,
      "grad_norm": 0.130983367562294,
      "learning_rate": 8e-05,
      "loss": 1.5248,
      "step": 1128
    },
    {
      "epoch": 0.3780977896851976,
      "grad_norm": 0.13106977939605713,
      "learning_rate": 8e-05,
      "loss": 1.505,
      "step": 1129
    },
    {
      "epoch": 0.3784326858673811,
      "grad_norm": 0.13523899018764496,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 1130
    },
    {
      "epoch": 0.3787675820495646,
      "grad_norm": 0.12764014303684235,
      "learning_rate": 8e-05,
      "loss": 1.4562,
      "step": 1131
    },
    {
      "epoch": 0.37910247823174814,
      "grad_norm": 0.13228461146354675,
      "learning_rate": 8e-05,
      "loss": 1.5856,
      "step": 1132
    },
    {
      "epoch": 0.37943737441393166,
      "grad_norm": 0.13723643124103546,
      "learning_rate": 8e-05,
      "loss": 1.6211,
      "step": 1133
    },
    {
      "epoch": 0.3797722705961152,
      "grad_norm": 0.13113106787204742,
      "learning_rate": 8e-05,
      "loss": 1.584,
      "step": 1134
    },
    {
      "epoch": 0.38010716677829876,
      "grad_norm": 0.1363474279642105,
      "learning_rate": 8e-05,
      "loss": 1.6323,
      "step": 1135
    },
    {
      "epoch": 0.3804420629604823,
      "grad_norm": 0.128530815243721,
      "learning_rate": 8e-05,
      "loss": 1.5541,
      "step": 1136
    },
    {
      "epoch": 0.3807769591426658,
      "grad_norm": 0.1268177032470703,
      "learning_rate": 8e-05,
      "loss": 1.4562,
      "step": 1137
    },
    {
      "epoch": 0.3811118553248493,
      "grad_norm": 0.1341569423675537,
      "learning_rate": 8e-05,
      "loss": 1.5869,
      "step": 1138
    },
    {
      "epoch": 0.38144675150703283,
      "grad_norm": 0.12896324694156647,
      "learning_rate": 8e-05,
      "loss": 1.5266,
      "step": 1139
    },
    {
      "epoch": 0.38178164768921635,
      "grad_norm": 0.13469237089157104,
      "learning_rate": 8e-05,
      "loss": 1.5652,
      "step": 1140
    },
    {
      "epoch": 0.38211654387139987,
      "grad_norm": 0.1307423710823059,
      "learning_rate": 8e-05,
      "loss": 1.4526,
      "step": 1141
    },
    {
      "epoch": 0.3824514400535834,
      "grad_norm": 0.14718304574489594,
      "learning_rate": 8e-05,
      "loss": 1.538,
      "step": 1142
    },
    {
      "epoch": 0.3827863362357669,
      "grad_norm": 0.13944977521896362,
      "learning_rate": 8e-05,
      "loss": 1.5549,
      "step": 1143
    },
    {
      "epoch": 0.38312123241795043,
      "grad_norm": 0.13228091597557068,
      "learning_rate": 8e-05,
      "loss": 1.5868,
      "step": 1144
    },
    {
      "epoch": 0.38345612860013395,
      "grad_norm": 0.136200949549675,
      "learning_rate": 8e-05,
      "loss": 1.5394,
      "step": 1145
    },
    {
      "epoch": 0.38379102478231747,
      "grad_norm": 0.12693874537944794,
      "learning_rate": 8e-05,
      "loss": 1.4816,
      "step": 1146
    },
    {
      "epoch": 0.384125920964501,
      "grad_norm": 0.14487294852733612,
      "learning_rate": 8e-05,
      "loss": 1.5655,
      "step": 1147
    },
    {
      "epoch": 0.3844608171466845,
      "grad_norm": 0.13374902307987213,
      "learning_rate": 8e-05,
      "loss": 1.4591,
      "step": 1148
    },
    {
      "epoch": 0.384795713328868,
      "grad_norm": 0.1316477656364441,
      "learning_rate": 8e-05,
      "loss": 1.4653,
      "step": 1149
    },
    {
      "epoch": 0.38513060951105155,
      "grad_norm": 0.14006973803043365,
      "learning_rate": 8e-05,
      "loss": 1.6315,
      "step": 1150
    },
    {
      "epoch": 0.3854655056932351,
      "grad_norm": 0.13357411324977875,
      "learning_rate": 8e-05,
      "loss": 1.4779,
      "step": 1151
    },
    {
      "epoch": 0.38580040187541864,
      "grad_norm": 0.14890368282794952,
      "learning_rate": 8e-05,
      "loss": 1.4813,
      "step": 1152
    },
    {
      "epoch": 0.38613529805760216,
      "grad_norm": 0.1329137086868286,
      "learning_rate": 8e-05,
      "loss": 1.5617,
      "step": 1153
    },
    {
      "epoch": 0.3864701942397857,
      "grad_norm": 0.1395251452922821,
      "learning_rate": 8e-05,
      "loss": 1.5138,
      "step": 1154
    },
    {
      "epoch": 0.3868050904219692,
      "grad_norm": 0.14285027980804443,
      "learning_rate": 8e-05,
      "loss": 1.6438,
      "step": 1155
    },
    {
      "epoch": 0.3871399866041527,
      "grad_norm": 0.13385972380638123,
      "learning_rate": 8e-05,
      "loss": 1.6062,
      "step": 1156
    },
    {
      "epoch": 0.38747488278633624,
      "grad_norm": 0.13272151350975037,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 1157
    },
    {
      "epoch": 0.38780977896851976,
      "grad_norm": 0.13248546421527863,
      "learning_rate": 8e-05,
      "loss": 1.5243,
      "step": 1158
    },
    {
      "epoch": 0.3881446751507033,
      "grad_norm": 0.13738685846328735,
      "learning_rate": 8e-05,
      "loss": 1.5777,
      "step": 1159
    },
    {
      "epoch": 0.3884795713328868,
      "grad_norm": 0.13606032729148865,
      "learning_rate": 8e-05,
      "loss": 1.6557,
      "step": 1160
    },
    {
      "epoch": 0.3888144675150703,
      "grad_norm": 0.13227078318595886,
      "learning_rate": 8e-05,
      "loss": 1.609,
      "step": 1161
    },
    {
      "epoch": 0.38914936369725384,
      "grad_norm": 0.13878707587718964,
      "learning_rate": 8e-05,
      "loss": 1.6036,
      "step": 1162
    },
    {
      "epoch": 0.38948425987943736,
      "grad_norm": 0.14113906025886536,
      "learning_rate": 8e-05,
      "loss": 1.5507,
      "step": 1163
    },
    {
      "epoch": 0.3898191560616209,
      "grad_norm": 0.132563516497612,
      "learning_rate": 8e-05,
      "loss": 1.5826,
      "step": 1164
    },
    {
      "epoch": 0.3901540522438044,
      "grad_norm": 0.13880528509616852,
      "learning_rate": 8e-05,
      "loss": 1.6727,
      "step": 1165
    },
    {
      "epoch": 0.39048894842598797,
      "grad_norm": 0.13337406516075134,
      "learning_rate": 8e-05,
      "loss": 1.5399,
      "step": 1166
    },
    {
      "epoch": 0.3908238446081715,
      "grad_norm": 0.12596063315868378,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 1167
    },
    {
      "epoch": 0.391158740790355,
      "grad_norm": 0.1401601880788803,
      "learning_rate": 8e-05,
      "loss": 1.6723,
      "step": 1168
    },
    {
      "epoch": 0.39149363697253853,
      "grad_norm": 0.12796922028064728,
      "learning_rate": 8e-05,
      "loss": 1.556,
      "step": 1169
    },
    {
      "epoch": 0.39182853315472205,
      "grad_norm": 0.13482894003391266,
      "learning_rate": 8e-05,
      "loss": 1.4868,
      "step": 1170
    },
    {
      "epoch": 0.39216342933690557,
      "grad_norm": 0.1379643976688385,
      "learning_rate": 8e-05,
      "loss": 1.6256,
      "step": 1171
    },
    {
      "epoch": 0.3924983255190891,
      "grad_norm": 0.13268958032131195,
      "learning_rate": 8e-05,
      "loss": 1.5614,
      "step": 1172
    },
    {
      "epoch": 0.3928332217012726,
      "grad_norm": 0.13827885687351227,
      "learning_rate": 8e-05,
      "loss": 1.5828,
      "step": 1173
    },
    {
      "epoch": 0.3931681178834561,
      "grad_norm": 0.13382618129253387,
      "learning_rate": 8e-05,
      "loss": 1.5655,
      "step": 1174
    },
    {
      "epoch": 0.39350301406563964,
      "grad_norm": 0.13518062233924866,
      "learning_rate": 8e-05,
      "loss": 1.5611,
      "step": 1175
    },
    {
      "epoch": 0.39383791024782316,
      "grad_norm": 0.13492681086063385,
      "learning_rate": 8e-05,
      "loss": 1.577,
      "step": 1176
    },
    {
      "epoch": 0.3941728064300067,
      "grad_norm": 0.14084433019161224,
      "learning_rate": 8e-05,
      "loss": 1.6479,
      "step": 1177
    },
    {
      "epoch": 0.3945077026121902,
      "grad_norm": 0.1283160150051117,
      "learning_rate": 8e-05,
      "loss": 1.5015,
      "step": 1178
    },
    {
      "epoch": 0.3948425987943737,
      "grad_norm": 0.13776694238185883,
      "learning_rate": 8e-05,
      "loss": 1.5543,
      "step": 1179
    },
    {
      "epoch": 0.39517749497655724,
      "grad_norm": 0.13658897578716278,
      "learning_rate": 8e-05,
      "loss": 1.5565,
      "step": 1180
    },
    {
      "epoch": 0.3955123911587408,
      "grad_norm": 0.12725140154361725,
      "learning_rate": 8e-05,
      "loss": 1.5266,
      "step": 1181
    },
    {
      "epoch": 0.39584728734092434,
      "grad_norm": 0.1309778094291687,
      "learning_rate": 8e-05,
      "loss": 1.6248,
      "step": 1182
    },
    {
      "epoch": 0.39618218352310786,
      "grad_norm": 0.13276833295822144,
      "learning_rate": 8e-05,
      "loss": 1.5631,
      "step": 1183
    },
    {
      "epoch": 0.3965170797052914,
      "grad_norm": 0.13787959516048431,
      "learning_rate": 8e-05,
      "loss": 1.5334,
      "step": 1184
    },
    {
      "epoch": 0.3968519758874749,
      "grad_norm": 0.13021349906921387,
      "learning_rate": 8e-05,
      "loss": 1.5271,
      "step": 1185
    },
    {
      "epoch": 0.3971868720696584,
      "grad_norm": 0.13065333664417267,
      "learning_rate": 8e-05,
      "loss": 1.5312,
      "step": 1186
    },
    {
      "epoch": 0.39752176825184193,
      "grad_norm": 0.13351675868034363,
      "learning_rate": 8e-05,
      "loss": 1.5729,
      "step": 1187
    },
    {
      "epoch": 0.39785666443402545,
      "grad_norm": 0.13563372194766998,
      "learning_rate": 8e-05,
      "loss": 1.5339,
      "step": 1188
    },
    {
      "epoch": 0.398191560616209,
      "grad_norm": 0.1248985007405281,
      "learning_rate": 8e-05,
      "loss": 1.5594,
      "step": 1189
    },
    {
      "epoch": 0.3985264567983925,
      "grad_norm": 0.13976463675498962,
      "learning_rate": 8e-05,
      "loss": 1.5429,
      "step": 1190
    },
    {
      "epoch": 0.398861352980576,
      "grad_norm": 0.13962264358997345,
      "learning_rate": 8e-05,
      "loss": 1.4785,
      "step": 1191
    },
    {
      "epoch": 0.39919624916275953,
      "grad_norm": 0.13473886251449585,
      "learning_rate": 8e-05,
      "loss": 1.5042,
      "step": 1192
    },
    {
      "epoch": 0.39953114534494305,
      "grad_norm": 0.14025826752185822,
      "learning_rate": 8e-05,
      "loss": 1.6548,
      "step": 1193
    },
    {
      "epoch": 0.39986604152712657,
      "grad_norm": 0.12817798554897308,
      "learning_rate": 8e-05,
      "loss": 1.5828,
      "step": 1194
    },
    {
      "epoch": 0.4002009377093101,
      "grad_norm": 0.13231943547725677,
      "learning_rate": 8e-05,
      "loss": 1.5031,
      "step": 1195
    },
    {
      "epoch": 0.40053583389149366,
      "grad_norm": 0.1383522003889084,
      "learning_rate": 8e-05,
      "loss": 1.5626,
      "step": 1196
    },
    {
      "epoch": 0.4008707300736772,
      "grad_norm": 0.1256883293390274,
      "learning_rate": 8e-05,
      "loss": 1.5539,
      "step": 1197
    },
    {
      "epoch": 0.4012056262558607,
      "grad_norm": 0.1358519196510315,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1198
    },
    {
      "epoch": 0.4015405224380442,
      "grad_norm": 0.13180354237556458,
      "learning_rate": 8e-05,
      "loss": 1.5602,
      "step": 1199
    },
    {
      "epoch": 0.40187541862022774,
      "grad_norm": 0.1301676332950592,
      "learning_rate": 8e-05,
      "loss": 1.5081,
      "step": 1200
    },
    {
      "epoch": 0.40221031480241126,
      "grad_norm": 0.13487569987773895,
      "learning_rate": 8e-05,
      "loss": 1.5951,
      "step": 1201
    },
    {
      "epoch": 0.4025452109845948,
      "grad_norm": 0.13668543100357056,
      "learning_rate": 8e-05,
      "loss": 1.6816,
      "step": 1202
    },
    {
      "epoch": 0.4028801071667783,
      "grad_norm": 0.12781603634357452,
      "learning_rate": 8e-05,
      "loss": 1.4886,
      "step": 1203
    },
    {
      "epoch": 0.4032150033489618,
      "grad_norm": 0.12808437645435333,
      "learning_rate": 8e-05,
      "loss": 1.4843,
      "step": 1204
    },
    {
      "epoch": 0.40354989953114534,
      "grad_norm": 0.1331264227628708,
      "learning_rate": 8e-05,
      "loss": 1.652,
      "step": 1205
    },
    {
      "epoch": 0.40388479571332886,
      "grad_norm": 0.13887585699558258,
      "learning_rate": 8e-05,
      "loss": 1.5962,
      "step": 1206
    },
    {
      "epoch": 0.4042196918955124,
      "grad_norm": 0.12996335327625275,
      "learning_rate": 8e-05,
      "loss": 1.5466,
      "step": 1207
    },
    {
      "epoch": 0.4045545880776959,
      "grad_norm": 0.1420496553182602,
      "learning_rate": 8e-05,
      "loss": 1.5718,
      "step": 1208
    },
    {
      "epoch": 0.4048894842598794,
      "grad_norm": 0.1350606083869934,
      "learning_rate": 8e-05,
      "loss": 1.5676,
      "step": 1209
    },
    {
      "epoch": 0.40522438044206294,
      "grad_norm": 0.1366005837917328,
      "learning_rate": 8e-05,
      "loss": 1.6442,
      "step": 1210
    },
    {
      "epoch": 0.40555927662424646,
      "grad_norm": 0.13252577185630798,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 1211
    },
    {
      "epoch": 0.40589417280643003,
      "grad_norm": 0.1411760002374649,
      "learning_rate": 8e-05,
      "loss": 1.644,
      "step": 1212
    },
    {
      "epoch": 0.40622906898861355,
      "grad_norm": 0.13116455078125,
      "learning_rate": 8e-05,
      "loss": 1.488,
      "step": 1213
    },
    {
      "epoch": 0.40656396517079707,
      "grad_norm": 0.13370366394519806,
      "learning_rate": 8e-05,
      "loss": 1.62,
      "step": 1214
    },
    {
      "epoch": 0.4068988613529806,
      "grad_norm": 0.13314536213874817,
      "learning_rate": 8e-05,
      "loss": 1.5358,
      "step": 1215
    },
    {
      "epoch": 0.4072337575351641,
      "grad_norm": 0.1300952434539795,
      "learning_rate": 8e-05,
      "loss": 1.514,
      "step": 1216
    },
    {
      "epoch": 0.40756865371734763,
      "grad_norm": 0.13644681870937347,
      "learning_rate": 8e-05,
      "loss": 1.5784,
      "step": 1217
    },
    {
      "epoch": 0.40790354989953115,
      "grad_norm": 0.12972596287727356,
      "learning_rate": 8e-05,
      "loss": 1.5914,
      "step": 1218
    },
    {
      "epoch": 0.40823844608171467,
      "grad_norm": 0.13242173194885254,
      "learning_rate": 8e-05,
      "loss": 1.591,
      "step": 1219
    },
    {
      "epoch": 0.4085733422638982,
      "grad_norm": 0.13071291148662567,
      "learning_rate": 8e-05,
      "loss": 1.5302,
      "step": 1220
    },
    {
      "epoch": 0.4089082384460817,
      "grad_norm": 0.12986306846141815,
      "learning_rate": 8e-05,
      "loss": 1.514,
      "step": 1221
    },
    {
      "epoch": 0.4092431346282652,
      "grad_norm": 0.13040059804916382,
      "learning_rate": 8e-05,
      "loss": 1.4565,
      "step": 1222
    },
    {
      "epoch": 0.40957803081044875,
      "grad_norm": 0.13659396767616272,
      "learning_rate": 8e-05,
      "loss": 1.4696,
      "step": 1223
    },
    {
      "epoch": 0.40991292699263226,
      "grad_norm": 0.14554129540920258,
      "learning_rate": 8e-05,
      "loss": 1.5878,
      "step": 1224
    },
    {
      "epoch": 0.4102478231748158,
      "grad_norm": 0.14104045927524567,
      "learning_rate": 8e-05,
      "loss": 1.654,
      "step": 1225
    },
    {
      "epoch": 0.4105827193569993,
      "grad_norm": 0.12948858737945557,
      "learning_rate": 8e-05,
      "loss": 1.4943,
      "step": 1226
    },
    {
      "epoch": 0.4109176155391829,
      "grad_norm": 0.1352463662624359,
      "learning_rate": 8e-05,
      "loss": 1.387,
      "step": 1227
    },
    {
      "epoch": 0.4112525117213664,
      "grad_norm": 0.14293281733989716,
      "learning_rate": 8e-05,
      "loss": 1.4578,
      "step": 1228
    },
    {
      "epoch": 0.4115874079035499,
      "grad_norm": 0.1293664574623108,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 1229
    },
    {
      "epoch": 0.41192230408573344,
      "grad_norm": 0.1399645358324051,
      "learning_rate": 8e-05,
      "loss": 1.5716,
      "step": 1230
    },
    {
      "epoch": 0.41225720026791696,
      "grad_norm": 0.1449621617794037,
      "learning_rate": 8e-05,
      "loss": 1.596,
      "step": 1231
    },
    {
      "epoch": 0.4125920964501005,
      "grad_norm": 0.13978311419487,
      "learning_rate": 8e-05,
      "loss": 1.6096,
      "step": 1232
    },
    {
      "epoch": 0.412926992632284,
      "grad_norm": 0.14420388638973236,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 1233
    },
    {
      "epoch": 0.4132618888144675,
      "grad_norm": 0.13374017179012299,
      "learning_rate": 8e-05,
      "loss": 1.5349,
      "step": 1234
    },
    {
      "epoch": 0.41359678499665103,
      "grad_norm": 0.1422153264284134,
      "learning_rate": 8e-05,
      "loss": 1.5708,
      "step": 1235
    },
    {
      "epoch": 0.41393168117883455,
      "grad_norm": 0.1402144879102707,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 1236
    },
    {
      "epoch": 0.4142665773610181,
      "grad_norm": 0.13241547346115112,
      "learning_rate": 8e-05,
      "loss": 1.5457,
      "step": 1237
    },
    {
      "epoch": 0.4146014735432016,
      "grad_norm": 0.13132508099079132,
      "learning_rate": 8e-05,
      "loss": 1.5336,
      "step": 1238
    },
    {
      "epoch": 0.4149363697253851,
      "grad_norm": 0.14239582419395447,
      "learning_rate": 8e-05,
      "loss": 1.5836,
      "step": 1239
    },
    {
      "epoch": 0.41527126590756863,
      "grad_norm": 0.13724124431610107,
      "learning_rate": 8e-05,
      "loss": 1.5726,
      "step": 1240
    },
    {
      "epoch": 0.41560616208975215,
      "grad_norm": 0.13699758052825928,
      "learning_rate": 8e-05,
      "loss": 1.5187,
      "step": 1241
    },
    {
      "epoch": 0.4159410582719357,
      "grad_norm": 0.17082099616527557,
      "learning_rate": 8e-05,
      "loss": 1.7157,
      "step": 1242
    },
    {
      "epoch": 0.41627595445411925,
      "grad_norm": 0.128647118806839,
      "learning_rate": 8e-05,
      "loss": 1.5101,
      "step": 1243
    },
    {
      "epoch": 0.41661085063630277,
      "grad_norm": 0.15654276311397552,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 1244
    },
    {
      "epoch": 0.4169457468184863,
      "grad_norm": 0.14728593826293945,
      "learning_rate": 8e-05,
      "loss": 1.5841,
      "step": 1245
    },
    {
      "epoch": 0.4172806430006698,
      "grad_norm": 0.1353878527879715,
      "learning_rate": 8e-05,
      "loss": 1.5802,
      "step": 1246
    },
    {
      "epoch": 0.4176155391828533,
      "grad_norm": 0.1424916833639145,
      "learning_rate": 8e-05,
      "loss": 1.5134,
      "step": 1247
    },
    {
      "epoch": 0.41795043536503684,
      "grad_norm": 0.14680534601211548,
      "learning_rate": 8e-05,
      "loss": 1.6086,
      "step": 1248
    },
    {
      "epoch": 0.41828533154722036,
      "grad_norm": 0.13519461452960968,
      "learning_rate": 8e-05,
      "loss": 1.5805,
      "step": 1249
    },
    {
      "epoch": 0.4186202277294039,
      "grad_norm": 0.15308713912963867,
      "learning_rate": 8e-05,
      "loss": 1.5777,
      "step": 1250
    },
    {
      "epoch": 0.4189551239115874,
      "grad_norm": 0.13519178330898285,
      "learning_rate": 8e-05,
      "loss": 1.4928,
      "step": 1251
    },
    {
      "epoch": 0.4192900200937709,
      "grad_norm": 0.13154390454292297,
      "learning_rate": 8e-05,
      "loss": 1.5996,
      "step": 1252
    },
    {
      "epoch": 0.41962491627595444,
      "grad_norm": 0.13077570497989655,
      "learning_rate": 8e-05,
      "loss": 1.5076,
      "step": 1253
    },
    {
      "epoch": 0.41995981245813796,
      "grad_norm": 0.13853789865970612,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 1254
    },
    {
      "epoch": 0.4202947086403215,
      "grad_norm": 0.14276766777038574,
      "learning_rate": 8e-05,
      "loss": 1.6323,
      "step": 1255
    },
    {
      "epoch": 0.420629604822505,
      "grad_norm": 0.13965216279029846,
      "learning_rate": 8e-05,
      "loss": 1.4746,
      "step": 1256
    },
    {
      "epoch": 0.4209645010046886,
      "grad_norm": 0.14600685238838196,
      "learning_rate": 8e-05,
      "loss": 1.5237,
      "step": 1257
    },
    {
      "epoch": 0.4212993971868721,
      "grad_norm": 0.14251555502414703,
      "learning_rate": 8e-05,
      "loss": 1.6755,
      "step": 1258
    },
    {
      "epoch": 0.4216342933690556,
      "grad_norm": 0.13369220495224,
      "learning_rate": 8e-05,
      "loss": 1.5669,
      "step": 1259
    },
    {
      "epoch": 0.42196918955123913,
      "grad_norm": 0.15930430591106415,
      "learning_rate": 8e-05,
      "loss": 1.6364,
      "step": 1260
    },
    {
      "epoch": 0.42230408573342265,
      "grad_norm": 0.13117483258247375,
      "learning_rate": 8e-05,
      "loss": 1.5397,
      "step": 1261
    },
    {
      "epoch": 0.42263898191560617,
      "grad_norm": 0.12712416052818298,
      "learning_rate": 8e-05,
      "loss": 1.4281,
      "step": 1262
    },
    {
      "epoch": 0.4229738780977897,
      "grad_norm": 0.14871305227279663,
      "learning_rate": 8e-05,
      "loss": 1.5036,
      "step": 1263
    },
    {
      "epoch": 0.4233087742799732,
      "grad_norm": 0.14146003127098083,
      "learning_rate": 8e-05,
      "loss": 1.6105,
      "step": 1264
    },
    {
      "epoch": 0.42364367046215673,
      "grad_norm": 0.14092212915420532,
      "learning_rate": 8e-05,
      "loss": 1.5456,
      "step": 1265
    },
    {
      "epoch": 0.42397856664434025,
      "grad_norm": 0.14865554869174957,
      "learning_rate": 8e-05,
      "loss": 1.6076,
      "step": 1266
    },
    {
      "epoch": 0.42431346282652377,
      "grad_norm": 0.1298450529575348,
      "learning_rate": 8e-05,
      "loss": 1.544,
      "step": 1267
    },
    {
      "epoch": 0.4246483590087073,
      "grad_norm": 0.13525591790676117,
      "learning_rate": 8e-05,
      "loss": 1.6177,
      "step": 1268
    },
    {
      "epoch": 0.4249832551908908,
      "grad_norm": 0.13748937845230103,
      "learning_rate": 8e-05,
      "loss": 1.6163,
      "step": 1269
    },
    {
      "epoch": 0.4253181513730743,
      "grad_norm": 0.1303958296775818,
      "learning_rate": 8e-05,
      "loss": 1.5386,
      "step": 1270
    },
    {
      "epoch": 0.42565304755525785,
      "grad_norm": 0.12875042855739594,
      "learning_rate": 8e-05,
      "loss": 1.5445,
      "step": 1271
    },
    {
      "epoch": 0.42598794373744137,
      "grad_norm": 0.14172813296318054,
      "learning_rate": 8e-05,
      "loss": 1.6845,
      "step": 1272
    },
    {
      "epoch": 0.42632283991962494,
      "grad_norm": 0.13836611807346344,
      "learning_rate": 8e-05,
      "loss": 1.6045,
      "step": 1273
    },
    {
      "epoch": 0.42665773610180846,
      "grad_norm": 0.14205503463745117,
      "learning_rate": 8e-05,
      "loss": 1.5918,
      "step": 1274
    },
    {
      "epoch": 0.426992632283992,
      "grad_norm": 0.14322008192539215,
      "learning_rate": 8e-05,
      "loss": 1.4622,
      "step": 1275
    },
    {
      "epoch": 0.4273275284661755,
      "grad_norm": 0.12766124308109283,
      "learning_rate": 8e-05,
      "loss": 1.5642,
      "step": 1276
    },
    {
      "epoch": 0.427662424648359,
      "grad_norm": 0.1323024481534958,
      "learning_rate": 8e-05,
      "loss": 1.4495,
      "step": 1277
    },
    {
      "epoch": 0.42799732083054254,
      "grad_norm": 0.13960140943527222,
      "learning_rate": 8e-05,
      "loss": 1.5384,
      "step": 1278
    },
    {
      "epoch": 0.42833221701272606,
      "grad_norm": 0.12913861870765686,
      "learning_rate": 8e-05,
      "loss": 1.559,
      "step": 1279
    },
    {
      "epoch": 0.4286671131949096,
      "grad_norm": 0.13209496438503265,
      "learning_rate": 8e-05,
      "loss": 1.5837,
      "step": 1280
    },
    {
      "epoch": 0.4290020093770931,
      "grad_norm": 0.12498530745506287,
      "learning_rate": 8e-05,
      "loss": 1.3751,
      "step": 1281
    },
    {
      "epoch": 0.4293369055592766,
      "grad_norm": 0.13544778525829315,
      "learning_rate": 8e-05,
      "loss": 1.6104,
      "step": 1282
    },
    {
      "epoch": 0.42967180174146014,
      "grad_norm": 0.12769560515880585,
      "learning_rate": 8e-05,
      "loss": 1.5119,
      "step": 1283
    },
    {
      "epoch": 0.43000669792364365,
      "grad_norm": 0.13009239733219147,
      "learning_rate": 8e-05,
      "loss": 1.4844,
      "step": 1284
    },
    {
      "epoch": 0.4303415941058272,
      "grad_norm": 0.13427326083183289,
      "learning_rate": 8e-05,
      "loss": 1.5223,
      "step": 1285
    },
    {
      "epoch": 0.4306764902880107,
      "grad_norm": 0.1302190124988556,
      "learning_rate": 8e-05,
      "loss": 1.5103,
      "step": 1286
    },
    {
      "epoch": 0.4310113864701942,
      "grad_norm": 0.12717559933662415,
      "learning_rate": 8e-05,
      "loss": 1.5307,
      "step": 1287
    },
    {
      "epoch": 0.4313462826523778,
      "grad_norm": 0.13607282936573029,
      "learning_rate": 8e-05,
      "loss": 1.5621,
      "step": 1288
    },
    {
      "epoch": 0.4316811788345613,
      "grad_norm": 0.12742941081523895,
      "learning_rate": 8e-05,
      "loss": 1.511,
      "step": 1289
    },
    {
      "epoch": 0.4320160750167448,
      "grad_norm": 0.13899365067481995,
      "learning_rate": 8e-05,
      "loss": 1.6462,
      "step": 1290
    },
    {
      "epoch": 0.43235097119892835,
      "grad_norm": 0.13417717814445496,
      "learning_rate": 8e-05,
      "loss": 1.5406,
      "step": 1291
    },
    {
      "epoch": 0.43268586738111187,
      "grad_norm": 0.1292065978050232,
      "learning_rate": 8e-05,
      "loss": 1.4219,
      "step": 1292
    },
    {
      "epoch": 0.4330207635632954,
      "grad_norm": 0.13929469883441925,
      "learning_rate": 8e-05,
      "loss": 1.5843,
      "step": 1293
    },
    {
      "epoch": 0.4333556597454789,
      "grad_norm": 0.13504743576049805,
      "learning_rate": 8e-05,
      "loss": 1.6271,
      "step": 1294
    },
    {
      "epoch": 0.4336905559276624,
      "grad_norm": 0.1381644457578659,
      "learning_rate": 8e-05,
      "loss": 1.6522,
      "step": 1295
    },
    {
      "epoch": 0.43402545210984594,
      "grad_norm": 0.13780899345874786,
      "learning_rate": 8e-05,
      "loss": 1.659,
      "step": 1296
    },
    {
      "epoch": 0.43436034829202946,
      "grad_norm": 0.12949301302433014,
      "learning_rate": 8e-05,
      "loss": 1.4664,
      "step": 1297
    },
    {
      "epoch": 0.434695244474213,
      "grad_norm": 0.13511043787002563,
      "learning_rate": 8e-05,
      "loss": 1.5178,
      "step": 1298
    },
    {
      "epoch": 0.4350301406563965,
      "grad_norm": 0.14083999395370483,
      "learning_rate": 8e-05,
      "loss": 1.6363,
      "step": 1299
    },
    {
      "epoch": 0.43536503683858,
      "grad_norm": 0.1469547152519226,
      "learning_rate": 8e-05,
      "loss": 1.5164,
      "step": 1300
    },
    {
      "epoch": 0.43569993302076354,
      "grad_norm": 0.134847491979599,
      "learning_rate": 8e-05,
      "loss": 1.6383,
      "step": 1301
    },
    {
      "epoch": 0.43603482920294706,
      "grad_norm": 0.1417495161294937,
      "learning_rate": 8e-05,
      "loss": 1.5329,
      "step": 1302
    },
    {
      "epoch": 0.43636972538513064,
      "grad_norm": 0.13557201623916626,
      "learning_rate": 8e-05,
      "loss": 1.5445,
      "step": 1303
    },
    {
      "epoch": 0.43670462156731416,
      "grad_norm": 0.14819276332855225,
      "learning_rate": 8e-05,
      "loss": 1.5704,
      "step": 1304
    },
    {
      "epoch": 0.4370395177494977,
      "grad_norm": 0.13040944933891296,
      "learning_rate": 8e-05,
      "loss": 1.4684,
      "step": 1305
    },
    {
      "epoch": 0.4373744139316812,
      "grad_norm": 0.13241027295589447,
      "learning_rate": 8e-05,
      "loss": 1.5604,
      "step": 1306
    },
    {
      "epoch": 0.4377093101138647,
      "grad_norm": 0.14217562973499298,
      "learning_rate": 8e-05,
      "loss": 1.5176,
      "step": 1307
    },
    {
      "epoch": 0.43804420629604823,
      "grad_norm": 0.13327080011367798,
      "learning_rate": 8e-05,
      "loss": 1.5939,
      "step": 1308
    },
    {
      "epoch": 0.43837910247823175,
      "grad_norm": 0.13672107458114624,
      "learning_rate": 8e-05,
      "loss": 1.5175,
      "step": 1309
    },
    {
      "epoch": 0.43871399866041527,
      "grad_norm": 0.13439275324344635,
      "learning_rate": 8e-05,
      "loss": 1.5795,
      "step": 1310
    },
    {
      "epoch": 0.4390488948425988,
      "grad_norm": 0.13829827308654785,
      "learning_rate": 8e-05,
      "loss": 1.6001,
      "step": 1311
    },
    {
      "epoch": 0.4393837910247823,
      "grad_norm": 0.13784633576869965,
      "learning_rate": 8e-05,
      "loss": 1.6438,
      "step": 1312
    },
    {
      "epoch": 0.43971868720696583,
      "grad_norm": 0.13439945876598358,
      "learning_rate": 8e-05,
      "loss": 1.5891,
      "step": 1313
    },
    {
      "epoch": 0.44005358338914935,
      "grad_norm": 0.13452744483947754,
      "learning_rate": 8e-05,
      "loss": 1.6023,
      "step": 1314
    },
    {
      "epoch": 0.44038847957133287,
      "grad_norm": 0.1356423795223236,
      "learning_rate": 8e-05,
      "loss": 1.5119,
      "step": 1315
    },
    {
      "epoch": 0.4407233757535164,
      "grad_norm": 0.13023285567760468,
      "learning_rate": 8e-05,
      "loss": 1.5678,
      "step": 1316
    },
    {
      "epoch": 0.4410582719356999,
      "grad_norm": 0.14305801689624786,
      "learning_rate": 8e-05,
      "loss": 1.5137,
      "step": 1317
    },
    {
      "epoch": 0.4413931681178835,
      "grad_norm": 0.1327752023935318,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 1318
    },
    {
      "epoch": 0.441728064300067,
      "grad_norm": 0.14438307285308838,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 1319
    },
    {
      "epoch": 0.4420629604822505,
      "grad_norm": 0.12700924277305603,
      "learning_rate": 8e-05,
      "loss": 1.5378,
      "step": 1320
    },
    {
      "epoch": 0.44239785666443404,
      "grad_norm": 0.1328950673341751,
      "learning_rate": 8e-05,
      "loss": 1.5065,
      "step": 1321
    },
    {
      "epoch": 0.44273275284661756,
      "grad_norm": 0.1400187760591507,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 1322
    },
    {
      "epoch": 0.4430676490288011,
      "grad_norm": 0.12969578802585602,
      "learning_rate": 8e-05,
      "loss": 1.5613,
      "step": 1323
    },
    {
      "epoch": 0.4434025452109846,
      "grad_norm": 0.13152474164962769,
      "learning_rate": 8e-05,
      "loss": 1.4878,
      "step": 1324
    },
    {
      "epoch": 0.4437374413931681,
      "grad_norm": 0.13225392997264862,
      "learning_rate": 8e-05,
      "loss": 1.5228,
      "step": 1325
    },
    {
      "epoch": 0.44407233757535164,
      "grad_norm": 0.13005337119102478,
      "learning_rate": 8e-05,
      "loss": 1.4784,
      "step": 1326
    },
    {
      "epoch": 0.44440723375753516,
      "grad_norm": 0.1410362720489502,
      "learning_rate": 8e-05,
      "loss": 1.616,
      "step": 1327
    },
    {
      "epoch": 0.4447421299397187,
      "grad_norm": 0.13921311497688293,
      "learning_rate": 8e-05,
      "loss": 1.5406,
      "step": 1328
    },
    {
      "epoch": 0.4450770261219022,
      "grad_norm": 0.1336551457643509,
      "learning_rate": 8e-05,
      "loss": 1.6145,
      "step": 1329
    },
    {
      "epoch": 0.4454119223040857,
      "grad_norm": 0.13398587703704834,
      "learning_rate": 8e-05,
      "loss": 1.5375,
      "step": 1330
    },
    {
      "epoch": 0.44574681848626924,
      "grad_norm": 0.13424965739250183,
      "learning_rate": 8e-05,
      "loss": 1.6101,
      "step": 1331
    },
    {
      "epoch": 0.44608171466845276,
      "grad_norm": 0.13913105428218842,
      "learning_rate": 8e-05,
      "loss": 1.5591,
      "step": 1332
    },
    {
      "epoch": 0.4464166108506363,
      "grad_norm": 0.13512229919433594,
      "learning_rate": 8e-05,
      "loss": 1.4981,
      "step": 1333
    },
    {
      "epoch": 0.44675150703281985,
      "grad_norm": 0.12680667638778687,
      "learning_rate": 8e-05,
      "loss": 1.4973,
      "step": 1334
    },
    {
      "epoch": 0.44708640321500337,
      "grad_norm": 0.12895867228507996,
      "learning_rate": 8e-05,
      "loss": 1.4835,
      "step": 1335
    },
    {
      "epoch": 0.4474212993971869,
      "grad_norm": 0.14138439297676086,
      "learning_rate": 8e-05,
      "loss": 1.5835,
      "step": 1336
    },
    {
      "epoch": 0.4477561955793704,
      "grad_norm": 0.1370331346988678,
      "learning_rate": 8e-05,
      "loss": 1.5349,
      "step": 1337
    },
    {
      "epoch": 0.44809109176155393,
      "grad_norm": 0.14024852216243744,
      "learning_rate": 8e-05,
      "loss": 1.5823,
      "step": 1338
    },
    {
      "epoch": 0.44842598794373745,
      "grad_norm": 0.14099976420402527,
      "learning_rate": 8e-05,
      "loss": 1.5966,
      "step": 1339
    },
    {
      "epoch": 0.44876088412592097,
      "grad_norm": 0.14149165153503418,
      "learning_rate": 8e-05,
      "loss": 1.5119,
      "step": 1340
    },
    {
      "epoch": 0.4490957803081045,
      "grad_norm": 0.1511516273021698,
      "learning_rate": 8e-05,
      "loss": 1.5339,
      "step": 1341
    },
    {
      "epoch": 0.449430676490288,
      "grad_norm": 0.12945909798145294,
      "learning_rate": 8e-05,
      "loss": 1.5725,
      "step": 1342
    },
    {
      "epoch": 0.4497655726724715,
      "grad_norm": 0.13771729171276093,
      "learning_rate": 8e-05,
      "loss": 1.5842,
      "step": 1343
    },
    {
      "epoch": 0.45010046885465504,
      "grad_norm": 0.14708411693572998,
      "learning_rate": 8e-05,
      "loss": 1.63,
      "step": 1344
    },
    {
      "epoch": 0.45043536503683856,
      "grad_norm": 0.13427825272083282,
      "learning_rate": 8e-05,
      "loss": 1.5629,
      "step": 1345
    },
    {
      "epoch": 0.4507702612190221,
      "grad_norm": 0.1329602152109146,
      "learning_rate": 8e-05,
      "loss": 1.5201,
      "step": 1346
    },
    {
      "epoch": 0.4511051574012056,
      "grad_norm": 0.13899549841880798,
      "learning_rate": 8e-05,
      "loss": 1.5615,
      "step": 1347
    },
    {
      "epoch": 0.4514400535833891,
      "grad_norm": 0.12686842679977417,
      "learning_rate": 8e-05,
      "loss": 1.4944,
      "step": 1348
    },
    {
      "epoch": 0.4517749497655727,
      "grad_norm": 0.13276571035385132,
      "learning_rate": 8e-05,
      "loss": 1.6482,
      "step": 1349
    },
    {
      "epoch": 0.4521098459477562,
      "grad_norm": 0.13458581268787384,
      "learning_rate": 8e-05,
      "loss": 1.5624,
      "step": 1350
    },
    {
      "epoch": 0.45244474212993974,
      "grad_norm": 0.13147974014282227,
      "learning_rate": 8e-05,
      "loss": 1.5357,
      "step": 1351
    },
    {
      "epoch": 0.45277963831212326,
      "grad_norm": 0.13537093997001648,
      "learning_rate": 8e-05,
      "loss": 1.5575,
      "step": 1352
    },
    {
      "epoch": 0.4531145344943068,
      "grad_norm": 0.13420267403125763,
      "learning_rate": 8e-05,
      "loss": 1.5663,
      "step": 1353
    },
    {
      "epoch": 0.4534494306764903,
      "grad_norm": 0.12978173792362213,
      "learning_rate": 8e-05,
      "loss": 1.5651,
      "step": 1354
    },
    {
      "epoch": 0.4537843268586738,
      "grad_norm": 0.12708374857902527,
      "learning_rate": 8e-05,
      "loss": 1.4671,
      "step": 1355
    },
    {
      "epoch": 0.45411922304085733,
      "grad_norm": 0.12995675206184387,
      "learning_rate": 8e-05,
      "loss": 1.402,
      "step": 1356
    },
    {
      "epoch": 0.45445411922304085,
      "grad_norm": 0.12922991812229156,
      "learning_rate": 8e-05,
      "loss": 1.5254,
      "step": 1357
    },
    {
      "epoch": 0.4547890154052244,
      "grad_norm": 0.13749176263809204,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 1358
    },
    {
      "epoch": 0.4551239115874079,
      "grad_norm": 0.13622784614562988,
      "learning_rate": 8e-05,
      "loss": 1.6766,
      "step": 1359
    },
    {
      "epoch": 0.4554588077695914,
      "grad_norm": 0.13433393836021423,
      "learning_rate": 8e-05,
      "loss": 1.594,
      "step": 1360
    },
    {
      "epoch": 0.45579370395177493,
      "grad_norm": 0.14424262940883636,
      "learning_rate": 8e-05,
      "loss": 1.5488,
      "step": 1361
    },
    {
      "epoch": 0.45612860013395845,
      "grad_norm": 0.13810984790325165,
      "learning_rate": 8e-05,
      "loss": 1.5217,
      "step": 1362
    },
    {
      "epoch": 0.45646349631614197,
      "grad_norm": 0.13262732326984406,
      "learning_rate": 8e-05,
      "loss": 1.5769,
      "step": 1363
    },
    {
      "epoch": 0.45679839249832555,
      "grad_norm": 0.14239387214183807,
      "learning_rate": 8e-05,
      "loss": 1.6405,
      "step": 1364
    },
    {
      "epoch": 0.45713328868050906,
      "grad_norm": 0.14274823665618896,
      "learning_rate": 8e-05,
      "loss": 1.6128,
      "step": 1365
    },
    {
      "epoch": 0.4574681848626926,
      "grad_norm": 0.13194583356380463,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 1366
    },
    {
      "epoch": 0.4578030810448761,
      "grad_norm": 0.13871599733829498,
      "learning_rate": 8e-05,
      "loss": 1.5888,
      "step": 1367
    },
    {
      "epoch": 0.4581379772270596,
      "grad_norm": 0.13590937852859497,
      "learning_rate": 8e-05,
      "loss": 1.5714,
      "step": 1368
    },
    {
      "epoch": 0.45847287340924314,
      "grad_norm": 0.136251762509346,
      "learning_rate": 8e-05,
      "loss": 1.5623,
      "step": 1369
    },
    {
      "epoch": 0.45880776959142666,
      "grad_norm": 0.12937405705451965,
      "learning_rate": 8e-05,
      "loss": 1.4741,
      "step": 1370
    },
    {
      "epoch": 0.4591426657736102,
      "grad_norm": 0.13569459319114685,
      "learning_rate": 8e-05,
      "loss": 1.549,
      "step": 1371
    },
    {
      "epoch": 0.4594775619557937,
      "grad_norm": 0.1381871998310089,
      "learning_rate": 8e-05,
      "loss": 1.4626,
      "step": 1372
    },
    {
      "epoch": 0.4598124581379772,
      "grad_norm": 0.12484827637672424,
      "learning_rate": 8e-05,
      "loss": 1.4575,
      "step": 1373
    },
    {
      "epoch": 0.46014735432016074,
      "grad_norm": 0.13371463119983673,
      "learning_rate": 8e-05,
      "loss": 1.4729,
      "step": 1374
    },
    {
      "epoch": 0.46048225050234426,
      "grad_norm": 0.14049986004829407,
      "learning_rate": 8e-05,
      "loss": 1.5547,
      "step": 1375
    },
    {
      "epoch": 0.4608171466845278,
      "grad_norm": 0.13547277450561523,
      "learning_rate": 8e-05,
      "loss": 1.6236,
      "step": 1376
    },
    {
      "epoch": 0.4611520428667113,
      "grad_norm": 0.13160713016986847,
      "learning_rate": 8e-05,
      "loss": 1.4182,
      "step": 1377
    },
    {
      "epoch": 0.4614869390488948,
      "grad_norm": 0.14836764335632324,
      "learning_rate": 8e-05,
      "loss": 1.569,
      "step": 1378
    },
    {
      "epoch": 0.4618218352310784,
      "grad_norm": 0.1358698159456253,
      "learning_rate": 8e-05,
      "loss": 1.5104,
      "step": 1379
    },
    {
      "epoch": 0.4621567314132619,
      "grad_norm": 0.15062221884727478,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 1380
    },
    {
      "epoch": 0.46249162759544543,
      "grad_norm": 0.13700494170188904,
      "learning_rate": 8e-05,
      "loss": 1.5096,
      "step": 1381
    },
    {
      "epoch": 0.46282652377762895,
      "grad_norm": 0.13646738231182098,
      "learning_rate": 8e-05,
      "loss": 1.5596,
      "step": 1382
    },
    {
      "epoch": 0.46316141995981247,
      "grad_norm": 0.13588888943195343,
      "learning_rate": 8e-05,
      "loss": 1.5938,
      "step": 1383
    },
    {
      "epoch": 0.463496316141996,
      "grad_norm": 0.13292071223258972,
      "learning_rate": 8e-05,
      "loss": 1.5596,
      "step": 1384
    },
    {
      "epoch": 0.4638312123241795,
      "grad_norm": 0.1349012702703476,
      "learning_rate": 8e-05,
      "loss": 1.5821,
      "step": 1385
    },
    {
      "epoch": 0.46416610850636303,
      "grad_norm": 0.13228747248649597,
      "learning_rate": 8e-05,
      "loss": 1.5095,
      "step": 1386
    },
    {
      "epoch": 0.46450100468854655,
      "grad_norm": 0.1352642923593521,
      "learning_rate": 8e-05,
      "loss": 1.5907,
      "step": 1387
    },
    {
      "epoch": 0.46483590087073007,
      "grad_norm": 0.1373470574617386,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 1388
    },
    {
      "epoch": 0.4651707970529136,
      "grad_norm": 0.13355818390846252,
      "learning_rate": 8e-05,
      "loss": 1.5833,
      "step": 1389
    },
    {
      "epoch": 0.4655056932350971,
      "grad_norm": 0.12650242447853088,
      "learning_rate": 8e-05,
      "loss": 1.4826,
      "step": 1390
    },
    {
      "epoch": 0.4658405894172806,
      "grad_norm": 0.13307027518749237,
      "learning_rate": 8e-05,
      "loss": 1.4788,
      "step": 1391
    },
    {
      "epoch": 0.46617548559946415,
      "grad_norm": 0.13566753268241882,
      "learning_rate": 8e-05,
      "loss": 1.5419,
      "step": 1392
    },
    {
      "epoch": 0.46651038178164767,
      "grad_norm": 0.1325606107711792,
      "learning_rate": 8e-05,
      "loss": 1.5573,
      "step": 1393
    },
    {
      "epoch": 0.46684527796383124,
      "grad_norm": 0.1306782364845276,
      "learning_rate": 8e-05,
      "loss": 1.4934,
      "step": 1394
    },
    {
      "epoch": 0.46718017414601476,
      "grad_norm": 0.14358948171138763,
      "learning_rate": 8e-05,
      "loss": 1.6687,
      "step": 1395
    },
    {
      "epoch": 0.4675150703281983,
      "grad_norm": 0.12763692438602448,
      "learning_rate": 8e-05,
      "loss": 1.5616,
      "step": 1396
    },
    {
      "epoch": 0.4678499665103818,
      "grad_norm": 0.15241365134716034,
      "learning_rate": 8e-05,
      "loss": 1.6288,
      "step": 1397
    },
    {
      "epoch": 0.4681848626925653,
      "grad_norm": 0.12833240628242493,
      "learning_rate": 8e-05,
      "loss": 1.5015,
      "step": 1398
    },
    {
      "epoch": 0.46851975887474884,
      "grad_norm": 0.14017948508262634,
      "learning_rate": 8e-05,
      "loss": 1.5492,
      "step": 1399
    },
    {
      "epoch": 0.46885465505693236,
      "grad_norm": 0.1317838877439499,
      "learning_rate": 8e-05,
      "loss": 1.4151,
      "step": 1400
    },
    {
      "epoch": 0.4691895512391159,
      "grad_norm": 0.13451865315437317,
      "learning_rate": 8e-05,
      "loss": 1.5607,
      "step": 1401
    },
    {
      "epoch": 0.4695244474212994,
      "grad_norm": 0.14512667059898376,
      "learning_rate": 8e-05,
      "loss": 1.6353,
      "step": 1402
    },
    {
      "epoch": 0.4698593436034829,
      "grad_norm": 0.1329972743988037,
      "learning_rate": 8e-05,
      "loss": 1.5386,
      "step": 1403
    },
    {
      "epoch": 0.47019423978566643,
      "grad_norm": 0.14929285645484924,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 1404
    },
    {
      "epoch": 0.47052913596784995,
      "grad_norm": 0.13529764115810394,
      "learning_rate": 8e-05,
      "loss": 1.4863,
      "step": 1405
    },
    {
      "epoch": 0.4708640321500335,
      "grad_norm": 0.13484224677085876,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 1406
    },
    {
      "epoch": 0.471198928332217,
      "grad_norm": 0.13165660202503204,
      "learning_rate": 8e-05,
      "loss": 1.5281,
      "step": 1407
    },
    {
      "epoch": 0.4715338245144005,
      "grad_norm": 0.13174279034137726,
      "learning_rate": 8e-05,
      "loss": 1.4722,
      "step": 1408
    },
    {
      "epoch": 0.47186872069658403,
      "grad_norm": 0.13460150361061096,
      "learning_rate": 8e-05,
      "loss": 1.5053,
      "step": 1409
    },
    {
      "epoch": 0.4722036168787676,
      "grad_norm": 0.14085479080677032,
      "learning_rate": 8e-05,
      "loss": 1.6152,
      "step": 1410
    },
    {
      "epoch": 0.4725385130609511,
      "grad_norm": 0.13234712183475494,
      "learning_rate": 8e-05,
      "loss": 1.5792,
      "step": 1411
    },
    {
      "epoch": 0.47287340924313465,
      "grad_norm": 0.13769885897636414,
      "learning_rate": 8e-05,
      "loss": 1.6393,
      "step": 1412
    },
    {
      "epoch": 0.47320830542531817,
      "grad_norm": 0.13575012981891632,
      "learning_rate": 8e-05,
      "loss": 1.5576,
      "step": 1413
    },
    {
      "epoch": 0.4735432016075017,
      "grad_norm": 0.13712593913078308,
      "learning_rate": 8e-05,
      "loss": 1.4871,
      "step": 1414
    },
    {
      "epoch": 0.4738780977896852,
      "grad_norm": 0.15135601162910461,
      "learning_rate": 8e-05,
      "loss": 1.7244,
      "step": 1415
    },
    {
      "epoch": 0.4742129939718687,
      "grad_norm": 0.13049952685832977,
      "learning_rate": 8e-05,
      "loss": 1.4959,
      "step": 1416
    },
    {
      "epoch": 0.47454789015405224,
      "grad_norm": 0.13493356108665466,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 1417
    },
    {
      "epoch": 0.47488278633623576,
      "grad_norm": 0.13331690430641174,
      "learning_rate": 8e-05,
      "loss": 1.5406,
      "step": 1418
    },
    {
      "epoch": 0.4752176825184193,
      "grad_norm": 0.12928374111652374,
      "learning_rate": 8e-05,
      "loss": 1.5069,
      "step": 1419
    },
    {
      "epoch": 0.4755525787006028,
      "grad_norm": 0.14342328906059265,
      "learning_rate": 8e-05,
      "loss": 1.5213,
      "step": 1420
    },
    {
      "epoch": 0.4758874748827863,
      "grad_norm": 0.13330158591270447,
      "learning_rate": 8e-05,
      "loss": 1.536,
      "step": 1421
    },
    {
      "epoch": 0.47622237106496984,
      "grad_norm": 0.13900697231292725,
      "learning_rate": 8e-05,
      "loss": 1.5245,
      "step": 1422
    },
    {
      "epoch": 0.47655726724715336,
      "grad_norm": 0.13483251631259918,
      "learning_rate": 8e-05,
      "loss": 1.5388,
      "step": 1423
    },
    {
      "epoch": 0.4768921634293369,
      "grad_norm": 0.13439254462718964,
      "learning_rate": 8e-05,
      "loss": 1.5125,
      "step": 1424
    },
    {
      "epoch": 0.47722705961152045,
      "grad_norm": 0.13587237894535065,
      "learning_rate": 8e-05,
      "loss": 1.5634,
      "step": 1425
    },
    {
      "epoch": 0.477561955793704,
      "grad_norm": 0.13707709312438965,
      "learning_rate": 8e-05,
      "loss": 1.4907,
      "step": 1426
    },
    {
      "epoch": 0.4778968519758875,
      "grad_norm": 0.13741596043109894,
      "learning_rate": 8e-05,
      "loss": 1.514,
      "step": 1427
    },
    {
      "epoch": 0.478231748158071,
      "grad_norm": 0.13870275020599365,
      "learning_rate": 8e-05,
      "loss": 1.6151,
      "step": 1428
    },
    {
      "epoch": 0.47856664434025453,
      "grad_norm": 0.13958342373371124,
      "learning_rate": 8e-05,
      "loss": 1.5788,
      "step": 1429
    },
    {
      "epoch": 0.47890154052243805,
      "grad_norm": 0.12872742116451263,
      "learning_rate": 8e-05,
      "loss": 1.5673,
      "step": 1430
    },
    {
      "epoch": 0.47923643670462157,
      "grad_norm": 0.14035053551197052,
      "learning_rate": 8e-05,
      "loss": 1.6684,
      "step": 1431
    },
    {
      "epoch": 0.4795713328868051,
      "grad_norm": 0.13876856863498688,
      "learning_rate": 8e-05,
      "loss": 1.545,
      "step": 1432
    },
    {
      "epoch": 0.4799062290689886,
      "grad_norm": 0.13334226608276367,
      "learning_rate": 8e-05,
      "loss": 1.5629,
      "step": 1433
    },
    {
      "epoch": 0.48024112525117213,
      "grad_norm": 0.13676205277442932,
      "learning_rate": 8e-05,
      "loss": 1.5512,
      "step": 1434
    },
    {
      "epoch": 0.48057602143335565,
      "grad_norm": 0.14301729202270508,
      "learning_rate": 8e-05,
      "loss": 1.6361,
      "step": 1435
    },
    {
      "epoch": 0.48091091761553917,
      "grad_norm": 0.13038015365600586,
      "learning_rate": 8e-05,
      "loss": 1.4005,
      "step": 1436
    },
    {
      "epoch": 0.4812458137977227,
      "grad_norm": 0.1417866200208664,
      "learning_rate": 8e-05,
      "loss": 1.5891,
      "step": 1437
    },
    {
      "epoch": 0.4815807099799062,
      "grad_norm": 0.1548231989145279,
      "learning_rate": 8e-05,
      "loss": 1.6032,
      "step": 1438
    },
    {
      "epoch": 0.4819156061620897,
      "grad_norm": 0.13076241314411163,
      "learning_rate": 8e-05,
      "loss": 1.4592,
      "step": 1439
    },
    {
      "epoch": 0.4822505023442733,
      "grad_norm": 0.15356461703777313,
      "learning_rate": 8e-05,
      "loss": 1.5836,
      "step": 1440
    },
    {
      "epoch": 0.4825853985264568,
      "grad_norm": 0.1362692415714264,
      "learning_rate": 8e-05,
      "loss": 1.494,
      "step": 1441
    },
    {
      "epoch": 0.48292029470864034,
      "grad_norm": 0.13896577060222626,
      "learning_rate": 8e-05,
      "loss": 1.5318,
      "step": 1442
    },
    {
      "epoch": 0.48325519089082386,
      "grad_norm": 0.14562126994132996,
      "learning_rate": 8e-05,
      "loss": 1.474,
      "step": 1443
    },
    {
      "epoch": 0.4835900870730074,
      "grad_norm": 0.13810032606124878,
      "learning_rate": 8e-05,
      "loss": 1.5028,
      "step": 1444
    },
    {
      "epoch": 0.4839249832551909,
      "grad_norm": 0.13391505181789398,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 1445
    },
    {
      "epoch": 0.4842598794373744,
      "grad_norm": 0.14605800807476044,
      "learning_rate": 8e-05,
      "loss": 1.5096,
      "step": 1446
    },
    {
      "epoch": 0.48459477561955794,
      "grad_norm": 0.13562610745429993,
      "learning_rate": 8e-05,
      "loss": 1.5048,
      "step": 1447
    },
    {
      "epoch": 0.48492967180174146,
      "grad_norm": 0.13357006013393402,
      "learning_rate": 8e-05,
      "loss": 1.4947,
      "step": 1448
    },
    {
      "epoch": 0.485264567983925,
      "grad_norm": 0.15435440838336945,
      "learning_rate": 8e-05,
      "loss": 1.515,
      "step": 1449
    },
    {
      "epoch": 0.4855994641661085,
      "grad_norm": 0.13723711669445038,
      "learning_rate": 8e-05,
      "loss": 1.4984,
      "step": 1450
    },
    {
      "epoch": 0.485934360348292,
      "grad_norm": 0.132220059633255,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 1451
    },
    {
      "epoch": 0.48626925653047554,
      "grad_norm": 0.1466621309518814,
      "learning_rate": 8e-05,
      "loss": 1.5563,
      "step": 1452
    },
    {
      "epoch": 0.48660415271265905,
      "grad_norm": 0.13908900320529938,
      "learning_rate": 8e-05,
      "loss": 1.612,
      "step": 1453
    },
    {
      "epoch": 0.4869390488948426,
      "grad_norm": 0.1374942511320114,
      "learning_rate": 8e-05,
      "loss": 1.5721,
      "step": 1454
    },
    {
      "epoch": 0.48727394507702615,
      "grad_norm": 0.13758109509944916,
      "learning_rate": 8e-05,
      "loss": 1.5041,
      "step": 1455
    },
    {
      "epoch": 0.48760884125920967,
      "grad_norm": 0.1350172907114029,
      "learning_rate": 8e-05,
      "loss": 1.5877,
      "step": 1456
    },
    {
      "epoch": 0.4879437374413932,
      "grad_norm": 0.1331929713487625,
      "learning_rate": 8e-05,
      "loss": 1.4536,
      "step": 1457
    },
    {
      "epoch": 0.4882786336235767,
      "grad_norm": 0.14570137858390808,
      "learning_rate": 8e-05,
      "loss": 1.5998,
      "step": 1458
    },
    {
      "epoch": 0.4886135298057602,
      "grad_norm": 0.13621316850185394,
      "learning_rate": 8e-05,
      "loss": 1.4992,
      "step": 1459
    },
    {
      "epoch": 0.48894842598794375,
      "grad_norm": 0.14762167632579803,
      "learning_rate": 8e-05,
      "loss": 1.586,
      "step": 1460
    },
    {
      "epoch": 0.48928332217012727,
      "grad_norm": 0.13871248066425323,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 1461
    },
    {
      "epoch": 0.4896182183523108,
      "grad_norm": 0.1301746815443039,
      "learning_rate": 8e-05,
      "loss": 1.4253,
      "step": 1462
    },
    {
      "epoch": 0.4899531145344943,
      "grad_norm": 0.13972540199756622,
      "learning_rate": 8e-05,
      "loss": 1.5605,
      "step": 1463
    },
    {
      "epoch": 0.4902880107166778,
      "grad_norm": 0.13580873608589172,
      "learning_rate": 8e-05,
      "loss": 1.553,
      "step": 1464
    },
    {
      "epoch": 0.49062290689886134,
      "grad_norm": 0.13775992393493652,
      "learning_rate": 8e-05,
      "loss": 1.6178,
      "step": 1465
    },
    {
      "epoch": 0.49095780308104486,
      "grad_norm": 0.1369580179452896,
      "learning_rate": 8e-05,
      "loss": 1.5351,
      "step": 1466
    },
    {
      "epoch": 0.4912926992632284,
      "grad_norm": 0.1382039487361908,
      "learning_rate": 8e-05,
      "loss": 1.4578,
      "step": 1467
    },
    {
      "epoch": 0.4916275954454119,
      "grad_norm": 0.1338503658771515,
      "learning_rate": 8e-05,
      "loss": 1.4694,
      "step": 1468
    },
    {
      "epoch": 0.4919624916275954,
      "grad_norm": 0.13808788359165192,
      "learning_rate": 8e-05,
      "loss": 1.5925,
      "step": 1469
    },
    {
      "epoch": 0.49229738780977894,
      "grad_norm": 0.13132376968860626,
      "learning_rate": 8e-05,
      "loss": 1.4845,
      "step": 1470
    },
    {
      "epoch": 0.4926322839919625,
      "grad_norm": 0.1322912722826004,
      "learning_rate": 8e-05,
      "loss": 1.4891,
      "step": 1471
    },
    {
      "epoch": 0.49296718017414604,
      "grad_norm": 0.13255846500396729,
      "learning_rate": 8e-05,
      "loss": 1.5137,
      "step": 1472
    },
    {
      "epoch": 0.49330207635632956,
      "grad_norm": 0.13972516357898712,
      "learning_rate": 8e-05,
      "loss": 1.6249,
      "step": 1473
    },
    {
      "epoch": 0.4936369725385131,
      "grad_norm": 0.13479657471179962,
      "learning_rate": 8e-05,
      "loss": 1.5268,
      "step": 1474
    },
    {
      "epoch": 0.4939718687206966,
      "grad_norm": 0.1415734738111496,
      "learning_rate": 8e-05,
      "loss": 1.5273,
      "step": 1475
    },
    {
      "epoch": 0.4943067649028801,
      "grad_norm": 0.1289701908826828,
      "learning_rate": 8e-05,
      "loss": 1.4284,
      "step": 1476
    },
    {
      "epoch": 0.49464166108506363,
      "grad_norm": 0.13838624954223633,
      "learning_rate": 8e-05,
      "loss": 1.4745,
      "step": 1477
    },
    {
      "epoch": 0.49497655726724715,
      "grad_norm": 0.12986662983894348,
      "learning_rate": 8e-05,
      "loss": 1.5105,
      "step": 1478
    },
    {
      "epoch": 0.49531145344943067,
      "grad_norm": 0.1321294903755188,
      "learning_rate": 8e-05,
      "loss": 1.4876,
      "step": 1479
    },
    {
      "epoch": 0.4956463496316142,
      "grad_norm": 0.1369263082742691,
      "learning_rate": 8e-05,
      "loss": 1.5295,
      "step": 1480
    },
    {
      "epoch": 0.4959812458137977,
      "grad_norm": 0.13485805690288544,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 1481
    },
    {
      "epoch": 0.49631614199598123,
      "grad_norm": 0.1378236562013626,
      "learning_rate": 8e-05,
      "loss": 1.5795,
      "step": 1482
    },
    {
      "epoch": 0.49665103817816475,
      "grad_norm": 0.14048084616661072,
      "learning_rate": 8e-05,
      "loss": 1.4974,
      "step": 1483
    },
    {
      "epoch": 0.49698593436034827,
      "grad_norm": 0.13479788601398468,
      "learning_rate": 8e-05,
      "loss": 1.5269,
      "step": 1484
    },
    {
      "epoch": 0.4973208305425318,
      "grad_norm": 0.15606361627578735,
      "learning_rate": 8e-05,
      "loss": 1.5147,
      "step": 1485
    },
    {
      "epoch": 0.49765572672471536,
      "grad_norm": 0.14261959493160248,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 1486
    },
    {
      "epoch": 0.4979906229068989,
      "grad_norm": 0.13978411257266998,
      "learning_rate": 8e-05,
      "loss": 1.5056,
      "step": 1487
    },
    {
      "epoch": 0.4983255190890824,
      "grad_norm": 0.15291480720043182,
      "learning_rate": 8e-05,
      "loss": 1.553,
      "step": 1488
    },
    {
      "epoch": 0.4986604152712659,
      "grad_norm": 0.13231641054153442,
      "learning_rate": 8e-05,
      "loss": 1.5365,
      "step": 1489
    },
    {
      "epoch": 0.49899531145344944,
      "grad_norm": 0.1442975401878357,
      "learning_rate": 8e-05,
      "loss": 1.509,
      "step": 1490
    },
    {
      "epoch": 0.49933020763563296,
      "grad_norm": 0.13819022476673126,
      "learning_rate": 8e-05,
      "loss": 1.4961,
      "step": 1491
    },
    {
      "epoch": 0.4996651038178165,
      "grad_norm": 0.13167428970336914,
      "learning_rate": 8e-05,
      "loss": 1.4446,
      "step": 1492
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.1332155168056488,
      "learning_rate": 8e-05,
      "loss": 1.4627,
      "step": 1493
    },
    {
      "epoch": 0.5003348961821835,
      "grad_norm": 0.14262352883815765,
      "learning_rate": 8e-05,
      "loss": 1.5017,
      "step": 1494
    },
    {
      "epoch": 0.500669792364367,
      "grad_norm": 0.1431969851255417,
      "learning_rate": 8e-05,
      "loss": 1.5472,
      "step": 1495
    },
    {
      "epoch": 0.5010046885465506,
      "grad_norm": 0.13634184002876282,
      "learning_rate": 8e-05,
      "loss": 1.5078,
      "step": 1496
    },
    {
      "epoch": 0.5013395847287341,
      "grad_norm": 0.1424323320388794,
      "learning_rate": 8e-05,
      "loss": 1.506,
      "step": 1497
    },
    {
      "epoch": 0.5016744809109176,
      "grad_norm": 0.15320394933223724,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 1498
    },
    {
      "epoch": 0.5020093770931011,
      "grad_norm": 0.13950878381729126,
      "learning_rate": 8e-05,
      "loss": 1.5567,
      "step": 1499
    },
    {
      "epoch": 0.5023442732752846,
      "grad_norm": 0.15474767982959747,
      "learning_rate": 8e-05,
      "loss": 1.4953,
      "step": 1500
    },
    {
      "epoch": 0.5026791694574682,
      "grad_norm": 0.1339046210050583,
      "learning_rate": 8e-05,
      "loss": 1.5956,
      "step": 1501
    },
    {
      "epoch": 0.5030140656396517,
      "grad_norm": 0.13631151616573334,
      "learning_rate": 8e-05,
      "loss": 1.4793,
      "step": 1502
    },
    {
      "epoch": 0.5033489618218352,
      "grad_norm": 0.14126266539096832,
      "learning_rate": 8e-05,
      "loss": 1.5234,
      "step": 1503
    },
    {
      "epoch": 0.5036838580040187,
      "grad_norm": 0.1329958736896515,
      "learning_rate": 8e-05,
      "loss": 1.5394,
      "step": 1504
    },
    {
      "epoch": 0.5040187541862022,
      "grad_norm": 0.1400454193353653,
      "learning_rate": 8e-05,
      "loss": 1.572,
      "step": 1505
    },
    {
      "epoch": 0.5043536503683858,
      "grad_norm": 0.1338685005903244,
      "learning_rate": 8e-05,
      "loss": 1.5004,
      "step": 1506
    },
    {
      "epoch": 0.5046885465505693,
      "grad_norm": 0.1306898146867752,
      "learning_rate": 8e-05,
      "loss": 1.4648,
      "step": 1507
    },
    {
      "epoch": 0.5050234427327528,
      "grad_norm": 0.1329721212387085,
      "learning_rate": 8e-05,
      "loss": 1.4828,
      "step": 1508
    },
    {
      "epoch": 0.5053583389149364,
      "grad_norm": 0.13135147094726562,
      "learning_rate": 8e-05,
      "loss": 1.5019,
      "step": 1509
    },
    {
      "epoch": 0.5056932350971199,
      "grad_norm": 0.1395934522151947,
      "learning_rate": 8e-05,
      "loss": 1.567,
      "step": 1510
    },
    {
      "epoch": 0.5060281312793035,
      "grad_norm": 0.13567279279232025,
      "learning_rate": 8e-05,
      "loss": 1.4969,
      "step": 1511
    },
    {
      "epoch": 0.506363027461487,
      "grad_norm": 0.14081412553787231,
      "learning_rate": 8e-05,
      "loss": 1.5707,
      "step": 1512
    },
    {
      "epoch": 0.5066979236436705,
      "grad_norm": 0.13967132568359375,
      "learning_rate": 8e-05,
      "loss": 1.6018,
      "step": 1513
    },
    {
      "epoch": 0.507032819825854,
      "grad_norm": 0.1338859498500824,
      "learning_rate": 8e-05,
      "loss": 1.508,
      "step": 1514
    },
    {
      "epoch": 0.5073677160080375,
      "grad_norm": 0.14429129660129547,
      "learning_rate": 8e-05,
      "loss": 1.5294,
      "step": 1515
    },
    {
      "epoch": 0.5077026121902211,
      "grad_norm": 0.13419605791568756,
      "learning_rate": 8e-05,
      "loss": 1.5389,
      "step": 1516
    },
    {
      "epoch": 0.5080375083724046,
      "grad_norm": 0.13867507874965668,
      "learning_rate": 8e-05,
      "loss": 1.5305,
      "step": 1517
    },
    {
      "epoch": 0.5083724045545881,
      "grad_norm": 0.14632517099380493,
      "learning_rate": 8e-05,
      "loss": 1.5226,
      "step": 1518
    },
    {
      "epoch": 0.5087073007367716,
      "grad_norm": 0.13642947375774384,
      "learning_rate": 8e-05,
      "loss": 1.503,
      "step": 1519
    },
    {
      "epoch": 0.5090421969189551,
      "grad_norm": 0.14197154343128204,
      "learning_rate": 8e-05,
      "loss": 1.4944,
      "step": 1520
    },
    {
      "epoch": 0.5093770931011387,
      "grad_norm": 0.15007254481315613,
      "learning_rate": 8e-05,
      "loss": 1.6066,
      "step": 1521
    },
    {
      "epoch": 0.5097119892833222,
      "grad_norm": 0.13321147859096527,
      "learning_rate": 8e-05,
      "loss": 1.5243,
      "step": 1522
    },
    {
      "epoch": 0.5100468854655057,
      "grad_norm": 0.13780297338962555,
      "learning_rate": 8e-05,
      "loss": 1.4878,
      "step": 1523
    },
    {
      "epoch": 0.5103817816476892,
      "grad_norm": 0.1446111500263214,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 1524
    },
    {
      "epoch": 0.5107166778298727,
      "grad_norm": 0.13625630736351013,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 1525
    },
    {
      "epoch": 0.5110515740120563,
      "grad_norm": 0.1358702927827835,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 1526
    },
    {
      "epoch": 0.5113864701942398,
      "grad_norm": 0.13842421770095825,
      "learning_rate": 8e-05,
      "loss": 1.6154,
      "step": 1527
    },
    {
      "epoch": 0.5117213663764233,
      "grad_norm": 0.14459525048732758,
      "learning_rate": 8e-05,
      "loss": 1.6155,
      "step": 1528
    },
    {
      "epoch": 0.5120562625586068,
      "grad_norm": 0.13850168883800507,
      "learning_rate": 8e-05,
      "loss": 1.6333,
      "step": 1529
    },
    {
      "epoch": 0.5123911587407903,
      "grad_norm": 0.14903128147125244,
      "learning_rate": 8e-05,
      "loss": 1.5694,
      "step": 1530
    },
    {
      "epoch": 0.5127260549229739,
      "grad_norm": 0.13369476795196533,
      "learning_rate": 8e-05,
      "loss": 1.5417,
      "step": 1531
    },
    {
      "epoch": 0.5130609511051574,
      "grad_norm": 0.15089695155620575,
      "learning_rate": 8e-05,
      "loss": 1.5275,
      "step": 1532
    },
    {
      "epoch": 0.5133958472873409,
      "grad_norm": 0.1337990164756775,
      "learning_rate": 8e-05,
      "loss": 1.5861,
      "step": 1533
    },
    {
      "epoch": 0.5137307434695244,
      "grad_norm": 0.13394346833229065,
      "learning_rate": 8e-05,
      "loss": 1.519,
      "step": 1534
    },
    {
      "epoch": 0.5140656396517079,
      "grad_norm": 0.14651945233345032,
      "learning_rate": 8e-05,
      "loss": 1.5907,
      "step": 1535
    },
    {
      "epoch": 0.5144005358338914,
      "grad_norm": 0.13765332102775574,
      "learning_rate": 8e-05,
      "loss": 1.5602,
      "step": 1536
    },
    {
      "epoch": 0.514735432016075,
      "grad_norm": 0.13801978528499603,
      "learning_rate": 8e-05,
      "loss": 1.6103,
      "step": 1537
    },
    {
      "epoch": 0.5150703281982585,
      "grad_norm": 0.1368737667798996,
      "learning_rate": 8e-05,
      "loss": 1.4831,
      "step": 1538
    },
    {
      "epoch": 0.5154052243804421,
      "grad_norm": 0.14006683230400085,
      "learning_rate": 8e-05,
      "loss": 1.6652,
      "step": 1539
    },
    {
      "epoch": 0.5157401205626256,
      "grad_norm": 0.13527435064315796,
      "learning_rate": 8e-05,
      "loss": 1.5371,
      "step": 1540
    },
    {
      "epoch": 0.5160750167448092,
      "grad_norm": 0.13277162611484528,
      "learning_rate": 8e-05,
      "loss": 1.4549,
      "step": 1541
    },
    {
      "epoch": 0.5164099129269927,
      "grad_norm": 0.1306408792734146,
      "learning_rate": 8e-05,
      "loss": 1.4588,
      "step": 1542
    },
    {
      "epoch": 0.5167448091091762,
      "grad_norm": 0.143892303109169,
      "learning_rate": 8e-05,
      "loss": 1.5741,
      "step": 1543
    },
    {
      "epoch": 0.5170797052913597,
      "grad_norm": 0.14073526859283447,
      "learning_rate": 8e-05,
      "loss": 1.6441,
      "step": 1544
    },
    {
      "epoch": 0.5174146014735432,
      "grad_norm": 0.1453334540128708,
      "learning_rate": 8e-05,
      "loss": 1.6231,
      "step": 1545
    },
    {
      "epoch": 0.5177494976557268,
      "grad_norm": 0.13606394827365875,
      "learning_rate": 8e-05,
      "loss": 1.5302,
      "step": 1546
    },
    {
      "epoch": 0.5180843938379103,
      "grad_norm": 0.13272053003311157,
      "learning_rate": 8e-05,
      "loss": 1.6608,
      "step": 1547
    },
    {
      "epoch": 0.5184192900200938,
      "grad_norm": 0.1412811279296875,
      "learning_rate": 8e-05,
      "loss": 1.6457,
      "step": 1548
    },
    {
      "epoch": 0.5187541862022773,
      "grad_norm": 0.13119031488895416,
      "learning_rate": 8e-05,
      "loss": 1.5017,
      "step": 1549
    },
    {
      "epoch": 0.5190890823844608,
      "grad_norm": 0.13319101929664612,
      "learning_rate": 8e-05,
      "loss": 1.5512,
      "step": 1550
    },
    {
      "epoch": 0.5194239785666444,
      "grad_norm": 0.13011422753334045,
      "learning_rate": 8e-05,
      "loss": 1.5114,
      "step": 1551
    },
    {
      "epoch": 0.5197588747488279,
      "grad_norm": 0.13686086237430573,
      "learning_rate": 8e-05,
      "loss": 1.5508,
      "step": 1552
    },
    {
      "epoch": 0.5200937709310114,
      "grad_norm": 0.13508883118629456,
      "learning_rate": 8e-05,
      "loss": 1.5376,
      "step": 1553
    },
    {
      "epoch": 0.5204286671131949,
      "grad_norm": 0.14017988741397858,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 1554
    },
    {
      "epoch": 0.5207635632953784,
      "grad_norm": 0.1317349225282669,
      "learning_rate": 8e-05,
      "loss": 1.506,
      "step": 1555
    },
    {
      "epoch": 0.521098459477562,
      "grad_norm": 0.13410162925720215,
      "learning_rate": 8e-05,
      "loss": 1.5391,
      "step": 1556
    },
    {
      "epoch": 0.5214333556597455,
      "grad_norm": 0.14281463623046875,
      "learning_rate": 8e-05,
      "loss": 1.5026,
      "step": 1557
    },
    {
      "epoch": 0.521768251841929,
      "grad_norm": 0.13112133741378784,
      "learning_rate": 8e-05,
      "loss": 1.4903,
      "step": 1558
    },
    {
      "epoch": 0.5221031480241125,
      "grad_norm": 0.13684020936489105,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 1559
    },
    {
      "epoch": 0.522438044206296,
      "grad_norm": 0.14161817729473114,
      "learning_rate": 8e-05,
      "loss": 1.6005,
      "step": 1560
    },
    {
      "epoch": 0.5227729403884795,
      "grad_norm": 0.13510800898075104,
      "learning_rate": 8e-05,
      "loss": 1.5772,
      "step": 1561
    },
    {
      "epoch": 0.5231078365706631,
      "grad_norm": 0.13297805190086365,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 1562
    },
    {
      "epoch": 0.5234427327528466,
      "grad_norm": 0.1454104483127594,
      "learning_rate": 8e-05,
      "loss": 1.4955,
      "step": 1563
    },
    {
      "epoch": 0.5237776289350301,
      "grad_norm": 0.1356443166732788,
      "learning_rate": 8e-05,
      "loss": 1.5414,
      "step": 1564
    },
    {
      "epoch": 0.5241125251172136,
      "grad_norm": 0.14665047824382782,
      "learning_rate": 8e-05,
      "loss": 1.6163,
      "step": 1565
    },
    {
      "epoch": 0.5244474212993971,
      "grad_norm": 0.13482023775577545,
      "learning_rate": 8e-05,
      "loss": 1.568,
      "step": 1566
    },
    {
      "epoch": 0.5247823174815807,
      "grad_norm": 0.13328306376934052,
      "learning_rate": 8e-05,
      "loss": 1.4871,
      "step": 1567
    },
    {
      "epoch": 0.5251172136637642,
      "grad_norm": 0.1392839252948761,
      "learning_rate": 8e-05,
      "loss": 1.5079,
      "step": 1568
    },
    {
      "epoch": 0.5254521098459477,
      "grad_norm": 0.1345512568950653,
      "learning_rate": 8e-05,
      "loss": 1.5319,
      "step": 1569
    },
    {
      "epoch": 0.5257870060281313,
      "grad_norm": 0.14496064186096191,
      "learning_rate": 8e-05,
      "loss": 1.5909,
      "step": 1570
    },
    {
      "epoch": 0.5261219022103149,
      "grad_norm": 0.13826991617679596,
      "learning_rate": 8e-05,
      "loss": 1.5952,
      "step": 1571
    },
    {
      "epoch": 0.5264567983924984,
      "grad_norm": 0.14850930869579315,
      "learning_rate": 8e-05,
      "loss": 1.5434,
      "step": 1572
    },
    {
      "epoch": 0.5267916945746819,
      "grad_norm": 0.13955719769001007,
      "learning_rate": 8e-05,
      "loss": 1.6712,
      "step": 1573
    },
    {
      "epoch": 0.5271265907568654,
      "grad_norm": 0.14246869087219238,
      "learning_rate": 8e-05,
      "loss": 1.579,
      "step": 1574
    },
    {
      "epoch": 0.5274614869390489,
      "grad_norm": 0.13483554124832153,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1575
    },
    {
      "epoch": 0.5277963831212324,
      "grad_norm": 0.1347486823797226,
      "learning_rate": 8e-05,
      "loss": 1.5424,
      "step": 1576
    },
    {
      "epoch": 0.528131279303416,
      "grad_norm": 0.13871312141418457,
      "learning_rate": 8e-05,
      "loss": 1.5367,
      "step": 1577
    },
    {
      "epoch": 0.5284661754855995,
      "grad_norm": 0.13920220732688904,
      "learning_rate": 8e-05,
      "loss": 1.528,
      "step": 1578
    },
    {
      "epoch": 0.528801071667783,
      "grad_norm": 0.12899106740951538,
      "learning_rate": 8e-05,
      "loss": 1.4647,
      "step": 1579
    },
    {
      "epoch": 0.5291359678499665,
      "grad_norm": 0.1442769467830658,
      "learning_rate": 8e-05,
      "loss": 1.4808,
      "step": 1580
    },
    {
      "epoch": 0.52947086403215,
      "grad_norm": 0.13814596831798553,
      "learning_rate": 8e-05,
      "loss": 1.6402,
      "step": 1581
    },
    {
      "epoch": 0.5298057602143336,
      "grad_norm": 0.13976840674877167,
      "learning_rate": 8e-05,
      "loss": 1.5459,
      "step": 1582
    },
    {
      "epoch": 0.5301406563965171,
      "grad_norm": 0.13619589805603027,
      "learning_rate": 8e-05,
      "loss": 1.5899,
      "step": 1583
    },
    {
      "epoch": 0.5304755525787006,
      "grad_norm": 0.14372453093528748,
      "learning_rate": 8e-05,
      "loss": 1.5341,
      "step": 1584
    },
    {
      "epoch": 0.5308104487608841,
      "grad_norm": 0.137297585606575,
      "learning_rate": 8e-05,
      "loss": 1.573,
      "step": 1585
    },
    {
      "epoch": 0.5311453449430676,
      "grad_norm": 0.13442541658878326,
      "learning_rate": 8e-05,
      "loss": 1.5427,
      "step": 1586
    },
    {
      "epoch": 0.5314802411252512,
      "grad_norm": 0.13843630254268646,
      "learning_rate": 8e-05,
      "loss": 1.539,
      "step": 1587
    },
    {
      "epoch": 0.5318151373074347,
      "grad_norm": 0.13697417080402374,
      "learning_rate": 8e-05,
      "loss": 1.5193,
      "step": 1588
    },
    {
      "epoch": 0.5321500334896182,
      "grad_norm": 0.13524366915225983,
      "learning_rate": 8e-05,
      "loss": 1.5804,
      "step": 1589
    },
    {
      "epoch": 0.5324849296718017,
      "grad_norm": 0.1432202011346817,
      "learning_rate": 8e-05,
      "loss": 1.5333,
      "step": 1590
    },
    {
      "epoch": 0.5328198258539852,
      "grad_norm": 0.14773796498775482,
      "learning_rate": 8e-05,
      "loss": 1.5474,
      "step": 1591
    },
    {
      "epoch": 0.5331547220361688,
      "grad_norm": 0.13485991954803467,
      "learning_rate": 8e-05,
      "loss": 1.5858,
      "step": 1592
    },
    {
      "epoch": 0.5334896182183523,
      "grad_norm": 0.1461578756570816,
      "learning_rate": 8e-05,
      "loss": 1.5919,
      "step": 1593
    },
    {
      "epoch": 0.5338245144005358,
      "grad_norm": 0.15733952820301056,
      "learning_rate": 8e-05,
      "loss": 1.5077,
      "step": 1594
    },
    {
      "epoch": 0.5341594105827193,
      "grad_norm": 0.1339595913887024,
      "learning_rate": 8e-05,
      "loss": 1.4991,
      "step": 1595
    },
    {
      "epoch": 0.5344943067649028,
      "grad_norm": 0.14904479682445526,
      "learning_rate": 8e-05,
      "loss": 1.6124,
      "step": 1596
    },
    {
      "epoch": 0.5348292029470864,
      "grad_norm": 0.13725702464580536,
      "learning_rate": 8e-05,
      "loss": 1.5133,
      "step": 1597
    },
    {
      "epoch": 0.5351640991292699,
      "grad_norm": 0.13724686205387115,
      "learning_rate": 8e-05,
      "loss": 1.4391,
      "step": 1598
    },
    {
      "epoch": 0.5354989953114534,
      "grad_norm": 0.15302959084510803,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 1599
    },
    {
      "epoch": 0.535833891493637,
      "grad_norm": 0.1358100026845932,
      "learning_rate": 8e-05,
      "loss": 1.5262,
      "step": 1600
    },
    {
      "epoch": 0.5361687876758205,
      "grad_norm": 0.14411740005016327,
      "learning_rate": 8e-05,
      "loss": 1.5864,
      "step": 1601
    },
    {
      "epoch": 0.5365036838580041,
      "grad_norm": 0.15314540266990662,
      "learning_rate": 8e-05,
      "loss": 1.5465,
      "step": 1602
    },
    {
      "epoch": 0.5368385800401876,
      "grad_norm": 0.13246311247348785,
      "learning_rate": 8e-05,
      "loss": 1.4714,
      "step": 1603
    },
    {
      "epoch": 0.5371734762223711,
      "grad_norm": 0.1369827389717102,
      "learning_rate": 8e-05,
      "loss": 1.5051,
      "step": 1604
    },
    {
      "epoch": 0.5375083724045546,
      "grad_norm": 0.13591016829013824,
      "learning_rate": 8e-05,
      "loss": 1.602,
      "step": 1605
    },
    {
      "epoch": 0.5378432685867381,
      "grad_norm": 0.13686427474021912,
      "learning_rate": 8e-05,
      "loss": 1.4664,
      "step": 1606
    },
    {
      "epoch": 0.5381781647689217,
      "grad_norm": 0.132359117269516,
      "learning_rate": 8e-05,
      "loss": 1.5272,
      "step": 1607
    },
    {
      "epoch": 0.5385130609511052,
      "grad_norm": 0.15114635229110718,
      "learning_rate": 8e-05,
      "loss": 1.5157,
      "step": 1608
    },
    {
      "epoch": 0.5388479571332887,
      "grad_norm": 0.13409267365932465,
      "learning_rate": 8e-05,
      "loss": 1.4652,
      "step": 1609
    },
    {
      "epoch": 0.5391828533154722,
      "grad_norm": 0.13541719317436218,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 1610
    },
    {
      "epoch": 0.5395177494976557,
      "grad_norm": 0.14564919471740723,
      "learning_rate": 8e-05,
      "loss": 1.5983,
      "step": 1611
    },
    {
      "epoch": 0.5398526456798393,
      "grad_norm": 0.1292896717786789,
      "learning_rate": 8e-05,
      "loss": 1.4738,
      "step": 1612
    },
    {
      "epoch": 0.5401875418620228,
      "grad_norm": 0.13790330290794373,
      "learning_rate": 8e-05,
      "loss": 1.5704,
      "step": 1613
    },
    {
      "epoch": 0.5405224380442063,
      "grad_norm": 0.1459583193063736,
      "learning_rate": 8e-05,
      "loss": 1.6384,
      "step": 1614
    },
    {
      "epoch": 0.5408573342263898,
      "grad_norm": 0.13505598902702332,
      "learning_rate": 8e-05,
      "loss": 1.4734,
      "step": 1615
    },
    {
      "epoch": 0.5411922304085733,
      "grad_norm": 0.14846599102020264,
      "learning_rate": 8e-05,
      "loss": 1.5252,
      "step": 1616
    },
    {
      "epoch": 0.5415271265907569,
      "grad_norm": 0.14023953676223755,
      "learning_rate": 8e-05,
      "loss": 1.5202,
      "step": 1617
    },
    {
      "epoch": 0.5418620227729404,
      "grad_norm": 0.15544360876083374,
      "learning_rate": 8e-05,
      "loss": 1.6227,
      "step": 1618
    },
    {
      "epoch": 0.5421969189551239,
      "grad_norm": 0.1416192203760147,
      "learning_rate": 8e-05,
      "loss": 1.563,
      "step": 1619
    },
    {
      "epoch": 0.5425318151373074,
      "grad_norm": 0.16486681997776031,
      "learning_rate": 8e-05,
      "loss": 1.6136,
      "step": 1620
    },
    {
      "epoch": 0.5428667113194909,
      "grad_norm": 0.13983997702598572,
      "learning_rate": 8e-05,
      "loss": 1.5653,
      "step": 1621
    },
    {
      "epoch": 0.5432016075016745,
      "grad_norm": 0.1584227830171585,
      "learning_rate": 8e-05,
      "loss": 1.5802,
      "step": 1622
    },
    {
      "epoch": 0.543536503683858,
      "grad_norm": 0.1354813426733017,
      "learning_rate": 8e-05,
      "loss": 1.4838,
      "step": 1623
    },
    {
      "epoch": 0.5438713998660415,
      "grad_norm": 0.13500718772411346,
      "learning_rate": 8e-05,
      "loss": 1.5106,
      "step": 1624
    },
    {
      "epoch": 0.544206296048225,
      "grad_norm": 0.13720117509365082,
      "learning_rate": 8e-05,
      "loss": 1.5103,
      "step": 1625
    },
    {
      "epoch": 0.5445411922304085,
      "grad_norm": 0.15283840894699097,
      "learning_rate": 8e-05,
      "loss": 1.5038,
      "step": 1626
    },
    {
      "epoch": 0.544876088412592,
      "grad_norm": 0.1419651210308075,
      "learning_rate": 8e-05,
      "loss": 1.556,
      "step": 1627
    },
    {
      "epoch": 0.5452109845947756,
      "grad_norm": 0.1543707251548767,
      "learning_rate": 8e-05,
      "loss": 1.6303,
      "step": 1628
    },
    {
      "epoch": 0.5455458807769591,
      "grad_norm": 0.14435073733329773,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 1629
    },
    {
      "epoch": 0.5458807769591426,
      "grad_norm": 0.13154450058937073,
      "learning_rate": 8e-05,
      "loss": 1.502,
      "step": 1630
    },
    {
      "epoch": 0.5462156731413262,
      "grad_norm": 0.13697633147239685,
      "learning_rate": 8e-05,
      "loss": 1.5348,
      "step": 1631
    },
    {
      "epoch": 0.5465505693235098,
      "grad_norm": 0.13468950986862183,
      "learning_rate": 8e-05,
      "loss": 1.4824,
      "step": 1632
    },
    {
      "epoch": 0.5468854655056933,
      "grad_norm": 0.13517890870571136,
      "learning_rate": 8e-05,
      "loss": 1.4903,
      "step": 1633
    },
    {
      "epoch": 0.5472203616878768,
      "grad_norm": 0.1360122710466385,
      "learning_rate": 8e-05,
      "loss": 1.5543,
      "step": 1634
    },
    {
      "epoch": 0.5475552578700603,
      "grad_norm": 0.13541433215141296,
      "learning_rate": 8e-05,
      "loss": 1.4414,
      "step": 1635
    },
    {
      "epoch": 0.5478901540522438,
      "grad_norm": 0.1378811150789261,
      "learning_rate": 8e-05,
      "loss": 1.5282,
      "step": 1636
    },
    {
      "epoch": 0.5482250502344274,
      "grad_norm": 0.13487283885478973,
      "learning_rate": 8e-05,
      "loss": 1.4918,
      "step": 1637
    },
    {
      "epoch": 0.5485599464166109,
      "grad_norm": 0.13467545807361603,
      "learning_rate": 8e-05,
      "loss": 1.5254,
      "step": 1638
    },
    {
      "epoch": 0.5488948425987944,
      "grad_norm": 0.1338234394788742,
      "learning_rate": 8e-05,
      "loss": 1.5628,
      "step": 1639
    },
    {
      "epoch": 0.5492297387809779,
      "grad_norm": 0.12966948747634888,
      "learning_rate": 8e-05,
      "loss": 1.4589,
      "step": 1640
    },
    {
      "epoch": 0.5495646349631614,
      "grad_norm": 0.13671110570430756,
      "learning_rate": 8e-05,
      "loss": 1.5422,
      "step": 1641
    },
    {
      "epoch": 0.549899531145345,
      "grad_norm": 0.13506744801998138,
      "learning_rate": 8e-05,
      "loss": 1.6279,
      "step": 1642
    },
    {
      "epoch": 0.5502344273275285,
      "grad_norm": 0.1419616937637329,
      "learning_rate": 8e-05,
      "loss": 1.5658,
      "step": 1643
    },
    {
      "epoch": 0.550569323509712,
      "grad_norm": 0.13367274403572083,
      "learning_rate": 8e-05,
      "loss": 1.4709,
      "step": 1644
    },
    {
      "epoch": 0.5509042196918955,
      "grad_norm": 0.13656006753444672,
      "learning_rate": 8e-05,
      "loss": 1.5261,
      "step": 1645
    },
    {
      "epoch": 0.551239115874079,
      "grad_norm": 0.1389024555683136,
      "learning_rate": 8e-05,
      "loss": 1.5202,
      "step": 1646
    },
    {
      "epoch": 0.5515740120562626,
      "grad_norm": 0.13356976211071014,
      "learning_rate": 8e-05,
      "loss": 1.5453,
      "step": 1647
    },
    {
      "epoch": 0.5519089082384461,
      "grad_norm": 0.1397435963153839,
      "learning_rate": 8e-05,
      "loss": 1.5326,
      "step": 1648
    },
    {
      "epoch": 0.5522438044206296,
      "grad_norm": 0.13827131688594818,
      "learning_rate": 8e-05,
      "loss": 1.4851,
      "step": 1649
    },
    {
      "epoch": 0.5525787006028131,
      "grad_norm": 0.14171580970287323,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 1650
    },
    {
      "epoch": 0.5529135967849966,
      "grad_norm": 0.14361204206943512,
      "learning_rate": 8e-05,
      "loss": 1.5769,
      "step": 1651
    },
    {
      "epoch": 0.5532484929671801,
      "grad_norm": 0.14249709248542786,
      "learning_rate": 8e-05,
      "loss": 1.5362,
      "step": 1652
    },
    {
      "epoch": 0.5535833891493637,
      "grad_norm": 0.13895311951637268,
      "learning_rate": 8e-05,
      "loss": 1.5022,
      "step": 1653
    },
    {
      "epoch": 0.5539182853315472,
      "grad_norm": 0.14169877767562866,
      "learning_rate": 8e-05,
      "loss": 1.5374,
      "step": 1654
    },
    {
      "epoch": 0.5542531815137307,
      "grad_norm": 0.13215318322181702,
      "learning_rate": 8e-05,
      "loss": 1.5293,
      "step": 1655
    },
    {
      "epoch": 0.5545880776959142,
      "grad_norm": 0.15016759932041168,
      "learning_rate": 8e-05,
      "loss": 1.5077,
      "step": 1656
    },
    {
      "epoch": 0.5549229738780977,
      "grad_norm": 0.1345091015100479,
      "learning_rate": 8e-05,
      "loss": 1.5106,
      "step": 1657
    },
    {
      "epoch": 0.5552578700602813,
      "grad_norm": 0.14259976148605347,
      "learning_rate": 8e-05,
      "loss": 1.5671,
      "step": 1658
    },
    {
      "epoch": 0.5555927662424648,
      "grad_norm": 0.14268161356449127,
      "learning_rate": 8e-05,
      "loss": 1.4896,
      "step": 1659
    },
    {
      "epoch": 0.5559276624246483,
      "grad_norm": 0.1358649879693985,
      "learning_rate": 8e-05,
      "loss": 1.5205,
      "step": 1660
    },
    {
      "epoch": 0.5562625586068319,
      "grad_norm": 0.14590661227703094,
      "learning_rate": 8e-05,
      "loss": 1.5703,
      "step": 1661
    },
    {
      "epoch": 0.5565974547890155,
      "grad_norm": 0.1424524039030075,
      "learning_rate": 8e-05,
      "loss": 1.547,
      "step": 1662
    },
    {
      "epoch": 0.556932350971199,
      "grad_norm": 0.13108335435390472,
      "learning_rate": 8e-05,
      "loss": 1.4405,
      "step": 1663
    },
    {
      "epoch": 0.5572672471533825,
      "grad_norm": 0.14386042952537537,
      "learning_rate": 8e-05,
      "loss": 1.4863,
      "step": 1664
    },
    {
      "epoch": 0.557602143335566,
      "grad_norm": 0.13748201727867126,
      "learning_rate": 8e-05,
      "loss": 1.5524,
      "step": 1665
    },
    {
      "epoch": 0.5579370395177495,
      "grad_norm": 0.13634933531284332,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 1666
    },
    {
      "epoch": 0.558271935699933,
      "grad_norm": 0.14918926358222961,
      "learning_rate": 8e-05,
      "loss": 1.5817,
      "step": 1667
    },
    {
      "epoch": 0.5586068318821166,
      "grad_norm": 0.13791659474372864,
      "learning_rate": 8e-05,
      "loss": 1.4556,
      "step": 1668
    },
    {
      "epoch": 0.5589417280643001,
      "grad_norm": 0.14598511159420013,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 1669
    },
    {
      "epoch": 0.5592766242464836,
      "grad_norm": 0.13258598744869232,
      "learning_rate": 8e-05,
      "loss": 1.5106,
      "step": 1670
    },
    {
      "epoch": 0.5596115204286671,
      "grad_norm": 0.15111854672431946,
      "learning_rate": 8e-05,
      "loss": 1.6306,
      "step": 1671
    },
    {
      "epoch": 0.5599464166108507,
      "grad_norm": 0.14842630922794342,
      "learning_rate": 8e-05,
      "loss": 1.5686,
      "step": 1672
    },
    {
      "epoch": 0.5602813127930342,
      "grad_norm": 0.14140820503234863,
      "learning_rate": 8e-05,
      "loss": 1.5928,
      "step": 1673
    },
    {
      "epoch": 0.5606162089752177,
      "grad_norm": 0.16104954481124878,
      "learning_rate": 8e-05,
      "loss": 1.6062,
      "step": 1674
    },
    {
      "epoch": 0.5609511051574012,
      "grad_norm": 0.15004631876945496,
      "learning_rate": 8e-05,
      "loss": 1.6398,
      "step": 1675
    },
    {
      "epoch": 0.5612860013395847,
      "grad_norm": 0.13896405696868896,
      "learning_rate": 8e-05,
      "loss": 1.4881,
      "step": 1676
    },
    {
      "epoch": 0.5616208975217682,
      "grad_norm": 0.13647732138633728,
      "learning_rate": 8e-05,
      "loss": 1.4842,
      "step": 1677
    },
    {
      "epoch": 0.5619557937039518,
      "grad_norm": 0.14287316799163818,
      "learning_rate": 8e-05,
      "loss": 1.5314,
      "step": 1678
    },
    {
      "epoch": 0.5622906898861353,
      "grad_norm": 0.13661102950572968,
      "learning_rate": 8e-05,
      "loss": 1.4865,
      "step": 1679
    },
    {
      "epoch": 0.5626255860683188,
      "grad_norm": 0.13788506388664246,
      "learning_rate": 8e-05,
      "loss": 1.5728,
      "step": 1680
    },
    {
      "epoch": 0.5629604822505023,
      "grad_norm": 0.15514323115348816,
      "learning_rate": 8e-05,
      "loss": 1.6452,
      "step": 1681
    },
    {
      "epoch": 0.5632953784326858,
      "grad_norm": 0.13804540038108826,
      "learning_rate": 8e-05,
      "loss": 1.4846,
      "step": 1682
    },
    {
      "epoch": 0.5636302746148694,
      "grad_norm": 0.14125873148441315,
      "learning_rate": 8e-05,
      "loss": 1.4488,
      "step": 1683
    },
    {
      "epoch": 0.5639651707970529,
      "grad_norm": 0.136321023106575,
      "learning_rate": 8e-05,
      "loss": 1.4979,
      "step": 1684
    },
    {
      "epoch": 0.5643000669792364,
      "grad_norm": 0.13423895835876465,
      "learning_rate": 8e-05,
      "loss": 1.489,
      "step": 1685
    },
    {
      "epoch": 0.5646349631614199,
      "grad_norm": 0.1379750370979309,
      "learning_rate": 8e-05,
      "loss": 1.5335,
      "step": 1686
    },
    {
      "epoch": 0.5649698593436034,
      "grad_norm": 0.1342034786939621,
      "learning_rate": 8e-05,
      "loss": 1.4534,
      "step": 1687
    },
    {
      "epoch": 0.565304755525787,
      "grad_norm": 0.13408072292804718,
      "learning_rate": 8e-05,
      "loss": 1.4697,
      "step": 1688
    },
    {
      "epoch": 0.5656396517079705,
      "grad_norm": 0.13263754546642303,
      "learning_rate": 8e-05,
      "loss": 1.5419,
      "step": 1689
    },
    {
      "epoch": 0.565974547890154,
      "grad_norm": 0.13581611216068268,
      "learning_rate": 8e-05,
      "loss": 1.5922,
      "step": 1690
    },
    {
      "epoch": 0.5663094440723375,
      "grad_norm": 0.1390150934457779,
      "learning_rate": 8e-05,
      "loss": 1.5801,
      "step": 1691
    },
    {
      "epoch": 0.5666443402545212,
      "grad_norm": 0.13639895617961884,
      "learning_rate": 8e-05,
      "loss": 1.5345,
      "step": 1692
    },
    {
      "epoch": 0.5669792364367047,
      "grad_norm": 0.13647660613059998,
      "learning_rate": 8e-05,
      "loss": 1.5831,
      "step": 1693
    },
    {
      "epoch": 0.5673141326188882,
      "grad_norm": 0.13206808269023895,
      "learning_rate": 8e-05,
      "loss": 1.5044,
      "step": 1694
    },
    {
      "epoch": 0.5676490288010717,
      "grad_norm": 0.13894538581371307,
      "learning_rate": 8e-05,
      "loss": 1.5178,
      "step": 1695
    },
    {
      "epoch": 0.5679839249832552,
      "grad_norm": 0.13617099821567535,
      "learning_rate": 8e-05,
      "loss": 1.4885,
      "step": 1696
    },
    {
      "epoch": 0.5683188211654387,
      "grad_norm": 0.1373586803674698,
      "learning_rate": 8e-05,
      "loss": 1.5162,
      "step": 1697
    },
    {
      "epoch": 0.5686537173476223,
      "grad_norm": 0.1363256871700287,
      "learning_rate": 8e-05,
      "loss": 1.4765,
      "step": 1698
    },
    {
      "epoch": 0.5689886135298058,
      "grad_norm": 0.13689999282360077,
      "learning_rate": 8e-05,
      "loss": 1.5713,
      "step": 1699
    },
    {
      "epoch": 0.5693235097119893,
      "grad_norm": 0.14417500793933868,
      "learning_rate": 8e-05,
      "loss": 1.4943,
      "step": 1700
    },
    {
      "epoch": 0.5696584058941728,
      "grad_norm": 0.14807714521884918,
      "learning_rate": 8e-05,
      "loss": 1.5505,
      "step": 1701
    },
    {
      "epoch": 0.5699933020763563,
      "grad_norm": 0.14189092814922333,
      "learning_rate": 8e-05,
      "loss": 1.5747,
      "step": 1702
    },
    {
      "epoch": 0.5703281982585399,
      "grad_norm": 0.14040902256965637,
      "learning_rate": 8e-05,
      "loss": 1.4934,
      "step": 1703
    },
    {
      "epoch": 0.5706630944407234,
      "grad_norm": 0.13554899394512177,
      "learning_rate": 8e-05,
      "loss": 1.5496,
      "step": 1704
    },
    {
      "epoch": 0.5709979906229069,
      "grad_norm": 0.1387794017791748,
      "learning_rate": 8e-05,
      "loss": 1.4855,
      "step": 1705
    },
    {
      "epoch": 0.5713328868050904,
      "grad_norm": 0.13761338591575623,
      "learning_rate": 8e-05,
      "loss": 1.5475,
      "step": 1706
    },
    {
      "epoch": 0.5716677829872739,
      "grad_norm": 0.1337597668170929,
      "learning_rate": 8e-05,
      "loss": 1.5598,
      "step": 1707
    },
    {
      "epoch": 0.5720026791694575,
      "grad_norm": 0.1491946578025818,
      "learning_rate": 8e-05,
      "loss": 1.5816,
      "step": 1708
    },
    {
      "epoch": 0.572337575351641,
      "grad_norm": 0.13278450071811676,
      "learning_rate": 8e-05,
      "loss": 1.5084,
      "step": 1709
    },
    {
      "epoch": 0.5726724715338245,
      "grad_norm": 0.1330122947692871,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 1710
    },
    {
      "epoch": 0.573007367716008,
      "grad_norm": 0.13812316954135895,
      "learning_rate": 8e-05,
      "loss": 1.4994,
      "step": 1711
    },
    {
      "epoch": 0.5733422638981915,
      "grad_norm": 0.1305518001317978,
      "learning_rate": 8e-05,
      "loss": 1.4723,
      "step": 1712
    },
    {
      "epoch": 0.5736771600803751,
      "grad_norm": 0.1350332796573639,
      "learning_rate": 8e-05,
      "loss": 1.4956,
      "step": 1713
    },
    {
      "epoch": 0.5740120562625586,
      "grad_norm": 0.14258170127868652,
      "learning_rate": 8e-05,
      "loss": 1.4902,
      "step": 1714
    },
    {
      "epoch": 0.5743469524447421,
      "grad_norm": 0.13595664501190186,
      "learning_rate": 8e-05,
      "loss": 1.5762,
      "step": 1715
    },
    {
      "epoch": 0.5746818486269256,
      "grad_norm": 0.14154091477394104,
      "learning_rate": 8e-05,
      "loss": 1.5673,
      "step": 1716
    },
    {
      "epoch": 0.5750167448091091,
      "grad_norm": 0.13926108181476593,
      "learning_rate": 8e-05,
      "loss": 1.5867,
      "step": 1717
    },
    {
      "epoch": 0.5753516409912927,
      "grad_norm": 0.14638902246952057,
      "learning_rate": 8e-05,
      "loss": 1.6003,
      "step": 1718
    },
    {
      "epoch": 0.5756865371734762,
      "grad_norm": 0.13324002921581268,
      "learning_rate": 8e-05,
      "loss": 1.4803,
      "step": 1719
    },
    {
      "epoch": 0.5760214333556597,
      "grad_norm": 0.14041388034820557,
      "learning_rate": 8e-05,
      "loss": 1.5631,
      "step": 1720
    },
    {
      "epoch": 0.5763563295378432,
      "grad_norm": 0.14208939671516418,
      "learning_rate": 8e-05,
      "loss": 1.5278,
      "step": 1721
    },
    {
      "epoch": 0.5766912257200268,
      "grad_norm": 0.14298604428768158,
      "learning_rate": 8e-05,
      "loss": 1.6156,
      "step": 1722
    },
    {
      "epoch": 0.5770261219022104,
      "grad_norm": 0.13586492836475372,
      "learning_rate": 8e-05,
      "loss": 1.5143,
      "step": 1723
    },
    {
      "epoch": 0.5773610180843939,
      "grad_norm": 0.13648158311843872,
      "learning_rate": 8e-05,
      "loss": 1.5168,
      "step": 1724
    },
    {
      "epoch": 0.5776959142665774,
      "grad_norm": 0.13415881991386414,
      "learning_rate": 8e-05,
      "loss": 1.5085,
      "step": 1725
    },
    {
      "epoch": 0.5780308104487609,
      "grad_norm": 0.13787512481212616,
      "learning_rate": 8e-05,
      "loss": 1.5309,
      "step": 1726
    },
    {
      "epoch": 0.5783657066309444,
      "grad_norm": 0.13661304116249084,
      "learning_rate": 8e-05,
      "loss": 1.538,
      "step": 1727
    },
    {
      "epoch": 0.578700602813128,
      "grad_norm": 0.13699474930763245,
      "learning_rate": 8e-05,
      "loss": 1.5565,
      "step": 1728
    },
    {
      "epoch": 0.5790354989953115,
      "grad_norm": 0.13948678970336914,
      "learning_rate": 8e-05,
      "loss": 1.5163,
      "step": 1729
    },
    {
      "epoch": 0.579370395177495,
      "grad_norm": 0.13543112576007843,
      "learning_rate": 8e-05,
      "loss": 1.473,
      "step": 1730
    },
    {
      "epoch": 0.5797052913596785,
      "grad_norm": 0.13125304877758026,
      "learning_rate": 8e-05,
      "loss": 1.4728,
      "step": 1731
    },
    {
      "epoch": 0.580040187541862,
      "grad_norm": 0.13940641283988953,
      "learning_rate": 8e-05,
      "loss": 1.5608,
      "step": 1732
    },
    {
      "epoch": 0.5803750837240456,
      "grad_norm": 0.13470712304115295,
      "learning_rate": 8e-05,
      "loss": 1.4602,
      "step": 1733
    },
    {
      "epoch": 0.5807099799062291,
      "grad_norm": 0.1389223039150238,
      "learning_rate": 8e-05,
      "loss": 1.5528,
      "step": 1734
    },
    {
      "epoch": 0.5810448760884126,
      "grad_norm": 0.13744962215423584,
      "learning_rate": 8e-05,
      "loss": 1.5059,
      "step": 1735
    },
    {
      "epoch": 0.5813797722705961,
      "grad_norm": 0.14194156229496002,
      "learning_rate": 8e-05,
      "loss": 1.4863,
      "step": 1736
    },
    {
      "epoch": 0.5817146684527796,
      "grad_norm": 0.14023222029209137,
      "learning_rate": 8e-05,
      "loss": 1.5691,
      "step": 1737
    },
    {
      "epoch": 0.5820495646349632,
      "grad_norm": 0.14826145768165588,
      "learning_rate": 8e-05,
      "loss": 1.5322,
      "step": 1738
    },
    {
      "epoch": 0.5823844608171467,
      "grad_norm": 0.13285011053085327,
      "learning_rate": 8e-05,
      "loss": 1.4934,
      "step": 1739
    },
    {
      "epoch": 0.5827193569993302,
      "grad_norm": 0.13342048227787018,
      "learning_rate": 8e-05,
      "loss": 1.4969,
      "step": 1740
    },
    {
      "epoch": 0.5830542531815137,
      "grad_norm": 0.14456771314144135,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 1741
    },
    {
      "epoch": 0.5833891493636972,
      "grad_norm": 0.13935355842113495,
      "learning_rate": 8e-05,
      "loss": 1.5341,
      "step": 1742
    },
    {
      "epoch": 0.5837240455458808,
      "grad_norm": 0.1361750364303589,
      "learning_rate": 8e-05,
      "loss": 1.5505,
      "step": 1743
    },
    {
      "epoch": 0.5840589417280643,
      "grad_norm": 0.1420232206583023,
      "learning_rate": 8e-05,
      "loss": 1.5531,
      "step": 1744
    },
    {
      "epoch": 0.5843938379102478,
      "grad_norm": 0.13720549643039703,
      "learning_rate": 8e-05,
      "loss": 1.5998,
      "step": 1745
    },
    {
      "epoch": 0.5847287340924313,
      "grad_norm": 0.1373579502105713,
      "learning_rate": 8e-05,
      "loss": 1.5455,
      "step": 1746
    },
    {
      "epoch": 0.5850636302746148,
      "grad_norm": 0.1367008537054062,
      "learning_rate": 8e-05,
      "loss": 1.4773,
      "step": 1747
    },
    {
      "epoch": 0.5853985264567984,
      "grad_norm": 0.13566631078720093,
      "learning_rate": 8e-05,
      "loss": 1.5111,
      "step": 1748
    },
    {
      "epoch": 0.5857334226389819,
      "grad_norm": 0.13755787909030914,
      "learning_rate": 8e-05,
      "loss": 1.5372,
      "step": 1749
    },
    {
      "epoch": 0.5860683188211654,
      "grad_norm": 0.13900835812091827,
      "learning_rate": 8e-05,
      "loss": 1.4417,
      "step": 1750
    },
    {
      "epoch": 0.5864032150033489,
      "grad_norm": 0.1328989565372467,
      "learning_rate": 8e-05,
      "loss": 1.4622,
      "step": 1751
    },
    {
      "epoch": 0.5867381111855325,
      "grad_norm": 0.13057450950145721,
      "learning_rate": 8e-05,
      "loss": 1.4476,
      "step": 1752
    },
    {
      "epoch": 0.5870730073677161,
      "grad_norm": 0.1333111822605133,
      "learning_rate": 8e-05,
      "loss": 1.5049,
      "step": 1753
    },
    {
      "epoch": 0.5874079035498996,
      "grad_norm": 0.131779283285141,
      "learning_rate": 8e-05,
      "loss": 1.4463,
      "step": 1754
    },
    {
      "epoch": 0.5877427997320831,
      "grad_norm": 0.13350480794906616,
      "learning_rate": 8e-05,
      "loss": 1.419,
      "step": 1755
    },
    {
      "epoch": 0.5880776959142666,
      "grad_norm": 0.14189468324184418,
      "learning_rate": 8e-05,
      "loss": 1.5203,
      "step": 1756
    },
    {
      "epoch": 0.5884125920964501,
      "grad_norm": 0.14036928117275238,
      "learning_rate": 8e-05,
      "loss": 1.6439,
      "step": 1757
    },
    {
      "epoch": 0.5887474882786337,
      "grad_norm": 0.13563160598278046,
      "learning_rate": 8e-05,
      "loss": 1.4584,
      "step": 1758
    },
    {
      "epoch": 0.5890823844608172,
      "grad_norm": 0.133082315325737,
      "learning_rate": 8e-05,
      "loss": 1.4015,
      "step": 1759
    },
    {
      "epoch": 0.5894172806430007,
      "grad_norm": 0.1313558965921402,
      "learning_rate": 8e-05,
      "loss": 1.469,
      "step": 1760
    },
    {
      "epoch": 0.5897521768251842,
      "grad_norm": 0.1437879502773285,
      "learning_rate": 8e-05,
      "loss": 1.6512,
      "step": 1761
    },
    {
      "epoch": 0.5900870730073677,
      "grad_norm": 0.13308323919773102,
      "learning_rate": 8e-05,
      "loss": 1.53,
      "step": 1762
    },
    {
      "epoch": 0.5904219691895513,
      "grad_norm": 0.14312177896499634,
      "learning_rate": 8e-05,
      "loss": 1.7137,
      "step": 1763
    },
    {
      "epoch": 0.5907568653717348,
      "grad_norm": 0.13405494391918182,
      "learning_rate": 8e-05,
      "loss": 1.5439,
      "step": 1764
    },
    {
      "epoch": 0.5910917615539183,
      "grad_norm": 0.1394883096218109,
      "learning_rate": 8e-05,
      "loss": 1.5845,
      "step": 1765
    },
    {
      "epoch": 0.5914266577361018,
      "grad_norm": 0.1394815295934677,
      "learning_rate": 8e-05,
      "loss": 1.5464,
      "step": 1766
    },
    {
      "epoch": 0.5917615539182853,
      "grad_norm": 0.1333036869764328,
      "learning_rate": 8e-05,
      "loss": 1.5343,
      "step": 1767
    },
    {
      "epoch": 0.5920964501004689,
      "grad_norm": 0.1328606903553009,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 1768
    },
    {
      "epoch": 0.5924313462826524,
      "grad_norm": 0.13554991781711578,
      "learning_rate": 8e-05,
      "loss": 1.5355,
      "step": 1769
    },
    {
      "epoch": 0.5927662424648359,
      "grad_norm": 0.12927456200122833,
      "learning_rate": 8e-05,
      "loss": 1.5135,
      "step": 1770
    },
    {
      "epoch": 0.5931011386470194,
      "grad_norm": 0.13953453302383423,
      "learning_rate": 8e-05,
      "loss": 1.5265,
      "step": 1771
    },
    {
      "epoch": 0.5934360348292029,
      "grad_norm": 0.13445602357387543,
      "learning_rate": 8e-05,
      "loss": 1.4762,
      "step": 1772
    },
    {
      "epoch": 0.5937709310113864,
      "grad_norm": 0.14243918657302856,
      "learning_rate": 8e-05,
      "loss": 1.6508,
      "step": 1773
    },
    {
      "epoch": 0.59410582719357,
      "grad_norm": 0.13664275407791138,
      "learning_rate": 8e-05,
      "loss": 1.5412,
      "step": 1774
    },
    {
      "epoch": 0.5944407233757535,
      "grad_norm": 0.13450013101100922,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 1775
    },
    {
      "epoch": 0.594775619557937,
      "grad_norm": 0.14646732807159424,
      "learning_rate": 8e-05,
      "loss": 1.6552,
      "step": 1776
    },
    {
      "epoch": 0.5951105157401205,
      "grad_norm": 0.14169451594352722,
      "learning_rate": 8e-05,
      "loss": 1.6171,
      "step": 1777
    },
    {
      "epoch": 0.595445411922304,
      "grad_norm": 0.13938947021961212,
      "learning_rate": 8e-05,
      "loss": 1.5733,
      "step": 1778
    },
    {
      "epoch": 0.5957803081044876,
      "grad_norm": 0.13177448511123657,
      "learning_rate": 8e-05,
      "loss": 1.4731,
      "step": 1779
    },
    {
      "epoch": 0.5961152042866711,
      "grad_norm": 0.13734011352062225,
      "learning_rate": 8e-05,
      "loss": 1.5381,
      "step": 1780
    },
    {
      "epoch": 0.5964501004688546,
      "grad_norm": 0.14143142104148865,
      "learning_rate": 8e-05,
      "loss": 1.5157,
      "step": 1781
    },
    {
      "epoch": 0.5967849966510381,
      "grad_norm": 0.1346115618944168,
      "learning_rate": 8e-05,
      "loss": 1.4718,
      "step": 1782
    },
    {
      "epoch": 0.5971198928332218,
      "grad_norm": 0.13821807503700256,
      "learning_rate": 8e-05,
      "loss": 1.6113,
      "step": 1783
    },
    {
      "epoch": 0.5974547890154053,
      "grad_norm": 0.13546417653560638,
      "learning_rate": 8e-05,
      "loss": 1.4706,
      "step": 1784
    },
    {
      "epoch": 0.5977896851975888,
      "grad_norm": 0.13748307526111603,
      "learning_rate": 8e-05,
      "loss": 1.5365,
      "step": 1785
    },
    {
      "epoch": 0.5981245813797723,
      "grad_norm": 0.1333155781030655,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 1786
    },
    {
      "epoch": 0.5984594775619558,
      "grad_norm": 0.13843688368797302,
      "learning_rate": 8e-05,
      "loss": 1.5205,
      "step": 1787
    },
    {
      "epoch": 0.5987943737441394,
      "grad_norm": 0.14346374571323395,
      "learning_rate": 8e-05,
      "loss": 1.4927,
      "step": 1788
    },
    {
      "epoch": 0.5991292699263229,
      "grad_norm": 0.1398942619562149,
      "learning_rate": 8e-05,
      "loss": 1.5347,
      "step": 1789
    },
    {
      "epoch": 0.5994641661085064,
      "grad_norm": 0.1344398558139801,
      "learning_rate": 8e-05,
      "loss": 1.5236,
      "step": 1790
    },
    {
      "epoch": 0.5997990622906899,
      "grad_norm": 0.1349104791879654,
      "learning_rate": 8e-05,
      "loss": 1.4742,
      "step": 1791
    },
    {
      "epoch": 0.6001339584728734,
      "grad_norm": 0.14543581008911133,
      "learning_rate": 8e-05,
      "loss": 1.4935,
      "step": 1792
    },
    {
      "epoch": 0.600468854655057,
      "grad_norm": 0.14359988272190094,
      "learning_rate": 8e-05,
      "loss": 1.5429,
      "step": 1793
    },
    {
      "epoch": 0.6008037508372405,
      "grad_norm": 0.1373475342988968,
      "learning_rate": 8e-05,
      "loss": 1.5378,
      "step": 1794
    },
    {
      "epoch": 0.601138647019424,
      "grad_norm": 0.16291013360023499,
      "learning_rate": 8e-05,
      "loss": 1.6291,
      "step": 1795
    },
    {
      "epoch": 0.6014735432016075,
      "grad_norm": 0.1366197168827057,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 1796
    },
    {
      "epoch": 0.601808439383791,
      "grad_norm": 0.13999950885772705,
      "learning_rate": 8e-05,
      "loss": 1.4761,
      "step": 1797
    },
    {
      "epoch": 0.6021433355659745,
      "grad_norm": 0.14820708334445953,
      "learning_rate": 8e-05,
      "loss": 1.4316,
      "step": 1798
    },
    {
      "epoch": 0.6024782317481581,
      "grad_norm": 0.1371704339981079,
      "learning_rate": 8e-05,
      "loss": 1.4527,
      "step": 1799
    },
    {
      "epoch": 0.6028131279303416,
      "grad_norm": 0.1400216519832611,
      "learning_rate": 8e-05,
      "loss": 1.4969,
      "step": 1800
    },
    {
      "epoch": 0.6031480241125251,
      "grad_norm": 0.1440117359161377,
      "learning_rate": 8e-05,
      "loss": 1.628,
      "step": 1801
    },
    {
      "epoch": 0.6034829202947086,
      "grad_norm": 0.13818125426769257,
      "learning_rate": 8e-05,
      "loss": 1.4893,
      "step": 1802
    },
    {
      "epoch": 0.6038178164768921,
      "grad_norm": 0.13305725157260895,
      "learning_rate": 8e-05,
      "loss": 1.5302,
      "step": 1803
    },
    {
      "epoch": 0.6041527126590757,
      "grad_norm": 0.14008726179599762,
      "learning_rate": 8e-05,
      "loss": 1.48,
      "step": 1804
    },
    {
      "epoch": 0.6044876088412592,
      "grad_norm": 0.13850417733192444,
      "learning_rate": 8e-05,
      "loss": 1.4746,
      "step": 1805
    },
    {
      "epoch": 0.6048225050234427,
      "grad_norm": 0.13196659088134766,
      "learning_rate": 8e-05,
      "loss": 1.5038,
      "step": 1806
    },
    {
      "epoch": 0.6051574012056262,
      "grad_norm": 0.16488681733608246,
      "learning_rate": 8e-05,
      "loss": 1.5661,
      "step": 1807
    },
    {
      "epoch": 0.6054922973878097,
      "grad_norm": 0.1470528542995453,
      "learning_rate": 8e-05,
      "loss": 1.5539,
      "step": 1808
    },
    {
      "epoch": 0.6058271935699933,
      "grad_norm": 0.13456596434116364,
      "learning_rate": 8e-05,
      "loss": 1.5087,
      "step": 1809
    },
    {
      "epoch": 0.6061620897521768,
      "grad_norm": 0.1424325704574585,
      "learning_rate": 8e-05,
      "loss": 1.5347,
      "step": 1810
    },
    {
      "epoch": 0.6064969859343603,
      "grad_norm": 0.1328553855419159,
      "learning_rate": 8e-05,
      "loss": 1.443,
      "step": 1811
    },
    {
      "epoch": 0.6068318821165438,
      "grad_norm": 0.14021404087543488,
      "learning_rate": 8e-05,
      "loss": 1.5303,
      "step": 1812
    },
    {
      "epoch": 0.6071667782987274,
      "grad_norm": 0.13634024560451508,
      "learning_rate": 8e-05,
      "loss": 1.5136,
      "step": 1813
    },
    {
      "epoch": 0.607501674480911,
      "grad_norm": 0.1496153324842453,
      "learning_rate": 8e-05,
      "loss": 1.5716,
      "step": 1814
    },
    {
      "epoch": 0.6078365706630945,
      "grad_norm": 0.1372862458229065,
      "learning_rate": 8e-05,
      "loss": 1.5808,
      "step": 1815
    },
    {
      "epoch": 0.608171466845278,
      "grad_norm": 0.13864466547966003,
      "learning_rate": 8e-05,
      "loss": 1.4347,
      "step": 1816
    },
    {
      "epoch": 0.6085063630274615,
      "grad_norm": 0.14372894167900085,
      "learning_rate": 8e-05,
      "loss": 1.4211,
      "step": 1817
    },
    {
      "epoch": 0.608841259209645,
      "grad_norm": 0.14415940642356873,
      "learning_rate": 8e-05,
      "loss": 1.5503,
      "step": 1818
    },
    {
      "epoch": 0.6091761553918286,
      "grad_norm": 0.15175671875476837,
      "learning_rate": 8e-05,
      "loss": 1.5601,
      "step": 1819
    },
    {
      "epoch": 0.6095110515740121,
      "grad_norm": 0.1408180147409439,
      "learning_rate": 8e-05,
      "loss": 1.5151,
      "step": 1820
    },
    {
      "epoch": 0.6098459477561956,
      "grad_norm": 0.1451968252658844,
      "learning_rate": 8e-05,
      "loss": 1.5707,
      "step": 1821
    },
    {
      "epoch": 0.6101808439383791,
      "grad_norm": 0.13818667829036713,
      "learning_rate": 8e-05,
      "loss": 1.4708,
      "step": 1822
    },
    {
      "epoch": 0.6105157401205626,
      "grad_norm": 0.1408625692129135,
      "learning_rate": 8e-05,
      "loss": 1.5549,
      "step": 1823
    },
    {
      "epoch": 0.6108506363027462,
      "grad_norm": 0.1513671875,
      "learning_rate": 8e-05,
      "loss": 1.6263,
      "step": 1824
    },
    {
      "epoch": 0.6111855324849297,
      "grad_norm": 0.14412745833396912,
      "learning_rate": 8e-05,
      "loss": 1.5513,
      "step": 1825
    },
    {
      "epoch": 0.6115204286671132,
      "grad_norm": 0.1334720253944397,
      "learning_rate": 8e-05,
      "loss": 1.4594,
      "step": 1826
    },
    {
      "epoch": 0.6118553248492967,
      "grad_norm": 0.1382354497909546,
      "learning_rate": 8e-05,
      "loss": 1.56,
      "step": 1827
    },
    {
      "epoch": 0.6121902210314802,
      "grad_norm": 0.14041972160339355,
      "learning_rate": 8e-05,
      "loss": 1.5197,
      "step": 1828
    },
    {
      "epoch": 0.6125251172136638,
      "grad_norm": 0.1303127110004425,
      "learning_rate": 8e-05,
      "loss": 1.3892,
      "step": 1829
    },
    {
      "epoch": 0.6128600133958473,
      "grad_norm": 0.14171767234802246,
      "learning_rate": 8e-05,
      "loss": 1.5844,
      "step": 1830
    },
    {
      "epoch": 0.6131949095780308,
      "grad_norm": 0.13717173039913177,
      "learning_rate": 8e-05,
      "loss": 1.5169,
      "step": 1831
    },
    {
      "epoch": 0.6135298057602143,
      "grad_norm": 0.13702335953712463,
      "learning_rate": 8e-05,
      "loss": 1.5287,
      "step": 1832
    },
    {
      "epoch": 0.6138647019423978,
      "grad_norm": 0.14130860567092896,
      "learning_rate": 8e-05,
      "loss": 1.5806,
      "step": 1833
    },
    {
      "epoch": 0.6141995981245814,
      "grad_norm": 0.132173553109169,
      "learning_rate": 8e-05,
      "loss": 1.4779,
      "step": 1834
    },
    {
      "epoch": 0.6145344943067649,
      "grad_norm": 0.13808506727218628,
      "learning_rate": 8e-05,
      "loss": 1.5451,
      "step": 1835
    },
    {
      "epoch": 0.6148693904889484,
      "grad_norm": 0.13944889605045319,
      "learning_rate": 8e-05,
      "loss": 1.4984,
      "step": 1836
    },
    {
      "epoch": 0.6152042866711319,
      "grad_norm": 0.1389647275209427,
      "learning_rate": 8e-05,
      "loss": 1.5131,
      "step": 1837
    },
    {
      "epoch": 0.6155391828533154,
      "grad_norm": 0.1335824579000473,
      "learning_rate": 8e-05,
      "loss": 1.5453,
      "step": 1838
    },
    {
      "epoch": 0.615874079035499,
      "grad_norm": 0.1348269283771515,
      "learning_rate": 8e-05,
      "loss": 1.5055,
      "step": 1839
    },
    {
      "epoch": 0.6162089752176825,
      "grad_norm": 0.14338834583759308,
      "learning_rate": 8e-05,
      "loss": 1.5418,
      "step": 1840
    },
    {
      "epoch": 0.616543871399866,
      "grad_norm": 0.1440984457731247,
      "learning_rate": 8e-05,
      "loss": 1.6049,
      "step": 1841
    },
    {
      "epoch": 0.6168787675820495,
      "grad_norm": 0.14040547609329224,
      "learning_rate": 8e-05,
      "loss": 1.4672,
      "step": 1842
    },
    {
      "epoch": 0.617213663764233,
      "grad_norm": 0.14248985052108765,
      "learning_rate": 8e-05,
      "loss": 1.4814,
      "step": 1843
    },
    {
      "epoch": 0.6175485599464167,
      "grad_norm": 0.1340097039937973,
      "learning_rate": 8e-05,
      "loss": 1.4537,
      "step": 1844
    },
    {
      "epoch": 0.6178834561286002,
      "grad_norm": 0.14055761694908142,
      "learning_rate": 8e-05,
      "loss": 1.5275,
      "step": 1845
    },
    {
      "epoch": 0.6182183523107837,
      "grad_norm": 0.14583490788936615,
      "learning_rate": 8e-05,
      "loss": 1.4418,
      "step": 1846
    },
    {
      "epoch": 0.6185532484929672,
      "grad_norm": 0.139317587018013,
      "learning_rate": 8e-05,
      "loss": 1.4766,
      "step": 1847
    },
    {
      "epoch": 0.6188881446751507,
      "grad_norm": 0.1577703207731247,
      "learning_rate": 8e-05,
      "loss": 1.5413,
      "step": 1848
    },
    {
      "epoch": 0.6192230408573343,
      "grad_norm": 0.1425655633211136,
      "learning_rate": 8e-05,
      "loss": 1.5479,
      "step": 1849
    },
    {
      "epoch": 0.6195579370395178,
      "grad_norm": 0.1614818423986435,
      "learning_rate": 8e-05,
      "loss": 1.6725,
      "step": 1850
    },
    {
      "epoch": 0.6198928332217013,
      "grad_norm": 0.1428346186876297,
      "learning_rate": 8e-05,
      "loss": 1.4627,
      "step": 1851
    },
    {
      "epoch": 0.6202277294038848,
      "grad_norm": 0.1504608541727066,
      "learning_rate": 8e-05,
      "loss": 1.5918,
      "step": 1852
    },
    {
      "epoch": 0.6205626255860683,
      "grad_norm": 0.13070012629032135,
      "learning_rate": 8e-05,
      "loss": 1.4395,
      "step": 1853
    },
    {
      "epoch": 0.6208975217682519,
      "grad_norm": 0.15309211611747742,
      "learning_rate": 8e-05,
      "loss": 1.591,
      "step": 1854
    },
    {
      "epoch": 0.6212324179504354,
      "grad_norm": 0.13708700239658356,
      "learning_rate": 8e-05,
      "loss": 1.4829,
      "step": 1855
    },
    {
      "epoch": 0.6215673141326189,
      "grad_norm": 0.1396353393793106,
      "learning_rate": 8e-05,
      "loss": 1.602,
      "step": 1856
    },
    {
      "epoch": 0.6219022103148024,
      "grad_norm": 0.14190153777599335,
      "learning_rate": 8e-05,
      "loss": 1.6728,
      "step": 1857
    },
    {
      "epoch": 0.6222371064969859,
      "grad_norm": 0.14179076254367828,
      "learning_rate": 8e-05,
      "loss": 1.5797,
      "step": 1858
    },
    {
      "epoch": 0.6225720026791695,
      "grad_norm": 0.13941644132137299,
      "learning_rate": 8e-05,
      "loss": 1.4981,
      "step": 1859
    },
    {
      "epoch": 0.622906898861353,
      "grad_norm": 0.14050233364105225,
      "learning_rate": 8e-05,
      "loss": 1.5186,
      "step": 1860
    },
    {
      "epoch": 0.6232417950435365,
      "grad_norm": 0.14024673402309418,
      "learning_rate": 8e-05,
      "loss": 1.5175,
      "step": 1861
    },
    {
      "epoch": 0.62357669122572,
      "grad_norm": 0.1442638635635376,
      "learning_rate": 8e-05,
      "loss": 1.4801,
      "step": 1862
    },
    {
      "epoch": 0.6239115874079035,
      "grad_norm": 0.13897061347961426,
      "learning_rate": 8e-05,
      "loss": 1.6036,
      "step": 1863
    },
    {
      "epoch": 0.624246483590087,
      "grad_norm": 0.14647844433784485,
      "learning_rate": 8e-05,
      "loss": 1.5792,
      "step": 1864
    },
    {
      "epoch": 0.6245813797722706,
      "grad_norm": 0.14736218750476837,
      "learning_rate": 8e-05,
      "loss": 1.5646,
      "step": 1865
    },
    {
      "epoch": 0.6249162759544541,
      "grad_norm": 0.1357886642217636,
      "learning_rate": 8e-05,
      "loss": 1.5965,
      "step": 1866
    },
    {
      "epoch": 0.6252511721366376,
      "grad_norm": 0.15154077112674713,
      "learning_rate": 8e-05,
      "loss": 1.5411,
      "step": 1867
    },
    {
      "epoch": 0.6255860683188211,
      "grad_norm": 0.1441166251897812,
      "learning_rate": 8e-05,
      "loss": 1.5091,
      "step": 1868
    },
    {
      "epoch": 0.6259209645010047,
      "grad_norm": 0.14372985064983368,
      "learning_rate": 8e-05,
      "loss": 1.5371,
      "step": 1869
    },
    {
      "epoch": 0.6262558606831882,
      "grad_norm": 0.15143799781799316,
      "learning_rate": 8e-05,
      "loss": 1.6373,
      "step": 1870
    },
    {
      "epoch": 0.6265907568653717,
      "grad_norm": 0.13962765038013458,
      "learning_rate": 8e-05,
      "loss": 1.5422,
      "step": 1871
    },
    {
      "epoch": 0.6269256530475552,
      "grad_norm": 0.14543315768241882,
      "learning_rate": 8e-05,
      "loss": 1.5545,
      "step": 1872
    },
    {
      "epoch": 0.6272605492297387,
      "grad_norm": 0.13518494367599487,
      "learning_rate": 8e-05,
      "loss": 1.5052,
      "step": 1873
    },
    {
      "epoch": 0.6275954454119224,
      "grad_norm": 0.13877259194850922,
      "learning_rate": 8e-05,
      "loss": 1.4931,
      "step": 1874
    },
    {
      "epoch": 0.6279303415941059,
      "grad_norm": 0.13947363197803497,
      "learning_rate": 8e-05,
      "loss": 1.4984,
      "step": 1875
    },
    {
      "epoch": 0.6282652377762894,
      "grad_norm": 0.14618632197380066,
      "learning_rate": 8e-05,
      "loss": 1.5268,
      "step": 1876
    },
    {
      "epoch": 0.6286001339584729,
      "grad_norm": 0.13361889123916626,
      "learning_rate": 8e-05,
      "loss": 1.454,
      "step": 1877
    },
    {
      "epoch": 0.6289350301406564,
      "grad_norm": 0.1410536915063858,
      "learning_rate": 8e-05,
      "loss": 1.5925,
      "step": 1878
    },
    {
      "epoch": 0.62926992632284,
      "grad_norm": 0.14279592037200928,
      "learning_rate": 8e-05,
      "loss": 1.5069,
      "step": 1879
    },
    {
      "epoch": 0.6296048225050235,
      "grad_norm": 0.13789789378643036,
      "learning_rate": 8e-05,
      "loss": 1.5064,
      "step": 1880
    },
    {
      "epoch": 0.629939718687207,
      "grad_norm": 0.1391855776309967,
      "learning_rate": 8e-05,
      "loss": 1.5415,
      "step": 1881
    },
    {
      "epoch": 0.6302746148693905,
      "grad_norm": 0.14047132432460785,
      "learning_rate": 8e-05,
      "loss": 1.5104,
      "step": 1882
    },
    {
      "epoch": 0.630609511051574,
      "grad_norm": 0.14011749625205994,
      "learning_rate": 8e-05,
      "loss": 1.5016,
      "step": 1883
    },
    {
      "epoch": 0.6309444072337576,
      "grad_norm": 0.13797801733016968,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 1884
    },
    {
      "epoch": 0.6312793034159411,
      "grad_norm": 0.1471095085144043,
      "learning_rate": 8e-05,
      "loss": 1.4767,
      "step": 1885
    },
    {
      "epoch": 0.6316141995981246,
      "grad_norm": 0.1463792324066162,
      "learning_rate": 8e-05,
      "loss": 1.5587,
      "step": 1886
    },
    {
      "epoch": 0.6319490957803081,
      "grad_norm": 0.1365879476070404,
      "learning_rate": 8e-05,
      "loss": 1.5425,
      "step": 1887
    },
    {
      "epoch": 0.6322839919624916,
      "grad_norm": 0.15201352536678314,
      "learning_rate": 8e-05,
      "loss": 1.5347,
      "step": 1888
    },
    {
      "epoch": 0.6326188881446752,
      "grad_norm": 0.13533256947994232,
      "learning_rate": 8e-05,
      "loss": 1.6041,
      "step": 1889
    },
    {
      "epoch": 0.6329537843268587,
      "grad_norm": 0.14750434458255768,
      "learning_rate": 8e-05,
      "loss": 1.6114,
      "step": 1890
    },
    {
      "epoch": 0.6332886805090422,
      "grad_norm": 0.13898368179798126,
      "learning_rate": 8e-05,
      "loss": 1.4771,
      "step": 1891
    },
    {
      "epoch": 0.6336235766912257,
      "grad_norm": 0.13683229684829712,
      "learning_rate": 8e-05,
      "loss": 1.4704,
      "step": 1892
    },
    {
      "epoch": 0.6339584728734092,
      "grad_norm": 0.15083512663841248,
      "learning_rate": 8e-05,
      "loss": 1.5945,
      "step": 1893
    },
    {
      "epoch": 0.6342933690555927,
      "grad_norm": 0.13913998007774353,
      "learning_rate": 8e-05,
      "loss": 1.5032,
      "step": 1894
    },
    {
      "epoch": 0.6346282652377763,
      "grad_norm": 0.13527370989322662,
      "learning_rate": 8e-05,
      "loss": 1.5559,
      "step": 1895
    },
    {
      "epoch": 0.6349631614199598,
      "grad_norm": 0.14024101197719574,
      "learning_rate": 8e-05,
      "loss": 1.5228,
      "step": 1896
    },
    {
      "epoch": 0.6352980576021433,
      "grad_norm": 0.1373630166053772,
      "learning_rate": 8e-05,
      "loss": 1.49,
      "step": 1897
    },
    {
      "epoch": 0.6356329537843268,
      "grad_norm": 0.1756332814693451,
      "learning_rate": 8e-05,
      "loss": 1.4792,
      "step": 1898
    },
    {
      "epoch": 0.6359678499665103,
      "grad_norm": 0.1421053558588028,
      "learning_rate": 8e-05,
      "loss": 1.5532,
      "step": 1899
    },
    {
      "epoch": 0.6363027461486939,
      "grad_norm": 0.1330023556947708,
      "learning_rate": 8e-05,
      "loss": 1.5381,
      "step": 1900
    },
    {
      "epoch": 0.6366376423308774,
      "grad_norm": 0.1388513445854187,
      "learning_rate": 8e-05,
      "loss": 1.5034,
      "step": 1901
    },
    {
      "epoch": 0.6369725385130609,
      "grad_norm": 0.14450345933437347,
      "learning_rate": 8e-05,
      "loss": 1.5267,
      "step": 1902
    },
    {
      "epoch": 0.6373074346952444,
      "grad_norm": 0.15432672202587128,
      "learning_rate": 8e-05,
      "loss": 1.6372,
      "step": 1903
    },
    {
      "epoch": 0.6376423308774279,
      "grad_norm": 0.13565558195114136,
      "learning_rate": 8e-05,
      "loss": 1.3917,
      "step": 1904
    },
    {
      "epoch": 0.6379772270596116,
      "grad_norm": 0.1499597728252411,
      "learning_rate": 8e-05,
      "loss": 1.5686,
      "step": 1905
    },
    {
      "epoch": 0.6383121232417951,
      "grad_norm": 0.1398855745792389,
      "learning_rate": 8e-05,
      "loss": 1.6186,
      "step": 1906
    },
    {
      "epoch": 0.6386470194239786,
      "grad_norm": 0.14067845046520233,
      "learning_rate": 8e-05,
      "loss": 1.5336,
      "step": 1907
    },
    {
      "epoch": 0.6389819156061621,
      "grad_norm": 0.14190317690372467,
      "learning_rate": 8e-05,
      "loss": 1.6243,
      "step": 1908
    },
    {
      "epoch": 0.6393168117883457,
      "grad_norm": 0.13198025524616241,
      "learning_rate": 8e-05,
      "loss": 1.4583,
      "step": 1909
    },
    {
      "epoch": 0.6396517079705292,
      "grad_norm": 0.14413349330425262,
      "learning_rate": 8e-05,
      "loss": 1.5728,
      "step": 1910
    },
    {
      "epoch": 0.6399866041527127,
      "grad_norm": 0.14172297716140747,
      "learning_rate": 8e-05,
      "loss": 1.5911,
      "step": 1911
    },
    {
      "epoch": 0.6403215003348962,
      "grad_norm": 0.1328030824661255,
      "learning_rate": 8e-05,
      "loss": 1.4558,
      "step": 1912
    },
    {
      "epoch": 0.6406563965170797,
      "grad_norm": 0.12980803847312927,
      "learning_rate": 8e-05,
      "loss": 1.4185,
      "step": 1913
    },
    {
      "epoch": 0.6409912926992632,
      "grad_norm": 0.14290562272071838,
      "learning_rate": 8e-05,
      "loss": 1.5391,
      "step": 1914
    },
    {
      "epoch": 0.6413261888814468,
      "grad_norm": 0.1356610804796219,
      "learning_rate": 8e-05,
      "loss": 1.5023,
      "step": 1915
    },
    {
      "epoch": 0.6416610850636303,
      "grad_norm": 0.1441171020269394,
      "learning_rate": 8e-05,
      "loss": 1.6023,
      "step": 1916
    },
    {
      "epoch": 0.6419959812458138,
      "grad_norm": 0.1460290551185608,
      "learning_rate": 8e-05,
      "loss": 1.5749,
      "step": 1917
    },
    {
      "epoch": 0.6423308774279973,
      "grad_norm": 0.14898067712783813,
      "learning_rate": 8e-05,
      "loss": 1.6666,
      "step": 1918
    },
    {
      "epoch": 0.6426657736101808,
      "grad_norm": 0.13780531287193298,
      "learning_rate": 8e-05,
      "loss": 1.5412,
      "step": 1919
    },
    {
      "epoch": 0.6430006697923644,
      "grad_norm": 0.1559271365404129,
      "learning_rate": 8e-05,
      "loss": 1.481,
      "step": 1920
    },
    {
      "epoch": 0.6433355659745479,
      "grad_norm": 0.13650089502334595,
      "learning_rate": 8e-05,
      "loss": 1.4507,
      "step": 1921
    },
    {
      "epoch": 0.6436704621567314,
      "grad_norm": 0.1408194750547409,
      "learning_rate": 8e-05,
      "loss": 1.4645,
      "step": 1922
    },
    {
      "epoch": 0.6440053583389149,
      "grad_norm": 0.14474143087863922,
      "learning_rate": 8e-05,
      "loss": 1.5488,
      "step": 1923
    },
    {
      "epoch": 0.6443402545210984,
      "grad_norm": 0.1348794847726822,
      "learning_rate": 8e-05,
      "loss": 1.4201,
      "step": 1924
    },
    {
      "epoch": 0.644675150703282,
      "grad_norm": 0.1364048421382904,
      "learning_rate": 8e-05,
      "loss": 1.4386,
      "step": 1925
    },
    {
      "epoch": 0.6450100468854655,
      "grad_norm": 0.14144457876682281,
      "learning_rate": 8e-05,
      "loss": 1.565,
      "step": 1926
    },
    {
      "epoch": 0.645344943067649,
      "grad_norm": 0.14695358276367188,
      "learning_rate": 8e-05,
      "loss": 1.5228,
      "step": 1927
    },
    {
      "epoch": 0.6456798392498325,
      "grad_norm": 0.13452884554862976,
      "learning_rate": 8e-05,
      "loss": 1.3864,
      "step": 1928
    },
    {
      "epoch": 0.646014735432016,
      "grad_norm": 0.13993793725967407,
      "learning_rate": 8e-05,
      "loss": 1.5107,
      "step": 1929
    },
    {
      "epoch": 0.6463496316141996,
      "grad_norm": 0.13508915901184082,
      "learning_rate": 8e-05,
      "loss": 1.5193,
      "step": 1930
    },
    {
      "epoch": 0.6466845277963831,
      "grad_norm": 0.1571429967880249,
      "learning_rate": 8e-05,
      "loss": 1.4986,
      "step": 1931
    },
    {
      "epoch": 0.6470194239785666,
      "grad_norm": 0.14676840603351593,
      "learning_rate": 8e-05,
      "loss": 1.6429,
      "step": 1932
    },
    {
      "epoch": 0.6473543201607501,
      "grad_norm": 0.13738635182380676,
      "learning_rate": 8e-05,
      "loss": 1.4761,
      "step": 1933
    },
    {
      "epoch": 0.6476892163429336,
      "grad_norm": 0.14482402801513672,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 1934
    },
    {
      "epoch": 0.6480241125251173,
      "grad_norm": 0.14553825557231903,
      "learning_rate": 8e-05,
      "loss": 1.5932,
      "step": 1935
    },
    {
      "epoch": 0.6483590087073008,
      "grad_norm": 0.13854557275772095,
      "learning_rate": 8e-05,
      "loss": 1.4657,
      "step": 1936
    },
    {
      "epoch": 0.6486939048894843,
      "grad_norm": 0.14445467293262482,
      "learning_rate": 8e-05,
      "loss": 1.4857,
      "step": 1937
    },
    {
      "epoch": 0.6490288010716678,
      "grad_norm": 0.14405950903892517,
      "learning_rate": 8e-05,
      "loss": 1.5523,
      "step": 1938
    },
    {
      "epoch": 0.6493636972538513,
      "grad_norm": 0.14967356622219086,
      "learning_rate": 8e-05,
      "loss": 1.5714,
      "step": 1939
    },
    {
      "epoch": 0.6496985934360349,
      "grad_norm": 0.16122926771640778,
      "learning_rate": 8e-05,
      "loss": 1.6035,
      "step": 1940
    },
    {
      "epoch": 0.6500334896182184,
      "grad_norm": 0.14428837597370148,
      "learning_rate": 8e-05,
      "loss": 1.5746,
      "step": 1941
    },
    {
      "epoch": 0.6503683858004019,
      "grad_norm": 0.15112443268299103,
      "learning_rate": 8e-05,
      "loss": 1.5732,
      "step": 1942
    },
    {
      "epoch": 0.6507032819825854,
      "grad_norm": 0.13783226907253265,
      "learning_rate": 8e-05,
      "loss": 1.5128,
      "step": 1943
    },
    {
      "epoch": 0.6510381781647689,
      "grad_norm": 0.1405821442604065,
      "learning_rate": 8e-05,
      "loss": 1.5988,
      "step": 1944
    },
    {
      "epoch": 0.6513730743469525,
      "grad_norm": 0.15035705268383026,
      "learning_rate": 8e-05,
      "loss": 1.5728,
      "step": 1945
    },
    {
      "epoch": 0.651707970529136,
      "grad_norm": 0.1534576117992401,
      "learning_rate": 8e-05,
      "loss": 1.609,
      "step": 1946
    },
    {
      "epoch": 0.6520428667113195,
      "grad_norm": 0.13395574688911438,
      "learning_rate": 8e-05,
      "loss": 1.4914,
      "step": 1947
    },
    {
      "epoch": 0.652377762893503,
      "grad_norm": 0.14355377852916718,
      "learning_rate": 8e-05,
      "loss": 1.4556,
      "step": 1948
    },
    {
      "epoch": 0.6527126590756865,
      "grad_norm": 0.15369845926761627,
      "learning_rate": 8e-05,
      "loss": 1.4721,
      "step": 1949
    },
    {
      "epoch": 0.6530475552578701,
      "grad_norm": 0.1405554860830307,
      "learning_rate": 8e-05,
      "loss": 1.5342,
      "step": 1950
    },
    {
      "epoch": 0.6533824514400536,
      "grad_norm": 0.15401381254196167,
      "learning_rate": 8e-05,
      "loss": 1.5051,
      "step": 1951
    },
    {
      "epoch": 0.6537173476222371,
      "grad_norm": 0.14243364334106445,
      "learning_rate": 8e-05,
      "loss": 1.5306,
      "step": 1952
    },
    {
      "epoch": 0.6540522438044206,
      "grad_norm": 0.14452584087848663,
      "learning_rate": 8e-05,
      "loss": 1.5862,
      "step": 1953
    },
    {
      "epoch": 0.6543871399866041,
      "grad_norm": 0.14189594984054565,
      "learning_rate": 8e-05,
      "loss": 1.5573,
      "step": 1954
    },
    {
      "epoch": 0.6547220361687877,
      "grad_norm": 0.13301560282707214,
      "learning_rate": 8e-05,
      "loss": 1.4706,
      "step": 1955
    },
    {
      "epoch": 0.6550569323509712,
      "grad_norm": 0.14123214781284332,
      "learning_rate": 8e-05,
      "loss": 1.4233,
      "step": 1956
    },
    {
      "epoch": 0.6553918285331547,
      "grad_norm": 0.13963384926319122,
      "learning_rate": 8e-05,
      "loss": 1.476,
      "step": 1957
    },
    {
      "epoch": 0.6557267247153382,
      "grad_norm": 0.13749194145202637,
      "learning_rate": 8e-05,
      "loss": 1.5272,
      "step": 1958
    },
    {
      "epoch": 0.6560616208975217,
      "grad_norm": 0.13983364403247833,
      "learning_rate": 8e-05,
      "loss": 1.5219,
      "step": 1959
    },
    {
      "epoch": 0.6563965170797053,
      "grad_norm": 0.14475737512111664,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 1960
    },
    {
      "epoch": 0.6567314132618888,
      "grad_norm": 0.14209556579589844,
      "learning_rate": 8e-05,
      "loss": 1.4832,
      "step": 1961
    },
    {
      "epoch": 0.6570663094440723,
      "grad_norm": 0.14005166292190552,
      "learning_rate": 8e-05,
      "loss": 1.4907,
      "step": 1962
    },
    {
      "epoch": 0.6574012056262558,
      "grad_norm": 0.13727958500385284,
      "learning_rate": 8e-05,
      "loss": 1.5085,
      "step": 1963
    },
    {
      "epoch": 0.6577361018084393,
      "grad_norm": 0.13634426891803741,
      "learning_rate": 8e-05,
      "loss": 1.4378,
      "step": 1964
    },
    {
      "epoch": 0.6580709979906229,
      "grad_norm": 0.14050325751304626,
      "learning_rate": 8e-05,
      "loss": 1.5437,
      "step": 1965
    },
    {
      "epoch": 0.6584058941728065,
      "grad_norm": 0.13750672340393066,
      "learning_rate": 8e-05,
      "loss": 1.4888,
      "step": 1966
    },
    {
      "epoch": 0.65874079035499,
      "grad_norm": 0.14073361456394196,
      "learning_rate": 8e-05,
      "loss": 1.5583,
      "step": 1967
    },
    {
      "epoch": 0.6590756865371735,
      "grad_norm": 0.13735371828079224,
      "learning_rate": 8e-05,
      "loss": 1.558,
      "step": 1968
    },
    {
      "epoch": 0.659410582719357,
      "grad_norm": 0.13833653926849365,
      "learning_rate": 8e-05,
      "loss": 1.5073,
      "step": 1969
    },
    {
      "epoch": 0.6597454789015406,
      "grad_norm": 0.13382454216480255,
      "learning_rate": 8e-05,
      "loss": 1.4836,
      "step": 1970
    },
    {
      "epoch": 0.6600803750837241,
      "grad_norm": 0.1337302178144455,
      "learning_rate": 8e-05,
      "loss": 1.541,
      "step": 1971
    },
    {
      "epoch": 0.6604152712659076,
      "grad_norm": 0.14197219908237457,
      "learning_rate": 8e-05,
      "loss": 1.4852,
      "step": 1972
    },
    {
      "epoch": 0.6607501674480911,
      "grad_norm": 0.14364133775234222,
      "learning_rate": 8e-05,
      "loss": 1.6099,
      "step": 1973
    },
    {
      "epoch": 0.6610850636302746,
      "grad_norm": 0.1417374312877655,
      "learning_rate": 8e-05,
      "loss": 1.5413,
      "step": 1974
    },
    {
      "epoch": 0.6614199598124582,
      "grad_norm": 0.15069535374641418,
      "learning_rate": 8e-05,
      "loss": 1.526,
      "step": 1975
    },
    {
      "epoch": 0.6617548559946417,
      "grad_norm": 0.13981075584888458,
      "learning_rate": 8e-05,
      "loss": 1.4023,
      "step": 1976
    },
    {
      "epoch": 0.6620897521768252,
      "grad_norm": 0.13232195377349854,
      "learning_rate": 8e-05,
      "loss": 1.4342,
      "step": 1977
    },
    {
      "epoch": 0.6624246483590087,
      "grad_norm": 0.1391264647245407,
      "learning_rate": 8e-05,
      "loss": 1.5749,
      "step": 1978
    },
    {
      "epoch": 0.6627595445411922,
      "grad_norm": 0.145990788936615,
      "learning_rate": 8e-05,
      "loss": 1.5775,
      "step": 1979
    },
    {
      "epoch": 0.6630944407233758,
      "grad_norm": 0.14110948145389557,
      "learning_rate": 8e-05,
      "loss": 1.5649,
      "step": 1980
    },
    {
      "epoch": 0.6634293369055593,
      "grad_norm": 0.1386590451002121,
      "learning_rate": 8e-05,
      "loss": 1.5056,
      "step": 1981
    },
    {
      "epoch": 0.6637642330877428,
      "grad_norm": 0.13863320648670197,
      "learning_rate": 8e-05,
      "loss": 1.5242,
      "step": 1982
    },
    {
      "epoch": 0.6640991292699263,
      "grad_norm": 0.13429699838161469,
      "learning_rate": 8e-05,
      "loss": 1.388,
      "step": 1983
    },
    {
      "epoch": 0.6644340254521098,
      "grad_norm": 0.13458198308944702,
      "learning_rate": 8e-05,
      "loss": 1.5182,
      "step": 1984
    },
    {
      "epoch": 0.6647689216342934,
      "grad_norm": 0.13914388418197632,
      "learning_rate": 8e-05,
      "loss": 1.5244,
      "step": 1985
    },
    {
      "epoch": 0.6651038178164769,
      "grad_norm": 0.14083071053028107,
      "learning_rate": 8e-05,
      "loss": 1.5116,
      "step": 1986
    },
    {
      "epoch": 0.6654387139986604,
      "grad_norm": 0.14919577538967133,
      "learning_rate": 8e-05,
      "loss": 1.548,
      "step": 1987
    },
    {
      "epoch": 0.6657736101808439,
      "grad_norm": 0.14374426007270813,
      "learning_rate": 8e-05,
      "loss": 1.5754,
      "step": 1988
    },
    {
      "epoch": 0.6661085063630274,
      "grad_norm": 0.13650913536548615,
      "learning_rate": 8e-05,
      "loss": 1.5222,
      "step": 1989
    },
    {
      "epoch": 0.666443402545211,
      "grad_norm": 0.14056022465229034,
      "learning_rate": 8e-05,
      "loss": 1.479,
      "step": 1990
    },
    {
      "epoch": 0.6667782987273945,
      "grad_norm": 0.14111992716789246,
      "learning_rate": 8e-05,
      "loss": 1.4805,
      "step": 1991
    },
    {
      "epoch": 0.667113194909578,
      "grad_norm": 0.1371803730726242,
      "learning_rate": 8e-05,
      "loss": 1.4838,
      "step": 1992
    },
    {
      "epoch": 0.6674480910917615,
      "grad_norm": 0.14167815446853638,
      "learning_rate": 8e-05,
      "loss": 1.539,
      "step": 1993
    },
    {
      "epoch": 0.667782987273945,
      "grad_norm": 0.14232049882411957,
      "learning_rate": 8e-05,
      "loss": 1.5668,
      "step": 1994
    },
    {
      "epoch": 0.6681178834561285,
      "grad_norm": 0.13563677668571472,
      "learning_rate": 8e-05,
      "loss": 1.5337,
      "step": 1995
    },
    {
      "epoch": 0.6684527796383122,
      "grad_norm": 0.13755936920642853,
      "learning_rate": 8e-05,
      "loss": 1.5249,
      "step": 1996
    },
    {
      "epoch": 0.6687876758204957,
      "grad_norm": 0.1350938230752945,
      "learning_rate": 8e-05,
      "loss": 1.5021,
      "step": 1997
    },
    {
      "epoch": 0.6691225720026792,
      "grad_norm": 0.13642916083335876,
      "learning_rate": 8e-05,
      "loss": 1.4602,
      "step": 1998
    },
    {
      "epoch": 0.6694574681848627,
      "grad_norm": 0.13927745819091797,
      "learning_rate": 8e-05,
      "loss": 1.4861,
      "step": 1999
    },
    {
      "epoch": 0.6697923643670463,
      "grad_norm": 0.1423933058977127,
      "learning_rate": 8e-05,
      "loss": 1.5931,
      "step": 2000
    },
    {
      "epoch": 0.6701272605492298,
      "grad_norm": 0.1505507379770279,
      "learning_rate": 8e-05,
      "loss": 1.5498,
      "step": 2001
    },
    {
      "epoch": 0.6704621567314133,
      "grad_norm": 0.14489488303661346,
      "learning_rate": 8e-05,
      "loss": 1.5469,
      "step": 2002
    },
    {
      "epoch": 0.6707970529135968,
      "grad_norm": 0.1447109580039978,
      "learning_rate": 8e-05,
      "loss": 1.5844,
      "step": 2003
    },
    {
      "epoch": 0.6711319490957803,
      "grad_norm": 0.14035746455192566,
      "learning_rate": 8e-05,
      "loss": 1.5837,
      "step": 2004
    },
    {
      "epoch": 0.6714668452779639,
      "grad_norm": 0.13473789393901825,
      "learning_rate": 8e-05,
      "loss": 1.4796,
      "step": 2005
    },
    {
      "epoch": 0.6718017414601474,
      "grad_norm": 0.13869492709636688,
      "learning_rate": 8e-05,
      "loss": 1.5226,
      "step": 2006
    },
    {
      "epoch": 0.6721366376423309,
      "grad_norm": 0.14098040759563446,
      "learning_rate": 8e-05,
      "loss": 1.5714,
      "step": 2007
    },
    {
      "epoch": 0.6724715338245144,
      "grad_norm": 0.13843970000743866,
      "learning_rate": 8e-05,
      "loss": 1.4838,
      "step": 2008
    },
    {
      "epoch": 0.6728064300066979,
      "grad_norm": 0.14221566915512085,
      "learning_rate": 8e-05,
      "loss": 1.5418,
      "step": 2009
    },
    {
      "epoch": 0.6731413261888815,
      "grad_norm": 0.1439504474401474,
      "learning_rate": 8e-05,
      "loss": 1.5968,
      "step": 2010
    },
    {
      "epoch": 0.673476222371065,
      "grad_norm": 0.13738855719566345,
      "learning_rate": 8e-05,
      "loss": 1.5281,
      "step": 2011
    },
    {
      "epoch": 0.6738111185532485,
      "grad_norm": 0.14285756647586823,
      "learning_rate": 8e-05,
      "loss": 1.51,
      "step": 2012
    },
    {
      "epoch": 0.674146014735432,
      "grad_norm": 0.1404331922531128,
      "learning_rate": 8e-05,
      "loss": 1.5776,
      "step": 2013
    },
    {
      "epoch": 0.6744809109176155,
      "grad_norm": 0.15214788913726807,
      "learning_rate": 8e-05,
      "loss": 1.525,
      "step": 2014
    },
    {
      "epoch": 0.674815807099799,
      "grad_norm": 0.1402786523103714,
      "learning_rate": 8e-05,
      "loss": 1.5677,
      "step": 2015
    },
    {
      "epoch": 0.6751507032819826,
      "grad_norm": 0.13721582293510437,
      "learning_rate": 8e-05,
      "loss": 1.5185,
      "step": 2016
    },
    {
      "epoch": 0.6754855994641661,
      "grad_norm": 0.13632167875766754,
      "learning_rate": 8e-05,
      "loss": 1.4477,
      "step": 2017
    },
    {
      "epoch": 0.6758204956463496,
      "grad_norm": 0.13463984429836273,
      "learning_rate": 8e-05,
      "loss": 1.4147,
      "step": 2018
    },
    {
      "epoch": 0.6761553918285331,
      "grad_norm": 0.13508684933185577,
      "learning_rate": 8e-05,
      "loss": 1.5081,
      "step": 2019
    },
    {
      "epoch": 0.6764902880107166,
      "grad_norm": 0.14125117659568787,
      "learning_rate": 8e-05,
      "loss": 1.5569,
      "step": 2020
    },
    {
      "epoch": 0.6768251841929002,
      "grad_norm": 0.1340889036655426,
      "learning_rate": 8e-05,
      "loss": 1.4563,
      "step": 2021
    },
    {
      "epoch": 0.6771600803750837,
      "grad_norm": 0.1403428167104721,
      "learning_rate": 8e-05,
      "loss": 1.4687,
      "step": 2022
    },
    {
      "epoch": 0.6774949765572672,
      "grad_norm": 0.13854223489761353,
      "learning_rate": 8e-05,
      "loss": 1.5547,
      "step": 2023
    },
    {
      "epoch": 0.6778298727394507,
      "grad_norm": 0.1409352421760559,
      "learning_rate": 8e-05,
      "loss": 1.5416,
      "step": 2024
    },
    {
      "epoch": 0.6781647689216342,
      "grad_norm": 0.14124615490436554,
      "learning_rate": 8e-05,
      "loss": 1.5911,
      "step": 2025
    },
    {
      "epoch": 0.6784996651038178,
      "grad_norm": 0.13848206400871277,
      "learning_rate": 8e-05,
      "loss": 1.5375,
      "step": 2026
    },
    {
      "epoch": 0.6788345612860014,
      "grad_norm": 0.1425924450159073,
      "learning_rate": 8e-05,
      "loss": 1.5646,
      "step": 2027
    },
    {
      "epoch": 0.6791694574681849,
      "grad_norm": 0.14741221070289612,
      "learning_rate": 8e-05,
      "loss": 1.5517,
      "step": 2028
    },
    {
      "epoch": 0.6795043536503684,
      "grad_norm": 0.12993460893630981,
      "learning_rate": 8e-05,
      "loss": 1.4616,
      "step": 2029
    },
    {
      "epoch": 0.679839249832552,
      "grad_norm": 0.1537303477525711,
      "learning_rate": 8e-05,
      "loss": 1.5223,
      "step": 2030
    },
    {
      "epoch": 0.6801741460147355,
      "grad_norm": 0.14040087163448334,
      "learning_rate": 8e-05,
      "loss": 1.6189,
      "step": 2031
    },
    {
      "epoch": 0.680509042196919,
      "grad_norm": 0.13396196067333221,
      "learning_rate": 8e-05,
      "loss": 1.4614,
      "step": 2032
    },
    {
      "epoch": 0.6808439383791025,
      "grad_norm": 0.1417197436094284,
      "learning_rate": 8e-05,
      "loss": 1.5812,
      "step": 2033
    },
    {
      "epoch": 0.681178834561286,
      "grad_norm": 0.14640690386295319,
      "learning_rate": 8e-05,
      "loss": 1.6259,
      "step": 2034
    },
    {
      "epoch": 0.6815137307434695,
      "grad_norm": 0.13634757697582245,
      "learning_rate": 8e-05,
      "loss": 1.5475,
      "step": 2035
    },
    {
      "epoch": 0.6818486269256531,
      "grad_norm": 0.14093948900699615,
      "learning_rate": 8e-05,
      "loss": 1.5581,
      "step": 2036
    },
    {
      "epoch": 0.6821835231078366,
      "grad_norm": 0.14134374260902405,
      "learning_rate": 8e-05,
      "loss": 1.4515,
      "step": 2037
    },
    {
      "epoch": 0.6825184192900201,
      "grad_norm": 0.14046314358711243,
      "learning_rate": 8e-05,
      "loss": 1.5561,
      "step": 2038
    },
    {
      "epoch": 0.6828533154722036,
      "grad_norm": 0.1388336569070816,
      "learning_rate": 8e-05,
      "loss": 1.4964,
      "step": 2039
    },
    {
      "epoch": 0.6831882116543871,
      "grad_norm": 0.13798195123672485,
      "learning_rate": 8e-05,
      "loss": 1.5363,
      "step": 2040
    },
    {
      "epoch": 0.6835231078365707,
      "grad_norm": 0.14047692716121674,
      "learning_rate": 8e-05,
      "loss": 1.4803,
      "step": 2041
    },
    {
      "epoch": 0.6838580040187542,
      "grad_norm": 0.1394367218017578,
      "learning_rate": 8e-05,
      "loss": 1.4414,
      "step": 2042
    },
    {
      "epoch": 0.6841929002009377,
      "grad_norm": 0.1413852721452713,
      "learning_rate": 8e-05,
      "loss": 1.5165,
      "step": 2043
    },
    {
      "epoch": 0.6845277963831212,
      "grad_norm": 0.14480452239513397,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 2044
    },
    {
      "epoch": 0.6848626925653047,
      "grad_norm": 0.1420983225107193,
      "learning_rate": 8e-05,
      "loss": 1.4906,
      "step": 2045
    },
    {
      "epoch": 0.6851975887474883,
      "grad_norm": 0.14554445445537567,
      "learning_rate": 8e-05,
      "loss": 1.6548,
      "step": 2046
    },
    {
      "epoch": 0.6855324849296718,
      "grad_norm": 0.13828955590724945,
      "learning_rate": 8e-05,
      "loss": 1.5187,
      "step": 2047
    },
    {
      "epoch": 0.6858673811118553,
      "grad_norm": 0.13790816068649292,
      "learning_rate": 8e-05,
      "loss": 1.5235,
      "step": 2048
    },
    {
      "epoch": 0.6862022772940388,
      "grad_norm": 0.14055569469928741,
      "learning_rate": 8e-05,
      "loss": 1.5038,
      "step": 2049
    },
    {
      "epoch": 0.6865371734762223,
      "grad_norm": 0.14373941719532013,
      "learning_rate": 8e-05,
      "loss": 1.5027,
      "step": 2050
    },
    {
      "epoch": 0.6868720696584059,
      "grad_norm": 0.13641661405563354,
      "learning_rate": 8e-05,
      "loss": 1.5695,
      "step": 2051
    },
    {
      "epoch": 0.6872069658405894,
      "grad_norm": 0.14214567840099335,
      "learning_rate": 8e-05,
      "loss": 1.5388,
      "step": 2052
    },
    {
      "epoch": 0.6875418620227729,
      "grad_norm": 0.14693138003349304,
      "learning_rate": 8e-05,
      "loss": 1.569,
      "step": 2053
    },
    {
      "epoch": 0.6878767582049564,
      "grad_norm": 0.14117290079593658,
      "learning_rate": 8e-05,
      "loss": 1.5283,
      "step": 2054
    },
    {
      "epoch": 0.6882116543871399,
      "grad_norm": 0.13695457577705383,
      "learning_rate": 8e-05,
      "loss": 1.5012,
      "step": 2055
    },
    {
      "epoch": 0.6885465505693235,
      "grad_norm": 0.14222650229930878,
      "learning_rate": 8e-05,
      "loss": 1.5555,
      "step": 2056
    },
    {
      "epoch": 0.6888814467515071,
      "grad_norm": 0.1390327662229538,
      "learning_rate": 8e-05,
      "loss": 1.4764,
      "step": 2057
    },
    {
      "epoch": 0.6892163429336906,
      "grad_norm": 0.14643490314483643,
      "learning_rate": 8e-05,
      "loss": 1.5207,
      "step": 2058
    },
    {
      "epoch": 0.6895512391158741,
      "grad_norm": 0.13313604891300201,
      "learning_rate": 8e-05,
      "loss": 1.4745,
      "step": 2059
    },
    {
      "epoch": 0.6898861352980576,
      "grad_norm": 0.1402878761291504,
      "learning_rate": 8e-05,
      "loss": 1.5009,
      "step": 2060
    },
    {
      "epoch": 0.6902210314802412,
      "grad_norm": 0.1368492990732193,
      "learning_rate": 8e-05,
      "loss": 1.49,
      "step": 2061
    },
    {
      "epoch": 0.6905559276624247,
      "grad_norm": 0.13201624155044556,
      "learning_rate": 8e-05,
      "loss": 1.4666,
      "step": 2062
    },
    {
      "epoch": 0.6908908238446082,
      "grad_norm": 0.14601768553256989,
      "learning_rate": 8e-05,
      "loss": 1.5749,
      "step": 2063
    },
    {
      "epoch": 0.6912257200267917,
      "grad_norm": 0.13968351483345032,
      "learning_rate": 8e-05,
      "loss": 1.5059,
      "step": 2064
    },
    {
      "epoch": 0.6915606162089752,
      "grad_norm": 0.14267674088478088,
      "learning_rate": 8e-05,
      "loss": 1.4999,
      "step": 2065
    },
    {
      "epoch": 0.6918955123911588,
      "grad_norm": 0.141214057803154,
      "learning_rate": 8e-05,
      "loss": 1.4232,
      "step": 2066
    },
    {
      "epoch": 0.6922304085733423,
      "grad_norm": 0.14243124425411224,
      "learning_rate": 8e-05,
      "loss": 1.4762,
      "step": 2067
    },
    {
      "epoch": 0.6925653047555258,
      "grad_norm": 0.13995693624019623,
      "learning_rate": 8e-05,
      "loss": 1.5407,
      "step": 2068
    },
    {
      "epoch": 0.6929002009377093,
      "grad_norm": 0.13144904375076294,
      "learning_rate": 8e-05,
      "loss": 1.4592,
      "step": 2069
    },
    {
      "epoch": 0.6932350971198928,
      "grad_norm": 0.1391945332288742,
      "learning_rate": 8e-05,
      "loss": 1.5507,
      "step": 2070
    },
    {
      "epoch": 0.6935699933020764,
      "grad_norm": 0.1410115510225296,
      "learning_rate": 8e-05,
      "loss": 1.5443,
      "step": 2071
    },
    {
      "epoch": 0.6939048894842599,
      "grad_norm": 0.13971349596977234,
      "learning_rate": 8e-05,
      "loss": 1.5519,
      "step": 2072
    },
    {
      "epoch": 0.6942397856664434,
      "grad_norm": 0.1402645856142044,
      "learning_rate": 8e-05,
      "loss": 1.5264,
      "step": 2073
    },
    {
      "epoch": 0.6945746818486269,
      "grad_norm": 0.14344066381454468,
      "learning_rate": 8e-05,
      "loss": 1.5532,
      "step": 2074
    },
    {
      "epoch": 0.6949095780308104,
      "grad_norm": 0.137055903673172,
      "learning_rate": 8e-05,
      "loss": 1.4316,
      "step": 2075
    },
    {
      "epoch": 0.695244474212994,
      "grad_norm": 0.13827307522296906,
      "learning_rate": 8e-05,
      "loss": 1.5325,
      "step": 2076
    },
    {
      "epoch": 0.6955793703951775,
      "grad_norm": 0.13539175689220428,
      "learning_rate": 8e-05,
      "loss": 1.6054,
      "step": 2077
    },
    {
      "epoch": 0.695914266577361,
      "grad_norm": 0.14003844559192657,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 2078
    },
    {
      "epoch": 0.6962491627595445,
      "grad_norm": 0.13794875144958496,
      "learning_rate": 8e-05,
      "loss": 1.5304,
      "step": 2079
    },
    {
      "epoch": 0.696584058941728,
      "grad_norm": 0.13709869980812073,
      "learning_rate": 8e-05,
      "loss": 1.5302,
      "step": 2080
    },
    {
      "epoch": 0.6969189551239116,
      "grad_norm": 0.14796867966651917,
      "learning_rate": 8e-05,
      "loss": 1.5565,
      "step": 2081
    },
    {
      "epoch": 0.6972538513060951,
      "grad_norm": 0.14050568640232086,
      "learning_rate": 8e-05,
      "loss": 1.5437,
      "step": 2082
    },
    {
      "epoch": 0.6975887474882786,
      "grad_norm": 0.13728706538677216,
      "learning_rate": 8e-05,
      "loss": 1.4269,
      "step": 2083
    },
    {
      "epoch": 0.6979236436704621,
      "grad_norm": 0.13970699906349182,
      "learning_rate": 8e-05,
      "loss": 1.5271,
      "step": 2084
    },
    {
      "epoch": 0.6982585398526456,
      "grad_norm": 0.13637663424015045,
      "learning_rate": 8e-05,
      "loss": 1.474,
      "step": 2085
    },
    {
      "epoch": 0.6985934360348292,
      "grad_norm": 0.14475183188915253,
      "learning_rate": 8e-05,
      "loss": 1.6201,
      "step": 2086
    },
    {
      "epoch": 0.6989283322170127,
      "grad_norm": 0.13979192078113556,
      "learning_rate": 8e-05,
      "loss": 1.5563,
      "step": 2087
    },
    {
      "epoch": 0.6992632283991963,
      "grad_norm": 0.14243507385253906,
      "learning_rate": 8e-05,
      "loss": 1.4939,
      "step": 2088
    },
    {
      "epoch": 0.6995981245813798,
      "grad_norm": 0.14853468537330627,
      "learning_rate": 8e-05,
      "loss": 1.5754,
      "step": 2089
    },
    {
      "epoch": 0.6999330207635633,
      "grad_norm": 0.14143683016300201,
      "learning_rate": 8e-05,
      "loss": 1.4451,
      "step": 2090
    },
    {
      "epoch": 0.7002679169457469,
      "grad_norm": 0.1454392373561859,
      "learning_rate": 8e-05,
      "loss": 1.5706,
      "step": 2091
    },
    {
      "epoch": 0.7006028131279304,
      "grad_norm": 0.14209409058094025,
      "learning_rate": 8e-05,
      "loss": 1.6015,
      "step": 2092
    },
    {
      "epoch": 0.7009377093101139,
      "grad_norm": 0.14336790144443512,
      "learning_rate": 8e-05,
      "loss": 1.5675,
      "step": 2093
    },
    {
      "epoch": 0.7012726054922974,
      "grad_norm": 0.14318352937698364,
      "learning_rate": 8e-05,
      "loss": 1.5904,
      "step": 2094
    },
    {
      "epoch": 0.7016075016744809,
      "grad_norm": 0.14106649160385132,
      "learning_rate": 8e-05,
      "loss": 1.526,
      "step": 2095
    },
    {
      "epoch": 0.7019423978566645,
      "grad_norm": 0.1501181423664093,
      "learning_rate": 8e-05,
      "loss": 1.529,
      "step": 2096
    },
    {
      "epoch": 0.702277294038848,
      "grad_norm": 0.13255643844604492,
      "learning_rate": 8e-05,
      "loss": 1.486,
      "step": 2097
    },
    {
      "epoch": 0.7026121902210315,
      "grad_norm": 0.13332900404930115,
      "learning_rate": 8e-05,
      "loss": 1.4368,
      "step": 2098
    },
    {
      "epoch": 0.702947086403215,
      "grad_norm": 0.14407356083393097,
      "learning_rate": 8e-05,
      "loss": 1.5706,
      "step": 2099
    },
    {
      "epoch": 0.7032819825853985,
      "grad_norm": 0.14103929698467255,
      "learning_rate": 8e-05,
      "loss": 1.6058,
      "step": 2100
    },
    {
      "epoch": 0.703616878767582,
      "grad_norm": 0.136758491396904,
      "learning_rate": 8e-05,
      "loss": 1.5731,
      "step": 2101
    },
    {
      "epoch": 0.7039517749497656,
      "grad_norm": 0.14044763147830963,
      "learning_rate": 8e-05,
      "loss": 1.5199,
      "step": 2102
    },
    {
      "epoch": 0.7042866711319491,
      "grad_norm": 0.13505378365516663,
      "learning_rate": 8e-05,
      "loss": 1.5541,
      "step": 2103
    },
    {
      "epoch": 0.7046215673141326,
      "grad_norm": 0.13650259375572205,
      "learning_rate": 8e-05,
      "loss": 1.5003,
      "step": 2104
    },
    {
      "epoch": 0.7049564634963161,
      "grad_norm": 0.14124679565429688,
      "learning_rate": 8e-05,
      "loss": 1.6016,
      "step": 2105
    },
    {
      "epoch": 0.7052913596784997,
      "grad_norm": 0.14346563816070557,
      "learning_rate": 8e-05,
      "loss": 1.4933,
      "step": 2106
    },
    {
      "epoch": 0.7056262558606832,
      "grad_norm": 0.139438197016716,
      "learning_rate": 8e-05,
      "loss": 1.4871,
      "step": 2107
    },
    {
      "epoch": 0.7059611520428667,
      "grad_norm": 0.1409263014793396,
      "learning_rate": 8e-05,
      "loss": 1.4821,
      "step": 2108
    },
    {
      "epoch": 0.7062960482250502,
      "grad_norm": 0.13866467773914337,
      "learning_rate": 8e-05,
      "loss": 1.4534,
      "step": 2109
    },
    {
      "epoch": 0.7066309444072337,
      "grad_norm": 0.14065223932266235,
      "learning_rate": 8e-05,
      "loss": 1.4578,
      "step": 2110
    },
    {
      "epoch": 0.7069658405894172,
      "grad_norm": 0.14174064993858337,
      "learning_rate": 8e-05,
      "loss": 1.5483,
      "step": 2111
    },
    {
      "epoch": 0.7073007367716008,
      "grad_norm": 0.13859854638576508,
      "learning_rate": 8e-05,
      "loss": 1.5455,
      "step": 2112
    },
    {
      "epoch": 0.7076356329537843,
      "grad_norm": 0.13937583565711975,
      "learning_rate": 8e-05,
      "loss": 1.4241,
      "step": 2113
    },
    {
      "epoch": 0.7079705291359678,
      "grad_norm": 0.14521291851997375,
      "learning_rate": 8e-05,
      "loss": 1.5739,
      "step": 2114
    },
    {
      "epoch": 0.7083054253181513,
      "grad_norm": 0.14393110573291779,
      "learning_rate": 8e-05,
      "loss": 1.562,
      "step": 2115
    },
    {
      "epoch": 0.7086403215003348,
      "grad_norm": 0.14094461500644684,
      "learning_rate": 8e-05,
      "loss": 1.5796,
      "step": 2116
    },
    {
      "epoch": 0.7089752176825184,
      "grad_norm": 0.14819028973579407,
      "learning_rate": 8e-05,
      "loss": 1.5751,
      "step": 2117
    },
    {
      "epoch": 0.709310113864702,
      "grad_norm": 0.14219148457050323,
      "learning_rate": 8e-05,
      "loss": 1.5489,
      "step": 2118
    },
    {
      "epoch": 0.7096450100468855,
      "grad_norm": 0.13685883581638336,
      "learning_rate": 8e-05,
      "loss": 1.5301,
      "step": 2119
    },
    {
      "epoch": 0.709979906229069,
      "grad_norm": 0.14446040987968445,
      "learning_rate": 8e-05,
      "loss": 1.4489,
      "step": 2120
    },
    {
      "epoch": 0.7103148024112526,
      "grad_norm": 0.14186973869800568,
      "learning_rate": 8e-05,
      "loss": 1.5496,
      "step": 2121
    },
    {
      "epoch": 0.7106496985934361,
      "grad_norm": 0.13339507579803467,
      "learning_rate": 8e-05,
      "loss": 1.5381,
      "step": 2122
    },
    {
      "epoch": 0.7109845947756196,
      "grad_norm": 0.14067864418029785,
      "learning_rate": 8e-05,
      "loss": 1.4977,
      "step": 2123
    },
    {
      "epoch": 0.7113194909578031,
      "grad_norm": 0.14324510097503662,
      "learning_rate": 8e-05,
      "loss": 1.5304,
      "step": 2124
    },
    {
      "epoch": 0.7116543871399866,
      "grad_norm": 0.1439944952726364,
      "learning_rate": 8e-05,
      "loss": 1.5454,
      "step": 2125
    },
    {
      "epoch": 0.7119892833221702,
      "grad_norm": 0.15877819061279297,
      "learning_rate": 8e-05,
      "loss": 1.5883,
      "step": 2126
    },
    {
      "epoch": 0.7123241795043537,
      "grad_norm": 0.13896878063678741,
      "learning_rate": 8e-05,
      "loss": 1.493,
      "step": 2127
    },
    {
      "epoch": 0.7126590756865372,
      "grad_norm": 0.1714382916688919,
      "learning_rate": 8e-05,
      "loss": 1.5396,
      "step": 2128
    },
    {
      "epoch": 0.7129939718687207,
      "grad_norm": 0.15131932497024536,
      "learning_rate": 8e-05,
      "loss": 1.6033,
      "step": 2129
    },
    {
      "epoch": 0.7133288680509042,
      "grad_norm": 0.13701435923576355,
      "learning_rate": 8e-05,
      "loss": 1.5132,
      "step": 2130
    },
    {
      "epoch": 0.7136637642330877,
      "grad_norm": 0.15607112646102905,
      "learning_rate": 8e-05,
      "loss": 1.5114,
      "step": 2131
    },
    {
      "epoch": 0.7139986604152713,
      "grad_norm": 0.14738556742668152,
      "learning_rate": 8e-05,
      "loss": 1.4717,
      "step": 2132
    },
    {
      "epoch": 0.7143335565974548,
      "grad_norm": 0.1433797925710678,
      "learning_rate": 8e-05,
      "loss": 1.5443,
      "step": 2133
    },
    {
      "epoch": 0.7146684527796383,
      "grad_norm": 0.1453401744365692,
      "learning_rate": 8e-05,
      "loss": 1.5395,
      "step": 2134
    },
    {
      "epoch": 0.7150033489618218,
      "grad_norm": 0.1401716023683548,
      "learning_rate": 8e-05,
      "loss": 1.5609,
      "step": 2135
    },
    {
      "epoch": 0.7153382451440053,
      "grad_norm": 0.14583702385425568,
      "learning_rate": 8e-05,
      "loss": 1.496,
      "step": 2136
    },
    {
      "epoch": 0.7156731413261889,
      "grad_norm": 0.1630484163761139,
      "learning_rate": 8e-05,
      "loss": 1.4871,
      "step": 2137
    },
    {
      "epoch": 0.7160080375083724,
      "grad_norm": 0.14197055995464325,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 2138
    },
    {
      "epoch": 0.7163429336905559,
      "grad_norm": 0.14677678048610687,
      "learning_rate": 8e-05,
      "loss": 1.4632,
      "step": 2139
    },
    {
      "epoch": 0.7166778298727394,
      "grad_norm": 0.14552681148052216,
      "learning_rate": 8e-05,
      "loss": 1.5092,
      "step": 2140
    },
    {
      "epoch": 0.7170127260549229,
      "grad_norm": 0.14029791951179504,
      "learning_rate": 8e-05,
      "loss": 1.4705,
      "step": 2141
    },
    {
      "epoch": 0.7173476222371065,
      "grad_norm": 0.14451171457767487,
      "learning_rate": 8e-05,
      "loss": 1.5921,
      "step": 2142
    },
    {
      "epoch": 0.71768251841929,
      "grad_norm": 0.16151562333106995,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 2143
    },
    {
      "epoch": 0.7180174146014735,
      "grad_norm": 0.13869501650333405,
      "learning_rate": 8e-05,
      "loss": 1.4939,
      "step": 2144
    },
    {
      "epoch": 0.718352310783657,
      "grad_norm": 0.14004389941692352,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 2145
    },
    {
      "epoch": 0.7186872069658405,
      "grad_norm": 0.15884007513523102,
      "learning_rate": 8e-05,
      "loss": 1.5948,
      "step": 2146
    },
    {
      "epoch": 0.7190221031480241,
      "grad_norm": 0.1430642306804657,
      "learning_rate": 8e-05,
      "loss": 1.5521,
      "step": 2147
    },
    {
      "epoch": 0.7193569993302076,
      "grad_norm": 0.1485920548439026,
      "learning_rate": 8e-05,
      "loss": 1.3921,
      "step": 2148
    },
    {
      "epoch": 0.7196918955123912,
      "grad_norm": 0.14824649691581726,
      "learning_rate": 8e-05,
      "loss": 1.6663,
      "step": 2149
    },
    {
      "epoch": 0.7200267916945747,
      "grad_norm": 0.13984787464141846,
      "learning_rate": 8e-05,
      "loss": 1.5115,
      "step": 2150
    },
    {
      "epoch": 0.7203616878767582,
      "grad_norm": 0.14352723956108093,
      "learning_rate": 8e-05,
      "loss": 1.4911,
      "step": 2151
    },
    {
      "epoch": 0.7206965840589418,
      "grad_norm": 0.14399586617946625,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 2152
    },
    {
      "epoch": 0.7210314802411253,
      "grad_norm": 0.1392461061477661,
      "learning_rate": 8e-05,
      "loss": 1.4928,
      "step": 2153
    },
    {
      "epoch": 0.7213663764233088,
      "grad_norm": 0.15597014129161835,
      "learning_rate": 8e-05,
      "loss": 1.5409,
      "step": 2154
    },
    {
      "epoch": 0.7217012726054923,
      "grad_norm": 0.14131826162338257,
      "learning_rate": 8e-05,
      "loss": 1.4628,
      "step": 2155
    },
    {
      "epoch": 0.7220361687876758,
      "grad_norm": 0.1394462138414383,
      "learning_rate": 8e-05,
      "loss": 1.4415,
      "step": 2156
    },
    {
      "epoch": 0.7223710649698594,
      "grad_norm": 0.1442340612411499,
      "learning_rate": 8e-05,
      "loss": 1.4506,
      "step": 2157
    },
    {
      "epoch": 0.7227059611520429,
      "grad_norm": 0.1514292061328888,
      "learning_rate": 8e-05,
      "loss": 1.5117,
      "step": 2158
    },
    {
      "epoch": 0.7230408573342264,
      "grad_norm": 0.1403646320104599,
      "learning_rate": 8e-05,
      "loss": 1.5021,
      "step": 2159
    },
    {
      "epoch": 0.7233757535164099,
      "grad_norm": 0.14268358051776886,
      "learning_rate": 8e-05,
      "loss": 1.454,
      "step": 2160
    },
    {
      "epoch": 0.7237106496985934,
      "grad_norm": 0.15805256366729736,
      "learning_rate": 8e-05,
      "loss": 1.6012,
      "step": 2161
    },
    {
      "epoch": 0.724045545880777,
      "grad_norm": 0.13488289713859558,
      "learning_rate": 8e-05,
      "loss": 1.4296,
      "step": 2162
    },
    {
      "epoch": 0.7243804420629605,
      "grad_norm": 0.1538832038640976,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 2163
    },
    {
      "epoch": 0.724715338245144,
      "grad_norm": 0.16839951276779175,
      "learning_rate": 8e-05,
      "loss": 1.4536,
      "step": 2164
    },
    {
      "epoch": 0.7250502344273275,
      "grad_norm": 0.14343123137950897,
      "learning_rate": 8e-05,
      "loss": 1.6301,
      "step": 2165
    },
    {
      "epoch": 0.725385130609511,
      "grad_norm": 0.17139452695846558,
      "learning_rate": 8e-05,
      "loss": 1.5095,
      "step": 2166
    },
    {
      "epoch": 0.7257200267916946,
      "grad_norm": 0.15399855375289917,
      "learning_rate": 8e-05,
      "loss": 1.652,
      "step": 2167
    },
    {
      "epoch": 0.7260549229738781,
      "grad_norm": 0.14385409653186798,
      "learning_rate": 8e-05,
      "loss": 1.531,
      "step": 2168
    },
    {
      "epoch": 0.7263898191560616,
      "grad_norm": 0.1564321368932724,
      "learning_rate": 8e-05,
      "loss": 1.6569,
      "step": 2169
    },
    {
      "epoch": 0.7267247153382451,
      "grad_norm": 0.16630670428276062,
      "learning_rate": 8e-05,
      "loss": 1.5747,
      "step": 2170
    },
    {
      "epoch": 0.7270596115204286,
      "grad_norm": 0.13339418172836304,
      "learning_rate": 8e-05,
      "loss": 1.3531,
      "step": 2171
    },
    {
      "epoch": 0.7273945077026122,
      "grad_norm": 0.16428925096988678,
      "learning_rate": 8e-05,
      "loss": 1.4458,
      "step": 2172
    },
    {
      "epoch": 0.7277294038847957,
      "grad_norm": 0.15545572340488434,
      "learning_rate": 8e-05,
      "loss": 1.557,
      "step": 2173
    },
    {
      "epoch": 0.7280643000669792,
      "grad_norm": 0.143809974193573,
      "learning_rate": 8e-05,
      "loss": 1.5113,
      "step": 2174
    },
    {
      "epoch": 0.7283991962491627,
      "grad_norm": 0.13964562118053436,
      "learning_rate": 8e-05,
      "loss": 1.4882,
      "step": 2175
    },
    {
      "epoch": 0.7287340924313462,
      "grad_norm": 0.1524481177330017,
      "learning_rate": 8e-05,
      "loss": 1.4666,
      "step": 2176
    },
    {
      "epoch": 0.7290689886135298,
      "grad_norm": 0.13931523263454437,
      "learning_rate": 8e-05,
      "loss": 1.5174,
      "step": 2177
    },
    {
      "epoch": 0.7294038847957133,
      "grad_norm": 0.14793290197849274,
      "learning_rate": 8e-05,
      "loss": 1.6755,
      "step": 2178
    },
    {
      "epoch": 0.7297387809778969,
      "grad_norm": 0.14987652003765106,
      "learning_rate": 8e-05,
      "loss": 1.5628,
      "step": 2179
    },
    {
      "epoch": 0.7300736771600804,
      "grad_norm": 0.14014726877212524,
      "learning_rate": 8e-05,
      "loss": 1.4842,
      "step": 2180
    },
    {
      "epoch": 0.730408573342264,
      "grad_norm": 0.14198023080825806,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 2181
    },
    {
      "epoch": 0.7307434695244475,
      "grad_norm": 0.14596758782863617,
      "learning_rate": 8e-05,
      "loss": 1.4667,
      "step": 2182
    },
    {
      "epoch": 0.731078365706631,
      "grad_norm": 0.1413455754518509,
      "learning_rate": 8e-05,
      "loss": 1.5448,
      "step": 2183
    },
    {
      "epoch": 0.7314132618888145,
      "grad_norm": 0.14061346650123596,
      "learning_rate": 8e-05,
      "loss": 1.5341,
      "step": 2184
    },
    {
      "epoch": 0.731748158070998,
      "grad_norm": 0.15032586455345154,
      "learning_rate": 8e-05,
      "loss": 1.5617,
      "step": 2185
    },
    {
      "epoch": 0.7320830542531815,
      "grad_norm": 0.14596231281757355,
      "learning_rate": 8e-05,
      "loss": 1.5286,
      "step": 2186
    },
    {
      "epoch": 0.7324179504353651,
      "grad_norm": 0.14077787101268768,
      "learning_rate": 8e-05,
      "loss": 1.4128,
      "step": 2187
    },
    {
      "epoch": 0.7327528466175486,
      "grad_norm": 0.13982771337032318,
      "learning_rate": 8e-05,
      "loss": 1.5134,
      "step": 2188
    },
    {
      "epoch": 0.7330877427997321,
      "grad_norm": 0.15578393638134003,
      "learning_rate": 8e-05,
      "loss": 1.5742,
      "step": 2189
    },
    {
      "epoch": 0.7334226389819156,
      "grad_norm": 0.15158623456954956,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 2190
    },
    {
      "epoch": 0.7337575351640991,
      "grad_norm": 0.1381734162569046,
      "learning_rate": 8e-05,
      "loss": 1.4981,
      "step": 2191
    },
    {
      "epoch": 0.7340924313462827,
      "grad_norm": 0.17012518644332886,
      "learning_rate": 8e-05,
      "loss": 1.5481,
      "step": 2192
    },
    {
      "epoch": 0.7344273275284662,
      "grad_norm": 0.16006803512573242,
      "learning_rate": 8e-05,
      "loss": 1.5517,
      "step": 2193
    },
    {
      "epoch": 0.7347622237106497,
      "grad_norm": 0.14597029983997345,
      "learning_rate": 8e-05,
      "loss": 1.4826,
      "step": 2194
    },
    {
      "epoch": 0.7350971198928332,
      "grad_norm": 0.14316771924495697,
      "learning_rate": 8e-05,
      "loss": 1.4264,
      "step": 2195
    },
    {
      "epoch": 0.7354320160750167,
      "grad_norm": 0.15927591919898987,
      "learning_rate": 8e-05,
      "loss": 1.5241,
      "step": 2196
    },
    {
      "epoch": 0.7357669122572003,
      "grad_norm": 0.13273471593856812,
      "learning_rate": 8e-05,
      "loss": 1.4527,
      "step": 2197
    },
    {
      "epoch": 0.7361018084393838,
      "grad_norm": 0.15308724343776703,
      "learning_rate": 8e-05,
      "loss": 1.54,
      "step": 2198
    },
    {
      "epoch": 0.7364367046215673,
      "grad_norm": 0.15091797709465027,
      "learning_rate": 8e-05,
      "loss": 1.5505,
      "step": 2199
    },
    {
      "epoch": 0.7367716008037508,
      "grad_norm": 0.14187446236610413,
      "learning_rate": 8e-05,
      "loss": 1.566,
      "step": 2200
    },
    {
      "epoch": 0.7371064969859343,
      "grad_norm": 0.15014205873012543,
      "learning_rate": 8e-05,
      "loss": 1.5875,
      "step": 2201
    },
    {
      "epoch": 0.7374413931681179,
      "grad_norm": 0.13473179936408997,
      "learning_rate": 8e-05,
      "loss": 1.521,
      "step": 2202
    },
    {
      "epoch": 0.7377762893503014,
      "grad_norm": 0.133131742477417,
      "learning_rate": 8e-05,
      "loss": 1.4034,
      "step": 2203
    },
    {
      "epoch": 0.7381111855324849,
      "grad_norm": 0.1414099484682083,
      "learning_rate": 8e-05,
      "loss": 1.5859,
      "step": 2204
    },
    {
      "epoch": 0.7384460817146684,
      "grad_norm": 0.1406291127204895,
      "learning_rate": 8e-05,
      "loss": 1.4589,
      "step": 2205
    },
    {
      "epoch": 0.7387809778968519,
      "grad_norm": 0.148028165102005,
      "learning_rate": 8e-05,
      "loss": 1.5736,
      "step": 2206
    },
    {
      "epoch": 0.7391158740790355,
      "grad_norm": 0.14353784918785095,
      "learning_rate": 8e-05,
      "loss": 1.4975,
      "step": 2207
    },
    {
      "epoch": 0.739450770261219,
      "grad_norm": 0.15409372746944427,
      "learning_rate": 8e-05,
      "loss": 1.5179,
      "step": 2208
    },
    {
      "epoch": 0.7397856664434025,
      "grad_norm": 0.14875224232673645,
      "learning_rate": 8e-05,
      "loss": 1.4592,
      "step": 2209
    },
    {
      "epoch": 0.7401205626255861,
      "grad_norm": 0.14148299396038055,
      "learning_rate": 8e-05,
      "loss": 1.5162,
      "step": 2210
    },
    {
      "epoch": 0.7404554588077696,
      "grad_norm": 0.14589498937129974,
      "learning_rate": 8e-05,
      "loss": 1.594,
      "step": 2211
    },
    {
      "epoch": 0.7407903549899532,
      "grad_norm": 0.15227963030338287,
      "learning_rate": 8e-05,
      "loss": 1.5252,
      "step": 2212
    },
    {
      "epoch": 0.7411252511721367,
      "grad_norm": 0.15338073670864105,
      "learning_rate": 8e-05,
      "loss": 1.6389,
      "step": 2213
    },
    {
      "epoch": 0.7414601473543202,
      "grad_norm": 0.144270658493042,
      "learning_rate": 8e-05,
      "loss": 1.5272,
      "step": 2214
    },
    {
      "epoch": 0.7417950435365037,
      "grad_norm": 0.14677943289279938,
      "learning_rate": 8e-05,
      "loss": 1.4895,
      "step": 2215
    },
    {
      "epoch": 0.7421299397186872,
      "grad_norm": 0.1497674286365509,
      "learning_rate": 8e-05,
      "loss": 1.5801,
      "step": 2216
    },
    {
      "epoch": 0.7424648359008708,
      "grad_norm": 0.1392199993133545,
      "learning_rate": 8e-05,
      "loss": 1.5216,
      "step": 2217
    },
    {
      "epoch": 0.7427997320830543,
      "grad_norm": 0.1528903990983963,
      "learning_rate": 8e-05,
      "loss": 1.5459,
      "step": 2218
    },
    {
      "epoch": 0.7431346282652378,
      "grad_norm": 0.14121735095977783,
      "learning_rate": 8e-05,
      "loss": 1.4609,
      "step": 2219
    },
    {
      "epoch": 0.7434695244474213,
      "grad_norm": 0.14162017405033112,
      "learning_rate": 8e-05,
      "loss": 1.4357,
      "step": 2220
    },
    {
      "epoch": 0.7438044206296048,
      "grad_norm": 0.14676086604595184,
      "learning_rate": 8e-05,
      "loss": 1.5145,
      "step": 2221
    },
    {
      "epoch": 0.7441393168117884,
      "grad_norm": 0.15238133072853088,
      "learning_rate": 8e-05,
      "loss": 1.5196,
      "step": 2222
    },
    {
      "epoch": 0.7444742129939719,
      "grad_norm": 0.14248494803905487,
      "learning_rate": 8e-05,
      "loss": 1.5586,
      "step": 2223
    },
    {
      "epoch": 0.7448091091761554,
      "grad_norm": 0.1475951224565506,
      "learning_rate": 8e-05,
      "loss": 1.4766,
      "step": 2224
    },
    {
      "epoch": 0.7451440053583389,
      "grad_norm": 0.1521444022655487,
      "learning_rate": 8e-05,
      "loss": 1.5622,
      "step": 2225
    },
    {
      "epoch": 0.7454789015405224,
      "grad_norm": 0.1454870104789734,
      "learning_rate": 8e-05,
      "loss": 1.5309,
      "step": 2226
    },
    {
      "epoch": 0.745813797722706,
      "grad_norm": 0.138394296169281,
      "learning_rate": 8e-05,
      "loss": 1.4703,
      "step": 2227
    },
    {
      "epoch": 0.7461486939048895,
      "grad_norm": 0.15230390429496765,
      "learning_rate": 8e-05,
      "loss": 1.4683,
      "step": 2228
    },
    {
      "epoch": 0.746483590087073,
      "grad_norm": 0.14494332671165466,
      "learning_rate": 8e-05,
      "loss": 1.5648,
      "step": 2229
    },
    {
      "epoch": 0.7468184862692565,
      "grad_norm": 0.140365868806839,
      "learning_rate": 8e-05,
      "loss": 1.5597,
      "step": 2230
    },
    {
      "epoch": 0.74715338245144,
      "grad_norm": 0.16459840536117554,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 2231
    },
    {
      "epoch": 0.7474882786336235,
      "grad_norm": 0.14838096499443054,
      "learning_rate": 8e-05,
      "loss": 1.5845,
      "step": 2232
    },
    {
      "epoch": 0.7478231748158071,
      "grad_norm": 0.14476314187049866,
      "learning_rate": 8e-05,
      "loss": 1.5017,
      "step": 2233
    },
    {
      "epoch": 0.7481580709979906,
      "grad_norm": 0.1545426845550537,
      "learning_rate": 8e-05,
      "loss": 1.5869,
      "step": 2234
    },
    {
      "epoch": 0.7484929671801741,
      "grad_norm": 0.15023107826709747,
      "learning_rate": 8e-05,
      "loss": 1.544,
      "step": 2235
    },
    {
      "epoch": 0.7488278633623576,
      "grad_norm": 0.1546478569507599,
      "learning_rate": 8e-05,
      "loss": 1.523,
      "step": 2236
    },
    {
      "epoch": 0.7491627595445411,
      "grad_norm": 0.15028753876686096,
      "learning_rate": 8e-05,
      "loss": 1.5138,
      "step": 2237
    },
    {
      "epoch": 0.7494976557267247,
      "grad_norm": 0.15065424144268036,
      "learning_rate": 8e-05,
      "loss": 1.5524,
      "step": 2238
    },
    {
      "epoch": 0.7498325519089082,
      "grad_norm": 0.14825724065303802,
      "learning_rate": 8e-05,
      "loss": 1.5107,
      "step": 2239
    },
    {
      "epoch": 0.7501674480910918,
      "grad_norm": 0.14509855210781097,
      "learning_rate": 8e-05,
      "loss": 1.5055,
      "step": 2240
    },
    {
      "epoch": 0.7505023442732753,
      "grad_norm": 0.14115621149539948,
      "learning_rate": 8e-05,
      "loss": 1.4867,
      "step": 2241
    },
    {
      "epoch": 0.7508372404554589,
      "grad_norm": 0.14431792497634888,
      "learning_rate": 8e-05,
      "loss": 1.578,
      "step": 2242
    },
    {
      "epoch": 0.7511721366376424,
      "grad_norm": 0.13761939108371735,
      "learning_rate": 8e-05,
      "loss": 1.4633,
      "step": 2243
    },
    {
      "epoch": 0.7515070328198259,
      "grad_norm": 0.14408022165298462,
      "learning_rate": 8e-05,
      "loss": 1.5637,
      "step": 2244
    },
    {
      "epoch": 0.7518419290020094,
      "grad_norm": 0.15073880553245544,
      "learning_rate": 8e-05,
      "loss": 1.5838,
      "step": 2245
    },
    {
      "epoch": 0.7521768251841929,
      "grad_norm": 0.15126484632492065,
      "learning_rate": 8e-05,
      "loss": 1.6211,
      "step": 2246
    },
    {
      "epoch": 0.7525117213663765,
      "grad_norm": 0.1386754810810089,
      "learning_rate": 8e-05,
      "loss": 1.4842,
      "step": 2247
    },
    {
      "epoch": 0.75284661754856,
      "grad_norm": 0.1436438113451004,
      "learning_rate": 8e-05,
      "loss": 1.4539,
      "step": 2248
    },
    {
      "epoch": 0.7531815137307435,
      "grad_norm": 0.14284318685531616,
      "learning_rate": 8e-05,
      "loss": 1.4702,
      "step": 2249
    },
    {
      "epoch": 0.753516409912927,
      "grad_norm": 0.1411362886428833,
      "learning_rate": 8e-05,
      "loss": 1.4787,
      "step": 2250
    },
    {
      "epoch": 0.7538513060951105,
      "grad_norm": 0.139942467212677,
      "learning_rate": 8e-05,
      "loss": 1.53,
      "step": 2251
    },
    {
      "epoch": 0.754186202277294,
      "grad_norm": 0.1481298804283142,
      "learning_rate": 8e-05,
      "loss": 1.5644,
      "step": 2252
    },
    {
      "epoch": 0.7545210984594776,
      "grad_norm": 0.14483484625816345,
      "learning_rate": 8e-05,
      "loss": 1.5643,
      "step": 2253
    },
    {
      "epoch": 0.7548559946416611,
      "grad_norm": 0.13933098316192627,
      "learning_rate": 8e-05,
      "loss": 1.5321,
      "step": 2254
    },
    {
      "epoch": 0.7551908908238446,
      "grad_norm": 0.1535387933254242,
      "learning_rate": 8e-05,
      "loss": 1.6067,
      "step": 2255
    },
    {
      "epoch": 0.7555257870060281,
      "grad_norm": 0.1376047432422638,
      "learning_rate": 8e-05,
      "loss": 1.4542,
      "step": 2256
    },
    {
      "epoch": 0.7558606831882116,
      "grad_norm": 0.1371319741010666,
      "learning_rate": 8e-05,
      "loss": 1.4722,
      "step": 2257
    },
    {
      "epoch": 0.7561955793703952,
      "grad_norm": 0.13672876358032227,
      "learning_rate": 8e-05,
      "loss": 1.471,
      "step": 2258
    },
    {
      "epoch": 0.7565304755525787,
      "grad_norm": 0.1448877453804016,
      "learning_rate": 8e-05,
      "loss": 1.5031,
      "step": 2259
    },
    {
      "epoch": 0.7568653717347622,
      "grad_norm": 0.13819320499897003,
      "learning_rate": 8e-05,
      "loss": 1.4235,
      "step": 2260
    },
    {
      "epoch": 0.7572002679169457,
      "grad_norm": 0.13814574480056763,
      "learning_rate": 8e-05,
      "loss": 1.4525,
      "step": 2261
    },
    {
      "epoch": 0.7575351640991292,
      "grad_norm": 0.1358402520418167,
      "learning_rate": 8e-05,
      "loss": 1.5013,
      "step": 2262
    },
    {
      "epoch": 0.7578700602813128,
      "grad_norm": 0.14475518465042114,
      "learning_rate": 8e-05,
      "loss": 1.5073,
      "step": 2263
    },
    {
      "epoch": 0.7582049564634963,
      "grad_norm": 0.14340141415596008,
      "learning_rate": 8e-05,
      "loss": 1.5619,
      "step": 2264
    },
    {
      "epoch": 0.7585398526456798,
      "grad_norm": 0.14292213320732117,
      "learning_rate": 8e-05,
      "loss": 1.499,
      "step": 2265
    },
    {
      "epoch": 0.7588747488278633,
      "grad_norm": 0.13833975791931152,
      "learning_rate": 8e-05,
      "loss": 1.4198,
      "step": 2266
    },
    {
      "epoch": 0.7592096450100468,
      "grad_norm": 0.13519792258739471,
      "learning_rate": 8e-05,
      "loss": 1.5032,
      "step": 2267
    },
    {
      "epoch": 0.7595445411922304,
      "grad_norm": 0.1410142034292221,
      "learning_rate": 8e-05,
      "loss": 1.5741,
      "step": 2268
    },
    {
      "epoch": 0.7598794373744139,
      "grad_norm": 0.14318658411502838,
      "learning_rate": 8e-05,
      "loss": 1.5514,
      "step": 2269
    },
    {
      "epoch": 0.7602143335565975,
      "grad_norm": 0.13871504366397858,
      "learning_rate": 8e-05,
      "loss": 1.4988,
      "step": 2270
    },
    {
      "epoch": 0.760549229738781,
      "grad_norm": 0.14042896032333374,
      "learning_rate": 8e-05,
      "loss": 1.5559,
      "step": 2271
    },
    {
      "epoch": 0.7608841259209645,
      "grad_norm": 0.14017769694328308,
      "learning_rate": 8e-05,
      "loss": 1.5279,
      "step": 2272
    },
    {
      "epoch": 0.7612190221031481,
      "grad_norm": 0.142185777425766,
      "learning_rate": 8e-05,
      "loss": 1.487,
      "step": 2273
    },
    {
      "epoch": 0.7615539182853316,
      "grad_norm": 0.14019405841827393,
      "learning_rate": 8e-05,
      "loss": 1.5133,
      "step": 2274
    },
    {
      "epoch": 0.7618888144675151,
      "grad_norm": 0.14764635264873505,
      "learning_rate": 8e-05,
      "loss": 1.5769,
      "step": 2275
    },
    {
      "epoch": 0.7622237106496986,
      "grad_norm": 0.13627687096595764,
      "learning_rate": 8e-05,
      "loss": 1.5007,
      "step": 2276
    },
    {
      "epoch": 0.7625586068318821,
      "grad_norm": 0.14298979938030243,
      "learning_rate": 8e-05,
      "loss": 1.5687,
      "step": 2277
    },
    {
      "epoch": 0.7628935030140657,
      "grad_norm": 0.144367054104805,
      "learning_rate": 8e-05,
      "loss": 1.604,
      "step": 2278
    },
    {
      "epoch": 0.7632283991962492,
      "grad_norm": 0.1374792605638504,
      "learning_rate": 8e-05,
      "loss": 1.5169,
      "step": 2279
    },
    {
      "epoch": 0.7635632953784327,
      "grad_norm": 0.1394890546798706,
      "learning_rate": 8e-05,
      "loss": 1.4317,
      "step": 2280
    },
    {
      "epoch": 0.7638981915606162,
      "grad_norm": 0.1431504189968109,
      "learning_rate": 8e-05,
      "loss": 1.5751,
      "step": 2281
    },
    {
      "epoch": 0.7642330877427997,
      "grad_norm": 0.1400367170572281,
      "learning_rate": 8e-05,
      "loss": 1.4615,
      "step": 2282
    },
    {
      "epoch": 0.7645679839249833,
      "grad_norm": 0.1405000388622284,
      "learning_rate": 8e-05,
      "loss": 1.5456,
      "step": 2283
    },
    {
      "epoch": 0.7649028801071668,
      "grad_norm": 0.13961955904960632,
      "learning_rate": 8e-05,
      "loss": 1.4758,
      "step": 2284
    },
    {
      "epoch": 0.7652377762893503,
      "grad_norm": 0.15145854651927948,
      "learning_rate": 8e-05,
      "loss": 1.5064,
      "step": 2285
    },
    {
      "epoch": 0.7655726724715338,
      "grad_norm": 0.1429021656513214,
      "learning_rate": 8e-05,
      "loss": 1.4585,
      "step": 2286
    },
    {
      "epoch": 0.7659075686537173,
      "grad_norm": 0.1379033476114273,
      "learning_rate": 8e-05,
      "loss": 1.4293,
      "step": 2287
    },
    {
      "epoch": 0.7662424648359009,
      "grad_norm": 0.1449035257101059,
      "learning_rate": 8e-05,
      "loss": 1.5448,
      "step": 2288
    },
    {
      "epoch": 0.7665773610180844,
      "grad_norm": 0.1420312523841858,
      "learning_rate": 8e-05,
      "loss": 1.5214,
      "step": 2289
    },
    {
      "epoch": 0.7669122572002679,
      "grad_norm": 0.14362341165542603,
      "learning_rate": 8e-05,
      "loss": 1.5091,
      "step": 2290
    },
    {
      "epoch": 0.7672471533824514,
      "grad_norm": 0.14207448065280914,
      "learning_rate": 8e-05,
      "loss": 1.5092,
      "step": 2291
    },
    {
      "epoch": 0.7675820495646349,
      "grad_norm": 0.14181368052959442,
      "learning_rate": 8e-05,
      "loss": 1.5501,
      "step": 2292
    },
    {
      "epoch": 0.7679169457468185,
      "grad_norm": 0.14224444329738617,
      "learning_rate": 8e-05,
      "loss": 1.5265,
      "step": 2293
    },
    {
      "epoch": 0.768251841929002,
      "grad_norm": 0.1397469937801361,
      "learning_rate": 8e-05,
      "loss": 1.4613,
      "step": 2294
    },
    {
      "epoch": 0.7685867381111855,
      "grad_norm": 0.14372538030147552,
      "learning_rate": 8e-05,
      "loss": 1.5253,
      "step": 2295
    },
    {
      "epoch": 0.768921634293369,
      "grad_norm": 0.14047791063785553,
      "learning_rate": 8e-05,
      "loss": 1.5008,
      "step": 2296
    },
    {
      "epoch": 0.7692565304755525,
      "grad_norm": 0.1390509009361267,
      "learning_rate": 8e-05,
      "loss": 1.494,
      "step": 2297
    },
    {
      "epoch": 0.769591426657736,
      "grad_norm": 0.14774173498153687,
      "learning_rate": 8e-05,
      "loss": 1.5081,
      "step": 2298
    },
    {
      "epoch": 0.7699263228399196,
      "grad_norm": 0.14355692267417908,
      "learning_rate": 8e-05,
      "loss": 1.5293,
      "step": 2299
    },
    {
      "epoch": 0.7702612190221031,
      "grad_norm": 0.13970187306404114,
      "learning_rate": 8e-05,
      "loss": 1.4668,
      "step": 2300
    },
    {
      "epoch": 0.7705961152042867,
      "grad_norm": 0.14610087871551514,
      "learning_rate": 8e-05,
      "loss": 1.5764,
      "step": 2301
    },
    {
      "epoch": 0.7709310113864702,
      "grad_norm": 0.13935135304927826,
      "learning_rate": 8e-05,
      "loss": 1.527,
      "step": 2302
    },
    {
      "epoch": 0.7712659075686538,
      "grad_norm": 0.148525208234787,
      "learning_rate": 8e-05,
      "loss": 1.574,
      "step": 2303
    },
    {
      "epoch": 0.7716008037508373,
      "grad_norm": 0.15345382690429688,
      "learning_rate": 8e-05,
      "loss": 1.5147,
      "step": 2304
    },
    {
      "epoch": 0.7719356999330208,
      "grad_norm": 0.14777910709381104,
      "learning_rate": 8e-05,
      "loss": 1.5288,
      "step": 2305
    },
    {
      "epoch": 0.7722705961152043,
      "grad_norm": 0.1526021659374237,
      "learning_rate": 8e-05,
      "loss": 1.4827,
      "step": 2306
    },
    {
      "epoch": 0.7726054922973878,
      "grad_norm": 0.14905601739883423,
      "learning_rate": 8e-05,
      "loss": 1.5685,
      "step": 2307
    },
    {
      "epoch": 0.7729403884795714,
      "grad_norm": 0.14041836559772491,
      "learning_rate": 8e-05,
      "loss": 1.4691,
      "step": 2308
    },
    {
      "epoch": 0.7732752846617549,
      "grad_norm": 0.14605757594108582,
      "learning_rate": 8e-05,
      "loss": 1.5274,
      "step": 2309
    },
    {
      "epoch": 0.7736101808439384,
      "grad_norm": 0.16558115184307098,
      "learning_rate": 8e-05,
      "loss": 1.5603,
      "step": 2310
    },
    {
      "epoch": 0.7739450770261219,
      "grad_norm": 0.14540158212184906,
      "learning_rate": 8e-05,
      "loss": 1.6,
      "step": 2311
    },
    {
      "epoch": 0.7742799732083054,
      "grad_norm": 0.14670199155807495,
      "learning_rate": 8e-05,
      "loss": 1.5223,
      "step": 2312
    },
    {
      "epoch": 0.774614869390489,
      "grad_norm": 0.1417434960603714,
      "learning_rate": 8e-05,
      "loss": 1.5164,
      "step": 2313
    },
    {
      "epoch": 0.7749497655726725,
      "grad_norm": 0.14777682721614838,
      "learning_rate": 8e-05,
      "loss": 1.5972,
      "step": 2314
    },
    {
      "epoch": 0.775284661754856,
      "grad_norm": 0.1446506679058075,
      "learning_rate": 8e-05,
      "loss": 1.3895,
      "step": 2315
    },
    {
      "epoch": 0.7756195579370395,
      "grad_norm": 0.1457320600748062,
      "learning_rate": 8e-05,
      "loss": 1.5141,
      "step": 2316
    },
    {
      "epoch": 0.775954454119223,
      "grad_norm": 0.13770076632499695,
      "learning_rate": 8e-05,
      "loss": 1.5248,
      "step": 2317
    },
    {
      "epoch": 0.7762893503014066,
      "grad_norm": 0.14141380786895752,
      "learning_rate": 8e-05,
      "loss": 1.545,
      "step": 2318
    },
    {
      "epoch": 0.7766242464835901,
      "grad_norm": 0.14557547867298126,
      "learning_rate": 8e-05,
      "loss": 1.5481,
      "step": 2319
    },
    {
      "epoch": 0.7769591426657736,
      "grad_norm": 0.1421881914138794,
      "learning_rate": 8e-05,
      "loss": 1.5763,
      "step": 2320
    },
    {
      "epoch": 0.7772940388479571,
      "grad_norm": 0.13670024275779724,
      "learning_rate": 8e-05,
      "loss": 1.4575,
      "step": 2321
    },
    {
      "epoch": 0.7776289350301406,
      "grad_norm": 0.14278171956539154,
      "learning_rate": 8e-05,
      "loss": 1.4961,
      "step": 2322
    },
    {
      "epoch": 0.7779638312123242,
      "grad_norm": 0.13753029704093933,
      "learning_rate": 8e-05,
      "loss": 1.4815,
      "step": 2323
    },
    {
      "epoch": 0.7782987273945077,
      "grad_norm": 0.14095161855220795,
      "learning_rate": 8e-05,
      "loss": 1.5575,
      "step": 2324
    },
    {
      "epoch": 0.7786336235766912,
      "grad_norm": 0.13742570579051971,
      "learning_rate": 8e-05,
      "loss": 1.4484,
      "step": 2325
    },
    {
      "epoch": 0.7789685197588747,
      "grad_norm": 0.13918538391590118,
      "learning_rate": 8e-05,
      "loss": 1.5161,
      "step": 2326
    },
    {
      "epoch": 0.7793034159410582,
      "grad_norm": 0.14004100859165192,
      "learning_rate": 8e-05,
      "loss": 1.5401,
      "step": 2327
    },
    {
      "epoch": 0.7796383121232418,
      "grad_norm": 0.1471886932849884,
      "learning_rate": 8e-05,
      "loss": 1.6091,
      "step": 2328
    },
    {
      "epoch": 0.7799732083054253,
      "grad_norm": 0.14956635236740112,
      "learning_rate": 8e-05,
      "loss": 1.5135,
      "step": 2329
    },
    {
      "epoch": 0.7803081044876088,
      "grad_norm": 0.1507115513086319,
      "learning_rate": 8e-05,
      "loss": 1.5547,
      "step": 2330
    },
    {
      "epoch": 0.7806430006697924,
      "grad_norm": 0.1456022560596466,
      "learning_rate": 8e-05,
      "loss": 1.5363,
      "step": 2331
    },
    {
      "epoch": 0.7809778968519759,
      "grad_norm": 0.13910730183124542,
      "learning_rate": 8e-05,
      "loss": 1.405,
      "step": 2332
    },
    {
      "epoch": 0.7813127930341595,
      "grad_norm": 0.14248467981815338,
      "learning_rate": 8e-05,
      "loss": 1.5017,
      "step": 2333
    },
    {
      "epoch": 0.781647689216343,
      "grad_norm": 0.1400863230228424,
      "learning_rate": 8e-05,
      "loss": 1.4988,
      "step": 2334
    },
    {
      "epoch": 0.7819825853985265,
      "grad_norm": 0.1417088806629181,
      "learning_rate": 8e-05,
      "loss": 1.5241,
      "step": 2335
    },
    {
      "epoch": 0.78231748158071,
      "grad_norm": 0.14441028237342834,
      "learning_rate": 8e-05,
      "loss": 1.5827,
      "step": 2336
    },
    {
      "epoch": 0.7826523777628935,
      "grad_norm": 0.14857658743858337,
      "learning_rate": 8e-05,
      "loss": 1.5495,
      "step": 2337
    },
    {
      "epoch": 0.7829872739450771,
      "grad_norm": 0.14105361700057983,
      "learning_rate": 8e-05,
      "loss": 1.5456,
      "step": 2338
    },
    {
      "epoch": 0.7833221701272606,
      "grad_norm": 0.14086787402629852,
      "learning_rate": 8e-05,
      "loss": 1.5275,
      "step": 2339
    },
    {
      "epoch": 0.7836570663094441,
      "grad_norm": 0.1470690667629242,
      "learning_rate": 8e-05,
      "loss": 1.5305,
      "step": 2340
    },
    {
      "epoch": 0.7839919624916276,
      "grad_norm": 0.14738255739212036,
      "learning_rate": 8e-05,
      "loss": 1.5283,
      "step": 2341
    },
    {
      "epoch": 0.7843268586738111,
      "grad_norm": 0.14569039642810822,
      "learning_rate": 8e-05,
      "loss": 1.5005,
      "step": 2342
    },
    {
      "epoch": 0.7846617548559947,
      "grad_norm": 0.15133467316627502,
      "learning_rate": 8e-05,
      "loss": 1.5672,
      "step": 2343
    },
    {
      "epoch": 0.7849966510381782,
      "grad_norm": 0.14610137045383453,
      "learning_rate": 8e-05,
      "loss": 1.472,
      "step": 2344
    },
    {
      "epoch": 0.7853315472203617,
      "grad_norm": 0.14710257947444916,
      "learning_rate": 8e-05,
      "loss": 1.6083,
      "step": 2345
    },
    {
      "epoch": 0.7856664434025452,
      "grad_norm": 0.14457693696022034,
      "learning_rate": 8e-05,
      "loss": 1.4814,
      "step": 2346
    },
    {
      "epoch": 0.7860013395847287,
      "grad_norm": 0.13982462882995605,
      "learning_rate": 8e-05,
      "loss": 1.4674,
      "step": 2347
    },
    {
      "epoch": 0.7863362357669123,
      "grad_norm": 0.15056927502155304,
      "learning_rate": 8e-05,
      "loss": 1.5786,
      "step": 2348
    },
    {
      "epoch": 0.7866711319490958,
      "grad_norm": 0.13980574905872345,
      "learning_rate": 8e-05,
      "loss": 1.5414,
      "step": 2349
    },
    {
      "epoch": 0.7870060281312793,
      "grad_norm": 0.14142517745494843,
      "learning_rate": 8e-05,
      "loss": 1.4646,
      "step": 2350
    },
    {
      "epoch": 0.7873409243134628,
      "grad_norm": 0.14233535528182983,
      "learning_rate": 8e-05,
      "loss": 1.4535,
      "step": 2351
    },
    {
      "epoch": 0.7876758204956463,
      "grad_norm": 0.1425676792860031,
      "learning_rate": 8e-05,
      "loss": 1.5146,
      "step": 2352
    },
    {
      "epoch": 0.7880107166778298,
      "grad_norm": 0.13912267982959747,
      "learning_rate": 8e-05,
      "loss": 1.4922,
      "step": 2353
    },
    {
      "epoch": 0.7883456128600134,
      "grad_norm": 0.13528460264205933,
      "learning_rate": 8e-05,
      "loss": 1.448,
      "step": 2354
    },
    {
      "epoch": 0.7886805090421969,
      "grad_norm": 0.14201875030994415,
      "learning_rate": 8e-05,
      "loss": 1.4686,
      "step": 2355
    },
    {
      "epoch": 0.7890154052243804,
      "grad_norm": 0.1423025131225586,
      "learning_rate": 8e-05,
      "loss": 1.5268,
      "step": 2356
    },
    {
      "epoch": 0.7893503014065639,
      "grad_norm": 0.13503503799438477,
      "learning_rate": 8e-05,
      "loss": 1.4368,
      "step": 2357
    },
    {
      "epoch": 0.7896851975887474,
      "grad_norm": 0.13512976467609406,
      "learning_rate": 8e-05,
      "loss": 1.4651,
      "step": 2358
    },
    {
      "epoch": 0.790020093770931,
      "grad_norm": 0.14856261014938354,
      "learning_rate": 8e-05,
      "loss": 1.6406,
      "step": 2359
    },
    {
      "epoch": 0.7903549899531145,
      "grad_norm": 0.13702847063541412,
      "learning_rate": 8e-05,
      "loss": 1.4013,
      "step": 2360
    },
    {
      "epoch": 0.790689886135298,
      "grad_norm": 0.14428658783435822,
      "learning_rate": 8e-05,
      "loss": 1.512,
      "step": 2361
    },
    {
      "epoch": 0.7910247823174816,
      "grad_norm": 0.13965244591236115,
      "learning_rate": 8e-05,
      "loss": 1.4752,
      "step": 2362
    },
    {
      "epoch": 0.7913596784996652,
      "grad_norm": 0.14023640751838684,
      "learning_rate": 8e-05,
      "loss": 1.371,
      "step": 2363
    },
    {
      "epoch": 0.7916945746818487,
      "grad_norm": 0.1384335309267044,
      "learning_rate": 8e-05,
      "loss": 1.4609,
      "step": 2364
    },
    {
      "epoch": 0.7920294708640322,
      "grad_norm": 0.14186644554138184,
      "learning_rate": 8e-05,
      "loss": 1.4959,
      "step": 2365
    },
    {
      "epoch": 0.7923643670462157,
      "grad_norm": 0.13566824793815613,
      "learning_rate": 8e-05,
      "loss": 1.5036,
      "step": 2366
    },
    {
      "epoch": 0.7926992632283992,
      "grad_norm": 0.14986203610897064,
      "learning_rate": 8e-05,
      "loss": 1.4358,
      "step": 2367
    },
    {
      "epoch": 0.7930341594105828,
      "grad_norm": 0.14234846830368042,
      "learning_rate": 8e-05,
      "loss": 1.5489,
      "step": 2368
    },
    {
      "epoch": 0.7933690555927663,
      "grad_norm": 0.14451351761817932,
      "learning_rate": 8e-05,
      "loss": 1.529,
      "step": 2369
    },
    {
      "epoch": 0.7937039517749498,
      "grad_norm": 0.14368589222431183,
      "learning_rate": 8e-05,
      "loss": 1.5275,
      "step": 2370
    },
    {
      "epoch": 0.7940388479571333,
      "grad_norm": 0.14063552021980286,
      "learning_rate": 8e-05,
      "loss": 1.5155,
      "step": 2371
    },
    {
      "epoch": 0.7943737441393168,
      "grad_norm": 0.14140969514846802,
      "learning_rate": 8e-05,
      "loss": 1.4781,
      "step": 2372
    },
    {
      "epoch": 0.7947086403215003,
      "grad_norm": 0.14734894037246704,
      "learning_rate": 8e-05,
      "loss": 1.527,
      "step": 2373
    },
    {
      "epoch": 0.7950435365036839,
      "grad_norm": 0.14591823518276215,
      "learning_rate": 8e-05,
      "loss": 1.4801,
      "step": 2374
    },
    {
      "epoch": 0.7953784326858674,
      "grad_norm": 0.144264817237854,
      "learning_rate": 8e-05,
      "loss": 1.5532,
      "step": 2375
    },
    {
      "epoch": 0.7957133288680509,
      "grad_norm": 0.1376018077135086,
      "learning_rate": 8e-05,
      "loss": 1.4306,
      "step": 2376
    },
    {
      "epoch": 0.7960482250502344,
      "grad_norm": 0.1474086046218872,
      "learning_rate": 8e-05,
      "loss": 1.5461,
      "step": 2377
    },
    {
      "epoch": 0.796383121232418,
      "grad_norm": 0.1497793048620224,
      "learning_rate": 8e-05,
      "loss": 1.5482,
      "step": 2378
    },
    {
      "epoch": 0.7967180174146015,
      "grad_norm": 0.14506398141384125,
      "learning_rate": 8e-05,
      "loss": 1.4964,
      "step": 2379
    },
    {
      "epoch": 0.797052913596785,
      "grad_norm": 0.14792445302009583,
      "learning_rate": 8e-05,
      "loss": 1.6421,
      "step": 2380
    },
    {
      "epoch": 0.7973878097789685,
      "grad_norm": 0.14519301056861877,
      "learning_rate": 8e-05,
      "loss": 1.476,
      "step": 2381
    },
    {
      "epoch": 0.797722705961152,
      "grad_norm": 0.1536533534526825,
      "learning_rate": 8e-05,
      "loss": 1.5011,
      "step": 2382
    },
    {
      "epoch": 0.7980576021433355,
      "grad_norm": 0.14585918188095093,
      "learning_rate": 8e-05,
      "loss": 1.5311,
      "step": 2383
    },
    {
      "epoch": 0.7983924983255191,
      "grad_norm": 0.13656039535999298,
      "learning_rate": 8e-05,
      "loss": 1.4659,
      "step": 2384
    },
    {
      "epoch": 0.7987273945077026,
      "grad_norm": 0.15049466490745544,
      "learning_rate": 8e-05,
      "loss": 1.6372,
      "step": 2385
    },
    {
      "epoch": 0.7990622906898861,
      "grad_norm": 0.14026090502738953,
      "learning_rate": 8e-05,
      "loss": 1.5076,
      "step": 2386
    },
    {
      "epoch": 0.7993971868720696,
      "grad_norm": 0.14765982329845428,
      "learning_rate": 8e-05,
      "loss": 1.4567,
      "step": 2387
    },
    {
      "epoch": 0.7997320830542531,
      "grad_norm": 0.15301889181137085,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 2388
    },
    {
      "epoch": 0.8000669792364367,
      "grad_norm": 0.13440610468387604,
      "learning_rate": 8e-05,
      "loss": 1.3698,
      "step": 2389
    },
    {
      "epoch": 0.8004018754186202,
      "grad_norm": 0.13758735358715057,
      "learning_rate": 8e-05,
      "loss": 1.3877,
      "step": 2390
    },
    {
      "epoch": 0.8007367716008037,
      "grad_norm": 0.14993436634540558,
      "learning_rate": 8e-05,
      "loss": 1.5608,
      "step": 2391
    },
    {
      "epoch": 0.8010716677829873,
      "grad_norm": 0.13821294903755188,
      "learning_rate": 8e-05,
      "loss": 1.4685,
      "step": 2392
    },
    {
      "epoch": 0.8014065639651708,
      "grad_norm": 0.153534933924675,
      "learning_rate": 8e-05,
      "loss": 1.6,
      "step": 2393
    },
    {
      "epoch": 0.8017414601473544,
      "grad_norm": 0.14451894164085388,
      "learning_rate": 8e-05,
      "loss": 1.4644,
      "step": 2394
    },
    {
      "epoch": 0.8020763563295379,
      "grad_norm": 0.1428513526916504,
      "learning_rate": 8e-05,
      "loss": 1.5016,
      "step": 2395
    },
    {
      "epoch": 0.8024112525117214,
      "grad_norm": 0.14792944490909576,
      "learning_rate": 8e-05,
      "loss": 1.4863,
      "step": 2396
    },
    {
      "epoch": 0.8027461486939049,
      "grad_norm": 0.14031872153282166,
      "learning_rate": 8e-05,
      "loss": 1.4375,
      "step": 2397
    },
    {
      "epoch": 0.8030810448760884,
      "grad_norm": 0.14404229819774628,
      "learning_rate": 8e-05,
      "loss": 1.5855,
      "step": 2398
    },
    {
      "epoch": 0.803415941058272,
      "grad_norm": 0.14412425458431244,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 2399
    },
    {
      "epoch": 0.8037508372404555,
      "grad_norm": 0.14323115348815918,
      "learning_rate": 8e-05,
      "loss": 1.5098,
      "step": 2400
    },
    {
      "epoch": 0.804085733422639,
      "grad_norm": 0.1390533596277237,
      "learning_rate": 8e-05,
      "loss": 1.436,
      "step": 2401
    },
    {
      "epoch": 0.8044206296048225,
      "grad_norm": 0.13900816440582275,
      "learning_rate": 8e-05,
      "loss": 1.4319,
      "step": 2402
    },
    {
      "epoch": 0.804755525787006,
      "grad_norm": 0.14060114324092865,
      "learning_rate": 8e-05,
      "loss": 1.491,
      "step": 2403
    },
    {
      "epoch": 0.8050904219691896,
      "grad_norm": 0.1444539725780487,
      "learning_rate": 8e-05,
      "loss": 1.5437,
      "step": 2404
    },
    {
      "epoch": 0.8054253181513731,
      "grad_norm": 0.1440441757440567,
      "learning_rate": 8e-05,
      "loss": 1.5364,
      "step": 2405
    },
    {
      "epoch": 0.8057602143335566,
      "grad_norm": 0.14622198045253754,
      "learning_rate": 8e-05,
      "loss": 1.5924,
      "step": 2406
    },
    {
      "epoch": 0.8060951105157401,
      "grad_norm": 0.1395891308784485,
      "learning_rate": 8e-05,
      "loss": 1.3696,
      "step": 2407
    },
    {
      "epoch": 0.8064300066979236,
      "grad_norm": 0.1399182826280594,
      "learning_rate": 8e-05,
      "loss": 1.3866,
      "step": 2408
    },
    {
      "epoch": 0.8067649028801072,
      "grad_norm": 0.1411992609500885,
      "learning_rate": 8e-05,
      "loss": 1.5311,
      "step": 2409
    },
    {
      "epoch": 0.8070997990622907,
      "grad_norm": 0.13969799876213074,
      "learning_rate": 8e-05,
      "loss": 1.4377,
      "step": 2410
    },
    {
      "epoch": 0.8074346952444742,
      "grad_norm": 0.13795341551303864,
      "learning_rate": 8e-05,
      "loss": 1.4968,
      "step": 2411
    },
    {
      "epoch": 0.8077695914266577,
      "grad_norm": 0.1417023092508316,
      "learning_rate": 8e-05,
      "loss": 1.5399,
      "step": 2412
    },
    {
      "epoch": 0.8081044876088412,
      "grad_norm": 0.14191997051239014,
      "learning_rate": 8e-05,
      "loss": 1.4059,
      "step": 2413
    },
    {
      "epoch": 0.8084393837910248,
      "grad_norm": 0.14581891894340515,
      "learning_rate": 8e-05,
      "loss": 1.4943,
      "step": 2414
    },
    {
      "epoch": 0.8087742799732083,
      "grad_norm": 0.13748203217983246,
      "learning_rate": 8e-05,
      "loss": 1.425,
      "step": 2415
    },
    {
      "epoch": 0.8091091761553918,
      "grad_norm": 0.14341901242733002,
      "learning_rate": 8e-05,
      "loss": 1.4342,
      "step": 2416
    },
    {
      "epoch": 0.8094440723375753,
      "grad_norm": 0.149199977517128,
      "learning_rate": 8e-05,
      "loss": 1.5039,
      "step": 2417
    },
    {
      "epoch": 0.8097789685197588,
      "grad_norm": 0.14088433980941772,
      "learning_rate": 8e-05,
      "loss": 1.4604,
      "step": 2418
    },
    {
      "epoch": 0.8101138647019424,
      "grad_norm": 0.1350644826889038,
      "learning_rate": 8e-05,
      "loss": 1.34,
      "step": 2419
    },
    {
      "epoch": 0.8104487608841259,
      "grad_norm": 0.14308547973632812,
      "learning_rate": 8e-05,
      "loss": 1.478,
      "step": 2420
    },
    {
      "epoch": 0.8107836570663094,
      "grad_norm": 0.14349240064620972,
      "learning_rate": 8e-05,
      "loss": 1.4259,
      "step": 2421
    },
    {
      "epoch": 0.8111185532484929,
      "grad_norm": 0.1413007229566574,
      "learning_rate": 8e-05,
      "loss": 1.4965,
      "step": 2422
    },
    {
      "epoch": 0.8114534494306765,
      "grad_norm": 0.13945402204990387,
      "learning_rate": 8e-05,
      "loss": 1.5211,
      "step": 2423
    },
    {
      "epoch": 0.8117883456128601,
      "grad_norm": 0.1439209133386612,
      "learning_rate": 8e-05,
      "loss": 1.513,
      "step": 2424
    },
    {
      "epoch": 0.8121232417950436,
      "grad_norm": 0.14044830203056335,
      "learning_rate": 8e-05,
      "loss": 1.4684,
      "step": 2425
    },
    {
      "epoch": 0.8124581379772271,
      "grad_norm": 0.14906582236289978,
      "learning_rate": 8e-05,
      "loss": 1.4376,
      "step": 2426
    },
    {
      "epoch": 0.8127930341594106,
      "grad_norm": 0.14188438653945923,
      "learning_rate": 8e-05,
      "loss": 1.5032,
      "step": 2427
    },
    {
      "epoch": 0.8131279303415941,
      "grad_norm": 0.14024049043655396,
      "learning_rate": 8e-05,
      "loss": 1.5301,
      "step": 2428
    },
    {
      "epoch": 0.8134628265237777,
      "grad_norm": 0.14016538858413696,
      "learning_rate": 8e-05,
      "loss": 1.5551,
      "step": 2429
    },
    {
      "epoch": 0.8137977227059612,
      "grad_norm": 0.15156249701976776,
      "learning_rate": 8e-05,
      "loss": 1.5401,
      "step": 2430
    },
    {
      "epoch": 0.8141326188881447,
      "grad_norm": 0.14851580560207367,
      "learning_rate": 8e-05,
      "loss": 1.5443,
      "step": 2431
    },
    {
      "epoch": 0.8144675150703282,
      "grad_norm": 0.13932572305202484,
      "learning_rate": 8e-05,
      "loss": 1.5032,
      "step": 2432
    },
    {
      "epoch": 0.8148024112525117,
      "grad_norm": 0.15663467347621918,
      "learning_rate": 8e-05,
      "loss": 1.4935,
      "step": 2433
    },
    {
      "epoch": 0.8151373074346953,
      "grad_norm": 0.1524650901556015,
      "learning_rate": 8e-05,
      "loss": 1.5683,
      "step": 2434
    },
    {
      "epoch": 0.8154722036168788,
      "grad_norm": 0.14114077389240265,
      "learning_rate": 8e-05,
      "loss": 1.4897,
      "step": 2435
    },
    {
      "epoch": 0.8158070997990623,
      "grad_norm": 0.1615571230649948,
      "learning_rate": 8e-05,
      "loss": 1.5636,
      "step": 2436
    },
    {
      "epoch": 0.8161419959812458,
      "grad_norm": 0.1445831060409546,
      "learning_rate": 8e-05,
      "loss": 1.5563,
      "step": 2437
    },
    {
      "epoch": 0.8164768921634293,
      "grad_norm": 0.15353240072727203,
      "learning_rate": 8e-05,
      "loss": 1.486,
      "step": 2438
    },
    {
      "epoch": 0.8168117883456129,
      "grad_norm": 0.15510322153568268,
      "learning_rate": 8e-05,
      "loss": 1.4615,
      "step": 2439
    },
    {
      "epoch": 0.8171466845277964,
      "grad_norm": 0.1432364583015442,
      "learning_rate": 8e-05,
      "loss": 1.4975,
      "step": 2440
    },
    {
      "epoch": 0.8174815807099799,
      "grad_norm": 0.15907907485961914,
      "learning_rate": 8e-05,
      "loss": 1.5976,
      "step": 2441
    },
    {
      "epoch": 0.8178164768921634,
      "grad_norm": 0.1589987576007843,
      "learning_rate": 8e-05,
      "loss": 1.6237,
      "step": 2442
    },
    {
      "epoch": 0.8181513730743469,
      "grad_norm": 0.14376644790172577,
      "learning_rate": 8e-05,
      "loss": 1.482,
      "step": 2443
    },
    {
      "epoch": 0.8184862692565305,
      "grad_norm": 0.14123696088790894,
      "learning_rate": 8e-05,
      "loss": 1.3811,
      "step": 2444
    },
    {
      "epoch": 0.818821165438714,
      "grad_norm": 0.16199515759944916,
      "learning_rate": 8e-05,
      "loss": 1.5171,
      "step": 2445
    },
    {
      "epoch": 0.8191560616208975,
      "grad_norm": 0.14940142631530762,
      "learning_rate": 8e-05,
      "loss": 1.5545,
      "step": 2446
    },
    {
      "epoch": 0.819490957803081,
      "grad_norm": 0.14431573450565338,
      "learning_rate": 8e-05,
      "loss": 1.4015,
      "step": 2447
    },
    {
      "epoch": 0.8198258539852645,
      "grad_norm": 0.18018735945224762,
      "learning_rate": 8e-05,
      "loss": 1.5225,
      "step": 2448
    },
    {
      "epoch": 0.820160750167448,
      "grad_norm": 0.14124953746795654,
      "learning_rate": 8e-05,
      "loss": 1.4901,
      "step": 2449
    },
    {
      "epoch": 0.8204956463496316,
      "grad_norm": 0.1458589881658554,
      "learning_rate": 8e-05,
      "loss": 1.501,
      "step": 2450
    },
    {
      "epoch": 0.8208305425318151,
      "grad_norm": 0.1597195565700531,
      "learning_rate": 8e-05,
      "loss": 1.4846,
      "step": 2451
    },
    {
      "epoch": 0.8211654387139986,
      "grad_norm": 0.1482321321964264,
      "learning_rate": 8e-05,
      "loss": 1.5168,
      "step": 2452
    },
    {
      "epoch": 0.8215003348961822,
      "grad_norm": 0.14501236379146576,
      "learning_rate": 8e-05,
      "loss": 1.527,
      "step": 2453
    },
    {
      "epoch": 0.8218352310783658,
      "grad_norm": 0.16638386249542236,
      "learning_rate": 8e-05,
      "loss": 1.607,
      "step": 2454
    },
    {
      "epoch": 0.8221701272605493,
      "grad_norm": 0.1377052515745163,
      "learning_rate": 8e-05,
      "loss": 1.5135,
      "step": 2455
    },
    {
      "epoch": 0.8225050234427328,
      "grad_norm": 0.1435258984565735,
      "learning_rate": 8e-05,
      "loss": 1.4894,
      "step": 2456
    },
    {
      "epoch": 0.8228399196249163,
      "grad_norm": 0.1568603366613388,
      "learning_rate": 8e-05,
      "loss": 1.5242,
      "step": 2457
    },
    {
      "epoch": 0.8231748158070998,
      "grad_norm": 0.15461693704128265,
      "learning_rate": 8e-05,
      "loss": 1.5364,
      "step": 2458
    },
    {
      "epoch": 0.8235097119892834,
      "grad_norm": 0.1398705244064331,
      "learning_rate": 8e-05,
      "loss": 1.428,
      "step": 2459
    },
    {
      "epoch": 0.8238446081714669,
      "grad_norm": 0.15432175993919373,
      "learning_rate": 8e-05,
      "loss": 1.4957,
      "step": 2460
    },
    {
      "epoch": 0.8241795043536504,
      "grad_norm": 0.14762160181999207,
      "learning_rate": 8e-05,
      "loss": 1.5848,
      "step": 2461
    },
    {
      "epoch": 0.8245144005358339,
      "grad_norm": 0.14273269474506378,
      "learning_rate": 8e-05,
      "loss": 1.4795,
      "step": 2462
    },
    {
      "epoch": 0.8248492967180174,
      "grad_norm": 0.1438530534505844,
      "learning_rate": 8e-05,
      "loss": 1.4906,
      "step": 2463
    },
    {
      "epoch": 0.825184192900201,
      "grad_norm": 0.13783146440982819,
      "learning_rate": 8e-05,
      "loss": 1.553,
      "step": 2464
    },
    {
      "epoch": 0.8255190890823845,
      "grad_norm": 0.14621390402317047,
      "learning_rate": 8e-05,
      "loss": 1.5613,
      "step": 2465
    },
    {
      "epoch": 0.825853985264568,
      "grad_norm": 0.14191888272762299,
      "learning_rate": 8e-05,
      "loss": 1.5212,
      "step": 2466
    },
    {
      "epoch": 0.8261888814467515,
      "grad_norm": 0.14168250560760498,
      "learning_rate": 8e-05,
      "loss": 1.4667,
      "step": 2467
    },
    {
      "epoch": 0.826523777628935,
      "grad_norm": 0.14472739398479462,
      "learning_rate": 8e-05,
      "loss": 1.5536,
      "step": 2468
    },
    {
      "epoch": 0.8268586738111185,
      "grad_norm": 0.14167287945747375,
      "learning_rate": 8e-05,
      "loss": 1.5401,
      "step": 2469
    },
    {
      "epoch": 0.8271935699933021,
      "grad_norm": 0.14065811038017273,
      "learning_rate": 8e-05,
      "loss": 1.5009,
      "step": 2470
    },
    {
      "epoch": 0.8275284661754856,
      "grad_norm": 0.13925151526927948,
      "learning_rate": 8e-05,
      "loss": 1.4631,
      "step": 2471
    },
    {
      "epoch": 0.8278633623576691,
      "grad_norm": 0.1401647925376892,
      "learning_rate": 8e-05,
      "loss": 1.5059,
      "step": 2472
    },
    {
      "epoch": 0.8281982585398526,
      "grad_norm": 0.13675878942012787,
      "learning_rate": 8e-05,
      "loss": 1.4119,
      "step": 2473
    },
    {
      "epoch": 0.8285331547220361,
      "grad_norm": 0.14323444664478302,
      "learning_rate": 8e-05,
      "loss": 1.4997,
      "step": 2474
    },
    {
      "epoch": 0.8288680509042197,
      "grad_norm": 0.13951201736927032,
      "learning_rate": 8e-05,
      "loss": 1.5127,
      "step": 2475
    },
    {
      "epoch": 0.8292029470864032,
      "grad_norm": 0.14812453091144562,
      "learning_rate": 8e-05,
      "loss": 1.609,
      "step": 2476
    },
    {
      "epoch": 0.8295378432685867,
      "grad_norm": 0.14066214859485626,
      "learning_rate": 8e-05,
      "loss": 1.4369,
      "step": 2477
    },
    {
      "epoch": 0.8298727394507702,
      "grad_norm": 0.13980339467525482,
      "learning_rate": 8e-05,
      "loss": 1.4501,
      "step": 2478
    },
    {
      "epoch": 0.8302076356329537,
      "grad_norm": 0.15088021755218506,
      "learning_rate": 8e-05,
      "loss": 1.6013,
      "step": 2479
    },
    {
      "epoch": 0.8305425318151373,
      "grad_norm": 0.13926739990711212,
      "learning_rate": 8e-05,
      "loss": 1.469,
      "step": 2480
    },
    {
      "epoch": 0.8308774279973208,
      "grad_norm": 0.1388891637325287,
      "learning_rate": 8e-05,
      "loss": 1.5375,
      "step": 2481
    },
    {
      "epoch": 0.8312123241795043,
      "grad_norm": 0.1436280757188797,
      "learning_rate": 8e-05,
      "loss": 1.4293,
      "step": 2482
    },
    {
      "epoch": 0.8315472203616878,
      "grad_norm": 0.13769426941871643,
      "learning_rate": 8e-05,
      "loss": 1.4612,
      "step": 2483
    },
    {
      "epoch": 0.8318821165438715,
      "grad_norm": 0.1396511346101761,
      "learning_rate": 8e-05,
      "loss": 1.4633,
      "step": 2484
    },
    {
      "epoch": 0.832217012726055,
      "grad_norm": 0.14505800604820251,
      "learning_rate": 8e-05,
      "loss": 1.5564,
      "step": 2485
    },
    {
      "epoch": 0.8325519089082385,
      "grad_norm": 0.14281132817268372,
      "learning_rate": 8e-05,
      "loss": 1.5073,
      "step": 2486
    },
    {
      "epoch": 0.832886805090422,
      "grad_norm": 0.1446271687746048,
      "learning_rate": 8e-05,
      "loss": 1.449,
      "step": 2487
    },
    {
      "epoch": 0.8332217012726055,
      "grad_norm": 0.14127899706363678,
      "learning_rate": 8e-05,
      "loss": 1.5467,
      "step": 2488
    },
    {
      "epoch": 0.833556597454789,
      "grad_norm": 0.14977234601974487,
      "learning_rate": 8e-05,
      "loss": 1.5081,
      "step": 2489
    },
    {
      "epoch": 0.8338914936369726,
      "grad_norm": 0.14891105890274048,
      "learning_rate": 8e-05,
      "loss": 1.5099,
      "step": 2490
    },
    {
      "epoch": 0.8342263898191561,
      "grad_norm": 0.145701602101326,
      "learning_rate": 8e-05,
      "loss": 1.4882,
      "step": 2491
    },
    {
      "epoch": 0.8345612860013396,
      "grad_norm": 0.15714572370052338,
      "learning_rate": 8e-05,
      "loss": 1.5453,
      "step": 2492
    },
    {
      "epoch": 0.8348961821835231,
      "grad_norm": 0.14322234690189362,
      "learning_rate": 8e-05,
      "loss": 1.5692,
      "step": 2493
    },
    {
      "epoch": 0.8352310783657066,
      "grad_norm": 0.14567670226097107,
      "learning_rate": 8e-05,
      "loss": 1.555,
      "step": 2494
    },
    {
      "epoch": 0.8355659745478902,
      "grad_norm": 0.1531623899936676,
      "learning_rate": 8e-05,
      "loss": 1.6341,
      "step": 2495
    },
    {
      "epoch": 0.8359008707300737,
      "grad_norm": 0.14931970834732056,
      "learning_rate": 8e-05,
      "loss": 1.5153,
      "step": 2496
    },
    {
      "epoch": 0.8362357669122572,
      "grad_norm": 0.13989612460136414,
      "learning_rate": 8e-05,
      "loss": 1.4155,
      "step": 2497
    },
    {
      "epoch": 0.8365706630944407,
      "grad_norm": 0.15519559383392334,
      "learning_rate": 8e-05,
      "loss": 1.5523,
      "step": 2498
    },
    {
      "epoch": 0.8369055592766242,
      "grad_norm": 0.14277520775794983,
      "learning_rate": 8e-05,
      "loss": 1.5161,
      "step": 2499
    },
    {
      "epoch": 0.8372404554588078,
      "grad_norm": 0.1442529708147049,
      "learning_rate": 8e-05,
      "loss": 1.481,
      "step": 2500
    },
    {
      "epoch": 0.8375753516409913,
      "grad_norm": 0.14553140103816986,
      "learning_rate": 8e-05,
      "loss": 1.4819,
      "step": 2501
    },
    {
      "epoch": 0.8379102478231748,
      "grad_norm": 0.13511277735233307,
      "learning_rate": 8e-05,
      "loss": 1.3846,
      "step": 2502
    },
    {
      "epoch": 0.8382451440053583,
      "grad_norm": 0.14187981188297272,
      "learning_rate": 8e-05,
      "loss": 1.4671,
      "step": 2503
    },
    {
      "epoch": 0.8385800401875418,
      "grad_norm": 0.14795084297657013,
      "learning_rate": 8e-05,
      "loss": 1.576,
      "step": 2504
    },
    {
      "epoch": 0.8389149363697254,
      "grad_norm": 0.16148021817207336,
      "learning_rate": 8e-05,
      "loss": 1.5595,
      "step": 2505
    },
    {
      "epoch": 0.8392498325519089,
      "grad_norm": 0.13785304129123688,
      "learning_rate": 8e-05,
      "loss": 1.4452,
      "step": 2506
    },
    {
      "epoch": 0.8395847287340924,
      "grad_norm": 0.15324676036834717,
      "learning_rate": 8e-05,
      "loss": 1.5303,
      "step": 2507
    },
    {
      "epoch": 0.8399196249162759,
      "grad_norm": 0.14453020691871643,
      "learning_rate": 8e-05,
      "loss": 1.4367,
      "step": 2508
    },
    {
      "epoch": 0.8402545210984594,
      "grad_norm": 0.14620544016361237,
      "learning_rate": 8e-05,
      "loss": 1.4473,
      "step": 2509
    },
    {
      "epoch": 0.840589417280643,
      "grad_norm": 0.14548471570014954,
      "learning_rate": 8e-05,
      "loss": 1.5487,
      "step": 2510
    },
    {
      "epoch": 0.8409243134628265,
      "grad_norm": 0.1457255333662033,
      "learning_rate": 8e-05,
      "loss": 1.5089,
      "step": 2511
    },
    {
      "epoch": 0.84125920964501,
      "grad_norm": 0.14388695359230042,
      "learning_rate": 8e-05,
      "loss": 1.5854,
      "step": 2512
    },
    {
      "epoch": 0.8415941058271935,
      "grad_norm": 0.14686311781406403,
      "learning_rate": 8e-05,
      "loss": 1.4525,
      "step": 2513
    },
    {
      "epoch": 0.8419290020093771,
      "grad_norm": 0.1458510458469391,
      "learning_rate": 8e-05,
      "loss": 1.5925,
      "step": 2514
    },
    {
      "epoch": 0.8422638981915607,
      "grad_norm": 0.14136949181556702,
      "learning_rate": 8e-05,
      "loss": 1.5436,
      "step": 2515
    },
    {
      "epoch": 0.8425987943737442,
      "grad_norm": 0.13989615440368652,
      "learning_rate": 8e-05,
      "loss": 1.4736,
      "step": 2516
    },
    {
      "epoch": 0.8429336905559277,
      "grad_norm": 0.1501086950302124,
      "learning_rate": 8e-05,
      "loss": 1.5739,
      "step": 2517
    },
    {
      "epoch": 0.8432685867381112,
      "grad_norm": 0.13913056254386902,
      "learning_rate": 8e-05,
      "loss": 1.4949,
      "step": 2518
    },
    {
      "epoch": 0.8436034829202947,
      "grad_norm": 0.1513507068157196,
      "learning_rate": 8e-05,
      "loss": 1.5348,
      "step": 2519
    },
    {
      "epoch": 0.8439383791024783,
      "grad_norm": 0.14074674248695374,
      "learning_rate": 8e-05,
      "loss": 1.4752,
      "step": 2520
    },
    {
      "epoch": 0.8442732752846618,
      "grad_norm": 0.14753569662570953,
      "learning_rate": 8e-05,
      "loss": 1.5566,
      "step": 2521
    },
    {
      "epoch": 0.8446081714668453,
      "grad_norm": 0.15337669849395752,
      "learning_rate": 8e-05,
      "loss": 1.5634,
      "step": 2522
    },
    {
      "epoch": 0.8449430676490288,
      "grad_norm": 0.14759500324726105,
      "learning_rate": 8e-05,
      "loss": 1.4999,
      "step": 2523
    },
    {
      "epoch": 0.8452779638312123,
      "grad_norm": 0.14199675619602203,
      "learning_rate": 8e-05,
      "loss": 1.5187,
      "step": 2524
    },
    {
      "epoch": 0.8456128600133959,
      "grad_norm": 0.1500779241323471,
      "learning_rate": 8e-05,
      "loss": 1.465,
      "step": 2525
    },
    {
      "epoch": 0.8459477561955794,
      "grad_norm": 0.1453392207622528,
      "learning_rate": 8e-05,
      "loss": 1.5668,
      "step": 2526
    },
    {
      "epoch": 0.8462826523777629,
      "grad_norm": 0.14696696400642395,
      "learning_rate": 8e-05,
      "loss": 1.5128,
      "step": 2527
    },
    {
      "epoch": 0.8466175485599464,
      "grad_norm": 0.1571008712053299,
      "learning_rate": 8e-05,
      "loss": 1.5766,
      "step": 2528
    },
    {
      "epoch": 0.8469524447421299,
      "grad_norm": 0.1402161866426468,
      "learning_rate": 8e-05,
      "loss": 1.4508,
      "step": 2529
    },
    {
      "epoch": 0.8472873409243135,
      "grad_norm": 0.1418233960866928,
      "learning_rate": 8e-05,
      "loss": 1.5225,
      "step": 2530
    },
    {
      "epoch": 0.847622237106497,
      "grad_norm": 0.1470920741558075,
      "learning_rate": 8e-05,
      "loss": 1.5448,
      "step": 2531
    },
    {
      "epoch": 0.8479571332886805,
      "grad_norm": 0.1426946222782135,
      "learning_rate": 8e-05,
      "loss": 1.4394,
      "step": 2532
    },
    {
      "epoch": 0.848292029470864,
      "grad_norm": 0.1536228358745575,
      "learning_rate": 8e-05,
      "loss": 1.6174,
      "step": 2533
    },
    {
      "epoch": 0.8486269256530475,
      "grad_norm": 0.14600367844104767,
      "learning_rate": 8e-05,
      "loss": 1.5253,
      "step": 2534
    },
    {
      "epoch": 0.8489618218352311,
      "grad_norm": 0.13574470579624176,
      "learning_rate": 8e-05,
      "loss": 1.4198,
      "step": 2535
    },
    {
      "epoch": 0.8492967180174146,
      "grad_norm": 0.14634890854358673,
      "learning_rate": 8e-05,
      "loss": 1.4538,
      "step": 2536
    },
    {
      "epoch": 0.8496316141995981,
      "grad_norm": 0.15248645842075348,
      "learning_rate": 8e-05,
      "loss": 1.5626,
      "step": 2537
    },
    {
      "epoch": 0.8499665103817816,
      "grad_norm": 0.13752181828022003,
      "learning_rate": 8e-05,
      "loss": 1.4419,
      "step": 2538
    },
    {
      "epoch": 0.8503014065639651,
      "grad_norm": 0.14818328619003296,
      "learning_rate": 8e-05,
      "loss": 1.5096,
      "step": 2539
    },
    {
      "epoch": 0.8506363027461487,
      "grad_norm": 0.14638248085975647,
      "learning_rate": 8e-05,
      "loss": 1.4838,
      "step": 2540
    },
    {
      "epoch": 0.8509711989283322,
      "grad_norm": 0.15749004483222961,
      "learning_rate": 8e-05,
      "loss": 1.6717,
      "step": 2541
    },
    {
      "epoch": 0.8513060951105157,
      "grad_norm": 0.14021214842796326,
      "learning_rate": 8e-05,
      "loss": 1.3873,
      "step": 2542
    },
    {
      "epoch": 0.8516409912926992,
      "grad_norm": 0.14663226902484894,
      "learning_rate": 8e-05,
      "loss": 1.5144,
      "step": 2543
    },
    {
      "epoch": 0.8519758874748827,
      "grad_norm": 0.14720383286476135,
      "learning_rate": 8e-05,
      "loss": 1.6077,
      "step": 2544
    },
    {
      "epoch": 0.8523107836570664,
      "grad_norm": 0.14735162258148193,
      "learning_rate": 8e-05,
      "loss": 1.4923,
      "step": 2545
    },
    {
      "epoch": 0.8526456798392499,
      "grad_norm": 0.14051565527915955,
      "learning_rate": 8e-05,
      "loss": 1.4804,
      "step": 2546
    },
    {
      "epoch": 0.8529805760214334,
      "grad_norm": 0.14502595365047455,
      "learning_rate": 8e-05,
      "loss": 1.4623,
      "step": 2547
    },
    {
      "epoch": 0.8533154722036169,
      "grad_norm": 0.14975522458553314,
      "learning_rate": 8e-05,
      "loss": 1.5443,
      "step": 2548
    },
    {
      "epoch": 0.8536503683858004,
      "grad_norm": 0.14303535223007202,
      "learning_rate": 8e-05,
      "loss": 1.502,
      "step": 2549
    },
    {
      "epoch": 0.853985264567984,
      "grad_norm": 0.14422662556171417,
      "learning_rate": 8e-05,
      "loss": 1.5156,
      "step": 2550
    },
    {
      "epoch": 0.8543201607501675,
      "grad_norm": 0.1467154324054718,
      "learning_rate": 8e-05,
      "loss": 1.5054,
      "step": 2551
    },
    {
      "epoch": 0.854655056932351,
      "grad_norm": 0.14602069556713104,
      "learning_rate": 8e-05,
      "loss": 1.5618,
      "step": 2552
    },
    {
      "epoch": 0.8549899531145345,
      "grad_norm": 0.14890234172344208,
      "learning_rate": 8e-05,
      "loss": 1.5042,
      "step": 2553
    },
    {
      "epoch": 0.855324849296718,
      "grad_norm": 0.14881843328475952,
      "learning_rate": 8e-05,
      "loss": 1.4859,
      "step": 2554
    },
    {
      "epoch": 0.8556597454789016,
      "grad_norm": 0.14630526304244995,
      "learning_rate": 8e-05,
      "loss": 1.493,
      "step": 2555
    },
    {
      "epoch": 0.8559946416610851,
      "grad_norm": 0.14318254590034485,
      "learning_rate": 8e-05,
      "loss": 1.4235,
      "step": 2556
    },
    {
      "epoch": 0.8563295378432686,
      "grad_norm": 0.15364618599414825,
      "learning_rate": 8e-05,
      "loss": 1.5433,
      "step": 2557
    },
    {
      "epoch": 0.8566644340254521,
      "grad_norm": 0.1457110047340393,
      "learning_rate": 8e-05,
      "loss": 1.5345,
      "step": 2558
    },
    {
      "epoch": 0.8569993302076356,
      "grad_norm": 0.14119015634059906,
      "learning_rate": 8e-05,
      "loss": 1.4548,
      "step": 2559
    },
    {
      "epoch": 0.8573342263898192,
      "grad_norm": 0.15415839850902557,
      "learning_rate": 8e-05,
      "loss": 1.5648,
      "step": 2560
    },
    {
      "epoch": 0.8576691225720027,
      "grad_norm": 0.1429011970758438,
      "learning_rate": 8e-05,
      "loss": 1.5095,
      "step": 2561
    },
    {
      "epoch": 0.8580040187541862,
      "grad_norm": 0.15205705165863037,
      "learning_rate": 8e-05,
      "loss": 1.472,
      "step": 2562
    },
    {
      "epoch": 0.8583389149363697,
      "grad_norm": 0.14424994587898254,
      "learning_rate": 8e-05,
      "loss": 1.5034,
      "step": 2563
    },
    {
      "epoch": 0.8586738111185532,
      "grad_norm": 0.15028028190135956,
      "learning_rate": 8e-05,
      "loss": 1.6047,
      "step": 2564
    },
    {
      "epoch": 0.8590087073007368,
      "grad_norm": 0.14836634695529938,
      "learning_rate": 8e-05,
      "loss": 1.4888,
      "step": 2565
    },
    {
      "epoch": 0.8593436034829203,
      "grad_norm": 0.15988267958164215,
      "learning_rate": 8e-05,
      "loss": 1.504,
      "step": 2566
    },
    {
      "epoch": 0.8596784996651038,
      "grad_norm": 0.1500198394060135,
      "learning_rate": 8e-05,
      "loss": 1.6254,
      "step": 2567
    },
    {
      "epoch": 0.8600133958472873,
      "grad_norm": 0.1554698795080185,
      "learning_rate": 8e-05,
      "loss": 1.4697,
      "step": 2568
    },
    {
      "epoch": 0.8603482920294708,
      "grad_norm": 0.15093541145324707,
      "learning_rate": 8e-05,
      "loss": 1.4867,
      "step": 2569
    },
    {
      "epoch": 0.8606831882116543,
      "grad_norm": 0.15732033550739288,
      "learning_rate": 8e-05,
      "loss": 1.5728,
      "step": 2570
    },
    {
      "epoch": 0.8610180843938379,
      "grad_norm": 0.14892898499965668,
      "learning_rate": 8e-05,
      "loss": 1.5523,
      "step": 2571
    },
    {
      "epoch": 0.8613529805760214,
      "grad_norm": 0.14716796576976776,
      "learning_rate": 8e-05,
      "loss": 1.4682,
      "step": 2572
    },
    {
      "epoch": 0.8616878767582049,
      "grad_norm": 0.14687423408031464,
      "learning_rate": 8e-05,
      "loss": 1.4398,
      "step": 2573
    },
    {
      "epoch": 0.8620227729403884,
      "grad_norm": 0.15488435328006744,
      "learning_rate": 8e-05,
      "loss": 1.5146,
      "step": 2574
    },
    {
      "epoch": 0.8623576691225721,
      "grad_norm": 0.14148379862308502,
      "learning_rate": 8e-05,
      "loss": 1.5129,
      "step": 2575
    },
    {
      "epoch": 0.8626925653047556,
      "grad_norm": 0.15333925187587738,
      "learning_rate": 8e-05,
      "loss": 1.4979,
      "step": 2576
    },
    {
      "epoch": 0.8630274614869391,
      "grad_norm": 0.154989093542099,
      "learning_rate": 8e-05,
      "loss": 1.5738,
      "step": 2577
    },
    {
      "epoch": 0.8633623576691226,
      "grad_norm": 0.1461716741323471,
      "learning_rate": 8e-05,
      "loss": 1.5526,
      "step": 2578
    },
    {
      "epoch": 0.8636972538513061,
      "grad_norm": 0.14789900183677673,
      "learning_rate": 8e-05,
      "loss": 1.5558,
      "step": 2579
    },
    {
      "epoch": 0.8640321500334897,
      "grad_norm": 0.1550314724445343,
      "learning_rate": 8e-05,
      "loss": 1.5121,
      "step": 2580
    },
    {
      "epoch": 0.8643670462156732,
      "grad_norm": 0.15648961067199707,
      "learning_rate": 8e-05,
      "loss": 1.4873,
      "step": 2581
    },
    {
      "epoch": 0.8647019423978567,
      "grad_norm": 0.1484576016664505,
      "learning_rate": 8e-05,
      "loss": 1.5544,
      "step": 2582
    },
    {
      "epoch": 0.8650368385800402,
      "grad_norm": 0.14740143716335297,
      "learning_rate": 8e-05,
      "loss": 1.4681,
      "step": 2583
    },
    {
      "epoch": 0.8653717347622237,
      "grad_norm": 0.14820970594882965,
      "learning_rate": 8e-05,
      "loss": 1.4797,
      "step": 2584
    },
    {
      "epoch": 0.8657066309444073,
      "grad_norm": 0.152065709233284,
      "learning_rate": 8e-05,
      "loss": 1.5803,
      "step": 2585
    },
    {
      "epoch": 0.8660415271265908,
      "grad_norm": 0.14435574412345886,
      "learning_rate": 8e-05,
      "loss": 1.507,
      "step": 2586
    },
    {
      "epoch": 0.8663764233087743,
      "grad_norm": 0.1426672339439392,
      "learning_rate": 8e-05,
      "loss": 1.4522,
      "step": 2587
    },
    {
      "epoch": 0.8667113194909578,
      "grad_norm": 0.14803986251354218,
      "learning_rate": 8e-05,
      "loss": 1.4188,
      "step": 2588
    },
    {
      "epoch": 0.8670462156731413,
      "grad_norm": 0.1601119488477707,
      "learning_rate": 8e-05,
      "loss": 1.6221,
      "step": 2589
    },
    {
      "epoch": 0.8673811118553248,
      "grad_norm": 0.14652279019355774,
      "learning_rate": 8e-05,
      "loss": 1.5423,
      "step": 2590
    },
    {
      "epoch": 0.8677160080375084,
      "grad_norm": 0.14505968987941742,
      "learning_rate": 8e-05,
      "loss": 1.4887,
      "step": 2591
    },
    {
      "epoch": 0.8680509042196919,
      "grad_norm": 0.15983350574970245,
      "learning_rate": 8e-05,
      "loss": 1.5729,
      "step": 2592
    },
    {
      "epoch": 0.8683858004018754,
      "grad_norm": 0.1412418633699417,
      "learning_rate": 8e-05,
      "loss": 1.4724,
      "step": 2593
    },
    {
      "epoch": 0.8687206965840589,
      "grad_norm": 0.1414029747247696,
      "learning_rate": 8e-05,
      "loss": 1.4804,
      "step": 2594
    },
    {
      "epoch": 0.8690555927662424,
      "grad_norm": 0.17731226980686188,
      "learning_rate": 8e-05,
      "loss": 1.5392,
      "step": 2595
    },
    {
      "epoch": 0.869390488948426,
      "grad_norm": 0.15451417863368988,
      "learning_rate": 8e-05,
      "loss": 1.4947,
      "step": 2596
    },
    {
      "epoch": 0.8697253851306095,
      "grad_norm": 0.1543176919221878,
      "learning_rate": 8e-05,
      "loss": 1.5641,
      "step": 2597
    },
    {
      "epoch": 0.870060281312793,
      "grad_norm": 0.1442854255437851,
      "learning_rate": 8e-05,
      "loss": 1.4515,
      "step": 2598
    },
    {
      "epoch": 0.8703951774949765,
      "grad_norm": 0.1539641171693802,
      "learning_rate": 8e-05,
      "loss": 1.6266,
      "step": 2599
    },
    {
      "epoch": 0.87073007367716,
      "grad_norm": 0.17183564603328705,
      "learning_rate": 8e-05,
      "loss": 1.57,
      "step": 2600
    },
    {
      "epoch": 0.8710649698593436,
      "grad_norm": 0.1453828513622284,
      "learning_rate": 8e-05,
      "loss": 1.4991,
      "step": 2601
    },
    {
      "epoch": 0.8713998660415271,
      "grad_norm": 0.13745050132274628,
      "learning_rate": 8e-05,
      "loss": 1.4433,
      "step": 2602
    },
    {
      "epoch": 0.8717347622237106,
      "grad_norm": 0.15761412680149078,
      "learning_rate": 8e-05,
      "loss": 1.3975,
      "step": 2603
    },
    {
      "epoch": 0.8720696584058941,
      "grad_norm": 0.1523962914943695,
      "learning_rate": 8e-05,
      "loss": 1.4774,
      "step": 2604
    },
    {
      "epoch": 0.8724045545880776,
      "grad_norm": 0.13753654062747955,
      "learning_rate": 8e-05,
      "loss": 1.4418,
      "step": 2605
    },
    {
      "epoch": 0.8727394507702613,
      "grad_norm": 0.162120521068573,
      "learning_rate": 8e-05,
      "loss": 1.5693,
      "step": 2606
    },
    {
      "epoch": 0.8730743469524448,
      "grad_norm": 0.14719662070274353,
      "learning_rate": 8e-05,
      "loss": 1.4944,
      "step": 2607
    },
    {
      "epoch": 0.8734092431346283,
      "grad_norm": 0.14213916659355164,
      "learning_rate": 8e-05,
      "loss": 1.3436,
      "step": 2608
    },
    {
      "epoch": 0.8737441393168118,
      "grad_norm": 0.14341144263744354,
      "learning_rate": 8e-05,
      "loss": 1.4967,
      "step": 2609
    },
    {
      "epoch": 0.8740790354989953,
      "grad_norm": 0.15123240649700165,
      "learning_rate": 8e-05,
      "loss": 1.5059,
      "step": 2610
    },
    {
      "epoch": 0.8744139316811789,
      "grad_norm": 0.15345636010169983,
      "learning_rate": 8e-05,
      "loss": 1.5287,
      "step": 2611
    },
    {
      "epoch": 0.8747488278633624,
      "grad_norm": 0.15016748011112213,
      "learning_rate": 8e-05,
      "loss": 1.6117,
      "step": 2612
    },
    {
      "epoch": 0.8750837240455459,
      "grad_norm": 0.14799201488494873,
      "learning_rate": 8e-05,
      "loss": 1.494,
      "step": 2613
    },
    {
      "epoch": 0.8754186202277294,
      "grad_norm": 0.1564832180738449,
      "learning_rate": 8e-05,
      "loss": 1.5087,
      "step": 2614
    },
    {
      "epoch": 0.875753516409913,
      "grad_norm": 0.1453920602798462,
      "learning_rate": 8e-05,
      "loss": 1.5076,
      "step": 2615
    },
    {
      "epoch": 0.8760884125920965,
      "grad_norm": 0.14738409221172333,
      "learning_rate": 8e-05,
      "loss": 1.4509,
      "step": 2616
    },
    {
      "epoch": 0.87642330877428,
      "grad_norm": 0.15646855533123016,
      "learning_rate": 8e-05,
      "loss": 1.5794,
      "step": 2617
    },
    {
      "epoch": 0.8767582049564635,
      "grad_norm": 0.1430225372314453,
      "learning_rate": 8e-05,
      "loss": 1.4793,
      "step": 2618
    },
    {
      "epoch": 0.877093101138647,
      "grad_norm": 0.15526182949543,
      "learning_rate": 8e-05,
      "loss": 1.4702,
      "step": 2619
    },
    {
      "epoch": 0.8774279973208305,
      "grad_norm": 0.1460895538330078,
      "learning_rate": 8e-05,
      "loss": 1.5887,
      "step": 2620
    },
    {
      "epoch": 0.8777628935030141,
      "grad_norm": 0.1511334478855133,
      "learning_rate": 8e-05,
      "loss": 1.5093,
      "step": 2621
    },
    {
      "epoch": 0.8780977896851976,
      "grad_norm": 0.15336832404136658,
      "learning_rate": 8e-05,
      "loss": 1.4737,
      "step": 2622
    },
    {
      "epoch": 0.8784326858673811,
      "grad_norm": 0.15191350877285004,
      "learning_rate": 8e-05,
      "loss": 1.4904,
      "step": 2623
    },
    {
      "epoch": 0.8787675820495646,
      "grad_norm": 0.1498839110136032,
      "learning_rate": 8e-05,
      "loss": 1.6089,
      "step": 2624
    },
    {
      "epoch": 0.8791024782317481,
      "grad_norm": 0.14481109380722046,
      "learning_rate": 8e-05,
      "loss": 1.454,
      "step": 2625
    },
    {
      "epoch": 0.8794373744139317,
      "grad_norm": 0.15848200023174286,
      "learning_rate": 8e-05,
      "loss": 1.4677,
      "step": 2626
    },
    {
      "epoch": 0.8797722705961152,
      "grad_norm": 0.14654895663261414,
      "learning_rate": 8e-05,
      "loss": 1.4247,
      "step": 2627
    },
    {
      "epoch": 0.8801071667782987,
      "grad_norm": 0.14339210093021393,
      "learning_rate": 8e-05,
      "loss": 1.4772,
      "step": 2628
    },
    {
      "epoch": 0.8804420629604822,
      "grad_norm": 0.15190529823303223,
      "learning_rate": 8e-05,
      "loss": 1.5035,
      "step": 2629
    },
    {
      "epoch": 0.8807769591426657,
      "grad_norm": 0.14897100627422333,
      "learning_rate": 8e-05,
      "loss": 1.5549,
      "step": 2630
    },
    {
      "epoch": 0.8811118553248493,
      "grad_norm": 0.14282891154289246,
      "learning_rate": 8e-05,
      "loss": 1.4766,
      "step": 2631
    },
    {
      "epoch": 0.8814467515070328,
      "grad_norm": 0.14440858364105225,
      "learning_rate": 8e-05,
      "loss": 1.5452,
      "step": 2632
    },
    {
      "epoch": 0.8817816476892163,
      "grad_norm": 0.14430226385593414,
      "learning_rate": 8e-05,
      "loss": 1.4529,
      "step": 2633
    },
    {
      "epoch": 0.8821165438713998,
      "grad_norm": 0.14248798787593842,
      "learning_rate": 8e-05,
      "loss": 1.5771,
      "step": 2634
    },
    {
      "epoch": 0.8824514400535833,
      "grad_norm": 0.1460118293762207,
      "learning_rate": 8e-05,
      "loss": 1.4672,
      "step": 2635
    },
    {
      "epoch": 0.882786336235767,
      "grad_norm": 0.14378118515014648,
      "learning_rate": 8e-05,
      "loss": 1.5059,
      "step": 2636
    },
    {
      "epoch": 0.8831212324179505,
      "grad_norm": 0.1455208957195282,
      "learning_rate": 8e-05,
      "loss": 1.4876,
      "step": 2637
    },
    {
      "epoch": 0.883456128600134,
      "grad_norm": 0.1402740627527237,
      "learning_rate": 8e-05,
      "loss": 1.5527,
      "step": 2638
    },
    {
      "epoch": 0.8837910247823175,
      "grad_norm": 0.1616700291633606,
      "learning_rate": 8e-05,
      "loss": 1.6035,
      "step": 2639
    },
    {
      "epoch": 0.884125920964501,
      "grad_norm": 0.15246886014938354,
      "learning_rate": 8e-05,
      "loss": 1.6105,
      "step": 2640
    },
    {
      "epoch": 0.8844608171466846,
      "grad_norm": 0.14741507172584534,
      "learning_rate": 8e-05,
      "loss": 1.5342,
      "step": 2641
    },
    {
      "epoch": 0.8847957133288681,
      "grad_norm": 0.1477506011724472,
      "learning_rate": 8e-05,
      "loss": 1.4972,
      "step": 2642
    },
    {
      "epoch": 0.8851306095110516,
      "grad_norm": 0.13653680682182312,
      "learning_rate": 8e-05,
      "loss": 1.4006,
      "step": 2643
    },
    {
      "epoch": 0.8854655056932351,
      "grad_norm": 0.13570116460323334,
      "learning_rate": 8e-05,
      "loss": 1.4202,
      "step": 2644
    },
    {
      "epoch": 0.8858004018754186,
      "grad_norm": 0.1494787484407425,
      "learning_rate": 8e-05,
      "loss": 1.577,
      "step": 2645
    },
    {
      "epoch": 0.8861352980576022,
      "grad_norm": 0.13786686956882477,
      "learning_rate": 8e-05,
      "loss": 1.4018,
      "step": 2646
    },
    {
      "epoch": 0.8864701942397857,
      "grad_norm": 0.1425057351589203,
      "learning_rate": 8e-05,
      "loss": 1.5385,
      "step": 2647
    },
    {
      "epoch": 0.8868050904219692,
      "grad_norm": 0.14402753114700317,
      "learning_rate": 8e-05,
      "loss": 1.4124,
      "step": 2648
    },
    {
      "epoch": 0.8871399866041527,
      "grad_norm": 0.14390461146831512,
      "learning_rate": 8e-05,
      "loss": 1.4712,
      "step": 2649
    },
    {
      "epoch": 0.8874748827863362,
      "grad_norm": 0.14553867280483246,
      "learning_rate": 8e-05,
      "loss": 1.5461,
      "step": 2650
    },
    {
      "epoch": 0.8878097789685198,
      "grad_norm": 0.15242783725261688,
      "learning_rate": 8e-05,
      "loss": 1.6011,
      "step": 2651
    },
    {
      "epoch": 0.8881446751507033,
      "grad_norm": 0.14587309956550598,
      "learning_rate": 8e-05,
      "loss": 1.6269,
      "step": 2652
    },
    {
      "epoch": 0.8884795713328868,
      "grad_norm": 0.1488337516784668,
      "learning_rate": 8e-05,
      "loss": 1.5465,
      "step": 2653
    },
    {
      "epoch": 0.8888144675150703,
      "grad_norm": 0.1539553701877594,
      "learning_rate": 8e-05,
      "loss": 1.4365,
      "step": 2654
    },
    {
      "epoch": 0.8891493636972538,
      "grad_norm": 0.14848558604717255,
      "learning_rate": 8e-05,
      "loss": 1.4109,
      "step": 2655
    },
    {
      "epoch": 0.8894842598794374,
      "grad_norm": 0.14813566207885742,
      "learning_rate": 8e-05,
      "loss": 1.4888,
      "step": 2656
    },
    {
      "epoch": 0.8898191560616209,
      "grad_norm": 0.15075625479221344,
      "learning_rate": 8e-05,
      "loss": 1.5499,
      "step": 2657
    },
    {
      "epoch": 0.8901540522438044,
      "grad_norm": 0.14128577709197998,
      "learning_rate": 8e-05,
      "loss": 1.5614,
      "step": 2658
    },
    {
      "epoch": 0.8904889484259879,
      "grad_norm": 0.1399991363286972,
      "learning_rate": 8e-05,
      "loss": 1.3602,
      "step": 2659
    },
    {
      "epoch": 0.8908238446081714,
      "grad_norm": 0.14311791956424713,
      "learning_rate": 8e-05,
      "loss": 1.4479,
      "step": 2660
    },
    {
      "epoch": 0.891158740790355,
      "grad_norm": 0.14132502675056458,
      "learning_rate": 8e-05,
      "loss": 1.4936,
      "step": 2661
    },
    {
      "epoch": 0.8914936369725385,
      "grad_norm": 0.1408195048570633,
      "learning_rate": 8e-05,
      "loss": 1.5006,
      "step": 2662
    },
    {
      "epoch": 0.891828533154722,
      "grad_norm": 0.14326968789100647,
      "learning_rate": 8e-05,
      "loss": 1.4725,
      "step": 2663
    },
    {
      "epoch": 0.8921634293369055,
      "grad_norm": 0.15448640286922455,
      "learning_rate": 8e-05,
      "loss": 1.6134,
      "step": 2664
    },
    {
      "epoch": 0.892498325519089,
      "grad_norm": 0.14584441483020782,
      "learning_rate": 8e-05,
      "loss": 1.6153,
      "step": 2665
    },
    {
      "epoch": 0.8928332217012726,
      "grad_norm": 0.14711451530456543,
      "learning_rate": 8e-05,
      "loss": 1.5077,
      "step": 2666
    },
    {
      "epoch": 0.8931681178834562,
      "grad_norm": 0.14960408210754395,
      "learning_rate": 8e-05,
      "loss": 1.5179,
      "step": 2667
    },
    {
      "epoch": 0.8935030140656397,
      "grad_norm": 0.1516617089509964,
      "learning_rate": 8e-05,
      "loss": 1.5697,
      "step": 2668
    },
    {
      "epoch": 0.8938379102478232,
      "grad_norm": 0.14571526646614075,
      "learning_rate": 8e-05,
      "loss": 1.4547,
      "step": 2669
    },
    {
      "epoch": 0.8941728064300067,
      "grad_norm": 0.14352931082248688,
      "learning_rate": 8e-05,
      "loss": 1.3935,
      "step": 2670
    },
    {
      "epoch": 0.8945077026121903,
      "grad_norm": 0.14283615350723267,
      "learning_rate": 8e-05,
      "loss": 1.4382,
      "step": 2671
    },
    {
      "epoch": 0.8948425987943738,
      "grad_norm": 0.1499866545200348,
      "learning_rate": 8e-05,
      "loss": 1.49,
      "step": 2672
    },
    {
      "epoch": 0.8951774949765573,
      "grad_norm": 0.1502993255853653,
      "learning_rate": 8e-05,
      "loss": 1.5485,
      "step": 2673
    },
    {
      "epoch": 0.8955123911587408,
      "grad_norm": 0.14598920941352844,
      "learning_rate": 8e-05,
      "loss": 1.5316,
      "step": 2674
    },
    {
      "epoch": 0.8958472873409243,
      "grad_norm": 0.14682699739933014,
      "learning_rate": 8e-05,
      "loss": 1.5363,
      "step": 2675
    },
    {
      "epoch": 0.8961821835231079,
      "grad_norm": 0.14069919288158417,
      "learning_rate": 8e-05,
      "loss": 1.5082,
      "step": 2676
    },
    {
      "epoch": 0.8965170797052914,
      "grad_norm": 0.1434376835823059,
      "learning_rate": 8e-05,
      "loss": 1.43,
      "step": 2677
    },
    {
      "epoch": 0.8968519758874749,
      "grad_norm": 0.1380467414855957,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 2678
    },
    {
      "epoch": 0.8971868720696584,
      "grad_norm": 0.13801583647727966,
      "learning_rate": 8e-05,
      "loss": 1.4669,
      "step": 2679
    },
    {
      "epoch": 0.8975217682518419,
      "grad_norm": 0.14723244309425354,
      "learning_rate": 8e-05,
      "loss": 1.4712,
      "step": 2680
    },
    {
      "epoch": 0.8978566644340255,
      "grad_norm": 0.14551064372062683,
      "learning_rate": 8e-05,
      "loss": 1.4531,
      "step": 2681
    },
    {
      "epoch": 0.898191560616209,
      "grad_norm": 0.15107578039169312,
      "learning_rate": 8e-05,
      "loss": 1.5262,
      "step": 2682
    },
    {
      "epoch": 0.8985264567983925,
      "grad_norm": 0.14408069849014282,
      "learning_rate": 8e-05,
      "loss": 1.5395,
      "step": 2683
    },
    {
      "epoch": 0.898861352980576,
      "grad_norm": 0.14400431513786316,
      "learning_rate": 8e-05,
      "loss": 1.4376,
      "step": 2684
    },
    {
      "epoch": 0.8991962491627595,
      "grad_norm": 0.1481902152299881,
      "learning_rate": 8e-05,
      "loss": 1.5288,
      "step": 2685
    },
    {
      "epoch": 0.899531145344943,
      "grad_norm": 0.14309437572956085,
      "learning_rate": 8e-05,
      "loss": 1.5402,
      "step": 2686
    },
    {
      "epoch": 0.8998660415271266,
      "grad_norm": 0.13774363696575165,
      "learning_rate": 8e-05,
      "loss": 1.5006,
      "step": 2687
    },
    {
      "epoch": 0.9002009377093101,
      "grad_norm": 0.135012686252594,
      "learning_rate": 8e-05,
      "loss": 1.4462,
      "step": 2688
    },
    {
      "epoch": 0.9005358338914936,
      "grad_norm": 0.14629678428173065,
      "learning_rate": 8e-05,
      "loss": 1.577,
      "step": 2689
    },
    {
      "epoch": 0.9008707300736771,
      "grad_norm": 0.14533601701259613,
      "learning_rate": 8e-05,
      "loss": 1.5758,
      "step": 2690
    },
    {
      "epoch": 0.9012056262558606,
      "grad_norm": 0.14944323897361755,
      "learning_rate": 8e-05,
      "loss": 1.4834,
      "step": 2691
    },
    {
      "epoch": 0.9015405224380442,
      "grad_norm": 0.1495092213153839,
      "learning_rate": 8e-05,
      "loss": 1.5902,
      "step": 2692
    },
    {
      "epoch": 0.9018754186202277,
      "grad_norm": 0.14036425948143005,
      "learning_rate": 8e-05,
      "loss": 1.5532,
      "step": 2693
    },
    {
      "epoch": 0.9022103148024112,
      "grad_norm": 0.15536895394325256,
      "learning_rate": 8e-05,
      "loss": 1.5191,
      "step": 2694
    },
    {
      "epoch": 0.9025452109845947,
      "grad_norm": 0.1557375192642212,
      "learning_rate": 8e-05,
      "loss": 1.5655,
      "step": 2695
    },
    {
      "epoch": 0.9028801071667782,
      "grad_norm": 0.1542247235774994,
      "learning_rate": 8e-05,
      "loss": 1.5502,
      "step": 2696
    },
    {
      "epoch": 0.9032150033489619,
      "grad_norm": 0.14680132269859314,
      "learning_rate": 8e-05,
      "loss": 1.5242,
      "step": 2697
    },
    {
      "epoch": 0.9035498995311454,
      "grad_norm": 0.14148688316345215,
      "learning_rate": 8e-05,
      "loss": 1.4099,
      "step": 2698
    },
    {
      "epoch": 0.9038847957133289,
      "grad_norm": 0.1516328752040863,
      "learning_rate": 8e-05,
      "loss": 1.5542,
      "step": 2699
    },
    {
      "epoch": 0.9042196918955124,
      "grad_norm": 0.15313486754894257,
      "learning_rate": 8e-05,
      "loss": 1.5099,
      "step": 2700
    },
    {
      "epoch": 0.904554588077696,
      "grad_norm": 0.14623169600963593,
      "learning_rate": 8e-05,
      "loss": 1.4066,
      "step": 2701
    },
    {
      "epoch": 0.9048894842598795,
      "grad_norm": 0.1501730978488922,
      "learning_rate": 8e-05,
      "loss": 1.5269,
      "step": 2702
    },
    {
      "epoch": 0.905224380442063,
      "grad_norm": 0.15718114376068115,
      "learning_rate": 8e-05,
      "loss": 1.591,
      "step": 2703
    },
    {
      "epoch": 0.9055592766242465,
      "grad_norm": 0.16156616806983948,
      "learning_rate": 8e-05,
      "loss": 1.5748,
      "step": 2704
    },
    {
      "epoch": 0.90589417280643,
      "grad_norm": 0.1383659988641739,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 2705
    },
    {
      "epoch": 0.9062290689886136,
      "grad_norm": 0.14834313094615936,
      "learning_rate": 8e-05,
      "loss": 1.4857,
      "step": 2706
    },
    {
      "epoch": 0.9065639651707971,
      "grad_norm": 0.1581091731786728,
      "learning_rate": 8e-05,
      "loss": 1.5406,
      "step": 2707
    },
    {
      "epoch": 0.9068988613529806,
      "grad_norm": 0.14172185957431793,
      "learning_rate": 8e-05,
      "loss": 1.5504,
      "step": 2708
    },
    {
      "epoch": 0.9072337575351641,
      "grad_norm": 0.14500096440315247,
      "learning_rate": 8e-05,
      "loss": 1.3963,
      "step": 2709
    },
    {
      "epoch": 0.9075686537173476,
      "grad_norm": 0.1455700695514679,
      "learning_rate": 8e-05,
      "loss": 1.5098,
      "step": 2710
    },
    {
      "epoch": 0.9079035498995311,
      "grad_norm": 0.1475301831960678,
      "learning_rate": 8e-05,
      "loss": 1.4616,
      "step": 2711
    },
    {
      "epoch": 0.9082384460817147,
      "grad_norm": 0.14694437384605408,
      "learning_rate": 8e-05,
      "loss": 1.4946,
      "step": 2712
    },
    {
      "epoch": 0.9085733422638982,
      "grad_norm": 0.1443323940038681,
      "learning_rate": 8e-05,
      "loss": 1.5042,
      "step": 2713
    },
    {
      "epoch": 0.9089082384460817,
      "grad_norm": 0.15070171654224396,
      "learning_rate": 8e-05,
      "loss": 1.4847,
      "step": 2714
    },
    {
      "epoch": 0.9092431346282652,
      "grad_norm": 0.14915047585964203,
      "learning_rate": 8e-05,
      "loss": 1.5321,
      "step": 2715
    },
    {
      "epoch": 0.9095780308104487,
      "grad_norm": 0.1505512297153473,
      "learning_rate": 8e-05,
      "loss": 1.5997,
      "step": 2716
    },
    {
      "epoch": 0.9099129269926323,
      "grad_norm": 0.148660808801651,
      "learning_rate": 8e-05,
      "loss": 1.5277,
      "step": 2717
    },
    {
      "epoch": 0.9102478231748158,
      "grad_norm": 0.15681782364845276,
      "learning_rate": 8e-05,
      "loss": 1.5286,
      "step": 2718
    },
    {
      "epoch": 0.9105827193569993,
      "grad_norm": 0.13911233842372894,
      "learning_rate": 8e-05,
      "loss": 1.4382,
      "step": 2719
    },
    {
      "epoch": 0.9109176155391828,
      "grad_norm": 0.15972808003425598,
      "learning_rate": 8e-05,
      "loss": 1.4904,
      "step": 2720
    },
    {
      "epoch": 0.9112525117213663,
      "grad_norm": 0.15062110126018524,
      "learning_rate": 8e-05,
      "loss": 1.5353,
      "step": 2721
    },
    {
      "epoch": 0.9115874079035499,
      "grad_norm": 0.148763045668602,
      "learning_rate": 8e-05,
      "loss": 1.4801,
      "step": 2722
    },
    {
      "epoch": 0.9119223040857334,
      "grad_norm": 0.14688940346240997,
      "learning_rate": 8e-05,
      "loss": 1.403,
      "step": 2723
    },
    {
      "epoch": 0.9122572002679169,
      "grad_norm": 0.14809468388557434,
      "learning_rate": 8e-05,
      "loss": 1.5155,
      "step": 2724
    },
    {
      "epoch": 0.9125920964501004,
      "grad_norm": 0.1441882699728012,
      "learning_rate": 8e-05,
      "loss": 1.493,
      "step": 2725
    },
    {
      "epoch": 0.9129269926322839,
      "grad_norm": 0.1454225480556488,
      "learning_rate": 8e-05,
      "loss": 1.5262,
      "step": 2726
    },
    {
      "epoch": 0.9132618888144675,
      "grad_norm": 0.16306501626968384,
      "learning_rate": 8e-05,
      "loss": 1.578,
      "step": 2727
    },
    {
      "epoch": 0.9135967849966511,
      "grad_norm": 0.1522122621536255,
      "learning_rate": 8e-05,
      "loss": 1.5522,
      "step": 2728
    },
    {
      "epoch": 0.9139316811788346,
      "grad_norm": 0.14378909766674042,
      "learning_rate": 8e-05,
      "loss": 1.4837,
      "step": 2729
    },
    {
      "epoch": 0.9142665773610181,
      "grad_norm": 0.15934458374977112,
      "learning_rate": 8e-05,
      "loss": 1.4671,
      "step": 2730
    },
    {
      "epoch": 0.9146014735432016,
      "grad_norm": 0.14744219183921814,
      "learning_rate": 8e-05,
      "loss": 1.4335,
      "step": 2731
    },
    {
      "epoch": 0.9149363697253852,
      "grad_norm": 0.1519673466682434,
      "learning_rate": 8e-05,
      "loss": 1.505,
      "step": 2732
    },
    {
      "epoch": 0.9152712659075687,
      "grad_norm": 0.1616879105567932,
      "learning_rate": 8e-05,
      "loss": 1.44,
      "step": 2733
    },
    {
      "epoch": 0.9156061620897522,
      "grad_norm": 0.15452346205711365,
      "learning_rate": 8e-05,
      "loss": 1.4135,
      "step": 2734
    },
    {
      "epoch": 0.9159410582719357,
      "grad_norm": 0.14972205460071564,
      "learning_rate": 8e-05,
      "loss": 1.4115,
      "step": 2735
    },
    {
      "epoch": 0.9162759544541192,
      "grad_norm": 0.15424290299415588,
      "learning_rate": 8e-05,
      "loss": 1.5237,
      "step": 2736
    },
    {
      "epoch": 0.9166108506363028,
      "grad_norm": 0.14634796977043152,
      "learning_rate": 8e-05,
      "loss": 1.538,
      "step": 2737
    },
    {
      "epoch": 0.9169457468184863,
      "grad_norm": 0.14014871418476105,
      "learning_rate": 8e-05,
      "loss": 1.4923,
      "step": 2738
    },
    {
      "epoch": 0.9172806430006698,
      "grad_norm": 0.15000824630260468,
      "learning_rate": 8e-05,
      "loss": 1.6293,
      "step": 2739
    },
    {
      "epoch": 0.9176155391828533,
      "grad_norm": 0.1474105566740036,
      "learning_rate": 8e-05,
      "loss": 1.5111,
      "step": 2740
    },
    {
      "epoch": 0.9179504353650368,
      "grad_norm": 0.14832700788974762,
      "learning_rate": 8e-05,
      "loss": 1.4718,
      "step": 2741
    },
    {
      "epoch": 0.9182853315472204,
      "grad_norm": 0.13600848615169525,
      "learning_rate": 8e-05,
      "loss": 1.4376,
      "step": 2742
    },
    {
      "epoch": 0.9186202277294039,
      "grad_norm": 0.15320754051208496,
      "learning_rate": 8e-05,
      "loss": 1.5403,
      "step": 2743
    },
    {
      "epoch": 0.9189551239115874,
      "grad_norm": 0.14332640171051025,
      "learning_rate": 8e-05,
      "loss": 1.4949,
      "step": 2744
    },
    {
      "epoch": 0.9192900200937709,
      "grad_norm": 0.1412423849105835,
      "learning_rate": 8e-05,
      "loss": 1.5016,
      "step": 2745
    },
    {
      "epoch": 0.9196249162759544,
      "grad_norm": 0.14811784029006958,
      "learning_rate": 8e-05,
      "loss": 1.4483,
      "step": 2746
    },
    {
      "epoch": 0.919959812458138,
      "grad_norm": 0.1531607061624527,
      "learning_rate": 8e-05,
      "loss": 1.5774,
      "step": 2747
    },
    {
      "epoch": 0.9202947086403215,
      "grad_norm": 0.14559857547283173,
      "learning_rate": 8e-05,
      "loss": 1.468,
      "step": 2748
    },
    {
      "epoch": 0.920629604822505,
      "grad_norm": 0.1421317458152771,
      "learning_rate": 8e-05,
      "loss": 1.4676,
      "step": 2749
    },
    {
      "epoch": 0.9209645010046885,
      "grad_norm": 0.14628435671329498,
      "learning_rate": 8e-05,
      "loss": 1.4884,
      "step": 2750
    },
    {
      "epoch": 0.921299397186872,
      "grad_norm": 0.14756932854652405,
      "learning_rate": 8e-05,
      "loss": 1.5095,
      "step": 2751
    },
    {
      "epoch": 0.9216342933690556,
      "grad_norm": 0.1423485428094864,
      "learning_rate": 8e-05,
      "loss": 1.4595,
      "step": 2752
    },
    {
      "epoch": 0.9219691895512391,
      "grad_norm": 0.14806745946407318,
      "learning_rate": 8e-05,
      "loss": 1.5467,
      "step": 2753
    },
    {
      "epoch": 0.9223040857334226,
      "grad_norm": 0.1471768021583557,
      "learning_rate": 8e-05,
      "loss": 1.5388,
      "step": 2754
    },
    {
      "epoch": 0.9226389819156061,
      "grad_norm": 0.1452694833278656,
      "learning_rate": 8e-05,
      "loss": 1.4483,
      "step": 2755
    },
    {
      "epoch": 0.9229738780977896,
      "grad_norm": 0.14913301169872284,
      "learning_rate": 8e-05,
      "loss": 1.5273,
      "step": 2756
    },
    {
      "epoch": 0.9233087742799732,
      "grad_norm": 0.13811464607715607,
      "learning_rate": 8e-05,
      "loss": 1.4557,
      "step": 2757
    },
    {
      "epoch": 0.9236436704621568,
      "grad_norm": 0.14679501950740814,
      "learning_rate": 8e-05,
      "loss": 1.5515,
      "step": 2758
    },
    {
      "epoch": 0.9239785666443403,
      "grad_norm": 0.14098040759563446,
      "learning_rate": 8e-05,
      "loss": 1.4514,
      "step": 2759
    },
    {
      "epoch": 0.9243134628265238,
      "grad_norm": 0.1483263075351715,
      "learning_rate": 8e-05,
      "loss": 1.546,
      "step": 2760
    },
    {
      "epoch": 0.9246483590087073,
      "grad_norm": 0.14632895588874817,
      "learning_rate": 8e-05,
      "loss": 1.4961,
      "step": 2761
    },
    {
      "epoch": 0.9249832551908909,
      "grad_norm": 0.13986492156982422,
      "learning_rate": 8e-05,
      "loss": 1.4661,
      "step": 2762
    },
    {
      "epoch": 0.9253181513730744,
      "grad_norm": 0.1509726643562317,
      "learning_rate": 8e-05,
      "loss": 1.5061,
      "step": 2763
    },
    {
      "epoch": 0.9256530475552579,
      "grad_norm": 0.137462317943573,
      "learning_rate": 8e-05,
      "loss": 1.4171,
      "step": 2764
    },
    {
      "epoch": 0.9259879437374414,
      "grad_norm": 0.14926499128341675,
      "learning_rate": 8e-05,
      "loss": 1.3769,
      "step": 2765
    },
    {
      "epoch": 0.9263228399196249,
      "grad_norm": 0.14598698914051056,
      "learning_rate": 8e-05,
      "loss": 1.4005,
      "step": 2766
    },
    {
      "epoch": 0.9266577361018085,
      "grad_norm": 0.14481467008590698,
      "learning_rate": 8e-05,
      "loss": 1.4866,
      "step": 2767
    },
    {
      "epoch": 0.926992632283992,
      "grad_norm": 0.1545903980731964,
      "learning_rate": 8e-05,
      "loss": 1.5718,
      "step": 2768
    },
    {
      "epoch": 0.9273275284661755,
      "grad_norm": 0.15057338774204254,
      "learning_rate": 8e-05,
      "loss": 1.4277,
      "step": 2769
    },
    {
      "epoch": 0.927662424648359,
      "grad_norm": 0.14790907502174377,
      "learning_rate": 8e-05,
      "loss": 1.5,
      "step": 2770
    },
    {
      "epoch": 0.9279973208305425,
      "grad_norm": 0.14689500629901886,
      "learning_rate": 8e-05,
      "loss": 1.5209,
      "step": 2771
    },
    {
      "epoch": 0.9283322170127261,
      "grad_norm": 0.1478612869977951,
      "learning_rate": 8e-05,
      "loss": 1.4342,
      "step": 2772
    },
    {
      "epoch": 0.9286671131949096,
      "grad_norm": 0.15003502368927002,
      "learning_rate": 8e-05,
      "loss": 1.5326,
      "step": 2773
    },
    {
      "epoch": 0.9290020093770931,
      "grad_norm": 0.14267276227474213,
      "learning_rate": 8e-05,
      "loss": 1.4786,
      "step": 2774
    },
    {
      "epoch": 0.9293369055592766,
      "grad_norm": 0.14712528884410858,
      "learning_rate": 8e-05,
      "loss": 1.5498,
      "step": 2775
    },
    {
      "epoch": 0.9296718017414601,
      "grad_norm": 0.14486780762672424,
      "learning_rate": 8e-05,
      "loss": 1.5769,
      "step": 2776
    },
    {
      "epoch": 0.9300066979236437,
      "grad_norm": 0.14827872812747955,
      "learning_rate": 8e-05,
      "loss": 1.521,
      "step": 2777
    },
    {
      "epoch": 0.9303415941058272,
      "grad_norm": 0.1479395627975464,
      "learning_rate": 8e-05,
      "loss": 1.5766,
      "step": 2778
    },
    {
      "epoch": 0.9306764902880107,
      "grad_norm": 0.14232544600963593,
      "learning_rate": 8e-05,
      "loss": 1.4317,
      "step": 2779
    },
    {
      "epoch": 0.9310113864701942,
      "grad_norm": 0.14361031353473663,
      "learning_rate": 8e-05,
      "loss": 1.4857,
      "step": 2780
    },
    {
      "epoch": 0.9313462826523777,
      "grad_norm": 0.14418168365955353,
      "learning_rate": 8e-05,
      "loss": 1.4506,
      "step": 2781
    },
    {
      "epoch": 0.9316811788345613,
      "grad_norm": 0.1476382464170456,
      "learning_rate": 8e-05,
      "loss": 1.5697,
      "step": 2782
    },
    {
      "epoch": 0.9320160750167448,
      "grad_norm": 0.15069378912448883,
      "learning_rate": 8e-05,
      "loss": 1.551,
      "step": 2783
    },
    {
      "epoch": 0.9323509711989283,
      "grad_norm": 0.13314731419086456,
      "learning_rate": 8e-05,
      "loss": 1.376,
      "step": 2784
    },
    {
      "epoch": 0.9326858673811118,
      "grad_norm": 0.14337463676929474,
      "learning_rate": 8e-05,
      "loss": 1.4721,
      "step": 2785
    },
    {
      "epoch": 0.9330207635632953,
      "grad_norm": 0.14995336532592773,
      "learning_rate": 8e-05,
      "loss": 1.489,
      "step": 2786
    },
    {
      "epoch": 0.9333556597454788,
      "grad_norm": 0.14411981403827667,
      "learning_rate": 8e-05,
      "loss": 1.4271,
      "step": 2787
    },
    {
      "epoch": 0.9336905559276625,
      "grad_norm": 0.14558489620685577,
      "learning_rate": 8e-05,
      "loss": 1.5152,
      "step": 2788
    },
    {
      "epoch": 0.934025452109846,
      "grad_norm": 0.1481582522392273,
      "learning_rate": 8e-05,
      "loss": 1.4053,
      "step": 2789
    },
    {
      "epoch": 0.9343603482920295,
      "grad_norm": 0.14696016907691956,
      "learning_rate": 8e-05,
      "loss": 1.4468,
      "step": 2790
    },
    {
      "epoch": 0.934695244474213,
      "grad_norm": 0.14997990429401398,
      "learning_rate": 8e-05,
      "loss": 1.5135,
      "step": 2791
    },
    {
      "epoch": 0.9350301406563966,
      "grad_norm": 0.15149427950382233,
      "learning_rate": 8e-05,
      "loss": 1.4891,
      "step": 2792
    },
    {
      "epoch": 0.9353650368385801,
      "grad_norm": 0.1469593048095703,
      "learning_rate": 8e-05,
      "loss": 1.5986,
      "step": 2793
    },
    {
      "epoch": 0.9356999330207636,
      "grad_norm": 0.13952180743217468,
      "learning_rate": 8e-05,
      "loss": 1.4589,
      "step": 2794
    },
    {
      "epoch": 0.9360348292029471,
      "grad_norm": 0.14849519729614258,
      "learning_rate": 8e-05,
      "loss": 1.5034,
      "step": 2795
    },
    {
      "epoch": 0.9363697253851306,
      "grad_norm": 0.152549609541893,
      "learning_rate": 8e-05,
      "loss": 1.5361,
      "step": 2796
    },
    {
      "epoch": 0.9367046215673142,
      "grad_norm": 0.14663773775100708,
      "learning_rate": 8e-05,
      "loss": 1.5151,
      "step": 2797
    },
    {
      "epoch": 0.9370395177494977,
      "grad_norm": 0.14507797360420227,
      "learning_rate": 8e-05,
      "loss": 1.4016,
      "step": 2798
    },
    {
      "epoch": 0.9373744139316812,
      "grad_norm": 0.14749228954315186,
      "learning_rate": 8e-05,
      "loss": 1.4511,
      "step": 2799
    },
    {
      "epoch": 0.9377093101138647,
      "grad_norm": 0.15571103990077972,
      "learning_rate": 8e-05,
      "loss": 1.5807,
      "step": 2800
    },
    {
      "epoch": 0.9380442062960482,
      "grad_norm": 0.14194954931735992,
      "learning_rate": 8e-05,
      "loss": 1.3955,
      "step": 2801
    },
    {
      "epoch": 0.9383791024782318,
      "grad_norm": 0.14788396656513214,
      "learning_rate": 8e-05,
      "loss": 1.501,
      "step": 2802
    },
    {
      "epoch": 0.9387139986604153,
      "grad_norm": 0.14618968963623047,
      "learning_rate": 8e-05,
      "loss": 1.4977,
      "step": 2803
    },
    {
      "epoch": 0.9390488948425988,
      "grad_norm": 0.14733152091503143,
      "learning_rate": 8e-05,
      "loss": 1.4631,
      "step": 2804
    },
    {
      "epoch": 0.9393837910247823,
      "grad_norm": 0.1383468508720398,
      "learning_rate": 8e-05,
      "loss": 1.4107,
      "step": 2805
    },
    {
      "epoch": 0.9397186872069658,
      "grad_norm": 0.14521272480487823,
      "learning_rate": 8e-05,
      "loss": 1.5006,
      "step": 2806
    },
    {
      "epoch": 0.9400535833891493,
      "grad_norm": 0.14416445791721344,
      "learning_rate": 8e-05,
      "loss": 1.4762,
      "step": 2807
    },
    {
      "epoch": 0.9403884795713329,
      "grad_norm": 0.143303781747818,
      "learning_rate": 8e-05,
      "loss": 1.5754,
      "step": 2808
    },
    {
      "epoch": 0.9407233757535164,
      "grad_norm": 0.14961302280426025,
      "learning_rate": 8e-05,
      "loss": 1.5595,
      "step": 2809
    },
    {
      "epoch": 0.9410582719356999,
      "grad_norm": 0.15030871331691742,
      "learning_rate": 8e-05,
      "loss": 1.5011,
      "step": 2810
    },
    {
      "epoch": 0.9413931681178834,
      "grad_norm": 0.1411328911781311,
      "learning_rate": 8e-05,
      "loss": 1.5001,
      "step": 2811
    },
    {
      "epoch": 0.941728064300067,
      "grad_norm": 0.1473766416311264,
      "learning_rate": 8e-05,
      "loss": 1.446,
      "step": 2812
    },
    {
      "epoch": 0.9420629604822505,
      "grad_norm": 0.15085379779338837,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 2813
    },
    {
      "epoch": 0.942397856664434,
      "grad_norm": 0.14710867404937744,
      "learning_rate": 8e-05,
      "loss": 1.4702,
      "step": 2814
    },
    {
      "epoch": 0.9427327528466175,
      "grad_norm": 0.1423220932483673,
      "learning_rate": 8e-05,
      "loss": 1.4348,
      "step": 2815
    },
    {
      "epoch": 0.943067649028801,
      "grad_norm": 0.14972476661205292,
      "learning_rate": 8e-05,
      "loss": 1.5057,
      "step": 2816
    },
    {
      "epoch": 0.9434025452109845,
      "grad_norm": 0.14535845816135406,
      "learning_rate": 8e-05,
      "loss": 1.5063,
      "step": 2817
    },
    {
      "epoch": 0.9437374413931681,
      "grad_norm": 0.14867474138736725,
      "learning_rate": 8e-05,
      "loss": 1.4876,
      "step": 2818
    },
    {
      "epoch": 0.9440723375753517,
      "grad_norm": 0.1459972858428955,
      "learning_rate": 8e-05,
      "loss": 1.5383,
      "step": 2819
    },
    {
      "epoch": 0.9444072337575352,
      "grad_norm": 0.1461534947156906,
      "learning_rate": 8e-05,
      "loss": 1.5511,
      "step": 2820
    },
    {
      "epoch": 0.9447421299397187,
      "grad_norm": 0.14345069229602814,
      "learning_rate": 8e-05,
      "loss": 1.4335,
      "step": 2821
    },
    {
      "epoch": 0.9450770261219023,
      "grad_norm": 0.15544447302818298,
      "learning_rate": 8e-05,
      "loss": 1.5978,
      "step": 2822
    },
    {
      "epoch": 0.9454119223040858,
      "grad_norm": 0.14832168817520142,
      "learning_rate": 8e-05,
      "loss": 1.4792,
      "step": 2823
    },
    {
      "epoch": 0.9457468184862693,
      "grad_norm": 0.15915964543819427,
      "learning_rate": 8e-05,
      "loss": 1.5793,
      "step": 2824
    },
    {
      "epoch": 0.9460817146684528,
      "grad_norm": 0.14712779223918915,
      "learning_rate": 8e-05,
      "loss": 1.4788,
      "step": 2825
    },
    {
      "epoch": 0.9464166108506363,
      "grad_norm": 0.14744096994400024,
      "learning_rate": 8e-05,
      "loss": 1.5332,
      "step": 2826
    },
    {
      "epoch": 0.9467515070328199,
      "grad_norm": 0.1538657248020172,
      "learning_rate": 8e-05,
      "loss": 1.5308,
      "step": 2827
    },
    {
      "epoch": 0.9470864032150034,
      "grad_norm": 0.15038448572158813,
      "learning_rate": 8e-05,
      "loss": 1.4665,
      "step": 2828
    },
    {
      "epoch": 0.9474212993971869,
      "grad_norm": 0.15413279831409454,
      "learning_rate": 8e-05,
      "loss": 1.4962,
      "step": 2829
    },
    {
      "epoch": 0.9477561955793704,
      "grad_norm": 0.1573048084974289,
      "learning_rate": 8e-05,
      "loss": 1.5446,
      "step": 2830
    },
    {
      "epoch": 0.9480910917615539,
      "grad_norm": 0.14688366651535034,
      "learning_rate": 8e-05,
      "loss": 1.567,
      "step": 2831
    },
    {
      "epoch": 0.9484259879437374,
      "grad_norm": 0.1508968621492386,
      "learning_rate": 8e-05,
      "loss": 1.5114,
      "step": 2832
    },
    {
      "epoch": 0.948760884125921,
      "grad_norm": 0.15322712063789368,
      "learning_rate": 8e-05,
      "loss": 1.5244,
      "step": 2833
    },
    {
      "epoch": 0.9490957803081045,
      "grad_norm": 0.14931896328926086,
      "learning_rate": 8e-05,
      "loss": 1.5754,
      "step": 2834
    },
    {
      "epoch": 0.949430676490288,
      "grad_norm": 0.15316693484783173,
      "learning_rate": 8e-05,
      "loss": 1.5844,
      "step": 2835
    },
    {
      "epoch": 0.9497655726724715,
      "grad_norm": 0.1482972502708435,
      "learning_rate": 8e-05,
      "loss": 1.4265,
      "step": 2836
    },
    {
      "epoch": 0.950100468854655,
      "grad_norm": 0.14261400699615479,
      "learning_rate": 8e-05,
      "loss": 1.5078,
      "step": 2837
    },
    {
      "epoch": 0.9504353650368386,
      "grad_norm": 0.15900257229804993,
      "learning_rate": 8e-05,
      "loss": 1.5088,
      "step": 2838
    },
    {
      "epoch": 0.9507702612190221,
      "grad_norm": 0.15829360485076904,
      "learning_rate": 8e-05,
      "loss": 1.5074,
      "step": 2839
    },
    {
      "epoch": 0.9511051574012056,
      "grad_norm": 0.1398472785949707,
      "learning_rate": 8e-05,
      "loss": 1.429,
      "step": 2840
    },
    {
      "epoch": 0.9514400535833891,
      "grad_norm": 0.1486547291278839,
      "learning_rate": 8e-05,
      "loss": 1.4452,
      "step": 2841
    },
    {
      "epoch": 0.9517749497655726,
      "grad_norm": 0.1540914624929428,
      "learning_rate": 8e-05,
      "loss": 1.4523,
      "step": 2842
    },
    {
      "epoch": 0.9521098459477562,
      "grad_norm": 0.14351917803287506,
      "learning_rate": 8e-05,
      "loss": 1.4301,
      "step": 2843
    },
    {
      "epoch": 0.9524447421299397,
      "grad_norm": 0.15575359761714935,
      "learning_rate": 8e-05,
      "loss": 1.537,
      "step": 2844
    },
    {
      "epoch": 0.9527796383121232,
      "grad_norm": 0.14308753609657288,
      "learning_rate": 8e-05,
      "loss": 1.529,
      "step": 2845
    },
    {
      "epoch": 0.9531145344943067,
      "grad_norm": 0.14771491289138794,
      "learning_rate": 8e-05,
      "loss": 1.5671,
      "step": 2846
    },
    {
      "epoch": 0.9534494306764902,
      "grad_norm": 0.14637044072151184,
      "learning_rate": 8e-05,
      "loss": 1.5274,
      "step": 2847
    },
    {
      "epoch": 0.9537843268586738,
      "grad_norm": 0.14110340178012848,
      "learning_rate": 8e-05,
      "loss": 1.3989,
      "step": 2848
    },
    {
      "epoch": 0.9541192230408574,
      "grad_norm": 0.1536799967288971,
      "learning_rate": 8e-05,
      "loss": 1.6202,
      "step": 2849
    },
    {
      "epoch": 0.9544541192230409,
      "grad_norm": 0.1445232331752777,
      "learning_rate": 8e-05,
      "loss": 1.4001,
      "step": 2850
    },
    {
      "epoch": 0.9547890154052244,
      "grad_norm": 0.14428015053272247,
      "learning_rate": 8e-05,
      "loss": 1.4469,
      "step": 2851
    },
    {
      "epoch": 0.955123911587408,
      "grad_norm": 0.14568692445755005,
      "learning_rate": 8e-05,
      "loss": 1.4202,
      "step": 2852
    },
    {
      "epoch": 0.9554588077695915,
      "grad_norm": 0.1545991748571396,
      "learning_rate": 8e-05,
      "loss": 1.5239,
      "step": 2853
    },
    {
      "epoch": 0.955793703951775,
      "grad_norm": 0.15215058624744415,
      "learning_rate": 8e-05,
      "loss": 1.5494,
      "step": 2854
    },
    {
      "epoch": 0.9561286001339585,
      "grad_norm": 0.14659450948238373,
      "learning_rate": 8e-05,
      "loss": 1.5084,
      "step": 2855
    },
    {
      "epoch": 0.956463496316142,
      "grad_norm": 0.15282152593135834,
      "learning_rate": 8e-05,
      "loss": 1.4951,
      "step": 2856
    },
    {
      "epoch": 0.9567983924983255,
      "grad_norm": 0.14681905508041382,
      "learning_rate": 8e-05,
      "loss": 1.4245,
      "step": 2857
    },
    {
      "epoch": 0.9571332886805091,
      "grad_norm": 0.14762452244758606,
      "learning_rate": 8e-05,
      "loss": 1.568,
      "step": 2858
    },
    {
      "epoch": 0.9574681848626926,
      "grad_norm": 0.15308551490306854,
      "learning_rate": 8e-05,
      "loss": 1.5204,
      "step": 2859
    },
    {
      "epoch": 0.9578030810448761,
      "grad_norm": 0.14527814090251923,
      "learning_rate": 8e-05,
      "loss": 1.5534,
      "step": 2860
    },
    {
      "epoch": 0.9581379772270596,
      "grad_norm": 0.14301641285419464,
      "learning_rate": 8e-05,
      "loss": 1.5243,
      "step": 2861
    },
    {
      "epoch": 0.9584728734092431,
      "grad_norm": 0.15008412301540375,
      "learning_rate": 8e-05,
      "loss": 1.5238,
      "step": 2862
    },
    {
      "epoch": 0.9588077695914267,
      "grad_norm": 0.14272180199623108,
      "learning_rate": 8e-05,
      "loss": 1.4682,
      "step": 2863
    },
    {
      "epoch": 0.9591426657736102,
      "grad_norm": 0.1470850557088852,
      "learning_rate": 8e-05,
      "loss": 1.5577,
      "step": 2864
    },
    {
      "epoch": 0.9594775619557937,
      "grad_norm": 0.1478373259305954,
      "learning_rate": 8e-05,
      "loss": 1.5193,
      "step": 2865
    },
    {
      "epoch": 0.9598124581379772,
      "grad_norm": 0.14709734916687012,
      "learning_rate": 8e-05,
      "loss": 1.4792,
      "step": 2866
    },
    {
      "epoch": 0.9601473543201607,
      "grad_norm": 0.16250889003276825,
      "learning_rate": 8e-05,
      "loss": 1.5031,
      "step": 2867
    },
    {
      "epoch": 0.9604822505023443,
      "grad_norm": 0.1451631486415863,
      "learning_rate": 8e-05,
      "loss": 1.5681,
      "step": 2868
    },
    {
      "epoch": 0.9608171466845278,
      "grad_norm": 0.15040209889411926,
      "learning_rate": 8e-05,
      "loss": 1.4969,
      "step": 2869
    },
    {
      "epoch": 0.9611520428667113,
      "grad_norm": 0.144454687833786,
      "learning_rate": 8e-05,
      "loss": 1.4842,
      "step": 2870
    },
    {
      "epoch": 0.9614869390488948,
      "grad_norm": 0.14990203082561493,
      "learning_rate": 8e-05,
      "loss": 1.5136,
      "step": 2871
    },
    {
      "epoch": 0.9618218352310783,
      "grad_norm": 0.15931375324726105,
      "learning_rate": 8e-05,
      "loss": 1.5456,
      "step": 2872
    },
    {
      "epoch": 0.9621567314132619,
      "grad_norm": 0.14753767848014832,
      "learning_rate": 8e-05,
      "loss": 1.5315,
      "step": 2873
    },
    {
      "epoch": 0.9624916275954454,
      "grad_norm": 0.15837527811527252,
      "learning_rate": 8e-05,
      "loss": 1.5031,
      "step": 2874
    },
    {
      "epoch": 0.9628265237776289,
      "grad_norm": 0.14934688806533813,
      "learning_rate": 8e-05,
      "loss": 1.5531,
      "step": 2875
    },
    {
      "epoch": 0.9631614199598124,
      "grad_norm": 0.14712412655353546,
      "learning_rate": 8e-05,
      "loss": 1.5913,
      "step": 2876
    },
    {
      "epoch": 0.9634963161419959,
      "grad_norm": 0.15796449780464172,
      "learning_rate": 8e-05,
      "loss": 1.4588,
      "step": 2877
    },
    {
      "epoch": 0.9638312123241795,
      "grad_norm": 0.14861947298049927,
      "learning_rate": 8e-05,
      "loss": 1.4947,
      "step": 2878
    },
    {
      "epoch": 0.964166108506363,
      "grad_norm": 0.14570555090904236,
      "learning_rate": 8e-05,
      "loss": 1.4606,
      "step": 2879
    },
    {
      "epoch": 0.9645010046885466,
      "grad_norm": 0.1631574183702469,
      "learning_rate": 8e-05,
      "loss": 1.5374,
      "step": 2880
    },
    {
      "epoch": 0.9648359008707301,
      "grad_norm": 0.1402219980955124,
      "learning_rate": 8e-05,
      "loss": 1.3759,
      "step": 2881
    },
    {
      "epoch": 0.9651707970529136,
      "grad_norm": 0.14977432787418365,
      "learning_rate": 8e-05,
      "loss": 1.5318,
      "step": 2882
    },
    {
      "epoch": 0.9655056932350972,
      "grad_norm": 0.1516115814447403,
      "learning_rate": 8e-05,
      "loss": 1.5228,
      "step": 2883
    },
    {
      "epoch": 0.9658405894172807,
      "grad_norm": 0.1420212835073471,
      "learning_rate": 8e-05,
      "loss": 1.4902,
      "step": 2884
    },
    {
      "epoch": 0.9661754855994642,
      "grad_norm": 0.14431996643543243,
      "learning_rate": 8e-05,
      "loss": 1.4085,
      "step": 2885
    },
    {
      "epoch": 0.9665103817816477,
      "grad_norm": 0.14339104294776917,
      "learning_rate": 8e-05,
      "loss": 1.494,
      "step": 2886
    },
    {
      "epoch": 0.9668452779638312,
      "grad_norm": 0.1488284319639206,
      "learning_rate": 8e-05,
      "loss": 1.4041,
      "step": 2887
    },
    {
      "epoch": 0.9671801741460148,
      "grad_norm": 0.1503310352563858,
      "learning_rate": 8e-05,
      "loss": 1.6268,
      "step": 2888
    },
    {
      "epoch": 0.9675150703281983,
      "grad_norm": 0.14925351738929749,
      "learning_rate": 8e-05,
      "loss": 1.5404,
      "step": 2889
    },
    {
      "epoch": 0.9678499665103818,
      "grad_norm": 0.1444355696439743,
      "learning_rate": 8e-05,
      "loss": 1.4743,
      "step": 2890
    },
    {
      "epoch": 0.9681848626925653,
      "grad_norm": 0.14530467987060547,
      "learning_rate": 8e-05,
      "loss": 1.4892,
      "step": 2891
    },
    {
      "epoch": 0.9685197588747488,
      "grad_norm": 0.14225587248802185,
      "learning_rate": 8e-05,
      "loss": 1.4521,
      "step": 2892
    },
    {
      "epoch": 0.9688546550569324,
      "grad_norm": 0.14712615311145782,
      "learning_rate": 8e-05,
      "loss": 1.5529,
      "step": 2893
    },
    {
      "epoch": 0.9691895512391159,
      "grad_norm": 0.15011794865131378,
      "learning_rate": 8e-05,
      "loss": 1.4864,
      "step": 2894
    },
    {
      "epoch": 0.9695244474212994,
      "grad_norm": 0.15022020041942596,
      "learning_rate": 8e-05,
      "loss": 1.4829,
      "step": 2895
    },
    {
      "epoch": 0.9698593436034829,
      "grad_norm": 0.14644354581832886,
      "learning_rate": 8e-05,
      "loss": 1.3833,
      "step": 2896
    },
    {
      "epoch": 0.9701942397856664,
      "grad_norm": 0.1482565850019455,
      "learning_rate": 8e-05,
      "loss": 1.4748,
      "step": 2897
    },
    {
      "epoch": 0.97052913596785,
      "grad_norm": 0.14616551995277405,
      "learning_rate": 8e-05,
      "loss": 1.506,
      "step": 2898
    },
    {
      "epoch": 0.9708640321500335,
      "grad_norm": 0.14466966688632965,
      "learning_rate": 8e-05,
      "loss": 1.5148,
      "step": 2899
    },
    {
      "epoch": 0.971198928332217,
      "grad_norm": 0.14639878273010254,
      "learning_rate": 8e-05,
      "loss": 1.5509,
      "step": 2900
    },
    {
      "epoch": 0.9715338245144005,
      "grad_norm": 0.14971834421157837,
      "learning_rate": 8e-05,
      "loss": 1.4631,
      "step": 2901
    },
    {
      "epoch": 0.971868720696584,
      "grad_norm": 0.14621131122112274,
      "learning_rate": 8e-05,
      "loss": 1.4847,
      "step": 2902
    },
    {
      "epoch": 0.9722036168787676,
      "grad_norm": 0.14101660251617432,
      "learning_rate": 8e-05,
      "loss": 1.4438,
      "step": 2903
    },
    {
      "epoch": 0.9725385130609511,
      "grad_norm": 0.14813068509101868,
      "learning_rate": 8e-05,
      "loss": 1.5437,
      "step": 2904
    },
    {
      "epoch": 0.9728734092431346,
      "grad_norm": 0.145811066031456,
      "learning_rate": 8e-05,
      "loss": 1.4885,
      "step": 2905
    },
    {
      "epoch": 0.9732083054253181,
      "grad_norm": 0.1557304859161377,
      "learning_rate": 8e-05,
      "loss": 1.5454,
      "step": 2906
    },
    {
      "epoch": 0.9735432016075016,
      "grad_norm": 0.14555980265140533,
      "learning_rate": 8e-05,
      "loss": 1.4955,
      "step": 2907
    },
    {
      "epoch": 0.9738780977896851,
      "grad_norm": 0.148612380027771,
      "learning_rate": 8e-05,
      "loss": 1.5379,
      "step": 2908
    },
    {
      "epoch": 0.9742129939718687,
      "grad_norm": 0.15228131413459778,
      "learning_rate": 8e-05,
      "loss": 1.5212,
      "step": 2909
    },
    {
      "epoch": 0.9745478901540523,
      "grad_norm": 0.14734534919261932,
      "learning_rate": 8e-05,
      "loss": 1.5372,
      "step": 2910
    },
    {
      "epoch": 0.9748827863362358,
      "grad_norm": 0.14194828271865845,
      "learning_rate": 8e-05,
      "loss": 1.4859,
      "step": 2911
    },
    {
      "epoch": 0.9752176825184193,
      "grad_norm": 0.14505623281002045,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 2912
    },
    {
      "epoch": 0.9755525787006029,
      "grad_norm": 0.14411306381225586,
      "learning_rate": 8e-05,
      "loss": 1.4689,
      "step": 2913
    },
    {
      "epoch": 0.9758874748827864,
      "grad_norm": 0.13999788463115692,
      "learning_rate": 8e-05,
      "loss": 1.4743,
      "step": 2914
    },
    {
      "epoch": 0.9762223710649699,
      "grad_norm": 0.14295899868011475,
      "learning_rate": 8e-05,
      "loss": 1.5044,
      "step": 2915
    },
    {
      "epoch": 0.9765572672471534,
      "grad_norm": 0.15051962435245514,
      "learning_rate": 8e-05,
      "loss": 1.4977,
      "step": 2916
    },
    {
      "epoch": 0.9768921634293369,
      "grad_norm": 0.14313367009162903,
      "learning_rate": 8e-05,
      "loss": 1.5235,
      "step": 2917
    },
    {
      "epoch": 0.9772270596115205,
      "grad_norm": 0.14271345734596252,
      "learning_rate": 8e-05,
      "loss": 1.5512,
      "step": 2918
    },
    {
      "epoch": 0.977561955793704,
      "grad_norm": 0.14840775728225708,
      "learning_rate": 8e-05,
      "loss": 1.4637,
      "step": 2919
    },
    {
      "epoch": 0.9778968519758875,
      "grad_norm": 0.15578927099704742,
      "learning_rate": 8e-05,
      "loss": 1.5141,
      "step": 2920
    },
    {
      "epoch": 0.978231748158071,
      "grad_norm": 0.14862573146820068,
      "learning_rate": 8e-05,
      "loss": 1.5216,
      "step": 2921
    },
    {
      "epoch": 0.9785666443402545,
      "grad_norm": 0.14945998787879944,
      "learning_rate": 8e-05,
      "loss": 1.4927,
      "step": 2922
    },
    {
      "epoch": 0.978901540522438,
      "grad_norm": 0.14806821942329407,
      "learning_rate": 8e-05,
      "loss": 1.4812,
      "step": 2923
    },
    {
      "epoch": 0.9792364367046216,
      "grad_norm": 0.14642974734306335,
      "learning_rate": 8e-05,
      "loss": 1.5531,
      "step": 2924
    },
    {
      "epoch": 0.9795713328868051,
      "grad_norm": 0.14804710447788239,
      "learning_rate": 8e-05,
      "loss": 1.4174,
      "step": 2925
    },
    {
      "epoch": 0.9799062290689886,
      "grad_norm": 0.14337517321109772,
      "learning_rate": 8e-05,
      "loss": 1.4672,
      "step": 2926
    },
    {
      "epoch": 0.9802411252511721,
      "grad_norm": 0.14244751632213593,
      "learning_rate": 8e-05,
      "loss": 1.4581,
      "step": 2927
    },
    {
      "epoch": 0.9805760214333556,
      "grad_norm": 0.14656272530555725,
      "learning_rate": 8e-05,
      "loss": 1.5132,
      "step": 2928
    },
    {
      "epoch": 0.9809109176155392,
      "grad_norm": 0.14697971940040588,
      "learning_rate": 8e-05,
      "loss": 1.5046,
      "step": 2929
    },
    {
      "epoch": 0.9812458137977227,
      "grad_norm": 0.14649681746959686,
      "learning_rate": 8e-05,
      "loss": 1.4752,
      "step": 2930
    },
    {
      "epoch": 0.9815807099799062,
      "grad_norm": 0.1484280228614807,
      "learning_rate": 8e-05,
      "loss": 1.5518,
      "step": 2931
    },
    {
      "epoch": 0.9819156061620897,
      "grad_norm": 0.14696888625621796,
      "learning_rate": 8e-05,
      "loss": 1.5344,
      "step": 2932
    },
    {
      "epoch": 0.9822505023442732,
      "grad_norm": 0.14073196053504944,
      "learning_rate": 8e-05,
      "loss": 1.4491,
      "step": 2933
    },
    {
      "epoch": 0.9825853985264568,
      "grad_norm": 0.14190925657749176,
      "learning_rate": 8e-05,
      "loss": 1.5354,
      "step": 2934
    },
    {
      "epoch": 0.9829202947086403,
      "grad_norm": 0.1457926481962204,
      "learning_rate": 8e-05,
      "loss": 1.5376,
      "step": 2935
    },
    {
      "epoch": 0.9832551908908238,
      "grad_norm": 0.15770108997821808,
      "learning_rate": 8e-05,
      "loss": 1.6341,
      "step": 2936
    },
    {
      "epoch": 0.9835900870730073,
      "grad_norm": 0.14428292214870453,
      "learning_rate": 8e-05,
      "loss": 1.5327,
      "step": 2937
    },
    {
      "epoch": 0.9839249832551908,
      "grad_norm": 0.14970187842845917,
      "learning_rate": 8e-05,
      "loss": 1.4997,
      "step": 2938
    },
    {
      "epoch": 0.9842598794373744,
      "grad_norm": 0.1599861979484558,
      "learning_rate": 8e-05,
      "loss": 1.5406,
      "step": 2939
    },
    {
      "epoch": 0.9845947756195579,
      "grad_norm": 0.14708764851093292,
      "learning_rate": 8e-05,
      "loss": 1.5048,
      "step": 2940
    },
    {
      "epoch": 0.9849296718017415,
      "grad_norm": 0.14522705972194672,
      "learning_rate": 8e-05,
      "loss": 1.4942,
      "step": 2941
    },
    {
      "epoch": 0.985264567983925,
      "grad_norm": 0.14334790408611298,
      "learning_rate": 8e-05,
      "loss": 1.4629,
      "step": 2942
    },
    {
      "epoch": 0.9855994641661086,
      "grad_norm": 0.15318138897418976,
      "learning_rate": 8e-05,
      "loss": 1.5802,
      "step": 2943
    },
    {
      "epoch": 0.9859343603482921,
      "grad_norm": 0.14718583226203918,
      "learning_rate": 8e-05,
      "loss": 1.5479,
      "step": 2944
    },
    {
      "epoch": 0.9862692565304756,
      "grad_norm": 0.1460791826248169,
      "learning_rate": 8e-05,
      "loss": 1.5121,
      "step": 2945
    },
    {
      "epoch": 0.9866041527126591,
      "grad_norm": 0.14811451733112335,
      "learning_rate": 8e-05,
      "loss": 1.4332,
      "step": 2946
    },
    {
      "epoch": 0.9869390488948426,
      "grad_norm": 0.15050184726715088,
      "learning_rate": 8e-05,
      "loss": 1.4968,
      "step": 2947
    },
    {
      "epoch": 0.9872739450770261,
      "grad_norm": 0.15005087852478027,
      "learning_rate": 8e-05,
      "loss": 1.574,
      "step": 2948
    },
    {
      "epoch": 0.9876088412592097,
      "grad_norm": 0.1486046463251114,
      "learning_rate": 8e-05,
      "loss": 1.4954,
      "step": 2949
    },
    {
      "epoch": 0.9879437374413932,
      "grad_norm": 0.14598943293094635,
      "learning_rate": 8e-05,
      "loss": 1.536,
      "step": 2950
    },
    {
      "epoch": 0.9882786336235767,
      "grad_norm": 0.1474776268005371,
      "learning_rate": 8e-05,
      "loss": 1.4829,
      "step": 2951
    },
    {
      "epoch": 0.9886135298057602,
      "grad_norm": 0.1476171463727951,
      "learning_rate": 8e-05,
      "loss": 1.4546,
      "step": 2952
    },
    {
      "epoch": 0.9889484259879437,
      "grad_norm": 0.15336306393146515,
      "learning_rate": 8e-05,
      "loss": 1.4855,
      "step": 2953
    },
    {
      "epoch": 0.9892833221701273,
      "grad_norm": 0.14745599031448364,
      "learning_rate": 8e-05,
      "loss": 1.499,
      "step": 2954
    },
    {
      "epoch": 0.9896182183523108,
      "grad_norm": 0.1542966514825821,
      "learning_rate": 8e-05,
      "loss": 1.4748,
      "step": 2955
    },
    {
      "epoch": 0.9899531145344943,
      "grad_norm": 0.1474919319152832,
      "learning_rate": 8e-05,
      "loss": 1.4602,
      "step": 2956
    },
    {
      "epoch": 0.9902880107166778,
      "grad_norm": 0.14775334298610687,
      "learning_rate": 8e-05,
      "loss": 1.6173,
      "step": 2957
    },
    {
      "epoch": 0.9906229068988613,
      "grad_norm": 0.1509617567062378,
      "learning_rate": 8e-05,
      "loss": 1.5067,
      "step": 2958
    },
    {
      "epoch": 0.9909578030810449,
      "grad_norm": 0.15495911240577698,
      "learning_rate": 8e-05,
      "loss": 1.5073,
      "step": 2959
    },
    {
      "epoch": 0.9912926992632284,
      "grad_norm": 0.14331510663032532,
      "learning_rate": 8e-05,
      "loss": 1.4695,
      "step": 2960
    },
    {
      "epoch": 0.9916275954454119,
      "grad_norm": 0.15726332366466522,
      "learning_rate": 8e-05,
      "loss": 1.484,
      "step": 2961
    },
    {
      "epoch": 0.9919624916275954,
      "grad_norm": 0.14488911628723145,
      "learning_rate": 8e-05,
      "loss": 1.5223,
      "step": 2962
    },
    {
      "epoch": 0.9922973878097789,
      "grad_norm": 0.15608333051204681,
      "learning_rate": 8e-05,
      "loss": 1.518,
      "step": 2963
    },
    {
      "epoch": 0.9926322839919625,
      "grad_norm": 0.1448722928762436,
      "learning_rate": 8e-05,
      "loss": 1.4232,
      "step": 2964
    },
    {
      "epoch": 0.992967180174146,
      "grad_norm": 0.14783544838428497,
      "learning_rate": 8e-05,
      "loss": 1.4595,
      "step": 2965
    },
    {
      "epoch": 0.9933020763563295,
      "grad_norm": 0.1526234745979309,
      "learning_rate": 8e-05,
      "loss": 1.5636,
      "step": 2966
    },
    {
      "epoch": 0.993636972538513,
      "grad_norm": 0.15086165070533752,
      "learning_rate": 8e-05,
      "loss": 1.4312,
      "step": 2967
    },
    {
      "epoch": 0.9939718687206965,
      "grad_norm": 0.14992977678775787,
      "learning_rate": 8e-05,
      "loss": 1.3672,
      "step": 2968
    },
    {
      "epoch": 0.9943067649028801,
      "grad_norm": 0.14947178959846497,
      "learning_rate": 8e-05,
      "loss": 1.4604,
      "step": 2969
    },
    {
      "epoch": 0.9946416610850636,
      "grad_norm": 0.14819256961345673,
      "learning_rate": 8e-05,
      "loss": 1.5432,
      "step": 2970
    },
    {
      "epoch": 0.9949765572672472,
      "grad_norm": 0.15484118461608887,
      "learning_rate": 8e-05,
      "loss": 1.4808,
      "step": 2971
    },
    {
      "epoch": 0.9953114534494307,
      "grad_norm": 0.15490558743476868,
      "learning_rate": 8e-05,
      "loss": 1.5479,
      "step": 2972
    },
    {
      "epoch": 0.9956463496316142,
      "grad_norm": 0.149561807513237,
      "learning_rate": 8e-05,
      "loss": 1.4564,
      "step": 2973
    },
    {
      "epoch": 0.9959812458137978,
      "grad_norm": 0.15580332279205322,
      "learning_rate": 8e-05,
      "loss": 1.5409,
      "step": 2974
    },
    {
      "epoch": 0.9963161419959813,
      "grad_norm": 0.15390345454216003,
      "learning_rate": 8e-05,
      "loss": 1.4046,
      "step": 2975
    },
    {
      "epoch": 0.9966510381781648,
      "grad_norm": 0.15094593167304993,
      "learning_rate": 8e-05,
      "loss": 1.5554,
      "step": 2976
    },
    {
      "epoch": 0.9969859343603483,
      "grad_norm": 0.14415030181407928,
      "learning_rate": 8e-05,
      "loss": 1.5313,
      "step": 2977
    },
    {
      "epoch": 0.9973208305425318,
      "grad_norm": 0.15971149504184723,
      "learning_rate": 8e-05,
      "loss": 1.5763,
      "step": 2978
    },
    {
      "epoch": 0.9976557267247154,
      "grad_norm": 0.1473136842250824,
      "learning_rate": 8e-05,
      "loss": 1.4893,
      "step": 2979
    },
    {
      "epoch": 0.9979906229068989,
      "grad_norm": 0.15495191514492035,
      "learning_rate": 8e-05,
      "loss": 1.5416,
      "step": 2980
    },
    {
      "epoch": 0.9983255190890824,
      "grad_norm": 0.15056318044662476,
      "learning_rate": 8e-05,
      "loss": 1.4334,
      "step": 2981
    },
    {
      "epoch": 0.9986604152712659,
      "grad_norm": 0.14727911353111267,
      "learning_rate": 8e-05,
      "loss": 1.4854,
      "step": 2982
    },
    {
      "epoch": 0.9989953114534494,
      "grad_norm": 0.1538366675376892,
      "learning_rate": 8e-05,
      "loss": 1.4631,
      "step": 2983
    },
    {
      "epoch": 0.999330207635633,
      "grad_norm": 0.15565313398838043,
      "learning_rate": 8e-05,
      "loss": 1.4762,
      "step": 2984
    },
    {
      "epoch": 0.9996651038178165,
      "grad_norm": 0.15114174783229828,
      "learning_rate": 8e-05,
      "loss": 1.5026,
      "step": 2985
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.14501939713954926,
      "learning_rate": 8e-05,
      "loss": 1.4513,
      "step": 2986
    },
    {
      "epoch": 1.0,
      "step": 2986,
      "total_flos": 1.7000184777585721e+19,
      "train_loss": 1.553016853588025,
      "train_runtime": 28326.3102,
      "train_samples_per_second": 0.843,
      "train_steps_per_second": 0.105
    }
  ],
  "logging_steps": 1,
  "max_steps": 2986,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 300,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.7000184777585721e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}