{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.51,
  "eval_steps": 2000,
  "global_step": 102000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5e-05,
      "grad_norm": 70.5,
      "learning_rate": 2.9999999999999997e-06,
      "loss": 13.7834,
      "step": 10
    },
    {
      "epoch": 0.0001,
      "grad_norm": 58.75,
      "learning_rate": 5.999999999999999e-06,
      "loss": 12.8062,
      "step": 20
    },
    {
      "epoch": 0.00015,
      "grad_norm": 30.125,
      "learning_rate": 8.999999999999999e-06,
      "loss": 11.3332,
      "step": 30
    },
    {
      "epoch": 0.0002,
      "grad_norm": 20.5,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 10.502,
      "step": 40
    },
    {
      "epoch": 0.00025,
      "grad_norm": 26.5,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 10.1107,
      "step": 50
    },
    {
      "epoch": 0.0003,
      "grad_norm": 25.25,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 9.8117,
      "step": 60
    },
    {
      "epoch": 0.00035,
      "grad_norm": 18.625,
      "learning_rate": 2.1e-05,
      "loss": 9.5843,
      "step": 70
    },
    {
      "epoch": 0.0004,
      "grad_norm": 21.625,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 9.4289,
      "step": 80
    },
    {
      "epoch": 0.00045,
      "grad_norm": 15.75,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 9.0879,
      "step": 90
    },
    {
      "epoch": 0.0005,
      "grad_norm": 16.0,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 8.8701,
      "step": 100
    },
    {
      "epoch": 0.00055,
      "grad_norm": 14.3125,
      "learning_rate": 3.2999999999999996e-05,
      "loss": 8.6414,
      "step": 110
    },
    {
      "epoch": 0.0006,
      "grad_norm": 18.375,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 8.4767,
      "step": 120
    },
    {
      "epoch": 0.00065,
      "grad_norm": 13.0625,
      "learning_rate": 3.9e-05,
      "loss": 8.3867,
      "step": 130
    },
    {
      "epoch": 0.0007,
      "grad_norm": 10.6875,
      "learning_rate": 4.2e-05,
      "loss": 8.2221,
      "step": 140
    },
    {
      "epoch": 0.00075,
      "grad_norm": 8.3125,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 8.2645,
      "step": 150
    },
    {
      "epoch": 0.0008,
      "grad_norm": 8.4375,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 8.2112,
      "step": 160
    },
    {
      "epoch": 0.00085,
      "grad_norm": 5.8125,
      "learning_rate": 5.1e-05,
      "loss": 8.094,
      "step": 170
    },
    {
      "epoch": 0.0009,
      "grad_norm": 7.375,
      "learning_rate": 5.399999999999999e-05,
      "loss": 8.0878,
      "step": 180
    },
    {
      "epoch": 0.00095,
      "grad_norm": 6.75,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 8.0936,
      "step": 190
    },
    {
      "epoch": 0.001,
      "grad_norm": 5.8125,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 8.0081,
      "step": 200
    },
    {
      "epoch": 0.00105,
      "grad_norm": 7.0,
      "learning_rate": 6.299999999999999e-05,
      "loss": 7.9337,
      "step": 210
    },
    {
      "epoch": 0.0011,
      "grad_norm": 4.8125,
      "learning_rate": 6.599999999999999e-05,
      "loss": 7.705,
      "step": 220
    },
    {
      "epoch": 0.00115,
      "grad_norm": 6.5,
      "learning_rate": 6.9e-05,
      "loss": 7.4931,
      "step": 230
    },
    {
      "epoch": 0.0012,
      "grad_norm": 5.0,
      "learning_rate": 7.199999999999999e-05,
      "loss": 7.283,
      "step": 240
    },
    {
      "epoch": 0.00125,
      "grad_norm": 5.0625,
      "learning_rate": 7.5e-05,
      "loss": 7.2056,
      "step": 250
    },
    {
      "epoch": 0.0013,
      "grad_norm": 5.65625,
      "learning_rate": 7.8e-05,
      "loss": 7.1032,
      "step": 260
    },
    {
      "epoch": 0.00135,
      "grad_norm": 6.34375,
      "learning_rate": 8.1e-05,
      "loss": 7.0268,
      "step": 270
    },
    {
      "epoch": 0.0014,
      "grad_norm": 5.4375,
      "learning_rate": 8.4e-05,
      "loss": 6.9766,
      "step": 280
    },
    {
      "epoch": 0.00145,
      "grad_norm": 4.21875,
      "learning_rate": 8.699999999999999e-05,
      "loss": 6.8543,
      "step": 290
    },
    {
      "epoch": 0.0015,
      "grad_norm": 4.65625,
      "learning_rate": 8.999999999999999e-05,
      "loss": 6.8113,
      "step": 300
    },
    {
      "epoch": 0.00155,
      "grad_norm": 6.875,
      "learning_rate": 9.3e-05,
      "loss": 6.7767,
      "step": 310
    },
    {
      "epoch": 0.0016,
      "grad_norm": 4.0625,
      "learning_rate": 9.599999999999999e-05,
      "loss": 6.6819,
      "step": 320
    },
    {
      "epoch": 0.00165,
      "grad_norm": 3.625,
      "learning_rate": 9.9e-05,
      "loss": 6.6708,
      "step": 330
    },
    {
      "epoch": 0.0017,
      "grad_norm": 4.71875,
      "learning_rate": 0.000102,
      "loss": 6.538,
      "step": 340
    },
    {
      "epoch": 0.00175,
      "grad_norm": 3.265625,
      "learning_rate": 0.00010499999999999999,
      "loss": 6.5417,
      "step": 350
    },
    {
      "epoch": 0.0018,
      "grad_norm": 3.484375,
      "learning_rate": 0.00010799999999999998,
      "loss": 6.5083,
      "step": 360
    },
    {
      "epoch": 0.00185,
      "grad_norm": 3.59375,
      "learning_rate": 0.00011099999999999999,
      "loss": 6.4678,
      "step": 370
    },
    {
      "epoch": 0.0019,
      "grad_norm": 4.96875,
      "learning_rate": 0.00011399999999999999,
      "loss": 6.3572,
      "step": 380
    },
    {
      "epoch": 0.00195,
      "grad_norm": 45.25,
      "learning_rate": 0.000117,
      "loss": 6.4315,
      "step": 390
    },
    {
      "epoch": 0.002,
      "grad_norm": 3.984375,
      "learning_rate": 0.00011999999999999999,
      "loss": 6.3411,
      "step": 400
    },
    {
      "epoch": 0.00205,
      "grad_norm": 3.09375,
      "learning_rate": 0.00012299999999999998,
      "loss": 6.2742,
      "step": 410
    },
    {
      "epoch": 0.0021,
      "grad_norm": 3.609375,
      "learning_rate": 0.00012599999999999997,
      "loss": 6.2429,
      "step": 420
    },
    {
      "epoch": 0.00215,
      "grad_norm": 3.1875,
      "learning_rate": 0.000129,
      "loss": 6.2309,
      "step": 430
    },
    {
      "epoch": 0.0022,
      "grad_norm": 3.796875,
      "learning_rate": 0.00013199999999999998,
      "loss": 6.2,
      "step": 440
    },
    {
      "epoch": 0.00225,
      "grad_norm": 2.703125,
      "learning_rate": 0.000135,
      "loss": 6.1063,
      "step": 450
    },
    {
      "epoch": 0.0023,
      "grad_norm": 3.21875,
      "learning_rate": 0.000138,
      "loss": 6.0953,
      "step": 460
    },
    {
      "epoch": 0.00235,
      "grad_norm": 3.3125,
      "learning_rate": 0.00014099999999999998,
      "loss": 6.0881,
      "step": 470
    },
    {
      "epoch": 0.0024,
      "grad_norm": 3.171875,
      "learning_rate": 0.00014399999999999998,
      "loss": 6.0591,
      "step": 480
    },
    {
      "epoch": 0.00245,
      "grad_norm": 5.0,
      "learning_rate": 0.000147,
      "loss": 6.0975,
      "step": 490
    },
    {
      "epoch": 0.0025,
      "grad_norm": 3.96875,
      "learning_rate": 0.00015,
      "loss": 6.0361,
      "step": 500
    },
    {
      "epoch": 0.00255,
      "grad_norm": 2.921875,
      "learning_rate": 0.00015299999999999998,
      "loss": 5.9812,
      "step": 510
    },
    {
      "epoch": 0.0026,
      "grad_norm": 3.0,
      "learning_rate": 0.000156,
      "loss": 5.8939,
      "step": 520
    },
    {
      "epoch": 0.00265,
      "grad_norm": 3.203125,
      "learning_rate": 0.000159,
      "loss": 5.8825,
      "step": 530
    },
    {
      "epoch": 0.0027,
      "grad_norm": 3.046875,
      "learning_rate": 0.000162,
      "loss": 5.93,
      "step": 540
    },
    {
      "epoch": 0.00275,
      "grad_norm": 3.609375,
      "learning_rate": 0.000165,
      "loss": 5.8656,
      "step": 550
    },
    {
      "epoch": 0.0028,
      "grad_norm": 2.78125,
      "learning_rate": 0.000168,
      "loss": 5.7974,
      "step": 560
    },
    {
      "epoch": 0.00285,
      "grad_norm": 2.671875,
      "learning_rate": 0.00017099999999999998,
      "loss": 5.8254,
      "step": 570
    },
    {
      "epoch": 0.0029,
      "grad_norm": 2.8125,
      "learning_rate": 0.00017399999999999997,
      "loss": 5.806,
      "step": 580
    },
    {
      "epoch": 0.00295,
      "grad_norm": 2.53125,
      "learning_rate": 0.00017699999999999997,
      "loss": 5.7954,
      "step": 590
    },
    {
      "epoch": 0.003,
      "grad_norm": 2.921875,
      "learning_rate": 0.00017999999999999998,
      "loss": 5.7633,
      "step": 600
    },
    {
      "epoch": 0.00305,
      "grad_norm": 2.90625,
      "learning_rate": 0.00018299999999999998,
      "loss": 5.7422,
      "step": 610
    },
    {
      "epoch": 0.0031,
      "grad_norm": 3.078125,
      "learning_rate": 0.000186,
      "loss": 5.68,
      "step": 620
    },
    {
      "epoch": 0.00315,
      "grad_norm": 2.8125,
      "learning_rate": 0.00018899999999999999,
      "loss": 5.7523,
      "step": 630
    },
    {
      "epoch": 0.0032,
      "grad_norm": 3.0625,
      "learning_rate": 0.00019199999999999998,
      "loss": 5.6786,
      "step": 640
    },
    {
      "epoch": 0.00325,
      "grad_norm": 3.09375,
      "learning_rate": 0.000195,
      "loss": 5.6323,
      "step": 650
    },
    {
      "epoch": 0.0033,
      "grad_norm": 3.8125,
      "learning_rate": 0.000198,
      "loss": 5.546,
      "step": 660
    },
    {
      "epoch": 0.00335,
      "grad_norm": 2.734375,
      "learning_rate": 0.000201,
      "loss": 5.4928,
      "step": 670
    },
    {
      "epoch": 0.0034,
      "grad_norm": 2.90625,
      "learning_rate": 0.000204,
      "loss": 5.5396,
      "step": 680
    },
    {
      "epoch": 0.00345,
      "grad_norm": 3.046875,
      "learning_rate": 0.00020699999999999996,
      "loss": 5.5905,
      "step": 690
    },
    {
      "epoch": 0.0035,
      "grad_norm": 2.734375,
      "learning_rate": 0.00020999999999999998,
      "loss": 5.5229,
      "step": 700
    },
    {
      "epoch": 0.00355,
      "grad_norm": 2.796875,
      "learning_rate": 0.00021299999999999997,
      "loss": 5.6158,
      "step": 710
    },
    {
      "epoch": 0.0036,
      "grad_norm": 2.921875,
      "learning_rate": 0.00021599999999999996,
      "loss": 5.4273,
      "step": 720
    },
    {
      "epoch": 0.00365,
      "grad_norm": 3.09375,
      "learning_rate": 0.00021899999999999998,
      "loss": 5.4602,
      "step": 730
    },
    {
      "epoch": 0.0037,
      "grad_norm": 2.828125,
      "learning_rate": 0.00022199999999999998,
      "loss": 5.5274,
      "step": 740
    },
    {
      "epoch": 0.00375,
      "grad_norm": 3.09375,
      "learning_rate": 0.000225,
      "loss": 5.5062,
      "step": 750
    },
    {
      "epoch": 0.0038,
      "grad_norm": 2.765625,
      "learning_rate": 0.00022799999999999999,
      "loss": 5.5104,
      "step": 760
    },
    {
      "epoch": 0.00385,
      "grad_norm": 4.25,
      "learning_rate": 0.00023099999999999998,
      "loss": 5.4192,
      "step": 770
    },
    {
      "epoch": 0.0039,
      "grad_norm": 2.890625,
      "learning_rate": 0.000234,
      "loss": 5.4435,
      "step": 780
    },
    {
      "epoch": 0.00395,
      "grad_norm": 2.90625,
      "learning_rate": 0.000237,
      "loss": 5.423,
      "step": 790
    },
    {
      "epoch": 0.004,
      "grad_norm": 2.921875,
      "learning_rate": 0.00023999999999999998,
      "loss": 5.3931,
      "step": 800
    },
    {
      "epoch": 0.00405,
      "grad_norm": 2.9375,
      "learning_rate": 0.000243,
      "loss": 5.3512,
      "step": 810
    },
    {
      "epoch": 0.0041,
      "grad_norm": 3.0,
      "learning_rate": 0.00024599999999999996,
      "loss": 5.3458,
      "step": 820
    },
    {
      "epoch": 0.00415,
      "grad_norm": 2.8125,
      "learning_rate": 0.000249,
      "loss": 5.2697,
      "step": 830
    },
    {
      "epoch": 0.0042,
      "grad_norm": 2.359375,
      "learning_rate": 0.00025199999999999995,
      "loss": 5.4006,
      "step": 840
    },
    {
      "epoch": 0.00425,
      "grad_norm": 2.671875,
      "learning_rate": 0.00025499999999999996,
      "loss": 5.3557,
      "step": 850
    },
    {
      "epoch": 0.0043,
      "grad_norm": 2.796875,
      "learning_rate": 0.000258,
      "loss": 5.276,
      "step": 860
    },
    {
      "epoch": 0.00435,
      "grad_norm": 2.5,
      "learning_rate": 0.000261,
      "loss": 5.2465,
      "step": 870
    },
    {
      "epoch": 0.0044,
      "grad_norm": 2.734375,
      "learning_rate": 0.00026399999999999997,
      "loss": 5.2391,
      "step": 880
    },
    {
      "epoch": 0.00445,
      "grad_norm": 2.640625,
      "learning_rate": 0.000267,
      "loss": 5.2596,
      "step": 890
    },
    {
      "epoch": 0.0045,
      "grad_norm": 2.375,
      "learning_rate": 0.00027,
      "loss": 5.2174,
      "step": 900
    },
    {
      "epoch": 0.00455,
      "grad_norm": 2.5625,
      "learning_rate": 0.00027299999999999997,
      "loss": 5.166,
      "step": 910
    },
    {
      "epoch": 0.0046,
      "grad_norm": 3.203125,
      "learning_rate": 0.000276,
      "loss": 5.231,
      "step": 920
    },
    {
      "epoch": 0.00465,
      "grad_norm": 2.359375,
      "learning_rate": 0.000279,
      "loss": 5.2174,
      "step": 930
    },
    {
      "epoch": 0.0047,
      "grad_norm": 3.203125,
      "learning_rate": 0.00028199999999999997,
      "loss": 5.2476,
      "step": 940
    },
    {
      "epoch": 0.00475,
      "grad_norm": 2.890625,
      "learning_rate": 0.000285,
      "loss": 5.1601,
      "step": 950
    },
    {
      "epoch": 0.0048,
      "grad_norm": 3.234375,
      "learning_rate": 0.00028799999999999995,
      "loss": 5.1759,
      "step": 960
    },
    {
      "epoch": 0.00485,
      "grad_norm": 3.484375,
      "learning_rate": 0.00029099999999999997,
      "loss": 5.1854,
      "step": 970
    },
    {
      "epoch": 0.0049,
      "grad_norm": 2.34375,
      "learning_rate": 0.000294,
      "loss": 5.1449,
      "step": 980
    },
    {
      "epoch": 0.00495,
      "grad_norm": 2.234375,
      "learning_rate": 0.00029699999999999996,
      "loss": 5.0889,
      "step": 990
    },
    {
      "epoch": 0.005,
      "grad_norm": 2.28125,
      "learning_rate": 0.0003,
      "loss": 5.1592,
      "step": 1000
    },
    {
      "epoch": 0.00505,
      "grad_norm": 2.25,
      "learning_rate": 0.00029998492462311553,
      "loss": 5.0732,
      "step": 1010
    },
    {
      "epoch": 0.0051,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00029996984924623115,
      "loss": 5.0885,
      "step": 1020
    },
    {
      "epoch": 0.00515,
      "grad_norm": 2.171875,
      "learning_rate": 0.0002999547738693467,
      "loss": 5.0854,
      "step": 1030
    },
    {
      "epoch": 0.0052,
      "grad_norm": 2.75,
      "learning_rate": 0.00029993969849246226,
      "loss": 5.0394,
      "step": 1040
    },
    {
      "epoch": 0.00525,
      "grad_norm": 2.109375,
      "learning_rate": 0.0002999246231155779,
      "loss": 5.0484,
      "step": 1050
    },
    {
      "epoch": 0.0053,
      "grad_norm": 2.25,
      "learning_rate": 0.00029990954773869344,
      "loss": 5.064,
      "step": 1060
    },
    {
      "epoch": 0.00535,
      "grad_norm": 2.25,
      "learning_rate": 0.000299894472361809,
      "loss": 4.9752,
      "step": 1070
    },
    {
      "epoch": 0.0054,
      "grad_norm": 2.46875,
      "learning_rate": 0.00029987939698492455,
      "loss": 4.9936,
      "step": 1080
    },
    {
      "epoch": 0.00545,
      "grad_norm": 2.375,
      "learning_rate": 0.00029986432160804017,
      "loss": 4.9622,
      "step": 1090
    },
    {
      "epoch": 0.0055,
      "grad_norm": 2.1875,
      "learning_rate": 0.0002998492462311557,
      "loss": 4.9388,
      "step": 1100
    },
    {
      "epoch": 0.00555,
      "grad_norm": 2.109375,
      "learning_rate": 0.00029983417085427134,
      "loss": 4.9641,
      "step": 1110
    },
    {
      "epoch": 0.0056,
      "grad_norm": 2.203125,
      "learning_rate": 0.0002998190954773869,
      "loss": 4.8854,
      "step": 1120
    },
    {
      "epoch": 0.00565,
      "grad_norm": 2.09375,
      "learning_rate": 0.00029980402010050246,
      "loss": 4.9698,
      "step": 1130
    },
    {
      "epoch": 0.0057,
      "grad_norm": 2.125,
      "learning_rate": 0.00029978894472361807,
      "loss": 4.8832,
      "step": 1140
    },
    {
      "epoch": 0.00575,
      "grad_norm": 2.0,
      "learning_rate": 0.00029977386934673363,
      "loss": 4.9114,
      "step": 1150
    },
    {
      "epoch": 0.0058,
      "grad_norm": 2.109375,
      "learning_rate": 0.00029975879396984924,
      "loss": 4.9329,
      "step": 1160
    },
    {
      "epoch": 0.00585,
      "grad_norm": 2.046875,
      "learning_rate": 0.0002997437185929648,
      "loss": 4.905,
      "step": 1170
    },
    {
      "epoch": 0.0059,
      "grad_norm": 2.203125,
      "learning_rate": 0.0002997286432160804,
      "loss": 4.912,
      "step": 1180
    },
    {
      "epoch": 0.00595,
      "grad_norm": 3.0,
      "learning_rate": 0.000299713567839196,
      "loss": 4.8508,
      "step": 1190
    },
    {
      "epoch": 0.006,
      "grad_norm": 1.9375,
      "learning_rate": 0.00029969849246231153,
      "loss": 4.8485,
      "step": 1200
    },
    {
      "epoch": 0.00605,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00029968341708542715,
      "loss": 4.7887,
      "step": 1210
    },
    {
      "epoch": 0.0061,
      "grad_norm": 2.171875,
      "learning_rate": 0.0002996683417085427,
      "loss": 4.8261,
      "step": 1220
    },
    {
      "epoch": 0.00615,
      "grad_norm": 2.140625,
      "learning_rate": 0.00029965326633165826,
      "loss": 4.8051,
      "step": 1230
    },
    {
      "epoch": 0.0062,
      "grad_norm": 2.109375,
      "learning_rate": 0.0002996381909547738,
      "loss": 4.759,
      "step": 1240
    },
    {
      "epoch": 0.00625,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00029962311557788944,
      "loss": 4.7863,
      "step": 1250
    },
    {
      "epoch": 0.0063,
      "grad_norm": 1.859375,
      "learning_rate": 0.000299608040201005,
      "loss": 4.7918,
      "step": 1260
    },
    {
      "epoch": 0.00635,
      "grad_norm": 2.0625,
      "learning_rate": 0.00029959296482412055,
      "loss": 4.7065,
      "step": 1270
    },
    {
      "epoch": 0.0064,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00029957788944723617,
      "loss": 4.812,
      "step": 1280
    },
    {
      "epoch": 0.00645,
      "grad_norm": 1.9375,
      "learning_rate": 0.0002995628140703517,
      "loss": 4.6986,
      "step": 1290
    },
    {
      "epoch": 0.0065,
      "grad_norm": 2.09375,
      "learning_rate": 0.0002995477386934673,
      "loss": 4.717,
      "step": 1300
    },
    {
      "epoch": 0.00655,
      "grad_norm": 2.078125,
      "learning_rate": 0.0002995326633165829,
      "loss": 4.6674,
      "step": 1310
    },
    {
      "epoch": 0.0066,
      "grad_norm": 1.90625,
      "learning_rate": 0.00029951758793969846,
      "loss": 4.634,
      "step": 1320
    },
    {
      "epoch": 0.00665,
      "grad_norm": 2.234375,
      "learning_rate": 0.000299502512562814,
      "loss": 4.6693,
      "step": 1330
    },
    {
      "epoch": 0.0067,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00029948743718592963,
      "loss": 4.6326,
      "step": 1340
    },
    {
      "epoch": 0.00675,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002994723618090452,
      "loss": 4.7013,
      "step": 1350
    },
    {
      "epoch": 0.0068,
      "grad_norm": 1.984375,
      "learning_rate": 0.00029945728643216075,
      "loss": 4.6465,
      "step": 1360
    },
    {
      "epoch": 0.00685,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00029944221105527636,
      "loss": 4.6363,
      "step": 1370
    },
    {
      "epoch": 0.0069,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002994271356783919,
      "loss": 4.6464,
      "step": 1380
    },
    {
      "epoch": 0.00695,
      "grad_norm": 2.0625,
      "learning_rate": 0.0002994120603015075,
      "loss": 4.5983,
      "step": 1390
    },
    {
      "epoch": 0.007,
      "grad_norm": 2.234375,
      "learning_rate": 0.0002993969849246231,
      "loss": 4.5921,
      "step": 1400
    },
    {
      "epoch": 0.00705,
      "grad_norm": 1.734375,
      "learning_rate": 0.00029938190954773865,
      "loss": 4.644,
      "step": 1410
    },
    {
      "epoch": 0.0071,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00029936683417085426,
      "loss": 4.5796,
      "step": 1420
    },
    {
      "epoch": 0.00715,
      "grad_norm": 1.875,
      "learning_rate": 0.0002993517587939698,
      "loss": 4.5706,
      "step": 1430
    },
    {
      "epoch": 0.0072,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00029933668341708544,
      "loss": 4.5459,
      "step": 1440
    },
    {
      "epoch": 0.00725,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000299321608040201,
      "loss": 4.5879,
      "step": 1450
    },
    {
      "epoch": 0.0073,
      "grad_norm": 1.90625,
      "learning_rate": 0.00029930653266331656,
      "loss": 4.5062,
      "step": 1460
    },
    {
      "epoch": 0.00735,
      "grad_norm": 1.875,
      "learning_rate": 0.00029929145728643217,
      "loss": 4.5099,
      "step": 1470
    },
    {
      "epoch": 0.0074,
      "grad_norm": 1.796875,
      "learning_rate": 0.00029927638190954773,
      "loss": 4.4919,
      "step": 1480
    },
    {
      "epoch": 0.00745,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0002992613065326633,
      "loss": 4.5302,
      "step": 1490
    },
    {
      "epoch": 0.0075,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002992462311557789,
      "loss": 4.4378,
      "step": 1500
    },
    {
      "epoch": 0.00755,
      "grad_norm": 2.109375,
      "learning_rate": 0.00029923115577889446,
      "loss": 4.4942,
      "step": 1510
    },
    {
      "epoch": 0.0076,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00029921608040201,
      "loss": 4.513,
      "step": 1520
    },
    {
      "epoch": 0.00765,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00029920100502512563,
      "loss": 4.471,
      "step": 1530
    },
    {
      "epoch": 0.0077,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002991859296482412,
      "loss": 4.5137,
      "step": 1540
    },
    {
      "epoch": 0.00775,
      "grad_norm": 2.140625,
      "learning_rate": 0.00029917085427135675,
      "loss": 4.4719,
      "step": 1550
    },
    {
      "epoch": 0.0078,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002991557788944723,
      "loss": 4.4666,
      "step": 1560
    },
    {
      "epoch": 0.00785,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002991407035175879,
      "loss": 4.4654,
      "step": 1570
    },
    {
      "epoch": 0.0079,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002991256281407035,
      "loss": 4.4905,
      "step": 1580
    },
    {
      "epoch": 0.00795,
      "grad_norm": 1.796875,
      "learning_rate": 0.00029911055276381904,
      "loss": 4.4275,
      "step": 1590
    },
    {
      "epoch": 0.008,
      "grad_norm": 1.703125,
      "learning_rate": 0.00029909547738693465,
      "loss": 4.4139,
      "step": 1600
    },
    {
      "epoch": 0.00805,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002990804020100502,
      "loss": 4.4354,
      "step": 1610
    },
    {
      "epoch": 0.0081,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00029906532663316577,
      "loss": 4.3749,
      "step": 1620
    },
    {
      "epoch": 0.00815,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002990502512562814,
      "loss": 4.4251,
      "step": 1630
    },
    {
      "epoch": 0.0082,
      "grad_norm": 1.78125,
      "learning_rate": 0.00029903517587939694,
      "loss": 4.4522,
      "step": 1640
    },
    {
      "epoch": 0.00825,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002990201005025125,
      "loss": 4.2884,
      "step": 1650
    },
    {
      "epoch": 0.0083,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002990050251256281,
      "loss": 4.3721,
      "step": 1660
    },
    {
      "epoch": 0.00835,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002989899497487437,
      "loss": 4.3461,
      "step": 1670
    },
    {
      "epoch": 0.0084,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002989748743718593,
      "loss": 4.3348,
      "step": 1680
    },
    {
      "epoch": 0.00845,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00029895979899497485,
      "loss": 4.3306,
      "step": 1690
    },
    {
      "epoch": 0.0085,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002989447236180904,
      "loss": 4.3219,
      "step": 1700
    },
    {
      "epoch": 0.00855,
      "grad_norm": 1.6015625,
      "learning_rate": 0.000298929648241206,
      "loss": 4.3184,
      "step": 1710
    },
    {
      "epoch": 0.0086,
      "grad_norm": 2.109375,
      "learning_rate": 0.0002989145728643216,
      "loss": 4.2854,
      "step": 1720
    },
    {
      "epoch": 0.00865,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002988994974874372,
      "loss": 4.345,
      "step": 1730
    },
    {
      "epoch": 0.0087,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029888442211055275,
      "loss": 4.2817,
      "step": 1740
    },
    {
      "epoch": 0.00875,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002988693467336683,
      "loss": 4.2732,
      "step": 1750
    },
    {
      "epoch": 0.0088,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002988542713567839,
      "loss": 4.3266,
      "step": 1760
    },
    {
      "epoch": 0.00885,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002988391959798995,
      "loss": 4.2988,
      "step": 1770
    },
    {
      "epoch": 0.0089,
      "grad_norm": 1.625,
      "learning_rate": 0.00029882412060301504,
      "loss": 4.3046,
      "step": 1780
    },
    {
      "epoch": 0.00895,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00029880904522613065,
      "loss": 4.2413,
      "step": 1790
    },
    {
      "epoch": 0.009,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002987939698492462,
      "loss": 4.2882,
      "step": 1800
    },
    {
      "epoch": 0.00905,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00029877889447236177,
      "loss": 4.2952,
      "step": 1810
    },
    {
      "epoch": 0.0091,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002987638190954774,
      "loss": 4.2663,
      "step": 1820
    },
    {
      "epoch": 0.00915,
      "grad_norm": 1.8125,
      "learning_rate": 0.00029874874371859294,
      "loss": 4.2847,
      "step": 1830
    },
    {
      "epoch": 0.0092,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002987336683417085,
      "loss": 4.2191,
      "step": 1840
    },
    {
      "epoch": 0.00925,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002987185929648241,
      "loss": 4.2916,
      "step": 1850
    },
    {
      "epoch": 0.0093,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002987035175879397,
      "loss": 4.2093,
      "step": 1860
    },
    {
      "epoch": 0.00935,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029868844221105523,
      "loss": 4.1984,
      "step": 1870
    },
    {
      "epoch": 0.0094,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002986733668341708,
      "loss": 4.2529,
      "step": 1880
    },
    {
      "epoch": 0.00945,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002986582914572864,
      "loss": 4.1765,
      "step": 1890
    },
    {
      "epoch": 0.0095,
      "grad_norm": 1.9375,
      "learning_rate": 0.00029864321608040196,
      "loss": 4.24,
      "step": 1900
    },
    {
      "epoch": 0.00955,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002986281407035175,
      "loss": 4.2003,
      "step": 1910
    },
    {
      "epoch": 0.0096,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029861306532663314,
      "loss": 4.185,
      "step": 1920
    },
    {
      "epoch": 0.00965,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002985979899497487,
      "loss": 4.2677,
      "step": 1930
    },
    {
      "epoch": 0.0097,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002985829145728643,
      "loss": 4.161,
      "step": 1940
    },
    {
      "epoch": 0.00975,
      "grad_norm": 1.578125,
      "learning_rate": 0.00029856783919597987,
      "loss": 4.1646,
      "step": 1950
    },
    {
      "epoch": 0.0098,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002985527638190954,
      "loss": 4.1672,
      "step": 1960
    },
    {
      "epoch": 0.00985,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00029853768844221104,
      "loss": 4.0931,
      "step": 1970
    },
    {
      "epoch": 0.0099,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002985226130653266,
      "loss": 4.1553,
      "step": 1980
    },
    {
      "epoch": 0.00995,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002985075376884422,
      "loss": 4.1939,
      "step": 1990
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00029849246231155777,
      "loss": 4.1034,
      "step": 2000
    },
    {
      "epoch": 0.01,
      "eval_loss": 4.111012935638428,
      "eval_runtime": 93.087,
      "eval_samples_per_second": 26.857,
      "eval_steps_per_second": 0.43,
      "step": 2000
    },
    {
      "epoch": 0.01005,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002984773869346734,
      "loss": 4.149,
      "step": 2010
    },
    {
      "epoch": 0.0101,
      "grad_norm": 1.796875,
      "learning_rate": 0.00029846231155778894,
      "loss": 4.1588,
      "step": 2020
    },
    {
      "epoch": 0.01015,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002984472361809045,
      "loss": 4.152,
      "step": 2030
    },
    {
      "epoch": 0.0102,
      "grad_norm": 2.125,
      "learning_rate": 0.00029843216080402006,
      "loss": 4.2013,
      "step": 2040
    },
    {
      "epoch": 0.01025,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002984170854271357,
      "loss": 4.0507,
      "step": 2050
    },
    {
      "epoch": 0.0103,
      "grad_norm": 1.9375,
      "learning_rate": 0.00029840201005025123,
      "loss": 4.1329,
      "step": 2060
    },
    {
      "epoch": 0.01035,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002983869346733668,
      "loss": 4.0679,
      "step": 2070
    },
    {
      "epoch": 0.0104,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002983718592964824,
      "loss": 4.0824,
      "step": 2080
    },
    {
      "epoch": 0.01045,
      "grad_norm": 1.734375,
      "learning_rate": 0.00029835678391959796,
      "loss": 4.1205,
      "step": 2090
    },
    {
      "epoch": 0.0105,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002983417085427135,
      "loss": 4.0292,
      "step": 2100
    },
    {
      "epoch": 0.01055,
      "grad_norm": 1.984375,
      "learning_rate": 0.00029832663316582914,
      "loss": 4.1261,
      "step": 2110
    },
    {
      "epoch": 0.0106,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002983115577889447,
      "loss": 4.0563,
      "step": 2120
    },
    {
      "epoch": 0.01065,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00029829648241206025,
      "loss": 4.026,
      "step": 2130
    },
    {
      "epoch": 0.0107,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029828140703517587,
      "loss": 4.0122,
      "step": 2140
    },
    {
      "epoch": 0.01075,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002982663316582914,
      "loss": 4.0636,
      "step": 2150
    },
    {
      "epoch": 0.0108,
      "grad_norm": 1.78125,
      "learning_rate": 0.000298251256281407,
      "loss": 4.0785,
      "step": 2160
    },
    {
      "epoch": 0.01085,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029823618090452255,
      "loss": 4.0678,
      "step": 2170
    },
    {
      "epoch": 0.0109,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029822110552763816,
      "loss": 4.0734,
      "step": 2180
    },
    {
      "epoch": 0.01095,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002982060301507537,
      "loss": 4.0448,
      "step": 2190
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.796875,
      "learning_rate": 0.00029819095477386933,
      "loss": 4.0311,
      "step": 2200
    },
    {
      "epoch": 0.01105,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002981758793969849,
      "loss": 4.0788,
      "step": 2210
    },
    {
      "epoch": 0.0111,
      "grad_norm": 1.65625,
      "learning_rate": 0.00029816080402010045,
      "loss": 3.9991,
      "step": 2220
    },
    {
      "epoch": 0.01115,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00029814572864321606,
      "loss": 4.0744,
      "step": 2230
    },
    {
      "epoch": 0.0112,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002981306532663316,
      "loss": 3.9783,
      "step": 2240
    },
    {
      "epoch": 0.01125,
      "grad_norm": 1.578125,
      "learning_rate": 0.00029811557788944723,
      "loss": 4.0565,
      "step": 2250
    },
    {
      "epoch": 0.0113,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002981005025125628,
      "loss": 4.0087,
      "step": 2260
    },
    {
      "epoch": 0.01135,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00029808542713567835,
      "loss": 4.0023,
      "step": 2270
    },
    {
      "epoch": 0.0114,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029807035175879397,
      "loss": 4.0015,
      "step": 2280
    },
    {
      "epoch": 0.01145,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002980552763819095,
      "loss": 3.9919,
      "step": 2290
    },
    {
      "epoch": 0.0115,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00029804020100502514,
      "loss": 3.9801,
      "step": 2300
    },
    {
      "epoch": 0.01155,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002980251256281407,
      "loss": 3.9728,
      "step": 2310
    },
    {
      "epoch": 0.0116,
      "grad_norm": 1.625,
      "learning_rate": 0.00029801005025125626,
      "loss": 3.9916,
      "step": 2320
    },
    {
      "epoch": 0.01165,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002979949748743718,
      "loss": 3.9574,
      "step": 2330
    },
    {
      "epoch": 0.0117,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00029797989949748743,
      "loss": 3.9294,
      "step": 2340
    },
    {
      "epoch": 0.01175,
      "grad_norm": 1.3984375,
      "learning_rate": 0.000297964824120603,
      "loss": 3.9241,
      "step": 2350
    },
    {
      "epoch": 0.0118,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029794974874371855,
      "loss": 3.9823,
      "step": 2360
    },
    {
      "epoch": 0.01185,
      "grad_norm": 1.46875,
      "learning_rate": 0.00029793467336683416,
      "loss": 3.9321,
      "step": 2370
    },
    {
      "epoch": 0.0119,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002979195979899497,
      "loss": 3.9464,
      "step": 2380
    },
    {
      "epoch": 0.01195,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002979045226130653,
      "loss": 3.9514,
      "step": 2390
    },
    {
      "epoch": 0.012,
      "grad_norm": 1.625,
      "learning_rate": 0.0002978894472361809,
      "loss": 3.8821,
      "step": 2400
    },
    {
      "epoch": 0.01205,
      "grad_norm": 1.59375,
      "learning_rate": 0.00029787437185929645,
      "loss": 3.8689,
      "step": 2410
    },
    {
      "epoch": 0.0121,
      "grad_norm": 1.75,
      "learning_rate": 0.000297859296482412,
      "loss": 3.944,
      "step": 2420
    },
    {
      "epoch": 0.01215,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002978442211055276,
      "loss": 3.9547,
      "step": 2430
    },
    {
      "epoch": 0.0122,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002978291457286432,
      "loss": 3.9296,
      "step": 2440
    },
    {
      "epoch": 0.01225,
      "grad_norm": 1.765625,
      "learning_rate": 0.00029781407035175874,
      "loss": 3.9202,
      "step": 2450
    },
    {
      "epoch": 0.0123,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029779899497487435,
      "loss": 3.8374,
      "step": 2460
    },
    {
      "epoch": 0.01235,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002977839195979899,
      "loss": 3.9047,
      "step": 2470
    },
    {
      "epoch": 0.0124,
      "grad_norm": 1.59375,
      "learning_rate": 0.00029776884422110547,
      "loss": 3.8871,
      "step": 2480
    },
    {
      "epoch": 0.01245,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002977537688442211,
      "loss": 3.8817,
      "step": 2490
    },
    {
      "epoch": 0.0125,
      "grad_norm": 1.46875,
      "learning_rate": 0.00029773869346733664,
      "loss": 3.9303,
      "step": 2500
    },
    {
      "epoch": 0.01255,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00029772361809045226,
      "loss": 3.8543,
      "step": 2510
    },
    {
      "epoch": 0.0126,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002977085427135678,
      "loss": 3.8333,
      "step": 2520
    },
    {
      "epoch": 0.01265,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002976934673366834,
      "loss": 3.8772,
      "step": 2530
    },
    {
      "epoch": 0.0127,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000297678391959799,
      "loss": 3.904,
      "step": 2540
    },
    {
      "epoch": 0.01275,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029766331658291455,
      "loss": 3.8706,
      "step": 2550
    },
    {
      "epoch": 0.0128,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00029764824120603016,
      "loss": 3.8235,
      "step": 2560
    },
    {
      "epoch": 0.01285,
      "grad_norm": 1.625,
      "learning_rate": 0.0002976331658291457,
      "loss": 3.8499,
      "step": 2570
    },
    {
      "epoch": 0.0129,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002976180904522613,
      "loss": 3.8623,
      "step": 2580
    },
    {
      "epoch": 0.01295,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002976030150753769,
      "loss": 3.848,
      "step": 2590
    },
    {
      "epoch": 0.013,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00029758793969849245,
      "loss": 3.8847,
      "step": 2600
    },
    {
      "epoch": 0.01305,
      "grad_norm": 1.6796875,
      "learning_rate": 0.000297572864321608,
      "loss": 3.8216,
      "step": 2610
    },
    {
      "epoch": 0.0131,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002975577889447236,
      "loss": 3.8414,
      "step": 2620
    },
    {
      "epoch": 0.01315,
      "grad_norm": 2.015625,
      "learning_rate": 0.0002975427135678392,
      "loss": 3.8218,
      "step": 2630
    },
    {
      "epoch": 0.0132,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00029752763819095474,
      "loss": 3.8406,
      "step": 2640
    },
    {
      "epoch": 0.01325,
      "grad_norm": 1.625,
      "learning_rate": 0.0002975125628140703,
      "loss": 3.7773,
      "step": 2650
    },
    {
      "epoch": 0.0133,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002974974874371859,
      "loss": 3.8075,
      "step": 2660
    },
    {
      "epoch": 0.01335,
      "grad_norm": 1.65625,
      "learning_rate": 0.00029748241206030147,
      "loss": 3.8344,
      "step": 2670
    },
    {
      "epoch": 0.0134,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00029746733668341703,
      "loss": 3.8297,
      "step": 2680
    },
    {
      "epoch": 0.01345,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029745226130653264,
      "loss": 3.8226,
      "step": 2690
    },
    {
      "epoch": 0.0135,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002974371859296482,
      "loss": 3.8119,
      "step": 2700
    },
    {
      "epoch": 0.01355,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029742211055276376,
      "loss": 3.8043,
      "step": 2710
    },
    {
      "epoch": 0.0136,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002974070351758794,
      "loss": 3.7932,
      "step": 2720
    },
    {
      "epoch": 0.01365,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00029739195979899493,
      "loss": 3.8229,
      "step": 2730
    },
    {
      "epoch": 0.0137,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002973768844221105,
      "loss": 3.8745,
      "step": 2740
    },
    {
      "epoch": 0.01375,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002973618090452261,
      "loss": 3.7637,
      "step": 2750
    },
    {
      "epoch": 0.0138,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00029734673366834166,
      "loss": 3.7526,
      "step": 2760
    },
    {
      "epoch": 0.01385,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002973316582914573,
      "loss": 3.7508,
      "step": 2770
    },
    {
      "epoch": 0.0139,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00029731658291457284,
      "loss": 3.7267,
      "step": 2780
    },
    {
      "epoch": 0.01395,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002973015075376884,
      "loss": 3.7433,
      "step": 2790
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.6484375,
      "learning_rate": 0.000297286432160804,
      "loss": 3.8436,
      "step": 2800
    },
    {
      "epoch": 0.01405,
      "grad_norm": 1.671875,
      "learning_rate": 0.00029727135678391957,
      "loss": 3.8202,
      "step": 2810
    },
    {
      "epoch": 0.0141,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002972562814070352,
      "loss": 3.7523,
      "step": 2820
    },
    {
      "epoch": 0.01415,
      "grad_norm": 1.71875,
      "learning_rate": 0.00029724120603015074,
      "loss": 3.7119,
      "step": 2830
    },
    {
      "epoch": 0.0142,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002972261306532663,
      "loss": 3.7595,
      "step": 2840
    },
    {
      "epoch": 0.01425,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002972110552763819,
      "loss": 3.8151,
      "step": 2850
    },
    {
      "epoch": 0.0143,
      "grad_norm": 1.5,
      "learning_rate": 0.00029719597989949747,
      "loss": 3.7332,
      "step": 2860
    },
    {
      "epoch": 0.01435,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00029718090452261303,
      "loss": 3.7787,
      "step": 2870
    },
    {
      "epoch": 0.0144,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029716582914572864,
      "loss": 3.7709,
      "step": 2880
    },
    {
      "epoch": 0.01445,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002971507537688442,
      "loss": 3.7591,
      "step": 2890
    },
    {
      "epoch": 0.0145,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00029713567839195976,
      "loss": 3.7934,
      "step": 2900
    },
    {
      "epoch": 0.01455,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002971206030150754,
      "loss": 3.6782,
      "step": 2910
    },
    {
      "epoch": 0.0146,
      "grad_norm": 1.703125,
      "learning_rate": 0.00029710552763819093,
      "loss": 3.7282,
      "step": 2920
    },
    {
      "epoch": 0.01465,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002970904522613065,
      "loss": 3.7062,
      "step": 2930
    },
    {
      "epoch": 0.0147,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002970753768844221,
      "loss": 3.7207,
      "step": 2940
    },
    {
      "epoch": 0.01475,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029706030150753766,
      "loss": 3.6894,
      "step": 2950
    },
    {
      "epoch": 0.0148,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002970452261306532,
      "loss": 3.7809,
      "step": 2960
    },
    {
      "epoch": 0.01485,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002970301507537688,
      "loss": 3.7362,
      "step": 2970
    },
    {
      "epoch": 0.0149,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002970150753768844,
      "loss": 3.7591,
      "step": 2980
    },
    {
      "epoch": 0.01495,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029699999999999996,
      "loss": 3.7275,
      "step": 2990
    },
    {
      "epoch": 0.015,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002969849246231155,
      "loss": 3.7387,
      "step": 3000
    },
    {
      "epoch": 0.01505,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00029696984924623113,
      "loss": 3.752,
      "step": 3010
    },
    {
      "epoch": 0.0151,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002969547738693467,
      "loss": 3.688,
      "step": 3020
    },
    {
      "epoch": 0.01515,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002969396984924623,
      "loss": 3.6797,
      "step": 3030
    },
    {
      "epoch": 0.0152,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00029692462311557786,
      "loss": 3.7151,
      "step": 3040
    },
    {
      "epoch": 0.01525,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002969095477386934,
      "loss": 3.696,
      "step": 3050
    },
    {
      "epoch": 0.0153,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00029689447236180903,
      "loss": 3.7014,
      "step": 3060
    },
    {
      "epoch": 0.01535,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002968793969849246,
      "loss": 3.7078,
      "step": 3070
    },
    {
      "epoch": 0.0154,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002968643216080402,
      "loss": 3.6871,
      "step": 3080
    },
    {
      "epoch": 0.01545,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00029684924623115576,
      "loss": 3.6652,
      "step": 3090
    },
    {
      "epoch": 0.0155,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002968341708542713,
      "loss": 3.702,
      "step": 3100
    },
    {
      "epoch": 0.01555,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029681909547738693,
      "loss": 3.6641,
      "step": 3110
    },
    {
      "epoch": 0.0156,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002968040201005025,
      "loss": 3.7242,
      "step": 3120
    },
    {
      "epoch": 0.01565,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00029678894472361805,
      "loss": 3.6587,
      "step": 3130
    },
    {
      "epoch": 0.0157,
      "grad_norm": 1.5,
      "learning_rate": 0.00029677386934673367,
      "loss": 3.6473,
      "step": 3140
    },
    {
      "epoch": 0.01575,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002967587939698492,
      "loss": 3.6591,
      "step": 3150
    },
    {
      "epoch": 0.0158,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002967437185929648,
      "loss": 3.682,
      "step": 3160
    },
    {
      "epoch": 0.01585,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002967286432160804,
      "loss": 3.6945,
      "step": 3170
    },
    {
      "epoch": 0.0159,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00029671356783919596,
      "loss": 3.6246,
      "step": 3180
    },
    {
      "epoch": 0.01595,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002966984924623115,
      "loss": 3.7063,
      "step": 3190
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.765625,
      "learning_rate": 0.00029668341708542713,
      "loss": 3.6436,
      "step": 3200
    },
    {
      "epoch": 0.01605,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002966683417085427,
      "loss": 3.6581,
      "step": 3210
    },
    {
      "epoch": 0.0161,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029665326633165825,
      "loss": 3.6954,
      "step": 3220
    },
    {
      "epoch": 0.01615,
      "grad_norm": 1.671875,
      "learning_rate": 0.00029663819095477386,
      "loss": 3.7137,
      "step": 3230
    },
    {
      "epoch": 0.0162,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002966231155778894,
      "loss": 3.6915,
      "step": 3240
    },
    {
      "epoch": 0.01625,
      "grad_norm": 1.578125,
      "learning_rate": 0.000296608040201005,
      "loss": 3.6291,
      "step": 3250
    },
    {
      "epoch": 0.0163,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002965929648241206,
      "loss": 3.6508,
      "step": 3260
    },
    {
      "epoch": 0.01635,
      "grad_norm": 1.890625,
      "learning_rate": 0.00029657788944723615,
      "loss": 3.6633,
      "step": 3270
    },
    {
      "epoch": 0.0164,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002965628140703517,
      "loss": 3.6366,
      "step": 3280
    },
    {
      "epoch": 0.01645,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002965477386934673,
      "loss": 3.6697,
      "step": 3290
    },
    {
      "epoch": 0.0165,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002965326633165829,
      "loss": 3.6682,
      "step": 3300
    },
    {
      "epoch": 0.01655,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00029651758793969844,
      "loss": 3.6067,
      "step": 3310
    },
    {
      "epoch": 0.0166,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00029650251256281405,
      "loss": 3.6796,
      "step": 3320
    },
    {
      "epoch": 0.01665,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002964874371859296,
      "loss": 3.6546,
      "step": 3330
    },
    {
      "epoch": 0.0167,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002964723618090452,
      "loss": 3.6382,
      "step": 3340
    },
    {
      "epoch": 0.01675,
      "grad_norm": 1.359375,
      "learning_rate": 0.0002964572864321608,
      "loss": 3.5581,
      "step": 3350
    },
    {
      "epoch": 0.0168,
      "grad_norm": 1.4375,
      "learning_rate": 0.00029644221105527634,
      "loss": 3.5641,
      "step": 3360
    },
    {
      "epoch": 0.01685,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029642713567839196,
      "loss": 3.6558,
      "step": 3370
    },
    {
      "epoch": 0.0169,
      "grad_norm": 2.046875,
      "learning_rate": 0.0002964120603015075,
      "loss": 3.6192,
      "step": 3380
    },
    {
      "epoch": 0.01695,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029639698492462313,
      "loss": 3.6388,
      "step": 3390
    },
    {
      "epoch": 0.017,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002963819095477387,
      "loss": 3.6231,
      "step": 3400
    },
    {
      "epoch": 0.01705,
      "grad_norm": 1.515625,
      "learning_rate": 0.00029636683417085425,
      "loss": 3.5767,
      "step": 3410
    },
    {
      "epoch": 0.0171,
      "grad_norm": 2.015625,
      "learning_rate": 0.0002963517587939698,
      "loss": 3.6042,
      "step": 3420
    },
    {
      "epoch": 0.01715,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002963366834170854,
      "loss": 3.5877,
      "step": 3430
    },
    {
      "epoch": 0.0172,
      "grad_norm": 1.484375,
      "learning_rate": 0.000296321608040201,
      "loss": 3.6511,
      "step": 3440
    },
    {
      "epoch": 0.01725,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00029630653266331654,
      "loss": 3.6344,
      "step": 3450
    },
    {
      "epoch": 0.0173,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00029629145728643215,
      "loss": 3.6323,
      "step": 3460
    },
    {
      "epoch": 0.01735,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002962763819095477,
      "loss": 3.5619,
      "step": 3470
    },
    {
      "epoch": 0.0174,
      "grad_norm": 1.453125,
      "learning_rate": 0.00029626130653266327,
      "loss": 3.6129,
      "step": 3480
    },
    {
      "epoch": 0.01745,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002962462311557789,
      "loss": 3.5561,
      "step": 3490
    },
    {
      "epoch": 0.0175,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029623115577889444,
      "loss": 3.6106,
      "step": 3500
    },
    {
      "epoch": 0.01755,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029621608040201,
      "loss": 3.5436,
      "step": 3510
    },
    {
      "epoch": 0.0176,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002962010050251256,
      "loss": 3.5501,
      "step": 3520
    },
    {
      "epoch": 0.01765,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00029618592964824117,
      "loss": 3.5463,
      "step": 3530
    },
    {
      "epoch": 0.0177,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00029617085427135673,
      "loss": 3.6226,
      "step": 3540
    },
    {
      "epoch": 0.01775,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00029615577889447234,
      "loss": 3.5538,
      "step": 3550
    },
    {
      "epoch": 0.0178,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002961407035175879,
      "loss": 3.5502,
      "step": 3560
    },
    {
      "epoch": 0.01785,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029612562814070346,
      "loss": 3.5646,
      "step": 3570
    },
    {
      "epoch": 0.0179,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002961105527638191,
      "loss": 3.6138,
      "step": 3580
    },
    {
      "epoch": 0.01795,
      "grad_norm": 1.453125,
      "learning_rate": 0.00029609547738693463,
      "loss": 3.624,
      "step": 3590
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.484375,
      "learning_rate": 0.00029608040201005025,
      "loss": 3.5678,
      "step": 3600
    },
    {
      "epoch": 0.01805,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002960653266331658,
      "loss": 3.6133,
      "step": 3610
    },
    {
      "epoch": 0.0181,
      "grad_norm": 1.59375,
      "learning_rate": 0.00029605025125628136,
      "loss": 3.538,
      "step": 3620
    },
    {
      "epoch": 0.01815,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000296035175879397,
      "loss": 3.5703,
      "step": 3630
    },
    {
      "epoch": 0.0182,
      "grad_norm": 1.421875,
      "learning_rate": 0.00029602010050251254,
      "loss": 3.535,
      "step": 3640
    },
    {
      "epoch": 0.01825,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029600502512562815,
      "loss": 3.5463,
      "step": 3650
    },
    {
      "epoch": 0.0183,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002959899497487437,
      "loss": 3.5577,
      "step": 3660
    },
    {
      "epoch": 0.01835,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00029597487437185927,
      "loss": 3.5346,
      "step": 3670
    },
    {
      "epoch": 0.0184,
      "grad_norm": 1.625,
      "learning_rate": 0.0002959597989949749,
      "loss": 3.5878,
      "step": 3680
    },
    {
      "epoch": 0.01845,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00029594472361809044,
      "loss": 3.5277,
      "step": 3690
    },
    {
      "epoch": 0.0185,
      "grad_norm": 1.453125,
      "learning_rate": 0.000295929648241206,
      "loss": 3.5759,
      "step": 3700
    },
    {
      "epoch": 0.01855,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002959145728643216,
      "loss": 3.5004,
      "step": 3710
    },
    {
      "epoch": 0.0186,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00029589949748743717,
      "loss": 3.5324,
      "step": 3720
    },
    {
      "epoch": 0.01865,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00029588442211055273,
      "loss": 3.4983,
      "step": 3730
    },
    {
      "epoch": 0.0187,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002958693467336683,
      "loss": 3.5725,
      "step": 3740
    },
    {
      "epoch": 0.01875,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002958542713567839,
      "loss": 3.5315,
      "step": 3750
    },
    {
      "epoch": 0.0188,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00029583919597989946,
      "loss": 3.5402,
      "step": 3760
    },
    {
      "epoch": 0.01885,
      "grad_norm": 1.4921875,
      "learning_rate": 0.000295824120603015,
      "loss": 3.5756,
      "step": 3770
    },
    {
      "epoch": 0.0189,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00029580904522613063,
      "loss": 3.5706,
      "step": 3780
    },
    {
      "epoch": 0.01895,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002957939698492462,
      "loss": 3.4834,
      "step": 3790
    },
    {
      "epoch": 0.019,
      "grad_norm": 1.5,
      "learning_rate": 0.00029577889447236175,
      "loss": 3.4813,
      "step": 3800
    },
    {
      "epoch": 0.01905,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029576381909547737,
      "loss": 3.5206,
      "step": 3810
    },
    {
      "epoch": 0.0191,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002957487437185929,
      "loss": 3.4699,
      "step": 3820
    },
    {
      "epoch": 0.01915,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002957336683417085,
      "loss": 3.5472,
      "step": 3830
    },
    {
      "epoch": 0.0192,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002957185929648241,
      "loss": 3.5058,
      "step": 3840
    },
    {
      "epoch": 0.01925,
      "grad_norm": 1.765625,
      "learning_rate": 0.00029570351758793966,
      "loss": 3.522,
      "step": 3850
    },
    {
      "epoch": 0.0193,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00029568844221105527,
      "loss": 3.5009,
      "step": 3860
    },
    {
      "epoch": 0.01935,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029567336683417083,
      "loss": 3.5004,
      "step": 3870
    },
    {
      "epoch": 0.0194,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002956582914572864,
      "loss": 3.4755,
      "step": 3880
    },
    {
      "epoch": 0.01945,
      "grad_norm": 1.5625,
      "learning_rate": 0.000295643216080402,
      "loss": 3.5118,
      "step": 3890
    },
    {
      "epoch": 0.0195,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029562814070351756,
      "loss": 3.531,
      "step": 3900
    },
    {
      "epoch": 0.01955,
      "grad_norm": 1.390625,
      "learning_rate": 0.00029561306532663317,
      "loss": 3.4793,
      "step": 3910
    },
    {
      "epoch": 0.0196,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029559798994974873,
      "loss": 3.5237,
      "step": 3920
    },
    {
      "epoch": 0.01965,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002955829145728643,
      "loss": 3.4633,
      "step": 3930
    },
    {
      "epoch": 0.0197,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002955678391959799,
      "loss": 3.5106,
      "step": 3940
    },
    {
      "epoch": 0.01975,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00029555276381909546,
      "loss": 3.5133,
      "step": 3950
    },
    {
      "epoch": 0.0198,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000295537688442211,
      "loss": 3.5133,
      "step": 3960
    },
    {
      "epoch": 0.01985,
      "grad_norm": 1.671875,
      "learning_rate": 0.00029552261306532663,
      "loss": 3.51,
      "step": 3970
    },
    {
      "epoch": 0.0199,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002955075376884422,
      "loss": 3.4544,
      "step": 3980
    },
    {
      "epoch": 0.01995,
      "grad_norm": 1.75,
      "learning_rate": 0.00029549246231155775,
      "loss": 3.4939,
      "step": 3990
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00029547738693467337,
      "loss": 3.4371,
      "step": 4000
    },
    {
      "epoch": 0.02,
      "eval_loss": 3.4748637676239014,
      "eval_runtime": 90.0561,
      "eval_samples_per_second": 27.76,
      "eval_steps_per_second": 0.444,
      "step": 4000
    },
    {
      "epoch": 0.02005,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002954623115577889,
      "loss": 3.4362,
      "step": 4010
    },
    {
      "epoch": 0.0201,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002954472361809045,
      "loss": 3.4948,
      "step": 4020
    },
    {
      "epoch": 0.02015,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002954321608040201,
      "loss": 3.4724,
      "step": 4030
    },
    {
      "epoch": 0.0202,
      "grad_norm": 1.5,
      "learning_rate": 0.00029541708542713566,
      "loss": 3.515,
      "step": 4040
    },
    {
      "epoch": 0.02025,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002954020100502512,
      "loss": 3.4934,
      "step": 4050
    },
    {
      "epoch": 0.0203,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002953869346733668,
      "loss": 3.4407,
      "step": 4060
    },
    {
      "epoch": 0.02035,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002953718592964824,
      "loss": 3.4292,
      "step": 4070
    },
    {
      "epoch": 0.0204,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00029535678391959795,
      "loss": 3.4643,
      "step": 4080
    },
    {
      "epoch": 0.02045,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002953417085427135,
      "loss": 3.4421,
      "step": 4090
    },
    {
      "epoch": 0.0205,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002953266331658291,
      "loss": 3.4476,
      "step": 4100
    },
    {
      "epoch": 0.02055,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002953115577889447,
      "loss": 3.4365,
      "step": 4110
    },
    {
      "epoch": 0.0206,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002952964824120603,
      "loss": 3.4331,
      "step": 4120
    },
    {
      "epoch": 0.02065,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00029528140703517585,
      "loss": 3.4655,
      "step": 4130
    },
    {
      "epoch": 0.0207,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002952663316582914,
      "loss": 3.4287,
      "step": 4140
    },
    {
      "epoch": 0.02075,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000295251256281407,
      "loss": 3.4714,
      "step": 4150
    },
    {
      "epoch": 0.0208,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002952361809045226,
      "loss": 3.4099,
      "step": 4160
    },
    {
      "epoch": 0.02085,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002952211055276382,
      "loss": 3.4567,
      "step": 4170
    },
    {
      "epoch": 0.0209,
      "grad_norm": 1.515625,
      "learning_rate": 0.00029520603015075375,
      "loss": 3.4231,
      "step": 4180
    },
    {
      "epoch": 0.02095,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002951909547738693,
      "loss": 3.4395,
      "step": 4190
    },
    {
      "epoch": 0.021,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002951758793969849,
      "loss": 3.3848,
      "step": 4200
    },
    {
      "epoch": 0.02105,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002951608040201005,
      "loss": 3.4254,
      "step": 4210
    },
    {
      "epoch": 0.0211,
      "grad_norm": 1.59375,
      "learning_rate": 0.00029514572864321604,
      "loss": 3.5258,
      "step": 4220
    },
    {
      "epoch": 0.02115,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00029513065326633166,
      "loss": 3.4394,
      "step": 4230
    },
    {
      "epoch": 0.0212,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002951155778894472,
      "loss": 3.4317,
      "step": 4240
    },
    {
      "epoch": 0.02125,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002951005025125628,
      "loss": 3.3724,
      "step": 4250
    },
    {
      "epoch": 0.0213,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002950854271356784,
      "loss": 3.4603,
      "step": 4260
    },
    {
      "epoch": 0.02135,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00029507035175879395,
      "loss": 3.3876,
      "step": 4270
    },
    {
      "epoch": 0.0214,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002950552763819095,
      "loss": 3.4072,
      "step": 4280
    },
    {
      "epoch": 0.02145,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002950402010050251,
      "loss": 3.416,
      "step": 4290
    },
    {
      "epoch": 0.0215,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002950251256281407,
      "loss": 3.4472,
      "step": 4300
    },
    {
      "epoch": 0.02155,
      "grad_norm": 1.59375,
      "learning_rate": 0.00029501005025125624,
      "loss": 3.4316,
      "step": 4310
    },
    {
      "epoch": 0.0216,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00029499497487437185,
      "loss": 3.4328,
      "step": 4320
    },
    {
      "epoch": 0.02165,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002949798994974874,
      "loss": 3.4364,
      "step": 4330
    },
    {
      "epoch": 0.0217,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029496482412060297,
      "loss": 3.4484,
      "step": 4340
    },
    {
      "epoch": 0.02175,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002949497487437186,
      "loss": 3.416,
      "step": 4350
    },
    {
      "epoch": 0.0218,
      "grad_norm": 1.578125,
      "learning_rate": 0.00029493467336683414,
      "loss": 3.4291,
      "step": 4360
    },
    {
      "epoch": 0.02185,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002949195979899497,
      "loss": 3.4085,
      "step": 4370
    },
    {
      "epoch": 0.0219,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002949045226130653,
      "loss": 3.3774,
      "step": 4380
    },
    {
      "epoch": 0.02195,
      "grad_norm": 1.515625,
      "learning_rate": 0.00029488944723618087,
      "loss": 3.3779,
      "step": 4390
    },
    {
      "epoch": 0.022,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029487437185929643,
      "loss": 3.4333,
      "step": 4400
    },
    {
      "epoch": 0.02205,
      "grad_norm": 1.5,
      "learning_rate": 0.00029485929648241204,
      "loss": 3.4666,
      "step": 4410
    },
    {
      "epoch": 0.0221,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002948442211055276,
      "loss": 3.3647,
      "step": 4420
    },
    {
      "epoch": 0.02215,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002948291457286432,
      "loss": 3.4077,
      "step": 4430
    },
    {
      "epoch": 0.0222,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002948140703517588,
      "loss": 3.4197,
      "step": 4440
    },
    {
      "epoch": 0.02225,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00029479899497487433,
      "loss": 3.3417,
      "step": 4450
    },
    {
      "epoch": 0.0223,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029478391959798995,
      "loss": 3.3511,
      "step": 4460
    },
    {
      "epoch": 0.02235,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002947688442211055,
      "loss": 3.3947,
      "step": 4470
    },
    {
      "epoch": 0.0224,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002947537688442211,
      "loss": 3.3577,
      "step": 4480
    },
    {
      "epoch": 0.02245,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002947386934673367,
      "loss": 3.3852,
      "step": 4490
    },
    {
      "epoch": 0.0225,
      "grad_norm": 1.515625,
      "learning_rate": 0.00029472361809045224,
      "loss": 3.3549,
      "step": 4500
    },
    {
      "epoch": 0.02255,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002947085427135678,
      "loss": 3.3949,
      "step": 4510
    },
    {
      "epoch": 0.0226,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002946934673366834,
      "loss": 3.3767,
      "step": 4520
    },
    {
      "epoch": 0.02265,
      "grad_norm": 1.515625,
      "learning_rate": 0.00029467839195979897,
      "loss": 3.3609,
      "step": 4530
    },
    {
      "epoch": 0.0227,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029466331658291453,
      "loss": 3.4045,
      "step": 4540
    },
    {
      "epoch": 0.02275,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00029464824120603014,
      "loss": 3.3441,
      "step": 4550
    },
    {
      "epoch": 0.0228,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002946331658291457,
      "loss": 3.4131,
      "step": 4560
    },
    {
      "epoch": 0.02285,
      "grad_norm": 1.5,
      "learning_rate": 0.00029461809045226126,
      "loss": 3.3776,
      "step": 4570
    },
    {
      "epoch": 0.0229,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00029460301507537687,
      "loss": 3.4081,
      "step": 4580
    },
    {
      "epoch": 0.02295,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00029458793969849243,
      "loss": 3.396,
      "step": 4590
    },
    {
      "epoch": 0.023,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000294572864321608,
      "loss": 3.433,
      "step": 4600
    },
    {
      "epoch": 0.02305,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002945577889447236,
      "loss": 3.315,
      "step": 4610
    },
    {
      "epoch": 0.0231,
      "grad_norm": 1.65625,
      "learning_rate": 0.00029454271356783916,
      "loss": 3.337,
      "step": 4620
    },
    {
      "epoch": 0.02315,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002945276381909547,
      "loss": 3.3633,
      "step": 4630
    },
    {
      "epoch": 0.0232,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00029451256281407033,
      "loss": 3.3961,
      "step": 4640
    },
    {
      "epoch": 0.02325,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002944974874371859,
      "loss": 3.3493,
      "step": 4650
    },
    {
      "epoch": 0.0233,
      "grad_norm": 1.5,
      "learning_rate": 0.00029448241206030145,
      "loss": 3.3706,
      "step": 4660
    },
    {
      "epoch": 0.02335,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029446733668341707,
      "loss": 3.3642,
      "step": 4670
    },
    {
      "epoch": 0.0234,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002944522613065326,
      "loss": 3.284,
      "step": 4680
    },
    {
      "epoch": 0.02345,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00029443718592964824,
      "loss": 3.3826,
      "step": 4690
    },
    {
      "epoch": 0.0235,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002944221105527638,
      "loss": 3.3188,
      "step": 4700
    },
    {
      "epoch": 0.02355,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029440703517587936,
      "loss": 3.4065,
      "step": 4710
    },
    {
      "epoch": 0.0236,
      "grad_norm": 2.265625,
      "learning_rate": 0.00029439195979899497,
      "loss": 3.361,
      "step": 4720
    },
    {
      "epoch": 0.02365,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029437688442211053,
      "loss": 3.4203,
      "step": 4730
    },
    {
      "epoch": 0.0237,
      "grad_norm": 1.703125,
      "learning_rate": 0.00029436180904522614,
      "loss": 3.3595,
      "step": 4740
    },
    {
      "epoch": 0.02375,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002943467336683417,
      "loss": 3.357,
      "step": 4750
    },
    {
      "epoch": 0.0238,
      "grad_norm": 1.578125,
      "learning_rate": 0.00029433165829145726,
      "loss": 3.3434,
      "step": 4760
    },
    {
      "epoch": 0.02385,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00029431658291457287,
      "loss": 3.3692,
      "step": 4770
    },
    {
      "epoch": 0.0239,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00029430150753768843,
      "loss": 3.306,
      "step": 4780
    },
    {
      "epoch": 0.02395,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000294286432160804,
      "loss": 3.3707,
      "step": 4790
    },
    {
      "epoch": 0.024,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002942713567839196,
      "loss": 3.3099,
      "step": 4800
    },
    {
      "epoch": 0.02405,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029425628140703516,
      "loss": 3.368,
      "step": 4810
    },
    {
      "epoch": 0.0241,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002942412060301507,
      "loss": 3.3572,
      "step": 4820
    },
    {
      "epoch": 0.02415,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002942261306532663,
      "loss": 3.3273,
      "step": 4830
    },
    {
      "epoch": 0.0242,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002942110552763819,
      "loss": 3.369,
      "step": 4840
    },
    {
      "epoch": 0.02425,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029419597989949745,
      "loss": 3.3213,
      "step": 4850
    },
    {
      "epoch": 0.0243,
      "grad_norm": 1.578125,
      "learning_rate": 0.000294180904522613,
      "loss": 3.3913,
      "step": 4860
    },
    {
      "epoch": 0.02435,
      "grad_norm": 1.75,
      "learning_rate": 0.0002941658291457286,
      "loss": 3.2871,
      "step": 4870
    },
    {
      "epoch": 0.0244,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0002941507537688442,
      "loss": 3.3259,
      "step": 4880
    },
    {
      "epoch": 0.02445,
      "grad_norm": 1.671875,
      "learning_rate": 0.00029413567839195974,
      "loss": 3.3405,
      "step": 4890
    },
    {
      "epoch": 0.0245,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029412060301507536,
      "loss": 3.3788,
      "step": 4900
    },
    {
      "epoch": 0.02455,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002941055276381909,
      "loss": 3.29,
      "step": 4910
    },
    {
      "epoch": 0.0246,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002940904522613065,
      "loss": 3.3435,
      "step": 4920
    },
    {
      "epoch": 0.02465,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002940753768844221,
      "loss": 3.3371,
      "step": 4930
    },
    {
      "epoch": 0.0247,
      "grad_norm": 1.4375,
      "learning_rate": 0.00029406030150753765,
      "loss": 3.3183,
      "step": 4940
    },
    {
      "epoch": 0.02475,
      "grad_norm": 1.6875,
      "learning_rate": 0.00029404522613065326,
      "loss": 3.3212,
      "step": 4950
    },
    {
      "epoch": 0.0248,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002940301507537688,
      "loss": 3.3989,
      "step": 4960
    },
    {
      "epoch": 0.02485,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002940150753768844,
      "loss": 3.2891,
      "step": 4970
    },
    {
      "epoch": 0.0249,
      "grad_norm": 1.5625,
      "learning_rate": 0.000294,
      "loss": 3.2643,
      "step": 4980
    },
    {
      "epoch": 0.02495,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00029398492462311555,
      "loss": 3.291,
      "step": 4990
    },
    {
      "epoch": 0.025,
      "grad_norm": 1.4375,
      "learning_rate": 0.00029396984924623116,
      "loss": 3.3566,
      "step": 5000
    },
    {
      "epoch": 0.02505,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002939547738693467,
      "loss": 3.2862,
      "step": 5010
    },
    {
      "epoch": 0.0251,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002939396984924623,
      "loss": 3.3261,
      "step": 5020
    },
    {
      "epoch": 0.02515,
      "grad_norm": 1.359375,
      "learning_rate": 0.0002939246231155779,
      "loss": 3.2742,
      "step": 5030
    },
    {
      "epoch": 0.0252,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00029390954773869345,
      "loss": 3.3105,
      "step": 5040
    },
    {
      "epoch": 0.02525,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000293894472361809,
      "loss": 3.3364,
      "step": 5050
    },
    {
      "epoch": 0.0253,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002938793969849246,
      "loss": 3.3505,
      "step": 5060
    },
    {
      "epoch": 0.02535,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002938643216080402,
      "loss": 3.3213,
      "step": 5070
    },
    {
      "epoch": 0.0254,
      "grad_norm": 1.46875,
      "learning_rate": 0.00029384924623115574,
      "loss": 3.2597,
      "step": 5080
    },
    {
      "epoch": 0.02545,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029383417085427136,
      "loss": 3.3468,
      "step": 5090
    },
    {
      "epoch": 0.0255,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002938190954773869,
      "loss": 3.2167,
      "step": 5100
    },
    {
      "epoch": 0.02555,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002938040201005025,
      "loss": 3.2863,
      "step": 5110
    },
    {
      "epoch": 0.0256,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002937889447236181,
      "loss": 3.3078,
      "step": 5120
    },
    {
      "epoch": 0.02565,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00029377386934673365,
      "loss": 3.2905,
      "step": 5130
    },
    {
      "epoch": 0.0257,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002937587939698492,
      "loss": 3.3131,
      "step": 5140
    },
    {
      "epoch": 0.02575,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00029374371859296476,
      "loss": 3.274,
      "step": 5150
    },
    {
      "epoch": 0.0258,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002937286432160804,
      "loss": 3.2714,
      "step": 5160
    },
    {
      "epoch": 0.02585,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029371356783919594,
      "loss": 3.2726,
      "step": 5170
    },
    {
      "epoch": 0.0259,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002936984924623115,
      "loss": 3.3039,
      "step": 5180
    },
    {
      "epoch": 0.02595,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002936834170854271,
      "loss": 3.2417,
      "step": 5190
    },
    {
      "epoch": 0.026,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00029366834170854267,
      "loss": 3.2339,
      "step": 5200
    },
    {
      "epoch": 0.02605,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002936532663316583,
      "loss": 3.2591,
      "step": 5210
    },
    {
      "epoch": 0.0261,
      "grad_norm": 1.4375,
      "learning_rate": 0.00029363819095477384,
      "loss": 3.2652,
      "step": 5220
    },
    {
      "epoch": 0.02615,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002936231155778894,
      "loss": 3.2359,
      "step": 5230
    },
    {
      "epoch": 0.0262,
      "grad_norm": 1.6484375,
      "learning_rate": 0.000293608040201005,
      "loss": 3.2716,
      "step": 5240
    },
    {
      "epoch": 0.02625,
      "grad_norm": 1.8125,
      "learning_rate": 0.00029359296482412057,
      "loss": 3.2874,
      "step": 5250
    },
    {
      "epoch": 0.0263,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002935778894472362,
      "loss": 3.3144,
      "step": 5260
    },
    {
      "epoch": 0.02635,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00029356281407035174,
      "loss": 3.2667,
      "step": 5270
    },
    {
      "epoch": 0.0264,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002935477386934673,
      "loss": 3.2619,
      "step": 5280
    },
    {
      "epoch": 0.02645,
      "grad_norm": 1.5,
      "learning_rate": 0.0002935326633165829,
      "loss": 3.2234,
      "step": 5290
    },
    {
      "epoch": 0.0265,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002935175879396985,
      "loss": 3.2572,
      "step": 5300
    },
    {
      "epoch": 0.02655,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029350251256281403,
      "loss": 3.2426,
      "step": 5310
    },
    {
      "epoch": 0.0266,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029348743718592965,
      "loss": 3.2711,
      "step": 5320
    },
    {
      "epoch": 0.02665,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002934723618090452,
      "loss": 3.2504,
      "step": 5330
    },
    {
      "epoch": 0.0267,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00029345728643216076,
      "loss": 3.285,
      "step": 5340
    },
    {
      "epoch": 0.02675,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002934422110552764,
      "loss": 3.2596,
      "step": 5350
    },
    {
      "epoch": 0.0268,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00029342713567839194,
      "loss": 3.3117,
      "step": 5360
    },
    {
      "epoch": 0.02685,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002934120603015075,
      "loss": 3.2563,
      "step": 5370
    },
    {
      "epoch": 0.0269,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002933969849246231,
      "loss": 3.2434,
      "step": 5380
    },
    {
      "epoch": 0.02695,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029338190954773867,
      "loss": 3.2384,
      "step": 5390
    },
    {
      "epoch": 0.027,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029336683417085423,
      "loss": 3.2704,
      "step": 5400
    },
    {
      "epoch": 0.02705,
      "grad_norm": 1.578125,
      "learning_rate": 0.00029335175879396984,
      "loss": 3.2602,
      "step": 5410
    },
    {
      "epoch": 0.0271,
      "grad_norm": 1.75,
      "learning_rate": 0.0002933366834170854,
      "loss": 3.2987,
      "step": 5420
    },
    {
      "epoch": 0.02715,
      "grad_norm": 1.40625,
      "learning_rate": 0.00029332160804020096,
      "loss": 3.2362,
      "step": 5430
    },
    {
      "epoch": 0.0272,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029330653266331657,
      "loss": 3.2761,
      "step": 5440
    },
    {
      "epoch": 0.02725,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029329145728643213,
      "loss": 3.2445,
      "step": 5450
    },
    {
      "epoch": 0.0273,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002932763819095477,
      "loss": 3.2416,
      "step": 5460
    },
    {
      "epoch": 0.02735,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002932613065326633,
      "loss": 3.2202,
      "step": 5470
    },
    {
      "epoch": 0.0274,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00029324623115577886,
      "loss": 3.2149,
      "step": 5480
    },
    {
      "epoch": 0.02745,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002932311557788944,
      "loss": 3.2331,
      "step": 5490
    },
    {
      "epoch": 0.0275,
      "grad_norm": 1.625,
      "learning_rate": 0.00029321608040201003,
      "loss": 3.2474,
      "step": 5500
    },
    {
      "epoch": 0.02755,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002932010050251256,
      "loss": 3.2899,
      "step": 5510
    },
    {
      "epoch": 0.0276,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002931859296482412,
      "loss": 3.1821,
      "step": 5520
    },
    {
      "epoch": 0.02765,
      "grad_norm": 1.625,
      "learning_rate": 0.00029317085427135677,
      "loss": 3.2789,
      "step": 5530
    },
    {
      "epoch": 0.0277,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002931557788944723,
      "loss": 3.2452,
      "step": 5540
    },
    {
      "epoch": 0.02775,
      "grad_norm": 1.40625,
      "learning_rate": 0.00029314070351758794,
      "loss": 3.2131,
      "step": 5550
    },
    {
      "epoch": 0.0278,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002931256281407035,
      "loss": 3.253,
      "step": 5560
    },
    {
      "epoch": 0.02785,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002931105527638191,
      "loss": 3.2183,
      "step": 5570
    },
    {
      "epoch": 0.0279,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029309547738693467,
      "loss": 3.2139,
      "step": 5580
    },
    {
      "epoch": 0.02795,
      "grad_norm": 1.65625,
      "learning_rate": 0.00029308040201005023,
      "loss": 3.2422,
      "step": 5590
    },
    {
      "epoch": 0.028,
      "grad_norm": 1.5,
      "learning_rate": 0.00029306532663316584,
      "loss": 3.2325,
      "step": 5600
    },
    {
      "epoch": 0.02805,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002930502512562814,
      "loss": 3.2938,
      "step": 5610
    },
    {
      "epoch": 0.0281,
      "grad_norm": 1.5,
      "learning_rate": 0.00029303517587939696,
      "loss": 3.2377,
      "step": 5620
    },
    {
      "epoch": 0.02815,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002930201005025125,
      "loss": 3.2745,
      "step": 5630
    },
    {
      "epoch": 0.0282,
      "grad_norm": 1.5,
      "learning_rate": 0.00029300502512562813,
      "loss": 3.2644,
      "step": 5640
    },
    {
      "epoch": 0.02825,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002929899497487437,
      "loss": 3.236,
      "step": 5650
    },
    {
      "epoch": 0.0283,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00029297487437185925,
      "loss": 3.2592,
      "step": 5660
    },
    {
      "epoch": 0.02835,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00029295979899497486,
      "loss": 3.2017,
      "step": 5670
    },
    {
      "epoch": 0.0284,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002929447236180904,
      "loss": 3.2111,
      "step": 5680
    },
    {
      "epoch": 0.02845,
      "grad_norm": 1.578125,
      "learning_rate": 0.000292929648241206,
      "loss": 3.253,
      "step": 5690
    },
    {
      "epoch": 0.0285,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002929145728643216,
      "loss": 3.2144,
      "step": 5700
    },
    {
      "epoch": 0.02855,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00029289949748743715,
      "loss": 3.2089,
      "step": 5710
    },
    {
      "epoch": 0.0286,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002928844221105527,
      "loss": 3.2154,
      "step": 5720
    },
    {
      "epoch": 0.02865,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0002928693467336683,
      "loss": 3.2255,
      "step": 5730
    },
    {
      "epoch": 0.0287,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002928542713567839,
      "loss": 3.1716,
      "step": 5740
    },
    {
      "epoch": 0.02875,
      "grad_norm": 1.421875,
      "learning_rate": 0.00029283919597989944,
      "loss": 3.2504,
      "step": 5750
    },
    {
      "epoch": 0.0288,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029282412060301506,
      "loss": 3.2593,
      "step": 5760
    },
    {
      "epoch": 0.02885,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002928090452261306,
      "loss": 3.1873,
      "step": 5770
    },
    {
      "epoch": 0.0289,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00029279396984924623,
      "loss": 3.2418,
      "step": 5780
    },
    {
      "epoch": 0.02895,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002927788944723618,
      "loss": 3.228,
      "step": 5790
    },
    {
      "epoch": 0.029,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00029276381909547735,
      "loss": 3.2029,
      "step": 5800
    },
    {
      "epoch": 0.02905,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029274874371859296,
      "loss": 3.2675,
      "step": 5810
    },
    {
      "epoch": 0.0291,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002927336683417085,
      "loss": 3.246,
      "step": 5820
    },
    {
      "epoch": 0.02915,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00029271859296482413,
      "loss": 3.1859,
      "step": 5830
    },
    {
      "epoch": 0.0292,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002927035175879397,
      "loss": 3.2315,
      "step": 5840
    },
    {
      "epoch": 0.02925,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00029268844221105525,
      "loss": 3.1696,
      "step": 5850
    },
    {
      "epoch": 0.0293,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029267336683417086,
      "loss": 3.222,
      "step": 5860
    },
    {
      "epoch": 0.02935,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002926582914572864,
      "loss": 3.1258,
      "step": 5870
    },
    {
      "epoch": 0.0294,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000292643216080402,
      "loss": 3.1916,
      "step": 5880
    },
    {
      "epoch": 0.02945,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002926281407035176,
      "loss": 3.2847,
      "step": 5890
    },
    {
      "epoch": 0.0295,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00029261306532663315,
      "loss": 3.2242,
      "step": 5900
    },
    {
      "epoch": 0.02955,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002925979899497487,
      "loss": 3.2167,
      "step": 5910
    },
    {
      "epoch": 0.0296,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00029258291457286427,
      "loss": 3.1984,
      "step": 5920
    },
    {
      "epoch": 0.02965,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002925678391959799,
      "loss": 3.1948,
      "step": 5930
    },
    {
      "epoch": 0.0297,
      "grad_norm": 1.671875,
      "learning_rate": 0.00029255276381909544,
      "loss": 3.2449,
      "step": 5940
    },
    {
      "epoch": 0.02975,
      "grad_norm": 1.609375,
      "learning_rate": 0.000292537688442211,
      "loss": 3.1772,
      "step": 5950
    },
    {
      "epoch": 0.0298,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002925226130653266,
      "loss": 3.2248,
      "step": 5960
    },
    {
      "epoch": 0.02985,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002925075376884422,
      "loss": 3.1786,
      "step": 5970
    },
    {
      "epoch": 0.0299,
      "grad_norm": 1.515625,
      "learning_rate": 0.00029249246231155773,
      "loss": 3.1479,
      "step": 5980
    },
    {
      "epoch": 0.02995,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00029247738693467335,
      "loss": 3.1662,
      "step": 5990
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002924623115577889,
      "loss": 3.1966,
      "step": 6000
    },
    {
      "epoch": 0.03,
      "eval_loss": 3.17333984375,
      "eval_runtime": 91.882,
      "eval_samples_per_second": 27.209,
      "eval_steps_per_second": 0.435,
      "step": 6000
    },
    {
      "epoch": 0.03005,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029244723618090446,
      "loss": 3.15,
      "step": 6010
    },
    {
      "epoch": 0.0301,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002924321608040201,
      "loss": 3.2171,
      "step": 6020
    },
    {
      "epoch": 0.03015,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00029241708542713564,
      "loss": 3.1627,
      "step": 6030
    },
    {
      "epoch": 0.0302,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00029240201005025125,
      "loss": 3.2109,
      "step": 6040
    },
    {
      "epoch": 0.03025,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002923869346733668,
      "loss": 3.1723,
      "step": 6050
    },
    {
      "epoch": 0.0303,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00029237185929648237,
      "loss": 3.2058,
      "step": 6060
    },
    {
      "epoch": 0.03035,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000292356783919598,
      "loss": 3.1616,
      "step": 6070
    },
    {
      "epoch": 0.0304,
      "grad_norm": 1.40625,
      "learning_rate": 0.00029234170854271354,
      "loss": 3.1669,
      "step": 6080
    },
    {
      "epoch": 0.03045,
      "grad_norm": 1.59375,
      "learning_rate": 0.00029232663316582915,
      "loss": 3.1983,
      "step": 6090
    },
    {
      "epoch": 0.0305,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002923115577889447,
      "loss": 3.2218,
      "step": 6100
    },
    {
      "epoch": 0.03055,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029229648241206027,
      "loss": 3.1623,
      "step": 6110
    },
    {
      "epoch": 0.0306,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002922814070351759,
      "loss": 3.1278,
      "step": 6120
    },
    {
      "epoch": 0.03065,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00029226633165829144,
      "loss": 3.1493,
      "step": 6130
    },
    {
      "epoch": 0.0307,
      "grad_norm": 1.5546875,
      "learning_rate": 0.000292251256281407,
      "loss": 3.1843,
      "step": 6140
    },
    {
      "epoch": 0.03075,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002922361809045226,
      "loss": 3.147,
      "step": 6150
    },
    {
      "epoch": 0.0308,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002922211055276382,
      "loss": 3.1811,
      "step": 6160
    },
    {
      "epoch": 0.03085,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00029220603015075373,
      "loss": 3.2289,
      "step": 6170
    },
    {
      "epoch": 0.0309,
      "grad_norm": 1.4375,
      "learning_rate": 0.00029219095477386935,
      "loss": 3.1866,
      "step": 6180
    },
    {
      "epoch": 0.03095,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002921758793969849,
      "loss": 3.1816,
      "step": 6190
    },
    {
      "epoch": 0.031,
      "grad_norm": 1.453125,
      "learning_rate": 0.00029216080402010047,
      "loss": 3.1524,
      "step": 6200
    },
    {
      "epoch": 0.03105,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002921457286432161,
      "loss": 3.1616,
      "step": 6210
    },
    {
      "epoch": 0.0311,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00029213065326633164,
      "loss": 3.144,
      "step": 6220
    },
    {
      "epoch": 0.03115,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002921155778894472,
      "loss": 3.1367,
      "step": 6230
    },
    {
      "epoch": 0.0312,
      "grad_norm": 1.546875,
      "learning_rate": 0.00029210050251256276,
      "loss": 3.1533,
      "step": 6240
    },
    {
      "epoch": 0.03125,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029208542713567837,
      "loss": 3.2074,
      "step": 6250
    },
    {
      "epoch": 0.0313,
      "grad_norm": 1.484375,
      "learning_rate": 0.00029207035175879393,
      "loss": 3.1439,
      "step": 6260
    },
    {
      "epoch": 0.03135,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002920552763819095,
      "loss": 3.1327,
      "step": 6270
    },
    {
      "epoch": 0.0314,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002920402010050251,
      "loss": 3.183,
      "step": 6280
    },
    {
      "epoch": 0.03145,
      "grad_norm": 1.421875,
      "learning_rate": 0.00029202512562814066,
      "loss": 3.1944,
      "step": 6290
    },
    {
      "epoch": 0.0315,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002920100502512562,
      "loss": 3.1169,
      "step": 6300
    },
    {
      "epoch": 0.03155,
      "grad_norm": 1.421875,
      "learning_rate": 0.00029199497487437183,
      "loss": 3.1799,
      "step": 6310
    },
    {
      "epoch": 0.0316,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002919798994974874,
      "loss": 3.127,
      "step": 6320
    },
    {
      "epoch": 0.03165,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000291964824120603,
      "loss": 3.1315,
      "step": 6330
    },
    {
      "epoch": 0.0317,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029194974874371856,
      "loss": 3.2001,
      "step": 6340
    },
    {
      "epoch": 0.03175,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002919346733668342,
      "loss": 3.2447,
      "step": 6350
    },
    {
      "epoch": 0.0318,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00029191959798994973,
      "loss": 3.1741,
      "step": 6360
    },
    {
      "epoch": 0.03185,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002919045226130653,
      "loss": 3.1948,
      "step": 6370
    },
    {
      "epoch": 0.0319,
      "grad_norm": 1.375,
      "learning_rate": 0.0002918894472361809,
      "loss": 3.168,
      "step": 6380
    },
    {
      "epoch": 0.03195,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029187437185929647,
      "loss": 3.1743,
      "step": 6390
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.5625,
      "learning_rate": 0.000291859296482412,
      "loss": 3.1529,
      "step": 6400
    },
    {
      "epoch": 0.03205,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00029184422110552764,
      "loss": 3.1342,
      "step": 6410
    },
    {
      "epoch": 0.0321,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002918291457286432,
      "loss": 3.1918,
      "step": 6420
    },
    {
      "epoch": 0.03215,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029181407035175876,
      "loss": 3.1607,
      "step": 6430
    },
    {
      "epoch": 0.0322,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00029179899497487437,
      "loss": 3.0905,
      "step": 6440
    },
    {
      "epoch": 0.03225,
      "grad_norm": 1.421875,
      "learning_rate": 0.00029178391959798993,
      "loss": 3.1555,
      "step": 6450
    },
    {
      "epoch": 0.0323,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002917688442211055,
      "loss": 3.1054,
      "step": 6460
    },
    {
      "epoch": 0.03235,
      "grad_norm": 1.625,
      "learning_rate": 0.0002917537688442211,
      "loss": 3.1166,
      "step": 6470
    },
    {
      "epoch": 0.0324,
      "grad_norm": 1.484375,
      "learning_rate": 0.00029173869346733666,
      "loss": 3.089,
      "step": 6480
    },
    {
      "epoch": 0.03245,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002917236180904522,
      "loss": 3.1204,
      "step": 6490
    },
    {
      "epoch": 0.0325,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00029170854271356783,
      "loss": 3.1218,
      "step": 6500
    },
    {
      "epoch": 0.03255,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002916934673366834,
      "loss": 3.1215,
      "step": 6510
    },
    {
      "epoch": 0.0326,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00029167839195979895,
      "loss": 3.1524,
      "step": 6520
    },
    {
      "epoch": 0.03265,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00029166331658291456,
      "loss": 3.1636,
      "step": 6530
    },
    {
      "epoch": 0.0327,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002916482412060301,
      "loss": 3.1155,
      "step": 6540
    },
    {
      "epoch": 0.03275,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002916331658291457,
      "loss": 3.1191,
      "step": 6550
    },
    {
      "epoch": 0.0328,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00029161809045226124,
      "loss": 3.1263,
      "step": 6560
    },
    {
      "epoch": 0.03285,
      "grad_norm": 1.359375,
      "learning_rate": 0.00029160301507537685,
      "loss": 3.1055,
      "step": 6570
    },
    {
      "epoch": 0.0329,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002915879396984924,
      "loss": 3.0991,
      "step": 6580
    },
    {
      "epoch": 0.03295,
      "grad_norm": 1.6015625,
      "learning_rate": 0.000291572864321608,
      "loss": 3.1129,
      "step": 6590
    },
    {
      "epoch": 0.033,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002915577889447236,
      "loss": 3.1683,
      "step": 6600
    },
    {
      "epoch": 0.03305,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00029154271356783914,
      "loss": 3.1982,
      "step": 6610
    },
    {
      "epoch": 0.0331,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029152763819095476,
      "loss": 3.073,
      "step": 6620
    },
    {
      "epoch": 0.03315,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002915125628140703,
      "loss": 3.139,
      "step": 6630
    },
    {
      "epoch": 0.0332,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00029149748743718593,
      "loss": 3.1321,
      "step": 6640
    },
    {
      "epoch": 0.03325,
      "grad_norm": 1.5,
      "learning_rate": 0.0002914824120603015,
      "loss": 3.1269,
      "step": 6650
    },
    {
      "epoch": 0.0333,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002914673366834171,
      "loss": 3.0639,
      "step": 6660
    },
    {
      "epoch": 0.03335,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00029145226130653266,
      "loss": 3.121,
      "step": 6670
    },
    {
      "epoch": 0.0334,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002914371859296482,
      "loss": 3.1174,
      "step": 6680
    },
    {
      "epoch": 0.03345,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00029142211055276383,
      "loss": 3.148,
      "step": 6690
    },
    {
      "epoch": 0.0335,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002914070351758794,
      "loss": 3.0798,
      "step": 6700
    },
    {
      "epoch": 0.03355,
      "grad_norm": 1.59375,
      "learning_rate": 0.00029139195979899495,
      "loss": 3.1537,
      "step": 6710
    },
    {
      "epoch": 0.0336,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002913768844221105,
      "loss": 3.1324,
      "step": 6720
    },
    {
      "epoch": 0.03365,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002913618090452261,
      "loss": 3.1156,
      "step": 6730
    },
    {
      "epoch": 0.0337,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002913467336683417,
      "loss": 3.1118,
      "step": 6740
    },
    {
      "epoch": 0.03375,
      "grad_norm": 1.65625,
      "learning_rate": 0.00029133165829145724,
      "loss": 3.1651,
      "step": 6750
    },
    {
      "epoch": 0.0338,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029131658291457285,
      "loss": 3.1296,
      "step": 6760
    },
    {
      "epoch": 0.03385,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002913015075376884,
      "loss": 3.1746,
      "step": 6770
    },
    {
      "epoch": 0.0339,
      "grad_norm": 1.484375,
      "learning_rate": 0.00029128643216080397,
      "loss": 3.1462,
      "step": 6780
    },
    {
      "epoch": 0.03395,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002912713567839196,
      "loss": 3.134,
      "step": 6790
    },
    {
      "epoch": 0.034,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00029125628140703514,
      "loss": 3.1125,
      "step": 6800
    },
    {
      "epoch": 0.03405,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002912412060301507,
      "loss": 3.0786,
      "step": 6810
    },
    {
      "epoch": 0.0341,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002912261306532663,
      "loss": 3.1482,
      "step": 6820
    },
    {
      "epoch": 0.03415,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002912110552763819,
      "loss": 3.0936,
      "step": 6830
    },
    {
      "epoch": 0.0342,
      "grad_norm": 1.578125,
      "learning_rate": 0.00029119597989949743,
      "loss": 3.121,
      "step": 6840
    },
    {
      "epoch": 0.03425,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00029118090452261305,
      "loss": 3.0857,
      "step": 6850
    },
    {
      "epoch": 0.0343,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002911658291457286,
      "loss": 3.0938,
      "step": 6860
    },
    {
      "epoch": 0.03435,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00029115075376884416,
      "loss": 3.1129,
      "step": 6870
    },
    {
      "epoch": 0.0344,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002911356783919598,
      "loss": 3.0988,
      "step": 6880
    },
    {
      "epoch": 0.03445,
      "grad_norm": 1.390625,
      "learning_rate": 0.00029112060301507534,
      "loss": 3.09,
      "step": 6890
    },
    {
      "epoch": 0.0345,
      "grad_norm": 1.453125,
      "learning_rate": 0.00029110552763819095,
      "loss": 3.1142,
      "step": 6900
    },
    {
      "epoch": 0.03455,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002910904522613065,
      "loss": 3.094,
      "step": 6910
    },
    {
      "epoch": 0.0346,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002910753768844221,
      "loss": 3.0874,
      "step": 6920
    },
    {
      "epoch": 0.03465,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002910603015075377,
      "loss": 3.1178,
      "step": 6930
    },
    {
      "epoch": 0.0347,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00029104522613065324,
      "loss": 3.1296,
      "step": 6940
    },
    {
      "epoch": 0.03475,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00029103015075376885,
      "loss": 3.1148,
      "step": 6950
    },
    {
      "epoch": 0.0348,
      "grad_norm": 1.5,
      "learning_rate": 0.0002910150753768844,
      "loss": 3.1338,
      "step": 6960
    },
    {
      "epoch": 0.03485,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00029099999999999997,
      "loss": 3.1005,
      "step": 6970
    },
    {
      "epoch": 0.0349,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002909849246231156,
      "loss": 3.1218,
      "step": 6980
    },
    {
      "epoch": 0.03495,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00029096984924623114,
      "loss": 3.1171,
      "step": 6990
    },
    {
      "epoch": 0.035,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002909547738693467,
      "loss": 3.1201,
      "step": 7000
    },
    {
      "epoch": 0.03505,
      "grad_norm": 1.578125,
      "learning_rate": 0.00029093969849246226,
      "loss": 3.1403,
      "step": 7010
    },
    {
      "epoch": 0.0351,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002909246231155779,
      "loss": 3.0323,
      "step": 7020
    },
    {
      "epoch": 0.03515,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00029090954773869343,
      "loss": 3.0452,
      "step": 7030
    },
    {
      "epoch": 0.0352,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000290894472361809,
      "loss": 3.0564,
      "step": 7040
    },
    {
      "epoch": 0.03525,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002908793969849246,
      "loss": 3.1072,
      "step": 7050
    },
    {
      "epoch": 0.0353,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00029086432160804017,
      "loss": 3.0938,
      "step": 7060
    },
    {
      "epoch": 0.03535,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002908492462311557,
      "loss": 3.1147,
      "step": 7070
    },
    {
      "epoch": 0.0354,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029083417085427134,
      "loss": 3.0962,
      "step": 7080
    },
    {
      "epoch": 0.03545,
      "grad_norm": 1.5,
      "learning_rate": 0.0002908190954773869,
      "loss": 3.0405,
      "step": 7090
    },
    {
      "epoch": 0.0355,
      "grad_norm": 1.53125,
      "learning_rate": 0.00029080402010050246,
      "loss": 3.0935,
      "step": 7100
    },
    {
      "epoch": 0.03555,
      "grad_norm": 1.65625,
      "learning_rate": 0.00029078894472361807,
      "loss": 3.0917,
      "step": 7110
    },
    {
      "epoch": 0.0356,
      "grad_norm": 1.59375,
      "learning_rate": 0.00029077386934673363,
      "loss": 3.0908,
      "step": 7120
    },
    {
      "epoch": 0.03565,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002907587939698492,
      "loss": 3.1001,
      "step": 7130
    },
    {
      "epoch": 0.0357,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002907437185929648,
      "loss": 3.0403,
      "step": 7140
    },
    {
      "epoch": 0.03575,
      "grad_norm": 1.421875,
      "learning_rate": 0.00029072864321608036,
      "loss": 3.0576,
      "step": 7150
    },
    {
      "epoch": 0.0358,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00029071356783919597,
      "loss": 3.0573,
      "step": 7160
    },
    {
      "epoch": 0.03585,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00029069849246231153,
      "loss": 3.0631,
      "step": 7170
    },
    {
      "epoch": 0.0359,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002906834170854271,
      "loss": 3.0684,
      "step": 7180
    },
    {
      "epoch": 0.03595,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002906683417085427,
      "loss": 3.0812,
      "step": 7190
    },
    {
      "epoch": 0.036,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00029065326633165826,
      "loss": 3.0364,
      "step": 7200
    },
    {
      "epoch": 0.03605,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002906381909547739,
      "loss": 3.0546,
      "step": 7210
    },
    {
      "epoch": 0.0361,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00029062311557788943,
      "loss": 3.1359,
      "step": 7220
    },
    {
      "epoch": 0.03615,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000290608040201005,
      "loss": 3.049,
      "step": 7230
    },
    {
      "epoch": 0.0362,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002905929648241206,
      "loss": 3.108,
      "step": 7240
    },
    {
      "epoch": 0.03625,
      "grad_norm": 1.390625,
      "learning_rate": 0.00029057788944723617,
      "loss": 3.0642,
      "step": 7250
    },
    {
      "epoch": 0.0363,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002905628140703517,
      "loss": 3.1201,
      "step": 7260
    },
    {
      "epoch": 0.03635,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00029054773869346734,
      "loss": 3.0759,
      "step": 7270
    },
    {
      "epoch": 0.0364,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002905326633165829,
      "loss": 3.0801,
      "step": 7280
    },
    {
      "epoch": 0.03645,
      "grad_norm": 1.5625,
      "learning_rate": 0.00029051758793969846,
      "loss": 3.0684,
      "step": 7290
    },
    {
      "epoch": 0.0365,
      "grad_norm": 1.453125,
      "learning_rate": 0.00029050251256281407,
      "loss": 3.1316,
      "step": 7300
    },
    {
      "epoch": 0.03655,
      "grad_norm": 1.796875,
      "learning_rate": 0.00029048743718592963,
      "loss": 3.1153,
      "step": 7310
    },
    {
      "epoch": 0.0366,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002904723618090452,
      "loss": 3.0768,
      "step": 7320
    },
    {
      "epoch": 0.03665,
      "grad_norm": 1.609375,
      "learning_rate": 0.00029045728643216075,
      "loss": 3.0902,
      "step": 7330
    },
    {
      "epoch": 0.0367,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00029044221105527636,
      "loss": 3.0604,
      "step": 7340
    },
    {
      "epoch": 0.03675,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002904271356783919,
      "loss": 3.062,
      "step": 7350
    },
    {
      "epoch": 0.0368,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002904120603015075,
      "loss": 3.0633,
      "step": 7360
    },
    {
      "epoch": 0.03685,
      "grad_norm": 1.5,
      "learning_rate": 0.0002903969849246231,
      "loss": 3.0348,
      "step": 7370
    },
    {
      "epoch": 0.0369,
      "grad_norm": 1.5,
      "learning_rate": 0.00029038190954773865,
      "loss": 3.0847,
      "step": 7380
    },
    {
      "epoch": 0.03695,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002903668341708542,
      "loss": 3.0445,
      "step": 7390
    },
    {
      "epoch": 0.037,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002903517587939698,
      "loss": 3.0809,
      "step": 7400
    },
    {
      "epoch": 0.03705,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002903366834170854,
      "loss": 3.0379,
      "step": 7410
    },
    {
      "epoch": 0.0371,
      "grad_norm": 1.3515625,
      "learning_rate": 0.000290321608040201,
      "loss": 3.0786,
      "step": 7420
    },
    {
      "epoch": 0.03715,
      "grad_norm": 1.703125,
      "learning_rate": 0.00029030653266331655,
      "loss": 3.0267,
      "step": 7430
    },
    {
      "epoch": 0.0372,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002902914572864321,
      "loss": 3.0766,
      "step": 7440
    },
    {
      "epoch": 0.03725,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002902763819095477,
      "loss": 3.0981,
      "step": 7450
    },
    {
      "epoch": 0.0373,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002902613065326633,
      "loss": 3.0531,
      "step": 7460
    },
    {
      "epoch": 0.03735,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002902462311557789,
      "loss": 3.0905,
      "step": 7470
    },
    {
      "epoch": 0.0374,
      "grad_norm": 1.46875,
      "learning_rate": 0.00029023115577889446,
      "loss": 3.0734,
      "step": 7480
    },
    {
      "epoch": 0.03745,
      "grad_norm": 1.640625,
      "learning_rate": 0.00029021608040201,
      "loss": 3.0281,
      "step": 7490
    },
    {
      "epoch": 0.0375,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00029020100502512563,
      "loss": 3.1162,
      "step": 7500
    },
    {
      "epoch": 0.03755,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002901859296482412,
      "loss": 3.0908,
      "step": 7510
    },
    {
      "epoch": 0.0376,
      "grad_norm": 1.65625,
      "learning_rate": 0.00029017085427135675,
      "loss": 3.0872,
      "step": 7520
    },
    {
      "epoch": 0.03765,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00029015577889447236,
      "loss": 2.9901,
      "step": 7530
    },
    {
      "epoch": 0.0377,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002901407035175879,
      "loss": 3.0913,
      "step": 7540
    },
    {
      "epoch": 0.03775,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002901256281407035,
      "loss": 3.0001,
      "step": 7550
    },
    {
      "epoch": 0.0378,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002901105527638191,
      "loss": 3.1112,
      "step": 7560
    },
    {
      "epoch": 0.03785,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00029009547738693465,
      "loss": 3.0476,
      "step": 7570
    },
    {
      "epoch": 0.0379,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002900804020100502,
      "loss": 3.0295,
      "step": 7580
    },
    {
      "epoch": 0.03795,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002900653266331658,
      "loss": 3.0595,
      "step": 7590
    },
    {
      "epoch": 0.038,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002900502512562814,
      "loss": 3.0545,
      "step": 7600
    },
    {
      "epoch": 0.03805,
      "grad_norm": 1.65625,
      "learning_rate": 0.00029003517587939694,
      "loss": 3.0393,
      "step": 7610
    },
    {
      "epoch": 0.0381,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00029002010050251255,
      "loss": 3.0817,
      "step": 7620
    },
    {
      "epoch": 0.03815,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002900050251256281,
      "loss": 3.0458,
      "step": 7630
    },
    {
      "epoch": 0.0382,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028998994974874367,
      "loss": 3.0906,
      "step": 7640
    },
    {
      "epoch": 0.03825,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028997487437185923,
      "loss": 3.0514,
      "step": 7650
    },
    {
      "epoch": 0.0383,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028995979899497484,
      "loss": 3.0462,
      "step": 7660
    },
    {
      "epoch": 0.03835,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002899447236180904,
      "loss": 2.9839,
      "step": 7670
    },
    {
      "epoch": 0.0384,
      "grad_norm": 1.671875,
      "learning_rate": 0.000289929648241206,
      "loss": 3.0666,
      "step": 7680
    },
    {
      "epoch": 0.03845,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002899145728643216,
      "loss": 3.0299,
      "step": 7690
    },
    {
      "epoch": 0.0385,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028989949748743713,
      "loss": 3.0596,
      "step": 7700
    },
    {
      "epoch": 0.03855,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028988442211055275,
      "loss": 3.0158,
      "step": 7710
    },
    {
      "epoch": 0.0386,
      "grad_norm": 1.625,
      "learning_rate": 0.0002898693467336683,
      "loss": 3.0782,
      "step": 7720
    },
    {
      "epoch": 0.03865,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002898542713567839,
      "loss": 3.0351,
      "step": 7730
    },
    {
      "epoch": 0.0387,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002898391959798995,
      "loss": 3.0566,
      "step": 7740
    },
    {
      "epoch": 0.03875,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00028982412060301504,
      "loss": 3.0113,
      "step": 7750
    },
    {
      "epoch": 0.0388,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028980904522613065,
      "loss": 3.0188,
      "step": 7760
    },
    {
      "epoch": 0.03885,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002897939698492462,
      "loss": 3.0244,
      "step": 7770
    },
    {
      "epoch": 0.0389,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002897788944723618,
      "loss": 2.9969,
      "step": 7780
    },
    {
      "epoch": 0.03895,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002897638190954774,
      "loss": 3.0578,
      "step": 7790
    },
    {
      "epoch": 0.039,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028974874371859294,
      "loss": 2.9989,
      "step": 7800
    },
    {
      "epoch": 0.03905,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002897336683417085,
      "loss": 3.0748,
      "step": 7810
    },
    {
      "epoch": 0.0391,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002897185929648241,
      "loss": 2.962,
      "step": 7820
    },
    {
      "epoch": 0.03915,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028970351758793967,
      "loss": 3.0273,
      "step": 7830
    },
    {
      "epoch": 0.0392,
      "grad_norm": 1.5,
      "learning_rate": 0.00028968844221105523,
      "loss": 3.0546,
      "step": 7840
    },
    {
      "epoch": 0.03925,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028967336683417084,
      "loss": 3.0359,
      "step": 7850
    },
    {
      "epoch": 0.0393,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002896582914572864,
      "loss": 3.0409,
      "step": 7860
    },
    {
      "epoch": 0.03935,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00028964321608040196,
      "loss": 2.9778,
      "step": 7870
    },
    {
      "epoch": 0.0394,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0002896281407035176,
      "loss": 3.0054,
      "step": 7880
    },
    {
      "epoch": 0.03945,
      "grad_norm": 1.5,
      "learning_rate": 0.00028961306532663313,
      "loss": 3.1569,
      "step": 7890
    },
    {
      "epoch": 0.0395,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002895979899497487,
      "loss": 3.0367,
      "step": 7900
    },
    {
      "epoch": 0.03955,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002895829145728643,
      "loss": 3.0458,
      "step": 7910
    },
    {
      "epoch": 0.0396,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028956783919597987,
      "loss": 2.9968,
      "step": 7920
    },
    {
      "epoch": 0.03965,
      "grad_norm": 1.5,
      "learning_rate": 0.0002895527638190954,
      "loss": 3.0885,
      "step": 7930
    },
    {
      "epoch": 0.0397,
      "grad_norm": 1.6875,
      "learning_rate": 0.00028953768844221104,
      "loss": 3.0281,
      "step": 7940
    },
    {
      "epoch": 0.03975,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002895226130653266,
      "loss": 2.9835,
      "step": 7950
    },
    {
      "epoch": 0.0398,
      "grad_norm": 1.421875,
      "learning_rate": 0.00028950753768844216,
      "loss": 3.0098,
      "step": 7960
    },
    {
      "epoch": 0.03985,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00028949246231155777,
      "loss": 3.0555,
      "step": 7970
    },
    {
      "epoch": 0.0399,
      "grad_norm": 1.703125,
      "learning_rate": 0.00028947738693467333,
      "loss": 3.0339,
      "step": 7980
    },
    {
      "epoch": 0.03995,
      "grad_norm": 1.4375,
      "learning_rate": 0.00028946231155778894,
      "loss": 3.0325,
      "step": 7990
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002894472361809045,
      "loss": 2.9892,
      "step": 8000
    },
    {
      "epoch": 0.04,
      "eval_loss": 3.00392484664917,
      "eval_runtime": 90.404,
      "eval_samples_per_second": 27.654,
      "eval_steps_per_second": 0.442,
      "step": 8000
    },
    {
      "epoch": 0.04005,
      "grad_norm": 1.78125,
      "learning_rate": 0.00028943216080402006,
      "loss": 3.0487,
      "step": 8010
    },
    {
      "epoch": 0.0401,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028941708542713567,
      "loss": 2.9939,
      "step": 8020
    },
    {
      "epoch": 0.04015,
      "grad_norm": 1.578125,
      "learning_rate": 0.00028940201005025123,
      "loss": 2.9896,
      "step": 8030
    },
    {
      "epoch": 0.0402,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00028938693467336684,
      "loss": 2.9992,
      "step": 8040
    },
    {
      "epoch": 0.04025,
      "grad_norm": 1.5,
      "learning_rate": 0.0002893718592964824,
      "loss": 3.111,
      "step": 8050
    },
    {
      "epoch": 0.0403,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028935678391959796,
      "loss": 2.9682,
      "step": 8060
    },
    {
      "epoch": 0.04035,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0002893417085427136,
      "loss": 3.0045,
      "step": 8070
    },
    {
      "epoch": 0.0404,
      "grad_norm": 1.609375,
      "learning_rate": 0.00028932663316582913,
      "loss": 2.9773,
      "step": 8080
    },
    {
      "epoch": 0.04045,
      "grad_norm": 1.359375,
      "learning_rate": 0.0002893115577889447,
      "loss": 3.0139,
      "step": 8090
    },
    {
      "epoch": 0.0405,
      "grad_norm": 1.421875,
      "learning_rate": 0.00028929648241206025,
      "loss": 2.9967,
      "step": 8100
    },
    {
      "epoch": 0.04055,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00028928140703517587,
      "loss": 3.0488,
      "step": 8110
    },
    {
      "epoch": 0.0406,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002892663316582914,
      "loss": 2.9926,
      "step": 8120
    },
    {
      "epoch": 0.04065,
      "grad_norm": 1.4765625,
      "learning_rate": 0.000289251256281407,
      "loss": 3.0085,
      "step": 8130
    },
    {
      "epoch": 0.0407,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002892361809045226,
      "loss": 3.0033,
      "step": 8140
    },
    {
      "epoch": 0.04075,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028922110552763816,
      "loss": 3.0485,
      "step": 8150
    },
    {
      "epoch": 0.0408,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002892060301507537,
      "loss": 2.9562,
      "step": 8160
    },
    {
      "epoch": 0.04085,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00028919095477386933,
      "loss": 3.0001,
      "step": 8170
    },
    {
      "epoch": 0.0409,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002891758793969849,
      "loss": 2.9909,
      "step": 8180
    },
    {
      "epoch": 0.04095,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00028916080402010045,
      "loss": 3.0678,
      "step": 8190
    },
    {
      "epoch": 0.041,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00028914572864321606,
      "loss": 2.9375,
      "step": 8200
    },
    {
      "epoch": 0.04105,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002891306532663316,
      "loss": 2.997,
      "step": 8210
    },
    {
      "epoch": 0.0411,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002891155778894472,
      "loss": 3.0076,
      "step": 8220
    },
    {
      "epoch": 0.04115,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002891005025125628,
      "loss": 2.9577,
      "step": 8230
    },
    {
      "epoch": 0.0412,
      "grad_norm": 1.65625,
      "learning_rate": 0.00028908542713567835,
      "loss": 3.0176,
      "step": 8240
    },
    {
      "epoch": 0.04125,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028907035175879396,
      "loss": 2.978,
      "step": 8250
    },
    {
      "epoch": 0.0413,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002890552763819095,
      "loss": 2.94,
      "step": 8260
    },
    {
      "epoch": 0.04135,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002890402010050251,
      "loss": 2.98,
      "step": 8270
    },
    {
      "epoch": 0.0414,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0002890251256281407,
      "loss": 2.9938,
      "step": 8280
    },
    {
      "epoch": 0.04145,
      "grad_norm": 1.578125,
      "learning_rate": 0.00028901005025125625,
      "loss": 2.9987,
      "step": 8290
    },
    {
      "epoch": 0.0415,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028899497487437187,
      "loss": 3.0056,
      "step": 8300
    },
    {
      "epoch": 0.04155,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002889798994974874,
      "loss": 2.9841,
      "step": 8310
    },
    {
      "epoch": 0.0416,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000288964824120603,
      "loss": 2.987,
      "step": 8320
    },
    {
      "epoch": 0.04165,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002889497487437186,
      "loss": 2.936,
      "step": 8330
    },
    {
      "epoch": 0.0417,
      "grad_norm": 1.390625,
      "learning_rate": 0.00028893467336683416,
      "loss": 2.9465,
      "step": 8340
    },
    {
      "epoch": 0.04175,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002889195979899497,
      "loss": 2.9886,
      "step": 8350
    },
    {
      "epoch": 0.0418,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00028890452261306533,
      "loss": 3.0009,
      "step": 8360
    },
    {
      "epoch": 0.04185,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002888894472361809,
      "loss": 2.9788,
      "step": 8370
    },
    {
      "epoch": 0.0419,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00028887437185929645,
      "loss": 3.0228,
      "step": 8380
    },
    {
      "epoch": 0.04195,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00028885929648241206,
      "loss": 2.9684,
      "step": 8390
    },
    {
      "epoch": 0.042,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002888442211055276,
      "loss": 3.01,
      "step": 8400
    },
    {
      "epoch": 0.04205,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002888291457286432,
      "loss": 2.9417,
      "step": 8410
    },
    {
      "epoch": 0.0421,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028881407035175874,
      "loss": 2.9943,
      "step": 8420
    },
    {
      "epoch": 0.04215,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00028879899497487435,
      "loss": 2.9423,
      "step": 8430
    },
    {
      "epoch": 0.0422,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002887839195979899,
      "loss": 2.9855,
      "step": 8440
    },
    {
      "epoch": 0.04225,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028876884422110547,
      "loss": 2.9901,
      "step": 8450
    },
    {
      "epoch": 0.0423,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002887537688442211,
      "loss": 2.9823,
      "step": 8460
    },
    {
      "epoch": 0.04235,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00028873869346733664,
      "loss": 2.9452,
      "step": 8470
    },
    {
      "epoch": 0.0424,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002887236180904522,
      "loss": 3.0445,
      "step": 8480
    },
    {
      "epoch": 0.04245,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002887085427135678,
      "loss": 2.9622,
      "step": 8490
    },
    {
      "epoch": 0.0425,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00028869346733668337,
      "loss": 3.0303,
      "step": 8500
    },
    {
      "epoch": 0.04255,
      "grad_norm": 1.421875,
      "learning_rate": 0.000288678391959799,
      "loss": 3.0384,
      "step": 8510
    },
    {
      "epoch": 0.0426,
      "grad_norm": 1.578125,
      "learning_rate": 0.00028866331658291454,
      "loss": 2.9911,
      "step": 8520
    },
    {
      "epoch": 0.04265,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002886482412060301,
      "loss": 2.9505,
      "step": 8530
    },
    {
      "epoch": 0.0427,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002886331658291457,
      "loss": 2.9571,
      "step": 8540
    },
    {
      "epoch": 0.04275,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002886180904522613,
      "loss": 3.0008,
      "step": 8550
    },
    {
      "epoch": 0.0428,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002886030150753769,
      "loss": 2.9831,
      "step": 8560
    },
    {
      "epoch": 0.04285,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028858793969849245,
      "loss": 2.9378,
      "step": 8570
    },
    {
      "epoch": 0.0429,
      "grad_norm": 1.6015625,
      "learning_rate": 0.000288572864321608,
      "loss": 3.0071,
      "step": 8580
    },
    {
      "epoch": 0.04295,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002885577889447236,
      "loss": 3.0385,
      "step": 8590
    },
    {
      "epoch": 0.043,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002885427135678392,
      "loss": 2.9281,
      "step": 8600
    },
    {
      "epoch": 0.04305,
      "grad_norm": 1.40625,
      "learning_rate": 0.00028852763819095474,
      "loss": 2.9583,
      "step": 8610
    },
    {
      "epoch": 0.0431,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028851256281407035,
      "loss": 2.9609,
      "step": 8620
    },
    {
      "epoch": 0.04315,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002884974874371859,
      "loss": 2.9566,
      "step": 8630
    },
    {
      "epoch": 0.0432,
      "grad_norm": 1.421875,
      "learning_rate": 0.00028848241206030147,
      "loss": 2.9232,
      "step": 8640
    },
    {
      "epoch": 0.04325,
      "grad_norm": 1.375,
      "learning_rate": 0.0002884673366834171,
      "loss": 2.9435,
      "step": 8650
    },
    {
      "epoch": 0.0433,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028845226130653264,
      "loss": 2.9868,
      "step": 8660
    },
    {
      "epoch": 0.04335,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002884371859296482,
      "loss": 2.9827,
      "step": 8670
    },
    {
      "epoch": 0.0434,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002884221105527638,
      "loss": 2.9686,
      "step": 8680
    },
    {
      "epoch": 0.04345,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00028840703517587937,
      "loss": 2.9817,
      "step": 8690
    },
    {
      "epoch": 0.0435,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00028839195979899493,
      "loss": 2.9496,
      "step": 8700
    },
    {
      "epoch": 0.04355,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028837688442211054,
      "loss": 2.97,
      "step": 8710
    },
    {
      "epoch": 0.0436,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002883618090452261,
      "loss": 2.9701,
      "step": 8720
    },
    {
      "epoch": 0.04365,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00028834673366834166,
      "loss": 2.9411,
      "step": 8730
    },
    {
      "epoch": 0.0437,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002883316582914572,
      "loss": 2.9338,
      "step": 8740
    },
    {
      "epoch": 0.04375,
      "grad_norm": 1.375,
      "learning_rate": 0.00028831658291457283,
      "loss": 2.9526,
      "step": 8750
    },
    {
      "epoch": 0.0438,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002883015075376884,
      "loss": 2.9636,
      "step": 8760
    },
    {
      "epoch": 0.04385,
      "grad_norm": 1.59375,
      "learning_rate": 0.000288286432160804,
      "loss": 2.9783,
      "step": 8770
    },
    {
      "epoch": 0.0439,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028827135678391957,
      "loss": 2.9533,
      "step": 8780
    },
    {
      "epoch": 0.04395,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002882562814070351,
      "loss": 2.9217,
      "step": 8790
    },
    {
      "epoch": 0.044,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028824120603015074,
      "loss": 2.9511,
      "step": 8800
    },
    {
      "epoch": 0.04405,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002882261306532663,
      "loss": 2.9707,
      "step": 8810
    },
    {
      "epoch": 0.0441,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002882110552763819,
      "loss": 2.9677,
      "step": 8820
    },
    {
      "epoch": 0.04415,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028819597989949747,
      "loss": 2.9741,
      "step": 8830
    },
    {
      "epoch": 0.0442,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028818090452261303,
      "loss": 2.941,
      "step": 8840
    },
    {
      "epoch": 0.04425,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028816582914572864,
      "loss": 2.948,
      "step": 8850
    },
    {
      "epoch": 0.0443,
      "grad_norm": 1.5,
      "learning_rate": 0.0002881507537688442,
      "loss": 2.9374,
      "step": 8860
    },
    {
      "epoch": 0.04435,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002881356783919598,
      "loss": 3.0153,
      "step": 8870
    },
    {
      "epoch": 0.0444,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00028812060301507537,
      "loss": 2.8731,
      "step": 8880
    },
    {
      "epoch": 0.04445,
      "grad_norm": 1.4375,
      "learning_rate": 0.00028810552763819093,
      "loss": 2.9813,
      "step": 8890
    },
    {
      "epoch": 0.0445,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002880904522613065,
      "loss": 2.971,
      "step": 8900
    },
    {
      "epoch": 0.04455,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002880753768844221,
      "loss": 2.9118,
      "step": 8910
    },
    {
      "epoch": 0.0446,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028806030150753766,
      "loss": 2.9571,
      "step": 8920
    },
    {
      "epoch": 0.04465,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002880452261306532,
      "loss": 2.9532,
      "step": 8930
    },
    {
      "epoch": 0.0447,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028803015075376884,
      "loss": 2.9848,
      "step": 8940
    },
    {
      "epoch": 0.04475,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002880150753768844,
      "loss": 2.973,
      "step": 8950
    },
    {
      "epoch": 0.0448,
      "grad_norm": 1.609375,
      "learning_rate": 0.00028799999999999995,
      "loss": 2.9807,
      "step": 8960
    },
    {
      "epoch": 0.04485,
      "grad_norm": 1.390625,
      "learning_rate": 0.00028798492462311557,
      "loss": 2.9618,
      "step": 8970
    },
    {
      "epoch": 0.0449,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002879698492462311,
      "loss": 2.9585,
      "step": 8980
    },
    {
      "epoch": 0.04495,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002879547738693467,
      "loss": 2.963,
      "step": 8990
    },
    {
      "epoch": 0.045,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002879396984924623,
      "loss": 2.8867,
      "step": 9000
    },
    {
      "epoch": 0.04505,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00028792462311557786,
      "loss": 3.0016,
      "step": 9010
    },
    {
      "epoch": 0.0451,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002879095477386934,
      "loss": 2.9597,
      "step": 9020
    },
    {
      "epoch": 0.04515,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028789447236180903,
      "loss": 2.9429,
      "step": 9030
    },
    {
      "epoch": 0.0452,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002878793969849246,
      "loss": 2.9144,
      "step": 9040
    },
    {
      "epoch": 0.04525,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028786432160804015,
      "loss": 3.0109,
      "step": 9050
    },
    {
      "epoch": 0.0453,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00028784924623115576,
      "loss": 2.9757,
      "step": 9060
    },
    {
      "epoch": 0.04535,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002878341708542713,
      "loss": 2.9451,
      "step": 9070
    },
    {
      "epoch": 0.0454,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028781909547738693,
      "loss": 2.943,
      "step": 9080
    },
    {
      "epoch": 0.04545,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002878040201005025,
      "loss": 2.9478,
      "step": 9090
    },
    {
      "epoch": 0.0455,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00028778894472361805,
      "loss": 2.9095,
      "step": 9100
    },
    {
      "epoch": 0.04555,
      "grad_norm": 1.625,
      "learning_rate": 0.00028777386934673366,
      "loss": 2.982,
      "step": 9110
    },
    {
      "epoch": 0.0456,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002877587939698492,
      "loss": 2.9732,
      "step": 9120
    },
    {
      "epoch": 0.04565,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00028774371859296484,
      "loss": 2.9472,
      "step": 9130
    },
    {
      "epoch": 0.0457,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002877286432160804,
      "loss": 2.9092,
      "step": 9140
    },
    {
      "epoch": 0.04575,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00028771356783919595,
      "loss": 2.9796,
      "step": 9150
    },
    {
      "epoch": 0.0458,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00028769849246231157,
      "loss": 2.9133,
      "step": 9160
    },
    {
      "epoch": 0.04585,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002876834170854271,
      "loss": 2.9179,
      "step": 9170
    },
    {
      "epoch": 0.0459,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002876683417085427,
      "loss": 2.945,
      "step": 9180
    },
    {
      "epoch": 0.04595,
      "grad_norm": 1.625,
      "learning_rate": 0.00028765326633165824,
      "loss": 2.9076,
      "step": 9190
    },
    {
      "epoch": 0.046,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00028763819095477386,
      "loss": 2.9226,
      "step": 9200
    },
    {
      "epoch": 0.04605,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002876231155778894,
      "loss": 2.9429,
      "step": 9210
    },
    {
      "epoch": 0.0461,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000287608040201005,
      "loss": 2.8834,
      "step": 9220
    },
    {
      "epoch": 0.04615,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002875929648241206,
      "loss": 2.8721,
      "step": 9230
    },
    {
      "epoch": 0.0462,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028757788944723615,
      "loss": 2.9567,
      "step": 9240
    },
    {
      "epoch": 0.04625,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002875628140703517,
      "loss": 2.8798,
      "step": 9250
    },
    {
      "epoch": 0.0463,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002875477386934673,
      "loss": 2.8962,
      "step": 9260
    },
    {
      "epoch": 0.04635,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002875326633165829,
      "loss": 2.9196,
      "step": 9270
    },
    {
      "epoch": 0.0464,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028751758793969844,
      "loss": 2.9267,
      "step": 9280
    },
    {
      "epoch": 0.04645,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00028750251256281405,
      "loss": 2.9117,
      "step": 9290
    },
    {
      "epoch": 0.0465,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002874874371859296,
      "loss": 2.9751,
      "step": 9300
    },
    {
      "epoch": 0.04655,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028747236180904517,
      "loss": 2.8917,
      "step": 9310
    },
    {
      "epoch": 0.0466,
      "grad_norm": 1.375,
      "learning_rate": 0.0002874572864321608,
      "loss": 2.9597,
      "step": 9320
    },
    {
      "epoch": 0.04665,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00028744221105527634,
      "loss": 2.9326,
      "step": 9330
    },
    {
      "epoch": 0.0467,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00028742713567839195,
      "loss": 2.9446,
      "step": 9340
    },
    {
      "epoch": 0.04675,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002874120603015075,
      "loss": 2.9324,
      "step": 9350
    },
    {
      "epoch": 0.0468,
      "grad_norm": 1.375,
      "learning_rate": 0.00028739698492462307,
      "loss": 2.9053,
      "step": 9360
    },
    {
      "epoch": 0.04685,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002873819095477387,
      "loss": 2.9046,
      "step": 9370
    },
    {
      "epoch": 0.0469,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028736683417085424,
      "loss": 2.9281,
      "step": 9380
    },
    {
      "epoch": 0.04695,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028735175879396986,
      "loss": 2.9102,
      "step": 9390
    },
    {
      "epoch": 0.047,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002873366834170854,
      "loss": 2.8986,
      "step": 9400
    },
    {
      "epoch": 0.04705,
      "grad_norm": 1.3828125,
      "learning_rate": 0.000287321608040201,
      "loss": 2.9142,
      "step": 9410
    },
    {
      "epoch": 0.0471,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002873065326633166,
      "loss": 2.9701,
      "step": 9420
    },
    {
      "epoch": 0.04715,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028729145728643215,
      "loss": 2.843,
      "step": 9430
    },
    {
      "epoch": 0.0472,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002872763819095477,
      "loss": 2.9304,
      "step": 9440
    },
    {
      "epoch": 0.04725,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002872613065326633,
      "loss": 2.8936,
      "step": 9450
    },
    {
      "epoch": 0.0473,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002872462311557789,
      "loss": 2.9032,
      "step": 9460
    },
    {
      "epoch": 0.04735,
      "grad_norm": 1.375,
      "learning_rate": 0.00028723115577889444,
      "loss": 2.8971,
      "step": 9470
    },
    {
      "epoch": 0.0474,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028721608040201005,
      "loss": 2.9449,
      "step": 9480
    },
    {
      "epoch": 0.04745,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002872010050251256,
      "loss": 2.8929,
      "step": 9490
    },
    {
      "epoch": 0.0475,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028718592964824117,
      "loss": 2.921,
      "step": 9500
    },
    {
      "epoch": 0.04755,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00028717085427135673,
      "loss": 2.927,
      "step": 9510
    },
    {
      "epoch": 0.0476,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00028715577889447234,
      "loss": 2.911,
      "step": 9520
    },
    {
      "epoch": 0.04765,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002871407035175879,
      "loss": 2.9236,
      "step": 9530
    },
    {
      "epoch": 0.0477,
      "grad_norm": 1.34375,
      "learning_rate": 0.00028712562814070346,
      "loss": 2.8955,
      "step": 9540
    },
    {
      "epoch": 0.04775,
      "grad_norm": 1.5,
      "learning_rate": 0.00028711055276381907,
      "loss": 2.9907,
      "step": 9550
    },
    {
      "epoch": 0.0478,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00028709547738693463,
      "loss": 2.9118,
      "step": 9560
    },
    {
      "epoch": 0.04785,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002870804020100502,
      "loss": 2.963,
      "step": 9570
    },
    {
      "epoch": 0.0479,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002870653266331658,
      "loss": 2.8656,
      "step": 9580
    },
    {
      "epoch": 0.04795,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00028705025125628136,
      "loss": 2.9264,
      "step": 9590
    },
    {
      "epoch": 0.048,
      "grad_norm": 1.65625,
      "learning_rate": 0.000287035175879397,
      "loss": 2.921,
      "step": 9600
    },
    {
      "epoch": 0.04805,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00028702010050251253,
      "loss": 2.9664,
      "step": 9610
    },
    {
      "epoch": 0.0481,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002870050251256281,
      "loss": 2.9256,
      "step": 9620
    },
    {
      "epoch": 0.04815,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002869899497487437,
      "loss": 2.904,
      "step": 9630
    },
    {
      "epoch": 0.0482,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028697487437185927,
      "loss": 2.9549,
      "step": 9640
    },
    {
      "epoch": 0.04825,
      "grad_norm": 2.0625,
      "learning_rate": 0.0002869597989949749,
      "loss": 2.9365,
      "step": 9650
    },
    {
      "epoch": 0.0483,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00028694472361809044,
      "loss": 2.9373,
      "step": 9660
    },
    {
      "epoch": 0.04835,
      "grad_norm": 1.578125,
      "learning_rate": 0.000286929648241206,
      "loss": 2.9144,
      "step": 9670
    },
    {
      "epoch": 0.0484,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002869145728643216,
      "loss": 2.8774,
      "step": 9680
    },
    {
      "epoch": 0.04845,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028689949748743717,
      "loss": 2.9194,
      "step": 9690
    },
    {
      "epoch": 0.0485,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00028688442211055273,
      "loss": 2.9156,
      "step": 9700
    },
    {
      "epoch": 0.04855,
      "grad_norm": 1.640625,
      "learning_rate": 0.00028686934673366834,
      "loss": 2.8891,
      "step": 9710
    },
    {
      "epoch": 0.0486,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002868542713567839,
      "loss": 2.9209,
      "step": 9720
    },
    {
      "epoch": 0.04865,
      "grad_norm": 1.40625,
      "learning_rate": 0.00028683919597989946,
      "loss": 2.9011,
      "step": 9730
    },
    {
      "epoch": 0.0487,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028682412060301507,
      "loss": 2.9279,
      "step": 9740
    },
    {
      "epoch": 0.04875,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028680904522613063,
      "loss": 2.88,
      "step": 9750
    },
    {
      "epoch": 0.0488,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002867939698492462,
      "loss": 2.8805,
      "step": 9760
    },
    {
      "epoch": 0.04885,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002867788944723618,
      "loss": 2.9481,
      "step": 9770
    },
    {
      "epoch": 0.0489,
      "grad_norm": 1.765625,
      "learning_rate": 0.00028676381909547736,
      "loss": 2.8667,
      "step": 9780
    },
    {
      "epoch": 0.04895,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002867487437185929,
      "loss": 2.9322,
      "step": 9790
    },
    {
      "epoch": 0.049,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00028673366834170854,
      "loss": 2.9703,
      "step": 9800
    },
    {
      "epoch": 0.04905,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002867185929648241,
      "loss": 2.8694,
      "step": 9810
    },
    {
      "epoch": 0.0491,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00028670351758793965,
      "loss": 2.9408,
      "step": 9820
    },
    {
      "epoch": 0.04915,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002866884422110552,
      "loss": 2.8014,
      "step": 9830
    },
    {
      "epoch": 0.0492,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002866733668341708,
      "loss": 2.9055,
      "step": 9840
    },
    {
      "epoch": 0.04925,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002866582914572864,
      "loss": 2.8797,
      "step": 9850
    },
    {
      "epoch": 0.0493,
      "grad_norm": 1.546875,
      "learning_rate": 0.000286643216080402,
      "loss": 2.8887,
      "step": 9860
    },
    {
      "epoch": 0.04935,
      "grad_norm": 1.734375,
      "learning_rate": 0.00028662814070351756,
      "loss": 2.935,
      "step": 9870
    },
    {
      "epoch": 0.0494,
      "grad_norm": 1.5,
      "learning_rate": 0.0002866130653266331,
      "loss": 2.9257,
      "step": 9880
    },
    {
      "epoch": 0.04945,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028659798994974873,
      "loss": 2.8501,
      "step": 9890
    },
    {
      "epoch": 0.0495,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002865829145728643,
      "loss": 2.8811,
      "step": 9900
    },
    {
      "epoch": 0.04955,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002865678391959799,
      "loss": 2.8597,
      "step": 9910
    },
    {
      "epoch": 0.0496,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00028655276381909546,
      "loss": 2.902,
      "step": 9920
    },
    {
      "epoch": 0.04965,
      "grad_norm": 1.328125,
      "learning_rate": 0.000286537688442211,
      "loss": 2.8848,
      "step": 9930
    },
    {
      "epoch": 0.0497,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00028652261306532663,
      "loss": 2.853,
      "step": 9940
    },
    {
      "epoch": 0.04975,
      "grad_norm": 1.5,
      "learning_rate": 0.0002865075376884422,
      "loss": 2.8974,
      "step": 9950
    },
    {
      "epoch": 0.0498,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002864924623115578,
      "loss": 2.8234,
      "step": 9960
    },
    {
      "epoch": 0.04985,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00028647738693467336,
      "loss": 2.9298,
      "step": 9970
    },
    {
      "epoch": 0.0499,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002864623115577889,
      "loss": 2.8771,
      "step": 9980
    },
    {
      "epoch": 0.04995,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002864472361809045,
      "loss": 2.9147,
      "step": 9990
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002864321608040201,
      "loss": 2.871,
      "step": 10000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.879042387008667,
      "eval_runtime": 90.7223,
      "eval_samples_per_second": 27.557,
      "eval_steps_per_second": 0.441,
      "step": 10000
    },
    {
      "epoch": 0.05005,
      "grad_norm": 1.625,
      "learning_rate": 0.00028641708542713565,
      "loss": 2.9429,
      "step": 10010
    },
    {
      "epoch": 0.0501,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002864020100502512,
      "loss": 2.9168,
      "step": 10020
    },
    {
      "epoch": 0.05015,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002863869346733668,
      "loss": 2.8708,
      "step": 10030
    },
    {
      "epoch": 0.0502,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002863718592964824,
      "loss": 2.8557,
      "step": 10040
    },
    {
      "epoch": 0.05025,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028635678391959794,
      "loss": 2.8802,
      "step": 10050
    },
    {
      "epoch": 0.0503,
      "grad_norm": 1.703125,
      "learning_rate": 0.00028634170854271356,
      "loss": 2.9278,
      "step": 10060
    },
    {
      "epoch": 0.05035,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002863266331658291,
      "loss": 2.9015,
      "step": 10070
    },
    {
      "epoch": 0.0504,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002863115577889447,
      "loss": 2.9013,
      "step": 10080
    },
    {
      "epoch": 0.05045,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002862964824120603,
      "loss": 2.8979,
      "step": 10090
    },
    {
      "epoch": 0.0505,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00028628140703517585,
      "loss": 2.9156,
      "step": 10100
    },
    {
      "epoch": 0.05055,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002862663316582914,
      "loss": 2.8992,
      "step": 10110
    },
    {
      "epoch": 0.0506,
      "grad_norm": 1.4921875,
      "learning_rate": 0.000286251256281407,
      "loss": 2.9033,
      "step": 10120
    },
    {
      "epoch": 0.05065,
      "grad_norm": 1.5,
      "learning_rate": 0.0002862361809045226,
      "loss": 2.8415,
      "step": 10130
    },
    {
      "epoch": 0.0507,
      "grad_norm": 1.609375,
      "learning_rate": 0.00028622110552763814,
      "loss": 2.9442,
      "step": 10140
    },
    {
      "epoch": 0.05075,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028620603015075375,
      "loss": 2.8807,
      "step": 10150
    },
    {
      "epoch": 0.0508,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002861909547738693,
      "loss": 2.8986,
      "step": 10160
    },
    {
      "epoch": 0.05085,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002861758793969849,
      "loss": 2.8533,
      "step": 10170
    },
    {
      "epoch": 0.0509,
      "grad_norm": 1.5,
      "learning_rate": 0.0002861608040201005,
      "loss": 2.9066,
      "step": 10180
    },
    {
      "epoch": 0.05095,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028614572864321604,
      "loss": 2.8752,
      "step": 10190
    },
    {
      "epoch": 0.051,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028613065326633165,
      "loss": 2.8773,
      "step": 10200
    },
    {
      "epoch": 0.05105,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002861155778894472,
      "loss": 2.8758,
      "step": 10210
    },
    {
      "epoch": 0.0511,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002861005025125628,
      "loss": 2.9307,
      "step": 10220
    },
    {
      "epoch": 0.05115,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002860854271356784,
      "loss": 2.8409,
      "step": 10230
    },
    {
      "epoch": 0.0512,
      "grad_norm": 1.6875,
      "learning_rate": 0.00028607035175879394,
      "loss": 2.8792,
      "step": 10240
    },
    {
      "epoch": 0.05125,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00028605527638190956,
      "loss": 2.8135,
      "step": 10250
    },
    {
      "epoch": 0.0513,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002860402010050251,
      "loss": 2.876,
      "step": 10260
    },
    {
      "epoch": 0.05135,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002860251256281407,
      "loss": 2.8605,
      "step": 10270
    },
    {
      "epoch": 0.0514,
      "grad_norm": 1.5,
      "learning_rate": 0.00028601005025125623,
      "loss": 2.8862,
      "step": 10280
    },
    {
      "epoch": 0.05145,
      "grad_norm": 1.5,
      "learning_rate": 0.00028599497487437185,
      "loss": 2.9182,
      "step": 10290
    },
    {
      "epoch": 0.0515,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002859798994974874,
      "loss": 2.8759,
      "step": 10300
    },
    {
      "epoch": 0.05155,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028596482412060297,
      "loss": 2.8279,
      "step": 10310
    },
    {
      "epoch": 0.0516,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002859497487437186,
      "loss": 2.8881,
      "step": 10320
    },
    {
      "epoch": 0.05165,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028593467336683414,
      "loss": 2.8468,
      "step": 10330
    },
    {
      "epoch": 0.0517,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002859195979899497,
      "loss": 2.8932,
      "step": 10340
    },
    {
      "epoch": 0.05175,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002859045226130653,
      "loss": 2.8725,
      "step": 10350
    },
    {
      "epoch": 0.0518,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028588944723618087,
      "loss": 2.8893,
      "step": 10360
    },
    {
      "epoch": 0.05185,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028587437185929643,
      "loss": 2.8854,
      "step": 10370
    },
    {
      "epoch": 0.0519,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028585929648241204,
      "loss": 2.8825,
      "step": 10380
    },
    {
      "epoch": 0.05195,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002858442211055276,
      "loss": 2.828,
      "step": 10390
    },
    {
      "epoch": 0.052,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00028582914572864316,
      "loss": 2.9006,
      "step": 10400
    },
    {
      "epoch": 0.05205,
      "grad_norm": 1.71875,
      "learning_rate": 0.00028581407035175877,
      "loss": 2.8892,
      "step": 10410
    },
    {
      "epoch": 0.0521,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00028579899497487433,
      "loss": 2.9328,
      "step": 10420
    },
    {
      "epoch": 0.05215,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028578391959798994,
      "loss": 2.8418,
      "step": 10430
    },
    {
      "epoch": 0.0522,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002857688442211055,
      "loss": 2.8515,
      "step": 10440
    },
    {
      "epoch": 0.05225,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00028575376884422106,
      "loss": 2.8429,
      "step": 10450
    },
    {
      "epoch": 0.0523,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002857386934673367,
      "loss": 2.9244,
      "step": 10460
    },
    {
      "epoch": 0.05235,
      "grad_norm": 1.640625,
      "learning_rate": 0.00028572361809045224,
      "loss": 2.848,
      "step": 10470
    },
    {
      "epoch": 0.0524,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028570854271356785,
      "loss": 2.91,
      "step": 10480
    },
    {
      "epoch": 0.05245,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002856934673366834,
      "loss": 2.8812,
      "step": 10490
    },
    {
      "epoch": 0.0525,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028567839195979897,
      "loss": 2.8577,
      "step": 10500
    },
    {
      "epoch": 0.05255,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002856633165829146,
      "loss": 2.8348,
      "step": 10510
    },
    {
      "epoch": 0.0526,
      "grad_norm": 1.421875,
      "learning_rate": 0.00028564824120603014,
      "loss": 2.8866,
      "step": 10520
    },
    {
      "epoch": 0.05265,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002856331658291457,
      "loss": 2.8521,
      "step": 10530
    },
    {
      "epoch": 0.0527,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002856180904522613,
      "loss": 2.8815,
      "step": 10540
    },
    {
      "epoch": 0.05275,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028560301507537687,
      "loss": 2.8314,
      "step": 10550
    },
    {
      "epoch": 0.0528,
      "grad_norm": 1.625,
      "learning_rate": 0.00028558793969849243,
      "loss": 2.911,
      "step": 10560
    },
    {
      "epoch": 0.05285,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00028557286432160804,
      "loss": 2.827,
      "step": 10570
    },
    {
      "epoch": 0.0529,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002855577889447236,
      "loss": 2.8836,
      "step": 10580
    },
    {
      "epoch": 0.05295,
      "grad_norm": 1.578125,
      "learning_rate": 0.00028554271356783916,
      "loss": 2.8692,
      "step": 10590
    },
    {
      "epoch": 0.053,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002855276381909547,
      "loss": 2.8975,
      "step": 10600
    },
    {
      "epoch": 0.05305,
      "grad_norm": 1.6875,
      "learning_rate": 0.00028551256281407033,
      "loss": 2.9441,
      "step": 10610
    },
    {
      "epoch": 0.0531,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002854974874371859,
      "loss": 2.8931,
      "step": 10620
    },
    {
      "epoch": 0.05315,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028548241206030145,
      "loss": 2.8823,
      "step": 10630
    },
    {
      "epoch": 0.0532,
      "grad_norm": 1.421875,
      "learning_rate": 0.00028546733668341706,
      "loss": 2.8633,
      "step": 10640
    },
    {
      "epoch": 0.05325,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002854522613065326,
      "loss": 2.9386,
      "step": 10650
    },
    {
      "epoch": 0.0533,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002854371859296482,
      "loss": 2.797,
      "step": 10660
    },
    {
      "epoch": 0.05335,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002854221105527638,
      "loss": 2.9315,
      "step": 10670
    },
    {
      "epoch": 0.0534,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00028540703517587935,
      "loss": 2.8574,
      "step": 10680
    },
    {
      "epoch": 0.05345,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00028539195979899497,
      "loss": 2.899,
      "step": 10690
    },
    {
      "epoch": 0.0535,
      "grad_norm": 1.625,
      "learning_rate": 0.0002853768844221105,
      "loss": 2.8165,
      "step": 10700
    },
    {
      "epoch": 0.05355,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002853618090452261,
      "loss": 2.8796,
      "step": 10710
    },
    {
      "epoch": 0.0536,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002853467336683417,
      "loss": 2.8894,
      "step": 10720
    },
    {
      "epoch": 0.05365,
      "grad_norm": 1.578125,
      "learning_rate": 0.00028533165829145726,
      "loss": 2.8305,
      "step": 10730
    },
    {
      "epoch": 0.0537,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028531658291457287,
      "loss": 2.9019,
      "step": 10740
    },
    {
      "epoch": 0.05375,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00028530150753768843,
      "loss": 2.8862,
      "step": 10750
    },
    {
      "epoch": 0.0538,
      "grad_norm": 1.4375,
      "learning_rate": 0.000285286432160804,
      "loss": 2.8755,
      "step": 10760
    },
    {
      "epoch": 0.05385,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002852713567839196,
      "loss": 2.8254,
      "step": 10770
    },
    {
      "epoch": 0.0539,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00028525628140703516,
      "loss": 2.8535,
      "step": 10780
    },
    {
      "epoch": 0.05395,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002852412060301507,
      "loss": 2.8481,
      "step": 10790
    },
    {
      "epoch": 0.054,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00028522613065326633,
      "loss": 2.8424,
      "step": 10800
    },
    {
      "epoch": 0.05405,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002852110552763819,
      "loss": 2.871,
      "step": 10810
    },
    {
      "epoch": 0.0541,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028519597989949745,
      "loss": 2.8424,
      "step": 10820
    },
    {
      "epoch": 0.05415,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028518090452261306,
      "loss": 2.8416,
      "step": 10830
    },
    {
      "epoch": 0.0542,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002851658291457286,
      "loss": 2.8604,
      "step": 10840
    },
    {
      "epoch": 0.05425,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002851507537688442,
      "loss": 2.8815,
      "step": 10850
    },
    {
      "epoch": 0.0543,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002851356783919598,
      "loss": 2.8498,
      "step": 10860
    },
    {
      "epoch": 0.05435,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00028512060301507535,
      "loss": 2.8416,
      "step": 10870
    },
    {
      "epoch": 0.0544,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002851055276381909,
      "loss": 2.8789,
      "step": 10880
    },
    {
      "epoch": 0.05445,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002850904522613065,
      "loss": 2.8706,
      "step": 10890
    },
    {
      "epoch": 0.0545,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002850753768844221,
      "loss": 2.8594,
      "step": 10900
    },
    {
      "epoch": 0.05455,
      "grad_norm": 1.4375,
      "learning_rate": 0.00028506030150753764,
      "loss": 2.8965,
      "step": 10910
    },
    {
      "epoch": 0.0546,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002850452261306532,
      "loss": 2.8499,
      "step": 10920
    },
    {
      "epoch": 0.05465,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002850301507537688,
      "loss": 2.9281,
      "step": 10930
    },
    {
      "epoch": 0.0547,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002850150753768844,
      "loss": 2.8142,
      "step": 10940
    },
    {
      "epoch": 0.05475,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000285,
      "loss": 2.7981,
      "step": 10950
    },
    {
      "epoch": 0.0548,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00028498492462311555,
      "loss": 2.8077,
      "step": 10960
    },
    {
      "epoch": 0.05485,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002849698492462311,
      "loss": 2.8642,
      "step": 10970
    },
    {
      "epoch": 0.0549,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002849547738693467,
      "loss": 2.9028,
      "step": 10980
    },
    {
      "epoch": 0.05495,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002849396984924623,
      "loss": 2.7898,
      "step": 10990
    },
    {
      "epoch": 0.055,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002849246231155779,
      "loss": 2.8507,
      "step": 11000
    },
    {
      "epoch": 0.05505,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028490954773869345,
      "loss": 2.78,
      "step": 11010
    },
    {
      "epoch": 0.0551,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000284894472361809,
      "loss": 2.8547,
      "step": 11020
    },
    {
      "epoch": 0.05515,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002848793969849246,
      "loss": 2.8102,
      "step": 11030
    },
    {
      "epoch": 0.0552,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002848643216080402,
      "loss": 2.8455,
      "step": 11040
    },
    {
      "epoch": 0.05525,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002848492462311558,
      "loss": 2.8201,
      "step": 11050
    },
    {
      "epoch": 0.0553,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028483417085427135,
      "loss": 2.8365,
      "step": 11060
    },
    {
      "epoch": 0.05535,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002848190954773869,
      "loss": 2.8353,
      "step": 11070
    },
    {
      "epoch": 0.0554,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00028480402010050247,
      "loss": 2.8354,
      "step": 11080
    },
    {
      "epoch": 0.05545,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002847889447236181,
      "loss": 2.8725,
      "step": 11090
    },
    {
      "epoch": 0.0555,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028477386934673364,
      "loss": 2.8467,
      "step": 11100
    },
    {
      "epoch": 0.05555,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002847587939698492,
      "loss": 2.9439,
      "step": 11110
    },
    {
      "epoch": 0.0556,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002847437185929648,
      "loss": 2.8295,
      "step": 11120
    },
    {
      "epoch": 0.05565,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002847286432160804,
      "loss": 2.8368,
      "step": 11130
    },
    {
      "epoch": 0.0557,
      "grad_norm": 1.5625,
      "learning_rate": 0.00028471356783919593,
      "loss": 2.8438,
      "step": 11140
    },
    {
      "epoch": 0.05575,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00028469849246231155,
      "loss": 2.8501,
      "step": 11150
    },
    {
      "epoch": 0.0558,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002846834170854271,
      "loss": 2.8585,
      "step": 11160
    },
    {
      "epoch": 0.05585,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028466834170854267,
      "loss": 2.8557,
      "step": 11170
    },
    {
      "epoch": 0.0559,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002846532663316583,
      "loss": 2.853,
      "step": 11180
    },
    {
      "epoch": 0.05595,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028463819095477384,
      "loss": 2.7752,
      "step": 11190
    },
    {
      "epoch": 0.056,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002846231155778894,
      "loss": 2.8492,
      "step": 11200
    },
    {
      "epoch": 0.05605,
      "grad_norm": 1.53125,
      "learning_rate": 0.000284608040201005,
      "loss": 2.8422,
      "step": 11210
    },
    {
      "epoch": 0.0561,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028459296482412057,
      "loss": 2.8718,
      "step": 11220
    },
    {
      "epoch": 0.05615,
      "grad_norm": 1.4375,
      "learning_rate": 0.00028457788944723613,
      "loss": 2.8115,
      "step": 11230
    },
    {
      "epoch": 0.0562,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00028456281407035174,
      "loss": 2.8293,
      "step": 11240
    },
    {
      "epoch": 0.05625,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002845477386934673,
      "loss": 2.8099,
      "step": 11250
    },
    {
      "epoch": 0.0563,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002845326633165829,
      "loss": 2.8392,
      "step": 11260
    },
    {
      "epoch": 0.05635,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028451758793969847,
      "loss": 2.8322,
      "step": 11270
    },
    {
      "epoch": 0.0564,
      "grad_norm": 1.421875,
      "learning_rate": 0.00028450251256281403,
      "loss": 2.804,
      "step": 11280
    },
    {
      "epoch": 0.05645,
      "grad_norm": 1.421875,
      "learning_rate": 0.00028448743718592965,
      "loss": 2.8581,
      "step": 11290
    },
    {
      "epoch": 0.0565,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002844723618090452,
      "loss": 2.8231,
      "step": 11300
    },
    {
      "epoch": 0.05655,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002844572864321608,
      "loss": 2.7998,
      "step": 11310
    },
    {
      "epoch": 0.0566,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002844422110552764,
      "loss": 2.8127,
      "step": 11320
    },
    {
      "epoch": 0.05665,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00028442713567839194,
      "loss": 2.8572,
      "step": 11330
    },
    {
      "epoch": 0.0567,
      "grad_norm": 1.5,
      "learning_rate": 0.00028441206030150755,
      "loss": 2.8021,
      "step": 11340
    },
    {
      "epoch": 0.05675,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002843969849246231,
      "loss": 2.9012,
      "step": 11350
    },
    {
      "epoch": 0.0568,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028438190954773867,
      "loss": 2.8207,
      "step": 11360
    },
    {
      "epoch": 0.05685,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002843668341708543,
      "loss": 2.8561,
      "step": 11370
    },
    {
      "epoch": 0.0569,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028435175879396984,
      "loss": 2.8168,
      "step": 11380
    },
    {
      "epoch": 0.05695,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002843366834170854,
      "loss": 2.747,
      "step": 11390
    },
    {
      "epoch": 0.057,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028432160804020096,
      "loss": 2.8181,
      "step": 11400
    },
    {
      "epoch": 0.05705,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028430653266331657,
      "loss": 2.8661,
      "step": 11410
    },
    {
      "epoch": 0.0571,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00028429145728643213,
      "loss": 2.8625,
      "step": 11420
    },
    {
      "epoch": 0.05715,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002842763819095477,
      "loss": 2.7581,
      "step": 11430
    },
    {
      "epoch": 0.0572,
      "grad_norm": 1.359375,
      "learning_rate": 0.0002842613065326633,
      "loss": 2.8512,
      "step": 11440
    },
    {
      "epoch": 0.05725,
      "grad_norm": 1.40625,
      "learning_rate": 0.00028424623115577886,
      "loss": 2.8167,
      "step": 11450
    },
    {
      "epoch": 0.0573,
      "grad_norm": 1.5,
      "learning_rate": 0.0002842311557788944,
      "loss": 2.8958,
      "step": 11460
    },
    {
      "epoch": 0.05735,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00028421608040201003,
      "loss": 2.855,
      "step": 11470
    },
    {
      "epoch": 0.0574,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002842010050251256,
      "loss": 2.8109,
      "step": 11480
    },
    {
      "epoch": 0.05745,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00028418592964824115,
      "loss": 2.8068,
      "step": 11490
    },
    {
      "epoch": 0.0575,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028417085427135676,
      "loss": 2.8058,
      "step": 11500
    },
    {
      "epoch": 0.05755,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002841557788944723,
      "loss": 2.8342,
      "step": 11510
    },
    {
      "epoch": 0.0576,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00028414070351758794,
      "loss": 2.7702,
      "step": 11520
    },
    {
      "epoch": 0.05765,
      "grad_norm": 1.3046875,
      "learning_rate": 0.0002841256281407035,
      "loss": 2.8318,
      "step": 11530
    },
    {
      "epoch": 0.0577,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028411055276381905,
      "loss": 2.8326,
      "step": 11540
    },
    {
      "epoch": 0.05775,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00028409547738693467,
      "loss": 2.8624,
      "step": 11550
    },
    {
      "epoch": 0.0578,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002840804020100502,
      "loss": 2.8438,
      "step": 11560
    },
    {
      "epoch": 0.05785,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00028406532663316584,
      "loss": 2.7809,
      "step": 11570
    },
    {
      "epoch": 0.0579,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002840502512562814,
      "loss": 2.8191,
      "step": 11580
    },
    {
      "epoch": 0.05795,
      "grad_norm": 1.390625,
      "learning_rate": 0.00028403517587939696,
      "loss": 2.8143,
      "step": 11590
    },
    {
      "epoch": 0.058,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028402010050251257,
      "loss": 2.8293,
      "step": 11600
    },
    {
      "epoch": 0.05805,
      "grad_norm": 1.5,
      "learning_rate": 0.00028400502512562813,
      "loss": 2.8478,
      "step": 11610
    },
    {
      "epoch": 0.0581,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002839899497487437,
      "loss": 2.8859,
      "step": 11620
    },
    {
      "epoch": 0.05815,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002839748743718593,
      "loss": 2.803,
      "step": 11630
    },
    {
      "epoch": 0.0582,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00028395979899497486,
      "loss": 2.8791,
      "step": 11640
    },
    {
      "epoch": 0.05825,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002839447236180904,
      "loss": 2.8387,
      "step": 11650
    },
    {
      "epoch": 0.0583,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00028392964824120603,
      "loss": 2.8308,
      "step": 11660
    },
    {
      "epoch": 0.05835,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002839145728643216,
      "loss": 2.8529,
      "step": 11670
    },
    {
      "epoch": 0.0584,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028389949748743715,
      "loss": 2.8126,
      "step": 11680
    },
    {
      "epoch": 0.05845,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002838844221105527,
      "loss": 2.8349,
      "step": 11690
    },
    {
      "epoch": 0.0585,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002838693467336683,
      "loss": 2.8318,
      "step": 11700
    },
    {
      "epoch": 0.05855,
      "grad_norm": 1.625,
      "learning_rate": 0.0002838542713567839,
      "loss": 2.8563,
      "step": 11710
    },
    {
      "epoch": 0.0586,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00028383919597989944,
      "loss": 2.7894,
      "step": 11720
    },
    {
      "epoch": 0.05865,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028382412060301505,
      "loss": 2.8569,
      "step": 11730
    },
    {
      "epoch": 0.0587,
      "grad_norm": 1.375,
      "learning_rate": 0.0002838090452261306,
      "loss": 2.8437,
      "step": 11740
    },
    {
      "epoch": 0.05875,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00028379396984924617,
      "loss": 2.7679,
      "step": 11750
    },
    {
      "epoch": 0.0588,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002837788944723618,
      "loss": 2.791,
      "step": 11760
    },
    {
      "epoch": 0.05885,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028376381909547734,
      "loss": 2.7998,
      "step": 11770
    },
    {
      "epoch": 0.0589,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002837487437185929,
      "loss": 2.7989,
      "step": 11780
    },
    {
      "epoch": 0.05895,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002837336683417085,
      "loss": 2.7873,
      "step": 11790
    },
    {
      "epoch": 0.059,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002837185929648241,
      "loss": 2.8229,
      "step": 11800
    },
    {
      "epoch": 0.05905,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002837035175879397,
      "loss": 2.8377,
      "step": 11810
    },
    {
      "epoch": 0.0591,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00028368844221105525,
      "loss": 2.8826,
      "step": 11820
    },
    {
      "epoch": 0.05915,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028367336683417086,
      "loss": 2.7734,
      "step": 11830
    },
    {
      "epoch": 0.0592,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002836582914572864,
      "loss": 2.8874,
      "step": 11840
    },
    {
      "epoch": 0.05925,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000283643216080402,
      "loss": 2.7762,
      "step": 11850
    },
    {
      "epoch": 0.0593,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0002836281407035176,
      "loss": 2.8196,
      "step": 11860
    },
    {
      "epoch": 0.05935,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00028361306532663315,
      "loss": 2.8,
      "step": 11870
    },
    {
      "epoch": 0.0594,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002835979899497487,
      "loss": 2.8396,
      "step": 11880
    },
    {
      "epoch": 0.05945,
      "grad_norm": 1.625,
      "learning_rate": 0.0002835829145728643,
      "loss": 2.8052,
      "step": 11890
    },
    {
      "epoch": 0.0595,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002835678391959799,
      "loss": 2.8088,
      "step": 11900
    },
    {
      "epoch": 0.05955,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00028355276381909544,
      "loss": 2.8425,
      "step": 11910
    },
    {
      "epoch": 0.0596,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00028353768844221105,
      "loss": 2.7788,
      "step": 11920
    },
    {
      "epoch": 0.05965,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002835226130653266,
      "loss": 2.8088,
      "step": 11930
    },
    {
      "epoch": 0.0597,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00028350753768844217,
      "loss": 2.8078,
      "step": 11940
    },
    {
      "epoch": 0.05975,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002834924623115578,
      "loss": 2.7964,
      "step": 11950
    },
    {
      "epoch": 0.0598,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00028347738693467334,
      "loss": 2.822,
      "step": 11960
    },
    {
      "epoch": 0.05985,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0002834623115577889,
      "loss": 2.8418,
      "step": 11970
    },
    {
      "epoch": 0.0599,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002834472361809045,
      "loss": 2.8057,
      "step": 11980
    },
    {
      "epoch": 0.05995,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002834321608040201,
      "loss": 2.744,
      "step": 11990
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.625,
      "learning_rate": 0.00028341708542713564,
      "loss": 2.8305,
      "step": 12000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.790564775466919,
      "eval_runtime": 93.1802,
      "eval_samples_per_second": 26.83,
      "eval_steps_per_second": 0.429,
      "step": 12000
    },
    {
      "epoch": 0.06005,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002834020100502512,
      "loss": 2.8175,
      "step": 12010
    },
    {
      "epoch": 0.0601,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002833869346733668,
      "loss": 2.7727,
      "step": 12020
    },
    {
      "epoch": 0.06015,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00028337185929648237,
      "loss": 2.8123,
      "step": 12030
    },
    {
      "epoch": 0.0602,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002833567839195979,
      "loss": 2.8614,
      "step": 12040
    },
    {
      "epoch": 0.06025,
      "grad_norm": 1.703125,
      "learning_rate": 0.00028334170854271354,
      "loss": 2.8364,
      "step": 12050
    },
    {
      "epoch": 0.0603,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002833266331658291,
      "loss": 2.8609,
      "step": 12060
    },
    {
      "epoch": 0.06035,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002833115577889447,
      "loss": 2.7597,
      "step": 12070
    },
    {
      "epoch": 0.0604,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00028329648241206027,
      "loss": 2.8255,
      "step": 12080
    },
    {
      "epoch": 0.06045,
      "grad_norm": 1.3125,
      "learning_rate": 0.0002832814070351759,
      "loss": 2.8014,
      "step": 12090
    },
    {
      "epoch": 0.0605,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028326633165829144,
      "loss": 2.7892,
      "step": 12100
    },
    {
      "epoch": 0.06055,
      "grad_norm": 1.6796875,
      "learning_rate": 0.000283251256281407,
      "loss": 2.847,
      "step": 12110
    },
    {
      "epoch": 0.0606,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002832361809045226,
      "loss": 2.8092,
      "step": 12120
    },
    {
      "epoch": 0.06065,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0002832211055276382,
      "loss": 2.8493,
      "step": 12130
    },
    {
      "epoch": 0.0607,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002832060301507538,
      "loss": 2.7677,
      "step": 12140
    },
    {
      "epoch": 0.06075,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00028319095477386935,
      "loss": 2.7972,
      "step": 12150
    },
    {
      "epoch": 0.0608,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002831758793969849,
      "loss": 2.7777,
      "step": 12160
    },
    {
      "epoch": 0.06085,
      "grad_norm": 1.375,
      "learning_rate": 0.00028316080402010046,
      "loss": 2.7764,
      "step": 12170
    },
    {
      "epoch": 0.0609,
      "grad_norm": 1.375,
      "learning_rate": 0.0002831457286432161,
      "loss": 2.7754,
      "step": 12180
    },
    {
      "epoch": 0.06095,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00028313065326633164,
      "loss": 2.7686,
      "step": 12190
    },
    {
      "epoch": 0.061,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002831155778894472,
      "loss": 2.7731,
      "step": 12200
    },
    {
      "epoch": 0.06105,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002831005025125628,
      "loss": 2.7426,
      "step": 12210
    },
    {
      "epoch": 0.0611,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00028308542713567837,
      "loss": 2.7841,
      "step": 12220
    },
    {
      "epoch": 0.06115,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002830703517587939,
      "loss": 2.7837,
      "step": 12230
    },
    {
      "epoch": 0.0612,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028305527638190954,
      "loss": 2.7817,
      "step": 12240
    },
    {
      "epoch": 0.06125,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002830402010050251,
      "loss": 2.7383,
      "step": 12250
    },
    {
      "epoch": 0.0613,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00028302512562814066,
      "loss": 2.7746,
      "step": 12260
    },
    {
      "epoch": 0.06135,
      "grad_norm": 1.5625,
      "learning_rate": 0.00028301005025125627,
      "loss": 2.7729,
      "step": 12270
    },
    {
      "epoch": 0.0614,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00028299497487437183,
      "loss": 2.7642,
      "step": 12280
    },
    {
      "epoch": 0.06145,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002829798994974874,
      "loss": 2.8203,
      "step": 12290
    },
    {
      "epoch": 0.0615,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000282964824120603,
      "loss": 2.7592,
      "step": 12300
    },
    {
      "epoch": 0.06155,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00028294974874371856,
      "loss": 2.815,
      "step": 12310
    },
    {
      "epoch": 0.0616,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002829346733668341,
      "loss": 2.8176,
      "step": 12320
    },
    {
      "epoch": 0.06165,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00028291959798994973,
      "loss": 2.791,
      "step": 12330
    },
    {
      "epoch": 0.0617,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002829045226130653,
      "loss": 2.7983,
      "step": 12340
    },
    {
      "epoch": 0.06175,
      "grad_norm": 1.609375,
      "learning_rate": 0.00028288944723618085,
      "loss": 2.762,
      "step": 12350
    },
    {
      "epoch": 0.0618,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028287437185929646,
      "loss": 2.8286,
      "step": 12360
    },
    {
      "epoch": 0.06185,
      "grad_norm": 1.546875,
      "learning_rate": 0.000282859296482412,
      "loss": 2.7861,
      "step": 12370
    },
    {
      "epoch": 0.0619,
      "grad_norm": 1.390625,
      "learning_rate": 0.00028284422110552764,
      "loss": 2.8067,
      "step": 12380
    },
    {
      "epoch": 0.06195,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002828291457286432,
      "loss": 2.7145,
      "step": 12390
    },
    {
      "epoch": 0.062,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002828140703517588,
      "loss": 2.8189,
      "step": 12400
    },
    {
      "epoch": 0.06205,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028279899497487437,
      "loss": 2.7703,
      "step": 12410
    },
    {
      "epoch": 0.0621,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002827839195979899,
      "loss": 2.8019,
      "step": 12420
    },
    {
      "epoch": 0.06215,
      "grad_norm": 1.578125,
      "learning_rate": 0.00028276884422110554,
      "loss": 2.7992,
      "step": 12430
    },
    {
      "epoch": 0.0622,
      "grad_norm": 1.3359375,
      "learning_rate": 0.0002827537688442211,
      "loss": 2.7578,
      "step": 12440
    },
    {
      "epoch": 0.06225,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028273869346733666,
      "loss": 2.7749,
      "step": 12450
    },
    {
      "epoch": 0.0623,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00028272361809045227,
      "loss": 2.7504,
      "step": 12460
    },
    {
      "epoch": 0.06235,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028270854271356783,
      "loss": 2.7978,
      "step": 12470
    },
    {
      "epoch": 0.0624,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002826934673366834,
      "loss": 2.792,
      "step": 12480
    },
    {
      "epoch": 0.06245,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00028267839195979895,
      "loss": 2.7725,
      "step": 12490
    },
    {
      "epoch": 0.0625,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00028266331658291456,
      "loss": 2.8414,
      "step": 12500
    },
    {
      "epoch": 0.06255,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002826482412060301,
      "loss": 2.7741,
      "step": 12510
    },
    {
      "epoch": 0.0626,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002826331658291457,
      "loss": 2.7511,
      "step": 12520
    },
    {
      "epoch": 0.06265,
      "grad_norm": 1.375,
      "learning_rate": 0.0002826180904522613,
      "loss": 2.7682,
      "step": 12530
    },
    {
      "epoch": 0.0627,
      "grad_norm": 1.640625,
      "learning_rate": 0.00028260301507537685,
      "loss": 2.8545,
      "step": 12540
    },
    {
      "epoch": 0.06275,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002825879396984924,
      "loss": 2.7825,
      "step": 12550
    },
    {
      "epoch": 0.0628,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000282572864321608,
      "loss": 2.7868,
      "step": 12560
    },
    {
      "epoch": 0.06285,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002825577889447236,
      "loss": 2.7588,
      "step": 12570
    },
    {
      "epoch": 0.0629,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028254271356783914,
      "loss": 2.8151,
      "step": 12580
    },
    {
      "epoch": 0.06295,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028252763819095475,
      "loss": 2.8201,
      "step": 12590
    },
    {
      "epoch": 0.063,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002825125628140703,
      "loss": 2.7824,
      "step": 12600
    },
    {
      "epoch": 0.06305,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00028249748743718587,
      "loss": 2.7835,
      "step": 12610
    },
    {
      "epoch": 0.0631,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002824824120603015,
      "loss": 2.7657,
      "step": 12620
    },
    {
      "epoch": 0.06315,
      "grad_norm": 1.3515625,
      "learning_rate": 0.00028246733668341704,
      "loss": 2.8163,
      "step": 12630
    },
    {
      "epoch": 0.0632,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00028245226130653266,
      "loss": 2.7199,
      "step": 12640
    },
    {
      "epoch": 0.06325,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002824371859296482,
      "loss": 2.767,
      "step": 12650
    },
    {
      "epoch": 0.0633,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002824221105527638,
      "loss": 2.8168,
      "step": 12660
    },
    {
      "epoch": 0.06335,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002824070351758794,
      "loss": 2.8145,
      "step": 12670
    },
    {
      "epoch": 0.0634,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028239195979899495,
      "loss": 2.7779,
      "step": 12680
    },
    {
      "epoch": 0.06345,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028237688442211056,
      "loss": 2.8022,
      "step": 12690
    },
    {
      "epoch": 0.0635,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002823618090452261,
      "loss": 2.7636,
      "step": 12700
    },
    {
      "epoch": 0.06355,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002823467336683417,
      "loss": 2.7663,
      "step": 12710
    },
    {
      "epoch": 0.0636,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002823316582914573,
      "loss": 2.74,
      "step": 12720
    },
    {
      "epoch": 0.06365,
      "grad_norm": 1.578125,
      "learning_rate": 0.00028231658291457285,
      "loss": 2.7623,
      "step": 12730
    },
    {
      "epoch": 0.0637,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002823015075376884,
      "loss": 2.8178,
      "step": 12740
    },
    {
      "epoch": 0.06375,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000282286432160804,
      "loss": 2.7595,
      "step": 12750
    },
    {
      "epoch": 0.0638,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002822713567839196,
      "loss": 2.7616,
      "step": 12760
    },
    {
      "epoch": 0.06385,
      "grad_norm": 1.609375,
      "learning_rate": 0.00028225628140703514,
      "loss": 2.7621,
      "step": 12770
    },
    {
      "epoch": 0.0639,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002822412060301507,
      "loss": 2.7817,
      "step": 12780
    },
    {
      "epoch": 0.06395,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002822261306532663,
      "loss": 2.7412,
      "step": 12790
    },
    {
      "epoch": 0.064,
      "grad_norm": 1.640625,
      "learning_rate": 0.00028221105527638187,
      "loss": 2.7791,
      "step": 12800
    },
    {
      "epoch": 0.06405,
      "grad_norm": 1.40625,
      "learning_rate": 0.00028219597989949743,
      "loss": 2.7884,
      "step": 12810
    },
    {
      "epoch": 0.0641,
      "grad_norm": 1.6875,
      "learning_rate": 0.00028218090452261305,
      "loss": 2.798,
      "step": 12820
    },
    {
      "epoch": 0.06415,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002821658291457286,
      "loss": 2.797,
      "step": 12830
    },
    {
      "epoch": 0.0642,
      "grad_norm": 1.5625,
      "learning_rate": 0.00028215075376884416,
      "loss": 2.7767,
      "step": 12840
    },
    {
      "epoch": 0.06425,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002821356783919598,
      "loss": 2.7829,
      "step": 12850
    },
    {
      "epoch": 0.0643,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028212060301507534,
      "loss": 2.7268,
      "step": 12860
    },
    {
      "epoch": 0.06435,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002821055276381909,
      "loss": 2.8218,
      "step": 12870
    },
    {
      "epoch": 0.0644,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002820904522613065,
      "loss": 2.7669,
      "step": 12880
    },
    {
      "epoch": 0.06445,
      "grad_norm": 1.625,
      "learning_rate": 0.00028207537688442207,
      "loss": 2.772,
      "step": 12890
    },
    {
      "epoch": 0.0645,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002820603015075377,
      "loss": 2.7864,
      "step": 12900
    },
    {
      "epoch": 0.06455,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028204522613065324,
      "loss": 2.7451,
      "step": 12910
    },
    {
      "epoch": 0.0646,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002820301507537688,
      "loss": 2.7671,
      "step": 12920
    },
    {
      "epoch": 0.06465,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002820150753768844,
      "loss": 2.7603,
      "step": 12930
    },
    {
      "epoch": 0.0647,
      "grad_norm": 1.640625,
      "learning_rate": 0.00028199999999999997,
      "loss": 2.7732,
      "step": 12940
    },
    {
      "epoch": 0.06475,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002819849246231156,
      "loss": 2.7855,
      "step": 12950
    },
    {
      "epoch": 0.0648,
      "grad_norm": 1.5,
      "learning_rate": 0.00028196984924623114,
      "loss": 2.7443,
      "step": 12960
    },
    {
      "epoch": 0.06485,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002819547738693467,
      "loss": 2.7898,
      "step": 12970
    },
    {
      "epoch": 0.0649,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002819396984924623,
      "loss": 2.7741,
      "step": 12980
    },
    {
      "epoch": 0.06495,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002819246231155779,
      "loss": 2.8101,
      "step": 12990
    },
    {
      "epoch": 0.065,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028190954773869343,
      "loss": 2.7884,
      "step": 13000
    },
    {
      "epoch": 0.06505,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00028189447236180905,
      "loss": 2.729,
      "step": 13010
    },
    {
      "epoch": 0.0651,
      "grad_norm": 1.625,
      "learning_rate": 0.0002818793969849246,
      "loss": 2.7926,
      "step": 13020
    },
    {
      "epoch": 0.06515,
      "grad_norm": 1.515625,
      "learning_rate": 0.00028186432160804016,
      "loss": 2.7395,
      "step": 13030
    },
    {
      "epoch": 0.0652,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002818492462311558,
      "loss": 2.7914,
      "step": 13040
    },
    {
      "epoch": 0.06525,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028183417085427134,
      "loss": 2.7251,
      "step": 13050
    },
    {
      "epoch": 0.0653,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002818190954773869,
      "loss": 2.7803,
      "step": 13060
    },
    {
      "epoch": 0.06535,
      "grad_norm": 1.625,
      "learning_rate": 0.0002818040201005025,
      "loss": 2.7619,
      "step": 13070
    },
    {
      "epoch": 0.0654,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028178894472361807,
      "loss": 2.7506,
      "step": 13080
    },
    {
      "epoch": 0.06545,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002817738693467336,
      "loss": 2.7756,
      "step": 13090
    },
    {
      "epoch": 0.0655,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002817587939698492,
      "loss": 2.77,
      "step": 13100
    },
    {
      "epoch": 0.06555,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002817437185929648,
      "loss": 2.7454,
      "step": 13110
    },
    {
      "epoch": 0.0656,
      "grad_norm": 1.671875,
      "learning_rate": 0.00028172864321608036,
      "loss": 2.7798,
      "step": 13120
    },
    {
      "epoch": 0.06565,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002817135678391959,
      "loss": 2.7597,
      "step": 13130
    },
    {
      "epoch": 0.0657,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028169849246231153,
      "loss": 2.7451,
      "step": 13140
    },
    {
      "epoch": 0.06575,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002816834170854271,
      "loss": 2.7221,
      "step": 13150
    },
    {
      "epoch": 0.0658,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002816683417085427,
      "loss": 2.7938,
      "step": 13160
    },
    {
      "epoch": 0.06585,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00028165326633165826,
      "loss": 2.7571,
      "step": 13170
    },
    {
      "epoch": 0.0659,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002816381909547738,
      "loss": 2.8227,
      "step": 13180
    },
    {
      "epoch": 0.06595,
      "grad_norm": 1.5,
      "learning_rate": 0.00028162311557788943,
      "loss": 2.7844,
      "step": 13190
    },
    {
      "epoch": 0.066,
      "grad_norm": 1.359375,
      "learning_rate": 0.000281608040201005,
      "loss": 2.745,
      "step": 13200
    },
    {
      "epoch": 0.06605,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002815929648241206,
      "loss": 2.6817,
      "step": 13210
    },
    {
      "epoch": 0.0661,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028157788944723616,
      "loss": 2.7897,
      "step": 13220
    },
    {
      "epoch": 0.06615,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002815628140703517,
      "loss": 2.723,
      "step": 13230
    },
    {
      "epoch": 0.0662,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00028154773869346734,
      "loss": 2.7747,
      "step": 13240
    },
    {
      "epoch": 0.06625,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0002815326633165829,
      "loss": 2.7622,
      "step": 13250
    },
    {
      "epoch": 0.0663,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00028151758793969845,
      "loss": 2.7809,
      "step": 13260
    },
    {
      "epoch": 0.06635,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00028150251256281407,
      "loss": 2.7502,
      "step": 13270
    },
    {
      "epoch": 0.0664,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002814874371859296,
      "loss": 2.7299,
      "step": 13280
    },
    {
      "epoch": 0.06645,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002814723618090452,
      "loss": 2.7711,
      "step": 13290
    },
    {
      "epoch": 0.0665,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002814572864321608,
      "loss": 2.7911,
      "step": 13300
    },
    {
      "epoch": 0.06655,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00028144221105527636,
      "loss": 2.7052,
      "step": 13310
    },
    {
      "epoch": 0.0666,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002814271356783919,
      "loss": 2.8,
      "step": 13320
    },
    {
      "epoch": 0.06665,
      "grad_norm": 1.71875,
      "learning_rate": 0.00028141206030150753,
      "loss": 2.7563,
      "step": 13330
    },
    {
      "epoch": 0.0667,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002813969849246231,
      "loss": 2.727,
      "step": 13340
    },
    {
      "epoch": 0.06675,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028138190954773865,
      "loss": 2.7503,
      "step": 13350
    },
    {
      "epoch": 0.0668,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028136683417085426,
      "loss": 2.7538,
      "step": 13360
    },
    {
      "epoch": 0.06685,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002813517587939698,
      "loss": 2.7728,
      "step": 13370
    },
    {
      "epoch": 0.0669,
      "grad_norm": 1.3203125,
      "learning_rate": 0.0002813366834170854,
      "loss": 2.745,
      "step": 13380
    },
    {
      "epoch": 0.06695,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000281321608040201,
      "loss": 2.7297,
      "step": 13390
    },
    {
      "epoch": 0.067,
      "grad_norm": 1.671875,
      "learning_rate": 0.00028130653266331655,
      "loss": 2.7423,
      "step": 13400
    },
    {
      "epoch": 0.06705,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002812914572864321,
      "loss": 2.7465,
      "step": 13410
    },
    {
      "epoch": 0.0671,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002812763819095477,
      "loss": 2.7588,
      "step": 13420
    },
    {
      "epoch": 0.06715,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002812613065326633,
      "loss": 2.799,
      "step": 13430
    },
    {
      "epoch": 0.0672,
      "grad_norm": 1.59375,
      "learning_rate": 0.00028124623115577884,
      "loss": 2.7459,
      "step": 13440
    },
    {
      "epoch": 0.06725,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00028123115577889445,
      "loss": 2.75,
      "step": 13450
    },
    {
      "epoch": 0.0673,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00028121608040201,
      "loss": 2.7853,
      "step": 13460
    },
    {
      "epoch": 0.06735,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002812010050251256,
      "loss": 2.7405,
      "step": 13470
    },
    {
      "epoch": 0.0674,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002811859296482412,
      "loss": 2.7588,
      "step": 13480
    },
    {
      "epoch": 0.06745,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00028117085427135674,
      "loss": 2.7718,
      "step": 13490
    },
    {
      "epoch": 0.0675,
      "grad_norm": 1.4375,
      "learning_rate": 0.00028115577889447236,
      "loss": 2.8012,
      "step": 13500
    },
    {
      "epoch": 0.06755,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002811407035175879,
      "loss": 2.7238,
      "step": 13510
    },
    {
      "epoch": 0.0676,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028112562814070353,
      "loss": 2.7706,
      "step": 13520
    },
    {
      "epoch": 0.06765,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002811105527638191,
      "loss": 2.7416,
      "step": 13530
    },
    {
      "epoch": 0.0677,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00028109547738693465,
      "loss": 2.8029,
      "step": 13540
    },
    {
      "epoch": 0.06775,
      "grad_norm": 1.578125,
      "learning_rate": 0.00028108040201005026,
      "loss": 2.749,
      "step": 13550
    },
    {
      "epoch": 0.0678,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002810653266331658,
      "loss": 2.7732,
      "step": 13560
    },
    {
      "epoch": 0.06785,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002810502512562814,
      "loss": 2.7846,
      "step": 13570
    },
    {
      "epoch": 0.0679,
      "grad_norm": 1.65625,
      "learning_rate": 0.00028103517587939694,
      "loss": 2.7313,
      "step": 13580
    },
    {
      "epoch": 0.06795,
      "grad_norm": 1.421875,
      "learning_rate": 0.00028102010050251255,
      "loss": 2.7009,
      "step": 13590
    },
    {
      "epoch": 0.068,
      "grad_norm": 1.75,
      "learning_rate": 0.0002810050251256281,
      "loss": 2.7423,
      "step": 13600
    },
    {
      "epoch": 0.06805,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00028098994974874367,
      "loss": 2.7277,
      "step": 13610
    },
    {
      "epoch": 0.0681,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002809748743718593,
      "loss": 2.7359,
      "step": 13620
    },
    {
      "epoch": 0.06815,
      "grad_norm": 1.5,
      "learning_rate": 0.00028095979899497484,
      "loss": 2.7618,
      "step": 13630
    },
    {
      "epoch": 0.0682,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002809447236180904,
      "loss": 2.8096,
      "step": 13640
    },
    {
      "epoch": 0.06825,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000280929648241206,
      "loss": 2.7777,
      "step": 13650
    },
    {
      "epoch": 0.0683,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002809145728643216,
      "loss": 2.7486,
      "step": 13660
    },
    {
      "epoch": 0.06835,
      "grad_norm": 1.5625,
      "learning_rate": 0.00028089949748743713,
      "loss": 2.7469,
      "step": 13670
    },
    {
      "epoch": 0.0684,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028088442211055275,
      "loss": 2.7208,
      "step": 13680
    },
    {
      "epoch": 0.06845,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002808693467336683,
      "loss": 2.7396,
      "step": 13690
    },
    {
      "epoch": 0.0685,
      "grad_norm": 1.5625,
      "learning_rate": 0.00028085427135678386,
      "loss": 2.6599,
      "step": 13700
    },
    {
      "epoch": 0.06855,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002808391959798995,
      "loss": 2.7066,
      "step": 13710
    },
    {
      "epoch": 0.0686,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00028082412060301504,
      "loss": 2.7548,
      "step": 13720
    },
    {
      "epoch": 0.06865,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028080904522613065,
      "loss": 2.7474,
      "step": 13730
    },
    {
      "epoch": 0.0687,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002807939698492462,
      "loss": 2.6956,
      "step": 13740
    },
    {
      "epoch": 0.06875,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028077889447236177,
      "loss": 2.7072,
      "step": 13750
    },
    {
      "epoch": 0.0688,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002807638190954774,
      "loss": 2.7269,
      "step": 13760
    },
    {
      "epoch": 0.06885,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00028074874371859294,
      "loss": 2.6784,
      "step": 13770
    },
    {
      "epoch": 0.0689,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028073366834170855,
      "loss": 2.7537,
      "step": 13780
    },
    {
      "epoch": 0.06895,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002807185929648241,
      "loss": 2.7092,
      "step": 13790
    },
    {
      "epoch": 0.069,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00028070351758793967,
      "loss": 2.7036,
      "step": 13800
    },
    {
      "epoch": 0.06905,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002806884422110553,
      "loss": 2.7114,
      "step": 13810
    },
    {
      "epoch": 0.0691,
      "grad_norm": 1.40625,
      "learning_rate": 0.00028067336683417084,
      "loss": 2.7666,
      "step": 13820
    },
    {
      "epoch": 0.06915,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002806582914572864,
      "loss": 2.7482,
      "step": 13830
    },
    {
      "epoch": 0.0692,
      "grad_norm": 1.46875,
      "learning_rate": 0.000280643216080402,
      "loss": 2.7601,
      "step": 13840
    },
    {
      "epoch": 0.06925,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002806281407035176,
      "loss": 2.7676,
      "step": 13850
    },
    {
      "epoch": 0.0693,
      "grad_norm": 1.703125,
      "learning_rate": 0.00028061306532663313,
      "loss": 2.6863,
      "step": 13860
    },
    {
      "epoch": 0.06935,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002805979899497487,
      "loss": 2.729,
      "step": 13870
    },
    {
      "epoch": 0.0694,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002805829145728643,
      "loss": 2.6571,
      "step": 13880
    },
    {
      "epoch": 0.06945,
      "grad_norm": 1.4375,
      "learning_rate": 0.00028056783919597986,
      "loss": 2.7171,
      "step": 13890
    },
    {
      "epoch": 0.0695,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002805527638190954,
      "loss": 2.7414,
      "step": 13900
    },
    {
      "epoch": 0.06955,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028053768844221104,
      "loss": 2.732,
      "step": 13910
    },
    {
      "epoch": 0.0696,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002805226130653266,
      "loss": 2.726,
      "step": 13920
    },
    {
      "epoch": 0.06965,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028050753768844215,
      "loss": 2.7325,
      "step": 13930
    },
    {
      "epoch": 0.0697,
      "grad_norm": 1.546875,
      "learning_rate": 0.00028049246231155777,
      "loss": 2.7798,
      "step": 13940
    },
    {
      "epoch": 0.06975,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002804773869346733,
      "loss": 2.733,
      "step": 13950
    },
    {
      "epoch": 0.0698,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002804623115577889,
      "loss": 2.6721,
      "step": 13960
    },
    {
      "epoch": 0.06985,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002804472361809045,
      "loss": 2.7047,
      "step": 13970
    },
    {
      "epoch": 0.0699,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00028043216080402006,
      "loss": 2.7119,
      "step": 13980
    },
    {
      "epoch": 0.06995,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028041708542713567,
      "loss": 2.7877,
      "step": 13990
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00028040201005025123,
      "loss": 2.7125,
      "step": 14000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.7124648094177246,
      "eval_runtime": 90.6354,
      "eval_samples_per_second": 27.583,
      "eval_steps_per_second": 0.441,
      "step": 14000
    },
    {
      "epoch": 0.07005,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002803869346733668,
      "loss": 2.7292,
      "step": 14010
    },
    {
      "epoch": 0.0701,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002803718592964824,
      "loss": 2.6876,
      "step": 14020
    },
    {
      "epoch": 0.07015,
      "grad_norm": 1.53125,
      "learning_rate": 0.00028035678391959796,
      "loss": 2.7881,
      "step": 14030
    },
    {
      "epoch": 0.0702,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002803417085427136,
      "loss": 2.7171,
      "step": 14040
    },
    {
      "epoch": 0.07025,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028032663316582913,
      "loss": 2.6861,
      "step": 14050
    },
    {
      "epoch": 0.0703,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002803115577889447,
      "loss": 2.7655,
      "step": 14060
    },
    {
      "epoch": 0.07035,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002802964824120603,
      "loss": 2.6908,
      "step": 14070
    },
    {
      "epoch": 0.0704,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00028028140703517586,
      "loss": 2.7137,
      "step": 14080
    },
    {
      "epoch": 0.07045,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002802663316582914,
      "loss": 2.6848,
      "step": 14090
    },
    {
      "epoch": 0.0705,
      "grad_norm": 1.34375,
      "learning_rate": 0.00028025125628140704,
      "loss": 2.7403,
      "step": 14100
    },
    {
      "epoch": 0.07055,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002802361809045226,
      "loss": 2.7596,
      "step": 14110
    },
    {
      "epoch": 0.0706,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00028022110552763815,
      "loss": 2.6689,
      "step": 14120
    },
    {
      "epoch": 0.07065,
      "grad_norm": 1.46875,
      "learning_rate": 0.00028020603015075377,
      "loss": 2.7646,
      "step": 14130
    },
    {
      "epoch": 0.0707,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002801909547738693,
      "loss": 2.6946,
      "step": 14140
    },
    {
      "epoch": 0.07075,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002801758793969849,
      "loss": 2.6997,
      "step": 14150
    },
    {
      "epoch": 0.0708,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002801608040201005,
      "loss": 2.701,
      "step": 14160
    },
    {
      "epoch": 0.07085,
      "grad_norm": 1.484375,
      "learning_rate": 0.00028014572864321606,
      "loss": 2.7477,
      "step": 14170
    },
    {
      "epoch": 0.0709,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002801306532663316,
      "loss": 2.705,
      "step": 14180
    },
    {
      "epoch": 0.07095,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002801155778894472,
      "loss": 2.707,
      "step": 14190
    },
    {
      "epoch": 0.071,
      "grad_norm": 1.375,
      "learning_rate": 0.0002801005025125628,
      "loss": 2.7568,
      "step": 14200
    },
    {
      "epoch": 0.07105,
      "grad_norm": 1.453125,
      "learning_rate": 0.00028008542713567835,
      "loss": 2.7311,
      "step": 14210
    },
    {
      "epoch": 0.0711,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002800703517587939,
      "loss": 2.7472,
      "step": 14220
    },
    {
      "epoch": 0.07115,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002800552763819095,
      "loss": 2.7098,
      "step": 14230
    },
    {
      "epoch": 0.0712,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002800402010050251,
      "loss": 2.693,
      "step": 14240
    },
    {
      "epoch": 0.07125,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002800251256281407,
      "loss": 2.729,
      "step": 14250
    },
    {
      "epoch": 0.0713,
      "grad_norm": 1.734375,
      "learning_rate": 0.00028001005025125625,
      "loss": 2.7366,
      "step": 14260
    },
    {
      "epoch": 0.07135,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002799949748743718,
      "loss": 2.8423,
      "step": 14270
    },
    {
      "epoch": 0.0714,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002799798994974874,
      "loss": 2.6698,
      "step": 14280
    },
    {
      "epoch": 0.07145,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000279964824120603,
      "loss": 2.7814,
      "step": 14290
    },
    {
      "epoch": 0.0715,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002799497487437186,
      "loss": 2.6994,
      "step": 14300
    },
    {
      "epoch": 0.07155,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00027993467336683415,
      "loss": 2.7326,
      "step": 14310
    },
    {
      "epoch": 0.0716,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002799195979899497,
      "loss": 2.7534,
      "step": 14320
    },
    {
      "epoch": 0.07165,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002799045226130653,
      "loss": 2.7302,
      "step": 14330
    },
    {
      "epoch": 0.0717,
      "grad_norm": 1.5,
      "learning_rate": 0.0002798894472361809,
      "loss": 2.7204,
      "step": 14340
    },
    {
      "epoch": 0.07175,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027987437185929645,
      "loss": 2.725,
      "step": 14350
    },
    {
      "epoch": 0.0718,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00027985929648241206,
      "loss": 2.7334,
      "step": 14360
    },
    {
      "epoch": 0.07185,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002798442211055276,
      "loss": 2.7282,
      "step": 14370
    },
    {
      "epoch": 0.0719,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002798291457286432,
      "loss": 2.715,
      "step": 14380
    },
    {
      "epoch": 0.07195,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002798140703517588,
      "loss": 2.8043,
      "step": 14390
    },
    {
      "epoch": 0.072,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027979899497487435,
      "loss": 2.7244,
      "step": 14400
    },
    {
      "epoch": 0.07205,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002797839195979899,
      "loss": 2.7021,
      "step": 14410
    },
    {
      "epoch": 0.0721,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002797688442211055,
      "loss": 2.7337,
      "step": 14420
    },
    {
      "epoch": 0.07215,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002797537688442211,
      "loss": 2.7458,
      "step": 14430
    },
    {
      "epoch": 0.0722,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027973869346733664,
      "loss": 2.6833,
      "step": 14440
    },
    {
      "epoch": 0.07225,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027972361809045225,
      "loss": 2.6843,
      "step": 14450
    },
    {
      "epoch": 0.0723,
      "grad_norm": 1.75,
      "learning_rate": 0.0002797085427135678,
      "loss": 2.7377,
      "step": 14460
    },
    {
      "epoch": 0.07235,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027969346733668337,
      "loss": 2.7041,
      "step": 14470
    },
    {
      "epoch": 0.0724,
      "grad_norm": 1.6015625,
      "learning_rate": 0.000279678391959799,
      "loss": 2.7492,
      "step": 14480
    },
    {
      "epoch": 0.07245,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027966331658291454,
      "loss": 2.6386,
      "step": 14490
    },
    {
      "epoch": 0.0725,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002796482412060301,
      "loss": 2.7697,
      "step": 14500
    },
    {
      "epoch": 0.07255,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002796331658291457,
      "loss": 2.695,
      "step": 14510
    },
    {
      "epoch": 0.0726,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002796180904522613,
      "loss": 2.664,
      "step": 14520
    },
    {
      "epoch": 0.07265,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00027960301507537683,
      "loss": 2.7219,
      "step": 14530
    },
    {
      "epoch": 0.0727,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00027958793969849245,
      "loss": 2.7076,
      "step": 14540
    },
    {
      "epoch": 0.07275,
      "grad_norm": 1.640625,
      "learning_rate": 0.000279572864321608,
      "loss": 2.6936,
      "step": 14550
    },
    {
      "epoch": 0.0728,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002795577889447236,
      "loss": 2.7327,
      "step": 14560
    },
    {
      "epoch": 0.07285,
      "grad_norm": 1.625,
      "learning_rate": 0.0002795427135678392,
      "loss": 2.7046,
      "step": 14570
    },
    {
      "epoch": 0.0729,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00027952763819095474,
      "loss": 2.6879,
      "step": 14580
    },
    {
      "epoch": 0.07295,
      "grad_norm": 1.5,
      "learning_rate": 0.00027951256281407035,
      "loss": 2.6644,
      "step": 14590
    },
    {
      "epoch": 0.073,
      "grad_norm": 1.625,
      "learning_rate": 0.0002794974874371859,
      "loss": 2.7412,
      "step": 14600
    },
    {
      "epoch": 0.07305,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002794824120603015,
      "loss": 2.7196,
      "step": 14610
    },
    {
      "epoch": 0.0731,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002794673366834171,
      "loss": 2.7254,
      "step": 14620
    },
    {
      "epoch": 0.07315,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027945226130653264,
      "loss": 2.6512,
      "step": 14630
    },
    {
      "epoch": 0.0732,
      "grad_norm": 1.375,
      "learning_rate": 0.00027943718592964825,
      "loss": 2.7358,
      "step": 14640
    },
    {
      "epoch": 0.07325,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002794221105527638,
      "loss": 2.7196,
      "step": 14650
    },
    {
      "epoch": 0.0733,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027940703517587937,
      "loss": 2.6853,
      "step": 14660
    },
    {
      "epoch": 0.07335,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00027939195979899493,
      "loss": 2.7549,
      "step": 14670
    },
    {
      "epoch": 0.0734,
      "grad_norm": 1.5,
      "learning_rate": 0.00027937688442211054,
      "loss": 2.7112,
      "step": 14680
    },
    {
      "epoch": 0.07345,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002793618090452261,
      "loss": 2.6995,
      "step": 14690
    },
    {
      "epoch": 0.0735,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027934673366834166,
      "loss": 2.7234,
      "step": 14700
    },
    {
      "epoch": 0.07355,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002793316582914573,
      "loss": 2.7108,
      "step": 14710
    },
    {
      "epoch": 0.0736,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027931658291457283,
      "loss": 2.7758,
      "step": 14720
    },
    {
      "epoch": 0.07365,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002793015075376884,
      "loss": 2.6665,
      "step": 14730
    },
    {
      "epoch": 0.0737,
      "grad_norm": 1.734375,
      "learning_rate": 0.000279286432160804,
      "loss": 2.772,
      "step": 14740
    },
    {
      "epoch": 0.07375,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027927135678391956,
      "loss": 2.7397,
      "step": 14750
    },
    {
      "epoch": 0.0738,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002792562814070351,
      "loss": 2.7065,
      "step": 14760
    },
    {
      "epoch": 0.07385,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027924120603015074,
      "loss": 2.7215,
      "step": 14770
    },
    {
      "epoch": 0.0739,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002792261306532663,
      "loss": 2.6923,
      "step": 14780
    },
    {
      "epoch": 0.07395,
      "grad_norm": 1.640625,
      "learning_rate": 0.00027921105527638185,
      "loss": 2.6784,
      "step": 14790
    },
    {
      "epoch": 0.074,
      "grad_norm": 1.4375,
      "learning_rate": 0.00027919597989949747,
      "loss": 2.7133,
      "step": 14800
    },
    {
      "epoch": 0.07405,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000279180904522613,
      "loss": 2.6963,
      "step": 14810
    },
    {
      "epoch": 0.0741,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027916582914572864,
      "loss": 2.7379,
      "step": 14820
    },
    {
      "epoch": 0.07415,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002791507537688442,
      "loss": 2.692,
      "step": 14830
    },
    {
      "epoch": 0.0742,
      "grad_norm": 1.640625,
      "learning_rate": 0.00027913567839195976,
      "loss": 2.6644,
      "step": 14840
    },
    {
      "epoch": 0.07425,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00027912060301507537,
      "loss": 2.6894,
      "step": 14850
    },
    {
      "epoch": 0.0743,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027910552763819093,
      "loss": 2.6685,
      "step": 14860
    },
    {
      "epoch": 0.07435,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027909045226130654,
      "loss": 2.674,
      "step": 14870
    },
    {
      "epoch": 0.0744,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002790753768844221,
      "loss": 2.7163,
      "step": 14880
    },
    {
      "epoch": 0.07445,
      "grad_norm": 1.609375,
      "learning_rate": 0.00027906030150753766,
      "loss": 2.7301,
      "step": 14890
    },
    {
      "epoch": 0.0745,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002790452261306533,
      "loss": 2.7149,
      "step": 14900
    },
    {
      "epoch": 0.07455,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00027903015075376883,
      "loss": 2.7466,
      "step": 14910
    },
    {
      "epoch": 0.0746,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002790150753768844,
      "loss": 2.6763,
      "step": 14920
    },
    {
      "epoch": 0.07465,
      "grad_norm": 1.640625,
      "learning_rate": 0.000279,
      "loss": 2.7245,
      "step": 14930
    },
    {
      "epoch": 0.0747,
      "grad_norm": 1.578125,
      "learning_rate": 0.00027898492462311556,
      "loss": 2.716,
      "step": 14940
    },
    {
      "epoch": 0.07475,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002789698492462311,
      "loss": 2.6604,
      "step": 14950
    },
    {
      "epoch": 0.0748,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002789547738693467,
      "loss": 2.7146,
      "step": 14960
    },
    {
      "epoch": 0.07485,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002789396984924623,
      "loss": 2.6984,
      "step": 14970
    },
    {
      "epoch": 0.0749,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027892462311557785,
      "loss": 2.6663,
      "step": 14980
    },
    {
      "epoch": 0.07495,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002789095477386934,
      "loss": 2.7194,
      "step": 14990
    },
    {
      "epoch": 0.075,
      "grad_norm": 1.640625,
      "learning_rate": 0.000278894472361809,
      "loss": 2.6643,
      "step": 15000
    },
    {
      "epoch": 0.07505,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002788793969849246,
      "loss": 2.7422,
      "step": 15010
    },
    {
      "epoch": 0.0751,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027886432160804014,
      "loss": 2.7045,
      "step": 15020
    },
    {
      "epoch": 0.07515,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027884924623115576,
      "loss": 2.717,
      "step": 15030
    },
    {
      "epoch": 0.0752,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002788341708542713,
      "loss": 2.7023,
      "step": 15040
    },
    {
      "epoch": 0.07525,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002788190954773869,
      "loss": 2.7273,
      "step": 15050
    },
    {
      "epoch": 0.0753,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002788040201005025,
      "loss": 2.6779,
      "step": 15060
    },
    {
      "epoch": 0.07535,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027878894472361805,
      "loss": 2.7259,
      "step": 15070
    },
    {
      "epoch": 0.0754,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027877386934673366,
      "loss": 2.7783,
      "step": 15080
    },
    {
      "epoch": 0.07545,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002787587939698492,
      "loss": 2.6754,
      "step": 15090
    },
    {
      "epoch": 0.0755,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002787437185929648,
      "loss": 2.7533,
      "step": 15100
    },
    {
      "epoch": 0.07555,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002787286432160804,
      "loss": 2.6864,
      "step": 15110
    },
    {
      "epoch": 0.0756,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027871356783919595,
      "loss": 2.6432,
      "step": 15120
    },
    {
      "epoch": 0.07565,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027869849246231156,
      "loss": 2.6745,
      "step": 15130
    },
    {
      "epoch": 0.0757,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002786834170854271,
      "loss": 2.6758,
      "step": 15140
    },
    {
      "epoch": 0.07575,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002786683417085427,
      "loss": 2.7404,
      "step": 15150
    },
    {
      "epoch": 0.0758,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002786532663316583,
      "loss": 2.6165,
      "step": 15160
    },
    {
      "epoch": 0.07585,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00027863819095477386,
      "loss": 2.6684,
      "step": 15170
    },
    {
      "epoch": 0.0759,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002786231155778894,
      "loss": 2.6145,
      "step": 15180
    },
    {
      "epoch": 0.07595,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027860804020100503,
      "loss": 2.7453,
      "step": 15190
    },
    {
      "epoch": 0.076,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002785929648241206,
      "loss": 2.6755,
      "step": 15200
    },
    {
      "epoch": 0.07605,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027857788944723615,
      "loss": 2.7175,
      "step": 15210
    },
    {
      "epoch": 0.0761,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027856281407035176,
      "loss": 2.7389,
      "step": 15220
    },
    {
      "epoch": 0.07615,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002785477386934673,
      "loss": 2.678,
      "step": 15230
    },
    {
      "epoch": 0.0762,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002785326633165829,
      "loss": 2.7048,
      "step": 15240
    },
    {
      "epoch": 0.07625,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002785175879396985,
      "loss": 2.7048,
      "step": 15250
    },
    {
      "epoch": 0.0763,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00027850251256281405,
      "loss": 2.6343,
      "step": 15260
    },
    {
      "epoch": 0.07635,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002784874371859296,
      "loss": 2.6989,
      "step": 15270
    },
    {
      "epoch": 0.0764,
      "grad_norm": 1.640625,
      "learning_rate": 0.00027847236180904517,
      "loss": 2.7387,
      "step": 15280
    },
    {
      "epoch": 0.07645,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002784572864321608,
      "loss": 2.6853,
      "step": 15290
    },
    {
      "epoch": 0.0765,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027844221105527634,
      "loss": 2.6773,
      "step": 15300
    },
    {
      "epoch": 0.07655,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002784271356783919,
      "loss": 2.6939,
      "step": 15310
    },
    {
      "epoch": 0.0766,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002784120603015075,
      "loss": 2.7285,
      "step": 15320
    },
    {
      "epoch": 0.07665,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00027839698492462307,
      "loss": 2.6658,
      "step": 15330
    },
    {
      "epoch": 0.0767,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002783819095477387,
      "loss": 2.7142,
      "step": 15340
    },
    {
      "epoch": 0.07675,
      "grad_norm": 1.5,
      "learning_rate": 0.00027836683417085424,
      "loss": 2.648,
      "step": 15350
    },
    {
      "epoch": 0.0768,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002783517587939698,
      "loss": 2.6915,
      "step": 15360
    },
    {
      "epoch": 0.07685,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002783366834170854,
      "loss": 2.7126,
      "step": 15370
    },
    {
      "epoch": 0.0769,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000278321608040201,
      "loss": 2.6947,
      "step": 15380
    },
    {
      "epoch": 0.07695,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002783065326633166,
      "loss": 2.7291,
      "step": 15390
    },
    {
      "epoch": 0.077,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00027829145728643215,
      "loss": 2.706,
      "step": 15400
    },
    {
      "epoch": 0.07705,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002782763819095477,
      "loss": 2.7313,
      "step": 15410
    },
    {
      "epoch": 0.0771,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002782613065326633,
      "loss": 2.7135,
      "step": 15420
    },
    {
      "epoch": 0.07715,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002782462311557789,
      "loss": 2.7101,
      "step": 15430
    },
    {
      "epoch": 0.0772,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00027823115577889444,
      "loss": 2.7432,
      "step": 15440
    },
    {
      "epoch": 0.07725,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00027821608040201005,
      "loss": 2.688,
      "step": 15450
    },
    {
      "epoch": 0.0773,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002782010050251256,
      "loss": 2.6961,
      "step": 15460
    },
    {
      "epoch": 0.07735,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027818592964824117,
      "loss": 2.6896,
      "step": 15470
    },
    {
      "epoch": 0.0774,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002781708542713568,
      "loss": 2.6685,
      "step": 15480
    },
    {
      "epoch": 0.07745,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00027815577889447234,
      "loss": 2.6668,
      "step": 15490
    },
    {
      "epoch": 0.0775,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002781407035175879,
      "loss": 2.6875,
      "step": 15500
    },
    {
      "epoch": 0.07755,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002781256281407035,
      "loss": 2.6584,
      "step": 15510
    },
    {
      "epoch": 0.0776,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027811055276381907,
      "loss": 2.6893,
      "step": 15520
    },
    {
      "epoch": 0.07765,
      "grad_norm": 1.46875,
      "learning_rate": 0.00027809547738693463,
      "loss": 2.6585,
      "step": 15530
    },
    {
      "epoch": 0.0777,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027808040201005024,
      "loss": 2.7241,
      "step": 15540
    },
    {
      "epoch": 0.07775,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002780653266331658,
      "loss": 2.6914,
      "step": 15550
    },
    {
      "epoch": 0.0778,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027805025125628136,
      "loss": 2.6706,
      "step": 15560
    },
    {
      "epoch": 0.07785,
      "grad_norm": 1.4765625,
      "learning_rate": 0.000278035175879397,
      "loss": 2.6902,
      "step": 15570
    },
    {
      "epoch": 0.0779,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027802010050251253,
      "loss": 2.6707,
      "step": 15580
    },
    {
      "epoch": 0.07795,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002780050251256281,
      "loss": 2.6637,
      "step": 15590
    },
    {
      "epoch": 0.078,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002779899497487437,
      "loss": 2.6781,
      "step": 15600
    },
    {
      "epoch": 0.07805,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027797487437185926,
      "loss": 2.6964,
      "step": 15610
    },
    {
      "epoch": 0.0781,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002779597989949748,
      "loss": 2.666,
      "step": 15620
    },
    {
      "epoch": 0.07815,
      "grad_norm": 1.578125,
      "learning_rate": 0.00027794472361809044,
      "loss": 2.6728,
      "step": 15630
    },
    {
      "epoch": 0.0782,
      "grad_norm": 1.65625,
      "learning_rate": 0.000277929648241206,
      "loss": 2.6906,
      "step": 15640
    },
    {
      "epoch": 0.07825,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002779145728643216,
      "loss": 2.6273,
      "step": 15650
    },
    {
      "epoch": 0.0783,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00027789949748743717,
      "loss": 2.7125,
      "step": 15660
    },
    {
      "epoch": 0.07835,
      "grad_norm": 1.625,
      "learning_rate": 0.0002778844221105527,
      "loss": 2.6601,
      "step": 15670
    },
    {
      "epoch": 0.0784,
      "grad_norm": 1.640625,
      "learning_rate": 0.00027786934673366834,
      "loss": 2.6974,
      "step": 15680
    },
    {
      "epoch": 0.07845,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002778542713567839,
      "loss": 2.6875,
      "step": 15690
    },
    {
      "epoch": 0.0785,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002778391959798995,
      "loss": 2.6856,
      "step": 15700
    },
    {
      "epoch": 0.07855,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027782412060301507,
      "loss": 2.759,
      "step": 15710
    },
    {
      "epoch": 0.0786,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027780904522613063,
      "loss": 2.6418,
      "step": 15720
    },
    {
      "epoch": 0.07865,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00027779396984924624,
      "loss": 2.7145,
      "step": 15730
    },
    {
      "epoch": 0.0787,
      "grad_norm": 1.625,
      "learning_rate": 0.0002777788944723618,
      "loss": 2.7263,
      "step": 15740
    },
    {
      "epoch": 0.07875,
      "grad_norm": 1.390625,
      "learning_rate": 0.00027776381909547736,
      "loss": 2.648,
      "step": 15750
    },
    {
      "epoch": 0.0788,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002777487437185929,
      "loss": 2.6259,
      "step": 15760
    },
    {
      "epoch": 0.07885,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027773366834170853,
      "loss": 2.6523,
      "step": 15770
    },
    {
      "epoch": 0.0789,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002777185929648241,
      "loss": 2.6995,
      "step": 15780
    },
    {
      "epoch": 0.07895,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027770351758793965,
      "loss": 2.7064,
      "step": 15790
    },
    {
      "epoch": 0.079,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027768844221105526,
      "loss": 2.7003,
      "step": 15800
    },
    {
      "epoch": 0.07905,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002776733668341708,
      "loss": 2.6275,
      "step": 15810
    },
    {
      "epoch": 0.0791,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002776582914572864,
      "loss": 2.7096,
      "step": 15820
    },
    {
      "epoch": 0.07915,
      "grad_norm": 1.5,
      "learning_rate": 0.000277643216080402,
      "loss": 2.6653,
      "step": 15830
    },
    {
      "epoch": 0.0792,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027762814070351755,
      "loss": 2.6565,
      "step": 15840
    },
    {
      "epoch": 0.07925,
      "grad_norm": 1.3125,
      "learning_rate": 0.0002776130653266331,
      "loss": 2.6739,
      "step": 15850
    },
    {
      "epoch": 0.0793,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002775979899497487,
      "loss": 2.6721,
      "step": 15860
    },
    {
      "epoch": 0.07935,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002775829145728643,
      "loss": 2.6701,
      "step": 15870
    },
    {
      "epoch": 0.0794,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027756783919597984,
      "loss": 2.7002,
      "step": 15880
    },
    {
      "epoch": 0.07945,
      "grad_norm": 1.65625,
      "learning_rate": 0.00027755276381909546,
      "loss": 2.6719,
      "step": 15890
    },
    {
      "epoch": 0.0795,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000277537688442211,
      "loss": 2.6802,
      "step": 15900
    },
    {
      "epoch": 0.07955,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027752261306532663,
      "loss": 2.6269,
      "step": 15910
    },
    {
      "epoch": 0.0796,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002775075376884422,
      "loss": 2.6696,
      "step": 15920
    },
    {
      "epoch": 0.07965,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027749246231155775,
      "loss": 2.6445,
      "step": 15930
    },
    {
      "epoch": 0.0797,
      "grad_norm": 1.46875,
      "learning_rate": 0.00027747738693467336,
      "loss": 2.6937,
      "step": 15940
    },
    {
      "epoch": 0.07975,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002774623115577889,
      "loss": 2.737,
      "step": 15950
    },
    {
      "epoch": 0.0798,
      "grad_norm": 1.578125,
      "learning_rate": 0.00027744723618090453,
      "loss": 2.6891,
      "step": 15960
    },
    {
      "epoch": 0.07985,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002774321608040201,
      "loss": 2.6504,
      "step": 15970
    },
    {
      "epoch": 0.0799,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027741708542713565,
      "loss": 2.7397,
      "step": 15980
    },
    {
      "epoch": 0.07995,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027740201005025127,
      "loss": 2.6225,
      "step": 15990
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002773869346733668,
      "loss": 2.6804,
      "step": 16000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.6608917713165283,
      "eval_runtime": 92.3279,
      "eval_samples_per_second": 27.077,
      "eval_steps_per_second": 0.433,
      "step": 16000
    },
    {
      "epoch": 0.08005,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002773718592964824,
      "loss": 2.6325,
      "step": 16010
    },
    {
      "epoch": 0.0801,
      "grad_norm": 1.578125,
      "learning_rate": 0.000277356783919598,
      "loss": 2.6456,
      "step": 16020
    },
    {
      "epoch": 0.08015,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027734170854271356,
      "loss": 2.6928,
      "step": 16030
    },
    {
      "epoch": 0.0802,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002773266331658291,
      "loss": 2.6367,
      "step": 16040
    },
    {
      "epoch": 0.08025,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002773115577889447,
      "loss": 2.6815,
      "step": 16050
    },
    {
      "epoch": 0.0803,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002772964824120603,
      "loss": 2.6255,
      "step": 16060
    },
    {
      "epoch": 0.08035,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027728140703517585,
      "loss": 2.6916,
      "step": 16070
    },
    {
      "epoch": 0.0804,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002772663316582914,
      "loss": 2.6645,
      "step": 16080
    },
    {
      "epoch": 0.08045,
      "grad_norm": 1.65625,
      "learning_rate": 0.000277251256281407,
      "loss": 2.6314,
      "step": 16090
    },
    {
      "epoch": 0.0805,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002772361809045226,
      "loss": 2.7008,
      "step": 16100
    },
    {
      "epoch": 0.08055,
      "grad_norm": 1.625,
      "learning_rate": 0.00027722110552763814,
      "loss": 2.6031,
      "step": 16110
    },
    {
      "epoch": 0.0806,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027720603015075375,
      "loss": 2.663,
      "step": 16120
    },
    {
      "epoch": 0.08065,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002771909547738693,
      "loss": 2.6921,
      "step": 16130
    },
    {
      "epoch": 0.0807,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00027717587939698487,
      "loss": 2.741,
      "step": 16140
    },
    {
      "epoch": 0.08075,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002771608040201005,
      "loss": 2.6833,
      "step": 16150
    },
    {
      "epoch": 0.0808,
      "grad_norm": 1.65625,
      "learning_rate": 0.00027714572864321604,
      "loss": 2.6534,
      "step": 16160
    },
    {
      "epoch": 0.08085,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027713065326633165,
      "loss": 2.7077,
      "step": 16170
    },
    {
      "epoch": 0.0809,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002771155778894472,
      "loss": 2.6608,
      "step": 16180
    },
    {
      "epoch": 0.08095,
      "grad_norm": 1.46875,
      "learning_rate": 0.00027710050251256277,
      "loss": 2.5994,
      "step": 16190
    },
    {
      "epoch": 0.081,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002770854271356784,
      "loss": 2.6961,
      "step": 16200
    },
    {
      "epoch": 0.08105,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027707035175879394,
      "loss": 2.6139,
      "step": 16210
    },
    {
      "epoch": 0.0811,
      "grad_norm": 1.359375,
      "learning_rate": 0.00027705527638190956,
      "loss": 2.6206,
      "step": 16220
    },
    {
      "epoch": 0.08115,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002770402010050251,
      "loss": 2.6513,
      "step": 16230
    },
    {
      "epoch": 0.0812,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002770251256281407,
      "loss": 2.6837,
      "step": 16240
    },
    {
      "epoch": 0.08125,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002770100502512563,
      "loss": 2.6576,
      "step": 16250
    },
    {
      "epoch": 0.0813,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027699497487437185,
      "loss": 2.6565,
      "step": 16260
    },
    {
      "epoch": 0.08135,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002769798994974874,
      "loss": 2.6997,
      "step": 16270
    },
    {
      "epoch": 0.0814,
      "grad_norm": 1.5625,
      "learning_rate": 0.000276964824120603,
      "loss": 2.6709,
      "step": 16280
    },
    {
      "epoch": 0.08145,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002769497487437186,
      "loss": 2.7147,
      "step": 16290
    },
    {
      "epoch": 0.0815,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00027693467336683414,
      "loss": 2.6421,
      "step": 16300
    },
    {
      "epoch": 0.08155,
      "grad_norm": 1.671875,
      "learning_rate": 0.00027691959798994975,
      "loss": 2.6878,
      "step": 16310
    },
    {
      "epoch": 0.0816,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002769045226130653,
      "loss": 2.6426,
      "step": 16320
    },
    {
      "epoch": 0.08165,
      "grad_norm": 1.5,
      "learning_rate": 0.00027688944723618087,
      "loss": 2.6314,
      "step": 16330
    },
    {
      "epoch": 0.0817,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002768743718592965,
      "loss": 2.5989,
      "step": 16340
    },
    {
      "epoch": 0.08175,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027685929648241204,
      "loss": 2.6528,
      "step": 16350
    },
    {
      "epoch": 0.0818,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002768442211055276,
      "loss": 2.629,
      "step": 16360
    },
    {
      "epoch": 0.08185,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027682914572864316,
      "loss": 2.7189,
      "step": 16370
    },
    {
      "epoch": 0.0819,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00027681407035175877,
      "loss": 2.678,
      "step": 16380
    },
    {
      "epoch": 0.08195,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00027679899497487433,
      "loss": 2.6847,
      "step": 16390
    },
    {
      "epoch": 0.082,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002767839195979899,
      "loss": 2.6376,
      "step": 16400
    },
    {
      "epoch": 0.08205,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002767688442211055,
      "loss": 2.6654,
      "step": 16410
    },
    {
      "epoch": 0.0821,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027675376884422106,
      "loss": 2.6565,
      "step": 16420
    },
    {
      "epoch": 0.08215,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002767386934673367,
      "loss": 2.648,
      "step": 16430
    },
    {
      "epoch": 0.0822,
      "grad_norm": 1.46875,
      "learning_rate": 0.00027672361809045223,
      "loss": 2.6295,
      "step": 16440
    },
    {
      "epoch": 0.08225,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002767085427135678,
      "loss": 2.6739,
      "step": 16450
    },
    {
      "epoch": 0.0823,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002766934673366834,
      "loss": 2.6535,
      "step": 16460
    },
    {
      "epoch": 0.08235,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027667839195979896,
      "loss": 2.6889,
      "step": 16470
    },
    {
      "epoch": 0.0824,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002766633165829146,
      "loss": 2.6301,
      "step": 16480
    },
    {
      "epoch": 0.08245,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00027664824120603014,
      "loss": 2.6622,
      "step": 16490
    },
    {
      "epoch": 0.0825,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002766331658291457,
      "loss": 2.6976,
      "step": 16500
    },
    {
      "epoch": 0.08255,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002766180904522613,
      "loss": 2.6631,
      "step": 16510
    },
    {
      "epoch": 0.0826,
      "grad_norm": 1.859375,
      "learning_rate": 0.00027660301507537687,
      "loss": 2.6334,
      "step": 16520
    },
    {
      "epoch": 0.08265,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002765879396984924,
      "loss": 2.6143,
      "step": 16530
    },
    {
      "epoch": 0.0827,
      "grad_norm": 1.609375,
      "learning_rate": 0.00027657286432160804,
      "loss": 2.6922,
      "step": 16540
    },
    {
      "epoch": 0.08275,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002765577889447236,
      "loss": 2.6669,
      "step": 16550
    },
    {
      "epoch": 0.0828,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027654271356783916,
      "loss": 2.6568,
      "step": 16560
    },
    {
      "epoch": 0.08285,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027652763819095477,
      "loss": 2.6697,
      "step": 16570
    },
    {
      "epoch": 0.0829,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027651256281407033,
      "loss": 2.6134,
      "step": 16580
    },
    {
      "epoch": 0.08295,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002764974874371859,
      "loss": 2.6982,
      "step": 16590
    },
    {
      "epoch": 0.083,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002764824120603015,
      "loss": 2.675,
      "step": 16600
    },
    {
      "epoch": 0.08305,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027646733668341706,
      "loss": 2.65,
      "step": 16610
    },
    {
      "epoch": 0.0831,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002764522613065326,
      "loss": 2.7022,
      "step": 16620
    },
    {
      "epoch": 0.08315,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027643718592964823,
      "loss": 2.6556,
      "step": 16630
    },
    {
      "epoch": 0.0832,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002764221105527638,
      "loss": 2.667,
      "step": 16640
    },
    {
      "epoch": 0.08325,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027640703517587935,
      "loss": 2.5829,
      "step": 16650
    },
    {
      "epoch": 0.0833,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027639195979899496,
      "loss": 2.6754,
      "step": 16660
    },
    {
      "epoch": 0.08335,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002763768844221105,
      "loss": 2.6693,
      "step": 16670
    },
    {
      "epoch": 0.0834,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002763618090452261,
      "loss": 2.6588,
      "step": 16680
    },
    {
      "epoch": 0.08345,
      "grad_norm": 1.625,
      "learning_rate": 0.00027634673366834164,
      "loss": 2.6844,
      "step": 16690
    },
    {
      "epoch": 0.0835,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027633165829145726,
      "loss": 2.6191,
      "step": 16700
    },
    {
      "epoch": 0.08355,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002763165829145728,
      "loss": 2.6835,
      "step": 16710
    },
    {
      "epoch": 0.0836,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027630150753768843,
      "loss": 2.7028,
      "step": 16720
    },
    {
      "epoch": 0.08365,
      "grad_norm": 1.65625,
      "learning_rate": 0.000276286432160804,
      "loss": 2.671,
      "step": 16730
    },
    {
      "epoch": 0.0837,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002762713567839196,
      "loss": 2.6936,
      "step": 16740
    },
    {
      "epoch": 0.08375,
      "grad_norm": 1.5,
      "learning_rate": 0.00027625628140703516,
      "loss": 2.6805,
      "step": 16750
    },
    {
      "epoch": 0.0838,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002762412060301507,
      "loss": 2.6621,
      "step": 16760
    },
    {
      "epoch": 0.08385,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027622613065326633,
      "loss": 2.5843,
      "step": 16770
    },
    {
      "epoch": 0.0839,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002762110552763819,
      "loss": 2.5658,
      "step": 16780
    },
    {
      "epoch": 0.08395,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002761959798994975,
      "loss": 2.6627,
      "step": 16790
    },
    {
      "epoch": 0.084,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027618090452261306,
      "loss": 2.6417,
      "step": 16800
    },
    {
      "epoch": 0.08405,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002761658291457286,
      "loss": 2.6685,
      "step": 16810
    },
    {
      "epoch": 0.0841,
      "grad_norm": 1.671875,
      "learning_rate": 0.00027615075376884423,
      "loss": 2.6096,
      "step": 16820
    },
    {
      "epoch": 0.08415,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002761356783919598,
      "loss": 2.6543,
      "step": 16830
    },
    {
      "epoch": 0.0842,
      "grad_norm": 1.65625,
      "learning_rate": 0.00027612060301507535,
      "loss": 2.5995,
      "step": 16840
    },
    {
      "epoch": 0.08425,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002761055276381909,
      "loss": 2.6218,
      "step": 16850
    },
    {
      "epoch": 0.0843,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002760904522613065,
      "loss": 2.6909,
      "step": 16860
    },
    {
      "epoch": 0.08435,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002760753768844221,
      "loss": 2.659,
      "step": 16870
    },
    {
      "epoch": 0.0844,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027606030150753764,
      "loss": 2.6625,
      "step": 16880
    },
    {
      "epoch": 0.08445,
      "grad_norm": 1.609375,
      "learning_rate": 0.00027604522613065326,
      "loss": 2.612,
      "step": 16890
    },
    {
      "epoch": 0.0845,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002760301507537688,
      "loss": 2.608,
      "step": 16900
    },
    {
      "epoch": 0.08455,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002760150753768844,
      "loss": 2.6408,
      "step": 16910
    },
    {
      "epoch": 0.0846,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000276,
      "loss": 2.614,
      "step": 16920
    },
    {
      "epoch": 0.08465,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027598492462311555,
      "loss": 2.6273,
      "step": 16930
    },
    {
      "epoch": 0.0847,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002759698492462311,
      "loss": 2.6231,
      "step": 16940
    },
    {
      "epoch": 0.08475,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002759547738693467,
      "loss": 2.6704,
      "step": 16950
    },
    {
      "epoch": 0.0848,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002759396984924623,
      "loss": 2.6511,
      "step": 16960
    },
    {
      "epoch": 0.08485,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00027592462311557784,
      "loss": 2.6211,
      "step": 16970
    },
    {
      "epoch": 0.0849,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027590954773869345,
      "loss": 2.6459,
      "step": 16980
    },
    {
      "epoch": 0.08495,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000275894472361809,
      "loss": 2.6477,
      "step": 16990
    },
    {
      "epoch": 0.085,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002758793969849246,
      "loss": 2.6606,
      "step": 17000
    },
    {
      "epoch": 0.08505,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002758643216080402,
      "loss": 2.643,
      "step": 17010
    },
    {
      "epoch": 0.0851,
      "grad_norm": 1.734375,
      "learning_rate": 0.00027584924623115574,
      "loss": 2.6435,
      "step": 17020
    },
    {
      "epoch": 0.08515,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00027583417085427135,
      "loss": 2.6543,
      "step": 17030
    },
    {
      "epoch": 0.0852,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002758190954773869,
      "loss": 2.6401,
      "step": 17040
    },
    {
      "epoch": 0.08525,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002758040201005025,
      "loss": 2.6088,
      "step": 17050
    },
    {
      "epoch": 0.0853,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002757889447236181,
      "loss": 2.6652,
      "step": 17060
    },
    {
      "epoch": 0.08535,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00027577386934673364,
      "loss": 2.6872,
      "step": 17070
    },
    {
      "epoch": 0.0854,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027575879396984926,
      "loss": 2.6326,
      "step": 17080
    },
    {
      "epoch": 0.08545,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002757437185929648,
      "loss": 2.6923,
      "step": 17090
    },
    {
      "epoch": 0.0855,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002757286432160804,
      "loss": 2.6732,
      "step": 17100
    },
    {
      "epoch": 0.08555,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000275713567839196,
      "loss": 2.6886,
      "step": 17110
    },
    {
      "epoch": 0.0856,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00027569849246231155,
      "loss": 2.6397,
      "step": 17120
    },
    {
      "epoch": 0.08565,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002756834170854271,
      "loss": 2.6356,
      "step": 17130
    },
    {
      "epoch": 0.0857,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002756683417085427,
      "loss": 2.6673,
      "step": 17140
    },
    {
      "epoch": 0.08575,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002756532663316583,
      "loss": 2.6724,
      "step": 17150
    },
    {
      "epoch": 0.0858,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027563819095477384,
      "loss": 2.6369,
      "step": 17160
    },
    {
      "epoch": 0.08585,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002756231155778894,
      "loss": 2.629,
      "step": 17170
    },
    {
      "epoch": 0.0859,
      "grad_norm": 1.5546875,
      "learning_rate": 0.000275608040201005,
      "loss": 2.6091,
      "step": 17180
    },
    {
      "epoch": 0.08595,
      "grad_norm": 1.5,
      "learning_rate": 0.00027559296482412057,
      "loss": 2.6372,
      "step": 17190
    },
    {
      "epoch": 0.086,
      "grad_norm": 1.625,
      "learning_rate": 0.0002755778894472361,
      "loss": 2.652,
      "step": 17200
    },
    {
      "epoch": 0.08605,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00027556281407035174,
      "loss": 2.6274,
      "step": 17210
    },
    {
      "epoch": 0.0861,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002755477386934673,
      "loss": 2.6396,
      "step": 17220
    },
    {
      "epoch": 0.08615,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027553266331658286,
      "loss": 2.6277,
      "step": 17230
    },
    {
      "epoch": 0.0862,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00027551758793969847,
      "loss": 2.6446,
      "step": 17240
    },
    {
      "epoch": 0.08625,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027550251256281403,
      "loss": 2.6762,
      "step": 17250
    },
    {
      "epoch": 0.0863,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002754874371859296,
      "loss": 2.701,
      "step": 17260
    },
    {
      "epoch": 0.08635,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002754723618090452,
      "loss": 2.6533,
      "step": 17270
    },
    {
      "epoch": 0.0864,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00027545728643216076,
      "loss": 2.6767,
      "step": 17280
    },
    {
      "epoch": 0.08645,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002754422110552764,
      "loss": 2.6641,
      "step": 17290
    },
    {
      "epoch": 0.0865,
      "grad_norm": 1.828125,
      "learning_rate": 0.00027542713567839193,
      "loss": 2.6333,
      "step": 17300
    },
    {
      "epoch": 0.08655,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027541206030150755,
      "loss": 2.6503,
      "step": 17310
    },
    {
      "epoch": 0.0866,
      "grad_norm": 1.5,
      "learning_rate": 0.0002753969849246231,
      "loss": 2.5747,
      "step": 17320
    },
    {
      "epoch": 0.08665,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00027538190954773866,
      "loss": 2.6272,
      "step": 17330
    },
    {
      "epoch": 0.0867,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002753668341708543,
      "loss": 2.6358,
      "step": 17340
    },
    {
      "epoch": 0.08675,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027535175879396984,
      "loss": 2.5686,
      "step": 17350
    },
    {
      "epoch": 0.0868,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002753366834170854,
      "loss": 2.667,
      "step": 17360
    },
    {
      "epoch": 0.08685,
      "grad_norm": 1.734375,
      "learning_rate": 0.000275321608040201,
      "loss": 2.6281,
      "step": 17370
    },
    {
      "epoch": 0.0869,
      "grad_norm": 1.5,
      "learning_rate": 0.00027530653266331657,
      "loss": 2.57,
      "step": 17380
    },
    {
      "epoch": 0.08695,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002752914572864321,
      "loss": 2.678,
      "step": 17390
    },
    {
      "epoch": 0.087,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00027527638190954774,
      "loss": 2.5836,
      "step": 17400
    },
    {
      "epoch": 0.08705,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002752613065326633,
      "loss": 2.6694,
      "step": 17410
    },
    {
      "epoch": 0.0871,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027524623115577886,
      "loss": 2.6516,
      "step": 17420
    },
    {
      "epoch": 0.08715,
      "grad_norm": 1.640625,
      "learning_rate": 0.00027523115577889447,
      "loss": 2.6075,
      "step": 17430
    },
    {
      "epoch": 0.0872,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00027521608040201003,
      "loss": 2.6748,
      "step": 17440
    },
    {
      "epoch": 0.08725,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002752010050251256,
      "loss": 2.653,
      "step": 17450
    },
    {
      "epoch": 0.0873,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027518592964824115,
      "loss": 2.6985,
      "step": 17460
    },
    {
      "epoch": 0.08735,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027517085427135676,
      "loss": 2.6314,
      "step": 17470
    },
    {
      "epoch": 0.0874,
      "grad_norm": 1.625,
      "learning_rate": 0.0002751557788944723,
      "loss": 2.6324,
      "step": 17480
    },
    {
      "epoch": 0.08745,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002751407035175879,
      "loss": 2.6964,
      "step": 17490
    },
    {
      "epoch": 0.0875,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002751256281407035,
      "loss": 2.5951,
      "step": 17500
    },
    {
      "epoch": 0.08755,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027511055276381905,
      "loss": 2.6391,
      "step": 17510
    },
    {
      "epoch": 0.0876,
      "grad_norm": 1.390625,
      "learning_rate": 0.0002750954773869346,
      "loss": 2.6681,
      "step": 17520
    },
    {
      "epoch": 0.08765,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002750804020100502,
      "loss": 2.6846,
      "step": 17530
    },
    {
      "epoch": 0.0877,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002750653266331658,
      "loss": 2.6141,
      "step": 17540
    },
    {
      "epoch": 0.08775,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002750502512562814,
      "loss": 2.664,
      "step": 17550
    },
    {
      "epoch": 0.0878,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00027503517587939696,
      "loss": 2.6167,
      "step": 17560
    },
    {
      "epoch": 0.08785,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027502010050251257,
      "loss": 2.6335,
      "step": 17570
    },
    {
      "epoch": 0.0879,
      "grad_norm": 1.609375,
      "learning_rate": 0.00027500502512562813,
      "loss": 2.5938,
      "step": 17580
    },
    {
      "epoch": 0.08795,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002749899497487437,
      "loss": 2.6643,
      "step": 17590
    },
    {
      "epoch": 0.088,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002749748743718593,
      "loss": 2.6717,
      "step": 17600
    },
    {
      "epoch": 0.08805,
      "grad_norm": 1.3828125,
      "learning_rate": 0.00027495979899497486,
      "loss": 2.6646,
      "step": 17610
    },
    {
      "epoch": 0.0881,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002749447236180904,
      "loss": 2.62,
      "step": 17620
    },
    {
      "epoch": 0.08815,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027492964824120603,
      "loss": 2.5944,
      "step": 17630
    },
    {
      "epoch": 0.0882,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002749145728643216,
      "loss": 2.6154,
      "step": 17640
    },
    {
      "epoch": 0.08825,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00027489949748743715,
      "loss": 2.6346,
      "step": 17650
    },
    {
      "epoch": 0.0883,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00027488442211055276,
      "loss": 2.6621,
      "step": 17660
    },
    {
      "epoch": 0.08835,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002748693467336683,
      "loss": 2.5937,
      "step": 17670
    },
    {
      "epoch": 0.0884,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002748542713567839,
      "loss": 2.6226,
      "step": 17680
    },
    {
      "epoch": 0.08845,
      "grad_norm": 1.5,
      "learning_rate": 0.0002748391959798995,
      "loss": 2.7408,
      "step": 17690
    },
    {
      "epoch": 0.0885,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027482412060301505,
      "loss": 2.6155,
      "step": 17700
    },
    {
      "epoch": 0.08855,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002748090452261306,
      "loss": 2.6382,
      "step": 17710
    },
    {
      "epoch": 0.0886,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002747939698492462,
      "loss": 2.6229,
      "step": 17720
    },
    {
      "epoch": 0.08865,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002747788944723618,
      "loss": 2.5923,
      "step": 17730
    },
    {
      "epoch": 0.0887,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00027476381909547734,
      "loss": 2.6445,
      "step": 17740
    },
    {
      "epoch": 0.08875,
      "grad_norm": 1.65625,
      "learning_rate": 0.00027474874371859296,
      "loss": 2.6356,
      "step": 17750
    },
    {
      "epoch": 0.0888,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002747336683417085,
      "loss": 2.6228,
      "step": 17760
    },
    {
      "epoch": 0.08885,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002747185929648241,
      "loss": 2.6663,
      "step": 17770
    },
    {
      "epoch": 0.0889,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00027470351758793963,
      "loss": 2.6154,
      "step": 17780
    },
    {
      "epoch": 0.08895,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00027468844221105525,
      "loss": 2.6126,
      "step": 17790
    },
    {
      "epoch": 0.089,
      "grad_norm": 1.625,
      "learning_rate": 0.0002746733668341708,
      "loss": 2.6158,
      "step": 17800
    },
    {
      "epoch": 0.08905,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002746582914572864,
      "loss": 2.6293,
      "step": 17810
    },
    {
      "epoch": 0.0891,
      "grad_norm": 1.65625,
      "learning_rate": 0.000274643216080402,
      "loss": 2.6809,
      "step": 17820
    },
    {
      "epoch": 0.08915,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027462814070351754,
      "loss": 2.559,
      "step": 17830
    },
    {
      "epoch": 0.0892,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027461306532663315,
      "loss": 2.6387,
      "step": 17840
    },
    {
      "epoch": 0.08925,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002745979899497487,
      "loss": 2.6316,
      "step": 17850
    },
    {
      "epoch": 0.0893,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002745829145728643,
      "loss": 2.6615,
      "step": 17860
    },
    {
      "epoch": 0.08935,
      "grad_norm": 1.75,
      "learning_rate": 0.0002745678391959799,
      "loss": 2.6643,
      "step": 17870
    },
    {
      "epoch": 0.0894,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002745527638190955,
      "loss": 2.6327,
      "step": 17880
    },
    {
      "epoch": 0.08945,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00027453768844221105,
      "loss": 2.6262,
      "step": 17890
    },
    {
      "epoch": 0.0895,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002745226130653266,
      "loss": 2.6452,
      "step": 17900
    },
    {
      "epoch": 0.08955,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002745075376884422,
      "loss": 2.5796,
      "step": 17910
    },
    {
      "epoch": 0.0896,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002744924623115578,
      "loss": 2.6572,
      "step": 17920
    },
    {
      "epoch": 0.08965,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027447738693467334,
      "loss": 2.5597,
      "step": 17930
    },
    {
      "epoch": 0.0897,
      "grad_norm": 1.5,
      "learning_rate": 0.0002744623115577889,
      "loss": 2.6242,
      "step": 17940
    },
    {
      "epoch": 0.08975,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002744472361809045,
      "loss": 2.6545,
      "step": 17950
    },
    {
      "epoch": 0.0898,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002744321608040201,
      "loss": 2.5881,
      "step": 17960
    },
    {
      "epoch": 0.08985,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027441708542713563,
      "loss": 2.6278,
      "step": 17970
    },
    {
      "epoch": 0.0899,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027440201005025125,
      "loss": 2.6197,
      "step": 17980
    },
    {
      "epoch": 0.08995,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002743869346733668,
      "loss": 2.6173,
      "step": 17990
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00027437185929648236,
      "loss": 2.5833,
      "step": 18000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.597162961959839,
      "eval_runtime": 90.5262,
      "eval_samples_per_second": 27.616,
      "eval_steps_per_second": 0.442,
      "step": 18000
    },
    {
      "epoch": 0.09005,
      "grad_norm": 1.5625,
      "learning_rate": 0.000274356783919598,
      "loss": 2.5672,
      "step": 18010
    },
    {
      "epoch": 0.0901,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027434170854271354,
      "loss": 2.6116,
      "step": 18020
    },
    {
      "epoch": 0.09015,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002743266331658291,
      "loss": 2.6484,
      "step": 18030
    },
    {
      "epoch": 0.0902,
      "grad_norm": 1.34375,
      "learning_rate": 0.0002743115577889447,
      "loss": 2.6472,
      "step": 18040
    },
    {
      "epoch": 0.09025,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00027429648241206027,
      "loss": 2.6594,
      "step": 18050
    },
    {
      "epoch": 0.0903,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002742814070351758,
      "loss": 2.5982,
      "step": 18060
    },
    {
      "epoch": 0.09035,
      "grad_norm": 1.4375,
      "learning_rate": 0.00027426633165829144,
      "loss": 2.6707,
      "step": 18070
    },
    {
      "epoch": 0.0904,
      "grad_norm": 1.546875,
      "learning_rate": 0.000274251256281407,
      "loss": 2.5401,
      "step": 18080
    },
    {
      "epoch": 0.09045,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027423618090452256,
      "loss": 2.6134,
      "step": 18090
    },
    {
      "epoch": 0.0905,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00027422110552763817,
      "loss": 2.6813,
      "step": 18100
    },
    {
      "epoch": 0.09055,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027420603015075373,
      "loss": 2.596,
      "step": 18110
    },
    {
      "epoch": 0.0906,
      "grad_norm": 1.46875,
      "learning_rate": 0.00027419095477386934,
      "loss": 2.6321,
      "step": 18120
    },
    {
      "epoch": 0.09065,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002741758793969849,
      "loss": 2.6176,
      "step": 18130
    },
    {
      "epoch": 0.0907,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002741608040201005,
      "loss": 2.5828,
      "step": 18140
    },
    {
      "epoch": 0.09075,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002741457286432161,
      "loss": 2.6435,
      "step": 18150
    },
    {
      "epoch": 0.0908,
      "grad_norm": 1.6875,
      "learning_rate": 0.00027413065326633163,
      "loss": 2.6565,
      "step": 18160
    },
    {
      "epoch": 0.09085,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027411557788944725,
      "loss": 2.6175,
      "step": 18170
    },
    {
      "epoch": 0.0909,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002741005025125628,
      "loss": 2.5662,
      "step": 18180
    },
    {
      "epoch": 0.09095,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00027408542713567836,
      "loss": 2.5901,
      "step": 18190
    },
    {
      "epoch": 0.091,
      "grad_norm": 1.4765625,
      "learning_rate": 0.000274070351758794,
      "loss": 2.6313,
      "step": 18200
    },
    {
      "epoch": 0.09105,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027405527638190954,
      "loss": 2.65,
      "step": 18210
    },
    {
      "epoch": 0.0911,
      "grad_norm": 1.3671875,
      "learning_rate": 0.0002740402010050251,
      "loss": 2.5902,
      "step": 18220
    },
    {
      "epoch": 0.09115,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002740251256281407,
      "loss": 2.6284,
      "step": 18230
    },
    {
      "epoch": 0.0912,
      "grad_norm": 1.625,
      "learning_rate": 0.00027401005025125627,
      "loss": 2.6173,
      "step": 18240
    },
    {
      "epoch": 0.09125,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027399497487437183,
      "loss": 2.6243,
      "step": 18250
    },
    {
      "epoch": 0.0913,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002739798994974874,
      "loss": 2.5613,
      "step": 18260
    },
    {
      "epoch": 0.09135,
      "grad_norm": 1.546875,
      "learning_rate": 0.000273964824120603,
      "loss": 2.5776,
      "step": 18270
    },
    {
      "epoch": 0.0914,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027394974874371856,
      "loss": 2.6331,
      "step": 18280
    },
    {
      "epoch": 0.09145,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002739346733668341,
      "loss": 2.626,
      "step": 18290
    },
    {
      "epoch": 0.0915,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027391959798994973,
      "loss": 2.6257,
      "step": 18300
    },
    {
      "epoch": 0.09155,
      "grad_norm": 2.328125,
      "learning_rate": 0.0002739045226130653,
      "loss": 2.5993,
      "step": 18310
    },
    {
      "epoch": 0.0916,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027388944723618085,
      "loss": 2.648,
      "step": 18320
    },
    {
      "epoch": 0.09165,
      "grad_norm": 1.4375,
      "learning_rate": 0.00027387437185929646,
      "loss": 2.6826,
      "step": 18330
    },
    {
      "epoch": 0.0917,
      "grad_norm": 1.7734375,
      "learning_rate": 0.000273859296482412,
      "loss": 2.6061,
      "step": 18340
    },
    {
      "epoch": 0.09175,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002738442211055276,
      "loss": 2.6313,
      "step": 18350
    },
    {
      "epoch": 0.0918,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002738291457286432,
      "loss": 2.5785,
      "step": 18360
    },
    {
      "epoch": 0.09185,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027381407035175875,
      "loss": 2.603,
      "step": 18370
    },
    {
      "epoch": 0.0919,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027379899497487437,
      "loss": 2.6245,
      "step": 18380
    },
    {
      "epoch": 0.09195,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002737839195979899,
      "loss": 2.5886,
      "step": 18390
    },
    {
      "epoch": 0.092,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002737688442211055,
      "loss": 2.5941,
      "step": 18400
    },
    {
      "epoch": 0.09205,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002737537688442211,
      "loss": 2.6811,
      "step": 18410
    },
    {
      "epoch": 0.0921,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027373869346733666,
      "loss": 2.599,
      "step": 18420
    },
    {
      "epoch": 0.09215,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027372361809045227,
      "loss": 2.6472,
      "step": 18430
    },
    {
      "epoch": 0.0922,
      "grad_norm": 1.34375,
      "learning_rate": 0.00027370854271356783,
      "loss": 2.6073,
      "step": 18440
    },
    {
      "epoch": 0.09225,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002736934673366834,
      "loss": 2.5835,
      "step": 18450
    },
    {
      "epoch": 0.0923,
      "grad_norm": 1.6015625,
      "learning_rate": 0.000273678391959799,
      "loss": 2.5998,
      "step": 18460
    },
    {
      "epoch": 0.09235,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00027366331658291456,
      "loss": 2.557,
      "step": 18470
    },
    {
      "epoch": 0.0924,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002736482412060301,
      "loss": 2.5851,
      "step": 18480
    },
    {
      "epoch": 0.09245,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00027363316582914573,
      "loss": 2.6661,
      "step": 18490
    },
    {
      "epoch": 0.0925,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002736180904522613,
      "loss": 2.592,
      "step": 18500
    },
    {
      "epoch": 0.09255,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00027360301507537685,
      "loss": 2.651,
      "step": 18510
    },
    {
      "epoch": 0.0926,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00027358793969849246,
      "loss": 2.6223,
      "step": 18520
    },
    {
      "epoch": 0.09265,
      "grad_norm": 1.390625,
      "learning_rate": 0.000273572864321608,
      "loss": 2.61,
      "step": 18530
    },
    {
      "epoch": 0.0927,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002735577889447236,
      "loss": 2.6367,
      "step": 18540
    },
    {
      "epoch": 0.09275,
      "grad_norm": 1.703125,
      "learning_rate": 0.00027354271356783914,
      "loss": 2.6238,
      "step": 18550
    },
    {
      "epoch": 0.0928,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027352763819095475,
      "loss": 2.6301,
      "step": 18560
    },
    {
      "epoch": 0.09285,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002735125628140703,
      "loss": 2.5998,
      "step": 18570
    },
    {
      "epoch": 0.0929,
      "grad_norm": 1.65625,
      "learning_rate": 0.00027349748743718587,
      "loss": 2.5886,
      "step": 18580
    },
    {
      "epoch": 0.09295,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002734824120603015,
      "loss": 2.5762,
      "step": 18590
    },
    {
      "epoch": 0.093,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027346733668341704,
      "loss": 2.571,
      "step": 18600
    },
    {
      "epoch": 0.09305,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002734522613065326,
      "loss": 2.622,
      "step": 18610
    },
    {
      "epoch": 0.0931,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002734371859296482,
      "loss": 2.5976,
      "step": 18620
    },
    {
      "epoch": 0.09315,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002734221105527638,
      "loss": 2.5297,
      "step": 18630
    },
    {
      "epoch": 0.0932,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002734070351758794,
      "loss": 2.6043,
      "step": 18640
    },
    {
      "epoch": 0.09325,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027339195979899495,
      "loss": 2.5773,
      "step": 18650
    },
    {
      "epoch": 0.0933,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002733768844221105,
      "loss": 2.6252,
      "step": 18660
    },
    {
      "epoch": 0.09335,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002733618090452261,
      "loss": 2.6018,
      "step": 18670
    },
    {
      "epoch": 0.0934,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002733467336683417,
      "loss": 2.5537,
      "step": 18680
    },
    {
      "epoch": 0.09345,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002733316582914573,
      "loss": 2.6348,
      "step": 18690
    },
    {
      "epoch": 0.0935,
      "grad_norm": 1.671875,
      "learning_rate": 0.00027331658291457285,
      "loss": 2.6045,
      "step": 18700
    },
    {
      "epoch": 0.09355,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002733015075376884,
      "loss": 2.6455,
      "step": 18710
    },
    {
      "epoch": 0.0936,
      "grad_norm": 1.59375,
      "learning_rate": 0.000273286432160804,
      "loss": 2.6098,
      "step": 18720
    },
    {
      "epoch": 0.09365,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002732713567839196,
      "loss": 2.6111,
      "step": 18730
    },
    {
      "epoch": 0.0937,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027325628140703514,
      "loss": 2.5947,
      "step": 18740
    },
    {
      "epoch": 0.09375,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00027324120603015075,
      "loss": 2.6224,
      "step": 18750
    },
    {
      "epoch": 0.0938,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002732261306532663,
      "loss": 2.5618,
      "step": 18760
    },
    {
      "epoch": 0.09385,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00027321105527638187,
      "loss": 2.6303,
      "step": 18770
    },
    {
      "epoch": 0.0939,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002731959798994975,
      "loss": 2.6131,
      "step": 18780
    },
    {
      "epoch": 0.09395,
      "grad_norm": 1.765625,
      "learning_rate": 0.00027318090452261304,
      "loss": 2.5743,
      "step": 18790
    },
    {
      "epoch": 0.094,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002731658291457286,
      "loss": 2.6595,
      "step": 18800
    },
    {
      "epoch": 0.09405,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002731507537688442,
      "loss": 2.5871,
      "step": 18810
    },
    {
      "epoch": 0.0941,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002731356783919598,
      "loss": 2.5893,
      "step": 18820
    },
    {
      "epoch": 0.09415,
      "grad_norm": 1.765625,
      "learning_rate": 0.00027312060301507533,
      "loss": 2.5825,
      "step": 18830
    },
    {
      "epoch": 0.0942,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00027310552763819095,
      "loss": 2.6089,
      "step": 18840
    },
    {
      "epoch": 0.09425,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002730904522613065,
      "loss": 2.6116,
      "step": 18850
    },
    {
      "epoch": 0.0943,
      "grad_norm": 1.703125,
      "learning_rate": 0.00027307537688442206,
      "loss": 2.6871,
      "step": 18860
    },
    {
      "epoch": 0.09435,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002730603015075376,
      "loss": 2.6382,
      "step": 18870
    },
    {
      "epoch": 0.0944,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027304522613065324,
      "loss": 2.6184,
      "step": 18880
    },
    {
      "epoch": 0.09445,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002730301507537688,
      "loss": 2.6341,
      "step": 18890
    },
    {
      "epoch": 0.0945,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002730150753768844,
      "loss": 2.6198,
      "step": 18900
    },
    {
      "epoch": 0.09455,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027299999999999997,
      "loss": 2.5552,
      "step": 18910
    },
    {
      "epoch": 0.0946,
      "grad_norm": 1.5,
      "learning_rate": 0.0002729849246231155,
      "loss": 2.5425,
      "step": 18920
    },
    {
      "epoch": 0.09465,
      "grad_norm": 1.5,
      "learning_rate": 0.00027296984924623114,
      "loss": 2.5532,
      "step": 18930
    },
    {
      "epoch": 0.0947,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002729547738693467,
      "loss": 2.5823,
      "step": 18940
    },
    {
      "epoch": 0.09475,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002729396984924623,
      "loss": 2.5698,
      "step": 18950
    },
    {
      "epoch": 0.0948,
      "grad_norm": 1.421875,
      "learning_rate": 0.00027292462311557787,
      "loss": 2.5857,
      "step": 18960
    },
    {
      "epoch": 0.09485,
      "grad_norm": 1.578125,
      "learning_rate": 0.00027290954773869343,
      "loss": 2.5939,
      "step": 18970
    },
    {
      "epoch": 0.0949,
      "grad_norm": 1.671875,
      "learning_rate": 0.00027289447236180904,
      "loss": 2.5985,
      "step": 18980
    },
    {
      "epoch": 0.09495,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002728793969849246,
      "loss": 2.5694,
      "step": 18990
    },
    {
      "epoch": 0.095,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002728643216080402,
      "loss": 2.6326,
      "step": 19000
    },
    {
      "epoch": 0.09505,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002728492462311558,
      "loss": 2.5958,
      "step": 19010
    },
    {
      "epoch": 0.0951,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027283417085427133,
      "loss": 2.5813,
      "step": 19020
    },
    {
      "epoch": 0.09515,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002728190954773869,
      "loss": 2.5014,
      "step": 19030
    },
    {
      "epoch": 0.0952,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002728040201005025,
      "loss": 2.574,
      "step": 19040
    },
    {
      "epoch": 0.09525,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00027278894472361806,
      "loss": 2.4928,
      "step": 19050
    },
    {
      "epoch": 0.0953,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002727738693467336,
      "loss": 2.5947,
      "step": 19060
    },
    {
      "epoch": 0.09535,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027275879396984924,
      "loss": 2.611,
      "step": 19070
    },
    {
      "epoch": 0.0954,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002727437185929648,
      "loss": 2.58,
      "step": 19080
    },
    {
      "epoch": 0.09545,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00027272864321608036,
      "loss": 2.6076,
      "step": 19090
    },
    {
      "epoch": 0.0955,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027271356783919597,
      "loss": 2.6171,
      "step": 19100
    },
    {
      "epoch": 0.09555,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00027269849246231153,
      "loss": 2.5839,
      "step": 19110
    },
    {
      "epoch": 0.0956,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002726834170854271,
      "loss": 2.577,
      "step": 19120
    },
    {
      "epoch": 0.09565,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002726683417085427,
      "loss": 2.5376,
      "step": 19130
    },
    {
      "epoch": 0.0957,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027265326633165826,
      "loss": 2.6053,
      "step": 19140
    },
    {
      "epoch": 0.09575,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002726381909547738,
      "loss": 2.6549,
      "step": 19150
    },
    {
      "epoch": 0.0958,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00027262311557788943,
      "loss": 2.5877,
      "step": 19160
    },
    {
      "epoch": 0.09585,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000272608040201005,
      "loss": 2.5929,
      "step": 19170
    },
    {
      "epoch": 0.0959,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027259296482412055,
      "loss": 2.6132,
      "step": 19180
    },
    {
      "epoch": 0.09595,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027257788944723616,
      "loss": 2.579,
      "step": 19190
    },
    {
      "epoch": 0.096,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002725628140703517,
      "loss": 2.6347,
      "step": 19200
    },
    {
      "epoch": 0.09605,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027254773869346733,
      "loss": 2.5324,
      "step": 19210
    },
    {
      "epoch": 0.0961,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002725326633165829,
      "loss": 2.5698,
      "step": 19220
    },
    {
      "epoch": 0.09615,
      "grad_norm": 1.40625,
      "learning_rate": 0.00027251758793969845,
      "loss": 2.5878,
      "step": 19230
    },
    {
      "epoch": 0.0962,
      "grad_norm": 1.796875,
      "learning_rate": 0.00027250251256281407,
      "loss": 2.5869,
      "step": 19240
    },
    {
      "epoch": 0.09625,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002724874371859296,
      "loss": 2.5954,
      "step": 19250
    },
    {
      "epoch": 0.0963,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00027247236180904524,
      "loss": 2.5789,
      "step": 19260
    },
    {
      "epoch": 0.09635,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002724572864321608,
      "loss": 2.5925,
      "step": 19270
    },
    {
      "epoch": 0.0964,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00027244221105527636,
      "loss": 2.6283,
      "step": 19280
    },
    {
      "epoch": 0.09645,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00027242713567839197,
      "loss": 2.5657,
      "step": 19290
    },
    {
      "epoch": 0.0965,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00027241206030150753,
      "loss": 2.5569,
      "step": 19300
    },
    {
      "epoch": 0.09655,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002723969849246231,
      "loss": 2.6375,
      "step": 19310
    },
    {
      "epoch": 0.0966,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002723819095477387,
      "loss": 2.5614,
      "step": 19320
    },
    {
      "epoch": 0.09665,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00027236683417085426,
      "loss": 2.6009,
      "step": 19330
    },
    {
      "epoch": 0.0967,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002723517587939698,
      "loss": 2.62,
      "step": 19340
    },
    {
      "epoch": 0.09675,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002723366834170854,
      "loss": 2.5822,
      "step": 19350
    },
    {
      "epoch": 0.0968,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000272321608040201,
      "loss": 2.5489,
      "step": 19360
    },
    {
      "epoch": 0.09685,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00027230653266331655,
      "loss": 2.5679,
      "step": 19370
    },
    {
      "epoch": 0.0969,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002722914572864321,
      "loss": 2.628,
      "step": 19380
    },
    {
      "epoch": 0.09695,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002722763819095477,
      "loss": 2.6358,
      "step": 19390
    },
    {
      "epoch": 0.097,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002722613065326633,
      "loss": 2.5614,
      "step": 19400
    },
    {
      "epoch": 0.09705,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00027224623115577884,
      "loss": 2.6088,
      "step": 19410
    },
    {
      "epoch": 0.0971,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00027223115577889445,
      "loss": 2.585,
      "step": 19420
    },
    {
      "epoch": 0.09715,
      "grad_norm": 1.484375,
      "learning_rate": 0.00027221608040201,
      "loss": 2.5276,
      "step": 19430
    },
    {
      "epoch": 0.0972,
      "grad_norm": 1.6875,
      "learning_rate": 0.00027220100502512557,
      "loss": 2.5362,
      "step": 19440
    },
    {
      "epoch": 0.09725,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002721859296482412,
      "loss": 2.5288,
      "step": 19450
    },
    {
      "epoch": 0.0973,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00027217085427135674,
      "loss": 2.5933,
      "step": 19460
    },
    {
      "epoch": 0.09735,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027215577889447236,
      "loss": 2.5549,
      "step": 19470
    },
    {
      "epoch": 0.0974,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002721407035175879,
      "loss": 2.5711,
      "step": 19480
    },
    {
      "epoch": 0.09745,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002721256281407035,
      "loss": 2.6199,
      "step": 19490
    },
    {
      "epoch": 0.0975,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002721105527638191,
      "loss": 2.6052,
      "step": 19500
    },
    {
      "epoch": 0.09755,
      "grad_norm": 1.625,
      "learning_rate": 0.00027209547738693465,
      "loss": 2.5778,
      "step": 19510
    },
    {
      "epoch": 0.0976,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00027208040201005026,
      "loss": 2.5922,
      "step": 19520
    },
    {
      "epoch": 0.09765,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002720653266331658,
      "loss": 2.5765,
      "step": 19530
    },
    {
      "epoch": 0.0977,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002720502512562814,
      "loss": 2.5467,
      "step": 19540
    },
    {
      "epoch": 0.09775,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000272035175879397,
      "loss": 2.5459,
      "step": 19550
    },
    {
      "epoch": 0.0978,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027202010050251255,
      "loss": 2.5505,
      "step": 19560
    },
    {
      "epoch": 0.09785,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002720050251256281,
      "loss": 2.535,
      "step": 19570
    },
    {
      "epoch": 0.0979,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002719899497487437,
      "loss": 2.5497,
      "step": 19580
    },
    {
      "epoch": 0.09795,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002719748743718593,
      "loss": 2.6383,
      "step": 19590
    },
    {
      "epoch": 0.098,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00027195979899497484,
      "loss": 2.5938,
      "step": 19600
    },
    {
      "epoch": 0.09805,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027194472361809045,
      "loss": 2.5988,
      "step": 19610
    },
    {
      "epoch": 0.0981,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000271929648241206,
      "loss": 2.5688,
      "step": 19620
    },
    {
      "epoch": 0.09815,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027191457286432157,
      "loss": 2.5592,
      "step": 19630
    },
    {
      "epoch": 0.0982,
      "grad_norm": 1.6875,
      "learning_rate": 0.00027189949748743713,
      "loss": 2.5892,
      "step": 19640
    },
    {
      "epoch": 0.09825,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00027188442211055274,
      "loss": 2.5309,
      "step": 19650
    },
    {
      "epoch": 0.0983,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002718693467336683,
      "loss": 2.6191,
      "step": 19660
    },
    {
      "epoch": 0.09835,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027185427135678386,
      "loss": 2.6129,
      "step": 19670
    },
    {
      "epoch": 0.0984,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002718391959798995,
      "loss": 2.5657,
      "step": 19680
    },
    {
      "epoch": 0.09845,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027182412060301503,
      "loss": 2.5697,
      "step": 19690
    },
    {
      "epoch": 0.0985,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002718090452261306,
      "loss": 2.52,
      "step": 19700
    },
    {
      "epoch": 0.09855,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002717939698492462,
      "loss": 2.5771,
      "step": 19710
    },
    {
      "epoch": 0.0986,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027177889447236176,
      "loss": 2.5298,
      "step": 19720
    },
    {
      "epoch": 0.09865,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002717638190954774,
      "loss": 2.6146,
      "step": 19730
    },
    {
      "epoch": 0.0987,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00027174874371859294,
      "loss": 2.5652,
      "step": 19740
    },
    {
      "epoch": 0.09875,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002717336683417085,
      "loss": 2.5058,
      "step": 19750
    },
    {
      "epoch": 0.0988,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002717185929648241,
      "loss": 2.554,
      "step": 19760
    },
    {
      "epoch": 0.09885,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027170351758793967,
      "loss": 2.5834,
      "step": 19770
    },
    {
      "epoch": 0.0989,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002716884422110553,
      "loss": 2.5853,
      "step": 19780
    },
    {
      "epoch": 0.09895,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00027167336683417084,
      "loss": 2.5313,
      "step": 19790
    },
    {
      "epoch": 0.099,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002716582914572864,
      "loss": 2.5351,
      "step": 19800
    },
    {
      "epoch": 0.09905,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000271643216080402,
      "loss": 2.5815,
      "step": 19810
    },
    {
      "epoch": 0.0991,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027162814070351757,
      "loss": 2.5773,
      "step": 19820
    },
    {
      "epoch": 0.09915,
      "grad_norm": 1.640625,
      "learning_rate": 0.00027161306532663313,
      "loss": 2.5972,
      "step": 19830
    },
    {
      "epoch": 0.0992,
      "grad_norm": 1.40625,
      "learning_rate": 0.00027159798994974874,
      "loss": 2.5713,
      "step": 19840
    },
    {
      "epoch": 0.09925,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002715829145728643,
      "loss": 2.5729,
      "step": 19850
    },
    {
      "epoch": 0.0993,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00027156783919597986,
      "loss": 2.5787,
      "step": 19860
    },
    {
      "epoch": 0.09935,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002715527638190955,
      "loss": 2.5802,
      "step": 19870
    },
    {
      "epoch": 0.0994,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00027153768844221103,
      "loss": 2.5644,
      "step": 19880
    },
    {
      "epoch": 0.09945,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002715226130653266,
      "loss": 2.5429,
      "step": 19890
    },
    {
      "epoch": 0.0995,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002715075376884422,
      "loss": 2.5314,
      "step": 19900
    },
    {
      "epoch": 0.09955,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00027149246231155777,
      "loss": 2.5927,
      "step": 19910
    },
    {
      "epoch": 0.0996,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002714773869346733,
      "loss": 2.5425,
      "step": 19920
    },
    {
      "epoch": 0.09965,
      "grad_norm": 1.65625,
      "learning_rate": 0.00027146231155778894,
      "loss": 2.5705,
      "step": 19930
    },
    {
      "epoch": 0.0997,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002714472361809045,
      "loss": 2.5574,
      "step": 19940
    },
    {
      "epoch": 0.09975,
      "grad_norm": 1.640625,
      "learning_rate": 0.00027143216080402006,
      "loss": 2.5738,
      "step": 19950
    },
    {
      "epoch": 0.0998,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002714170854271356,
      "loss": 2.556,
      "step": 19960
    },
    {
      "epoch": 0.09985,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00027140201005025123,
      "loss": 2.5145,
      "step": 19970
    },
    {
      "epoch": 0.0999,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002713869346733668,
      "loss": 2.5917,
      "step": 19980
    },
    {
      "epoch": 0.09995,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002713718592964824,
      "loss": 2.5604,
      "step": 19990
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027135678391959796,
      "loss": 2.5697,
      "step": 20000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.557965040206909,
      "eval_runtime": 90.981,
      "eval_samples_per_second": 27.478,
      "eval_steps_per_second": 0.44,
      "step": 20000
    },
    {
      "epoch": 0.10005,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002713417085427135,
      "loss": 2.6137,
      "step": 20010
    },
    {
      "epoch": 0.1001,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00027132663316582913,
      "loss": 2.543,
      "step": 20020
    },
    {
      "epoch": 0.10015,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002713115577889447,
      "loss": 2.5941,
      "step": 20030
    },
    {
      "epoch": 0.1002,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002712964824120603,
      "loss": 2.5981,
      "step": 20040
    },
    {
      "epoch": 0.10025,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027128140703517586,
      "loss": 2.5289,
      "step": 20050
    },
    {
      "epoch": 0.1003,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002712663316582914,
      "loss": 2.5472,
      "step": 20060
    },
    {
      "epoch": 0.10035,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027125125628140703,
      "loss": 2.5507,
      "step": 20070
    },
    {
      "epoch": 0.1004,
      "grad_norm": 1.375,
      "learning_rate": 0.0002712361809045226,
      "loss": 2.5361,
      "step": 20080
    },
    {
      "epoch": 0.10045,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002712211055276382,
      "loss": 2.5719,
      "step": 20090
    },
    {
      "epoch": 0.1005,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00027120603015075377,
      "loss": 2.5724,
      "step": 20100
    },
    {
      "epoch": 0.10055,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002711909547738693,
      "loss": 2.5563,
      "step": 20110
    },
    {
      "epoch": 0.1006,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002711758793969849,
      "loss": 2.5223,
      "step": 20120
    },
    {
      "epoch": 0.10065,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002711608040201005,
      "loss": 2.5595,
      "step": 20130
    },
    {
      "epoch": 0.1007,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027114572864321606,
      "loss": 2.5594,
      "step": 20140
    },
    {
      "epoch": 0.10075,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002711306532663316,
      "loss": 2.6324,
      "step": 20150
    },
    {
      "epoch": 0.1008,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00027111557788944723,
      "loss": 2.5231,
      "step": 20160
    },
    {
      "epoch": 0.10085,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002711005025125628,
      "loss": 2.5593,
      "step": 20170
    },
    {
      "epoch": 0.1009,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00027108542713567835,
      "loss": 2.5239,
      "step": 20180
    },
    {
      "epoch": 0.10095,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027107035175879396,
      "loss": 2.5451,
      "step": 20190
    },
    {
      "epoch": 0.101,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002710552763819095,
      "loss": 2.5965,
      "step": 20200
    },
    {
      "epoch": 0.10105,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002710402010050251,
      "loss": 2.5821,
      "step": 20210
    },
    {
      "epoch": 0.1011,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002710251256281407,
      "loss": 2.59,
      "step": 20220
    },
    {
      "epoch": 0.10115,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00027101005025125625,
      "loss": 2.5451,
      "step": 20230
    },
    {
      "epoch": 0.1012,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002709949748743718,
      "loss": 2.5624,
      "step": 20240
    },
    {
      "epoch": 0.10125,
      "grad_norm": 1.625,
      "learning_rate": 0.0002709798994974874,
      "loss": 2.5587,
      "step": 20250
    },
    {
      "epoch": 0.1013,
      "grad_norm": 1.46875,
      "learning_rate": 0.000270964824120603,
      "loss": 2.5791,
      "step": 20260
    },
    {
      "epoch": 0.10135,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027094974874371854,
      "loss": 2.5586,
      "step": 20270
    },
    {
      "epoch": 0.1014,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027093467336683415,
      "loss": 2.5572,
      "step": 20280
    },
    {
      "epoch": 0.10145,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002709195979899497,
      "loss": 2.5622,
      "step": 20290
    },
    {
      "epoch": 0.1015,
      "grad_norm": 1.5,
      "learning_rate": 0.0002709045226130653,
      "loss": 2.5259,
      "step": 20300
    },
    {
      "epoch": 0.10155,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002708894472361809,
      "loss": 2.5655,
      "step": 20310
    },
    {
      "epoch": 0.1016,
      "grad_norm": 1.75,
      "learning_rate": 0.00027087437185929644,
      "loss": 2.5704,
      "step": 20320
    },
    {
      "epoch": 0.10165,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027085929648241206,
      "loss": 2.5668,
      "step": 20330
    },
    {
      "epoch": 0.1017,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002708442211055276,
      "loss": 2.5472,
      "step": 20340
    },
    {
      "epoch": 0.10175,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027082914572864323,
      "loss": 2.4878,
      "step": 20350
    },
    {
      "epoch": 0.1018,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002708140703517588,
      "loss": 2.551,
      "step": 20360
    },
    {
      "epoch": 0.10185,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00027079899497487435,
      "loss": 2.5708,
      "step": 20370
    },
    {
      "epoch": 0.1019,
      "grad_norm": 1.53125,
      "learning_rate": 0.00027078391959798996,
      "loss": 2.5266,
      "step": 20380
    },
    {
      "epoch": 0.10195,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002707688442211055,
      "loss": 2.5805,
      "step": 20390
    },
    {
      "epoch": 0.102,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002707537688442211,
      "loss": 2.5911,
      "step": 20400
    },
    {
      "epoch": 0.10205,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002707386934673367,
      "loss": 2.5595,
      "step": 20410
    },
    {
      "epoch": 0.1021,
      "grad_norm": 1.46875,
      "learning_rate": 0.00027072361809045225,
      "loss": 2.5576,
      "step": 20420
    },
    {
      "epoch": 0.10215,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002707085427135678,
      "loss": 2.5863,
      "step": 20430
    },
    {
      "epoch": 0.1022,
      "grad_norm": 1.546875,
      "learning_rate": 0.00027069346733668337,
      "loss": 2.5532,
      "step": 20440
    },
    {
      "epoch": 0.10225,
      "grad_norm": 1.59375,
      "learning_rate": 0.000270678391959799,
      "loss": 2.5517,
      "step": 20450
    },
    {
      "epoch": 0.1023,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027066331658291454,
      "loss": 2.5706,
      "step": 20460
    },
    {
      "epoch": 0.10235,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002706482412060301,
      "loss": 2.5562,
      "step": 20470
    },
    {
      "epoch": 0.1024,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002706331658291457,
      "loss": 2.5855,
      "step": 20480
    },
    {
      "epoch": 0.10245,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00027061809045226127,
      "loss": 2.5848,
      "step": 20490
    },
    {
      "epoch": 0.1025,
      "grad_norm": 1.4375,
      "learning_rate": 0.00027060301507537683,
      "loss": 2.5525,
      "step": 20500
    },
    {
      "epoch": 0.10255,
      "grad_norm": 1.5625,
      "learning_rate": 0.00027058793969849244,
      "loss": 2.5245,
      "step": 20510
    },
    {
      "epoch": 0.1026,
      "grad_norm": 1.484375,
      "learning_rate": 0.000270572864321608,
      "loss": 2.497,
      "step": 20520
    },
    {
      "epoch": 0.10265,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00027055778894472356,
      "loss": 2.5364,
      "step": 20530
    },
    {
      "epoch": 0.1027,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002705427135678392,
      "loss": 2.4903,
      "step": 20540
    },
    {
      "epoch": 0.10275,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00027052763819095473,
      "loss": 2.5921,
      "step": 20550
    },
    {
      "epoch": 0.1028,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00027051256281407035,
      "loss": 2.5703,
      "step": 20560
    },
    {
      "epoch": 0.10285,
      "grad_norm": 1.5,
      "learning_rate": 0.0002704974874371859,
      "loss": 2.5461,
      "step": 20570
    },
    {
      "epoch": 0.1029,
      "grad_norm": 1.609375,
      "learning_rate": 0.00027048241206030146,
      "loss": 2.5462,
      "step": 20580
    },
    {
      "epoch": 0.10295,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002704673366834171,
      "loss": 2.4994,
      "step": 20590
    },
    {
      "epoch": 0.103,
      "grad_norm": 1.453125,
      "learning_rate": 0.00027045226130653264,
      "loss": 2.5802,
      "step": 20600
    },
    {
      "epoch": 0.10305,
      "grad_norm": 1.625,
      "learning_rate": 0.00027043718592964825,
      "loss": 2.59,
      "step": 20610
    },
    {
      "epoch": 0.1031,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002704221105527638,
      "loss": 2.5894,
      "step": 20620
    },
    {
      "epoch": 0.10315,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00027040703517587937,
      "loss": 2.5549,
      "step": 20630
    },
    {
      "epoch": 0.1032,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000270391959798995,
      "loss": 2.605,
      "step": 20640
    },
    {
      "epoch": 0.10325,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027037688442211054,
      "loss": 2.5432,
      "step": 20650
    },
    {
      "epoch": 0.1033,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002703618090452261,
      "loss": 2.5203,
      "step": 20660
    },
    {
      "epoch": 0.10335,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002703467336683417,
      "loss": 2.5403,
      "step": 20670
    },
    {
      "epoch": 0.1034,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00027033165829145727,
      "loss": 2.4987,
      "step": 20680
    },
    {
      "epoch": 0.10345,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00027031658291457283,
      "loss": 2.5554,
      "step": 20690
    },
    {
      "epoch": 0.1035,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027030150753768844,
      "loss": 2.5371,
      "step": 20700
    },
    {
      "epoch": 0.10355,
      "grad_norm": 1.5,
      "learning_rate": 0.000270286432160804,
      "loss": 2.5675,
      "step": 20710
    },
    {
      "epoch": 0.1036,
      "grad_norm": 1.84375,
      "learning_rate": 0.00027027135678391956,
      "loss": 2.5801,
      "step": 20720
    },
    {
      "epoch": 0.10365,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002702562814070351,
      "loss": 2.551,
      "step": 20730
    },
    {
      "epoch": 0.1037,
      "grad_norm": 1.625,
      "learning_rate": 0.00027024120603015073,
      "loss": 2.5208,
      "step": 20740
    },
    {
      "epoch": 0.10375,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002702261306532663,
      "loss": 2.5511,
      "step": 20750
    },
    {
      "epoch": 0.1038,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00027021105527638185,
      "loss": 2.5652,
      "step": 20760
    },
    {
      "epoch": 0.10385,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027019597989949747,
      "loss": 2.5227,
      "step": 20770
    },
    {
      "epoch": 0.1039,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000270180904522613,
      "loss": 2.453,
      "step": 20780
    },
    {
      "epoch": 0.10395,
      "grad_norm": 1.625,
      "learning_rate": 0.0002701658291457286,
      "loss": 2.5918,
      "step": 20790
    },
    {
      "epoch": 0.104,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002701507537688442,
      "loss": 2.527,
      "step": 20800
    },
    {
      "epoch": 0.10405,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00027013567839195976,
      "loss": 2.5523,
      "step": 20810
    },
    {
      "epoch": 0.1041,
      "grad_norm": 1.46875,
      "learning_rate": 0.00027012060301507537,
      "loss": 2.467,
      "step": 20820
    },
    {
      "epoch": 0.10415,
      "grad_norm": 1.59375,
      "learning_rate": 0.00027010552763819093,
      "loss": 2.5559,
      "step": 20830
    },
    {
      "epoch": 0.1042,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002700904522613065,
      "loss": 2.5793,
      "step": 20840
    },
    {
      "epoch": 0.10425,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002700753768844221,
      "loss": 2.5709,
      "step": 20850
    },
    {
      "epoch": 0.1043,
      "grad_norm": 1.515625,
      "learning_rate": 0.00027006030150753766,
      "loss": 2.5299,
      "step": 20860
    },
    {
      "epoch": 0.10435,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00027004522613065327,
      "loss": 2.5151,
      "step": 20870
    },
    {
      "epoch": 0.1044,
      "grad_norm": 1.640625,
      "learning_rate": 0.00027003015075376883,
      "loss": 2.5456,
      "step": 20880
    },
    {
      "epoch": 0.10445,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002700150753768844,
      "loss": 2.533,
      "step": 20890
    },
    {
      "epoch": 0.1045,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00027,
      "loss": 2.5879,
      "step": 20900
    },
    {
      "epoch": 0.10455,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026998492462311556,
      "loss": 2.4669,
      "step": 20910
    },
    {
      "epoch": 0.1046,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002699698492462311,
      "loss": 2.5972,
      "step": 20920
    },
    {
      "epoch": 0.10465,
      "grad_norm": 1.6875,
      "learning_rate": 0.00026995477386934673,
      "loss": 2.5058,
      "step": 20930
    },
    {
      "epoch": 0.1047,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002699396984924623,
      "loss": 2.5675,
      "step": 20940
    },
    {
      "epoch": 0.10475,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026992462311557785,
      "loss": 2.5702,
      "step": 20950
    },
    {
      "epoch": 0.1048,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026990954773869347,
      "loss": 2.544,
      "step": 20960
    },
    {
      "epoch": 0.10485,
      "grad_norm": 1.640625,
      "learning_rate": 0.000269894472361809,
      "loss": 2.499,
      "step": 20970
    },
    {
      "epoch": 0.1049,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002698793969849246,
      "loss": 2.495,
      "step": 20980
    },
    {
      "epoch": 0.10495,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002698643216080402,
      "loss": 2.5682,
      "step": 20990
    },
    {
      "epoch": 0.105,
      "grad_norm": 1.484375,
      "learning_rate": 0.00026984924623115576,
      "loss": 2.5436,
      "step": 21000
    },
    {
      "epoch": 0.10505,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002698341708542713,
      "loss": 2.5508,
      "step": 21010
    },
    {
      "epoch": 0.1051,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026981909547738693,
      "loss": 2.5612,
      "step": 21020
    },
    {
      "epoch": 0.10515,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002698040201005025,
      "loss": 2.5129,
      "step": 21030
    },
    {
      "epoch": 0.1052,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026978894472361805,
      "loss": 2.5251,
      "step": 21040
    },
    {
      "epoch": 0.10525,
      "grad_norm": 1.5,
      "learning_rate": 0.0002697738693467336,
      "loss": 2.5474,
      "step": 21050
    },
    {
      "epoch": 0.1053,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002697587939698492,
      "loss": 2.5391,
      "step": 21060
    },
    {
      "epoch": 0.10535,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002697437185929648,
      "loss": 2.4983,
      "step": 21070
    },
    {
      "epoch": 0.1054,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002697286432160804,
      "loss": 2.5387,
      "step": 21080
    },
    {
      "epoch": 0.10545,
      "grad_norm": 1.703125,
      "learning_rate": 0.00026971356783919595,
      "loss": 2.5371,
      "step": 21090
    },
    {
      "epoch": 0.1055,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002696984924623115,
      "loss": 2.5466,
      "step": 21100
    },
    {
      "epoch": 0.10555,
      "grad_norm": 1.75,
      "learning_rate": 0.0002696834170854271,
      "loss": 2.4824,
      "step": 21110
    },
    {
      "epoch": 0.1056,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002696683417085427,
      "loss": 2.5169,
      "step": 21120
    },
    {
      "epoch": 0.10565,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002696532663316583,
      "loss": 2.5135,
      "step": 21130
    },
    {
      "epoch": 0.1057,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026963819095477385,
      "loss": 2.573,
      "step": 21140
    },
    {
      "epoch": 0.10575,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002696231155778894,
      "loss": 2.5589,
      "step": 21150
    },
    {
      "epoch": 0.1058,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000269608040201005,
      "loss": 2.5199,
      "step": 21160
    },
    {
      "epoch": 0.10585,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002695929648241206,
      "loss": 2.5391,
      "step": 21170
    },
    {
      "epoch": 0.1059,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002695778894472362,
      "loss": 2.5371,
      "step": 21180
    },
    {
      "epoch": 0.10595,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026956281407035176,
      "loss": 2.471,
      "step": 21190
    },
    {
      "epoch": 0.106,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002695477386934673,
      "loss": 2.5161,
      "step": 21200
    },
    {
      "epoch": 0.10605,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002695326633165829,
      "loss": 2.5701,
      "step": 21210
    },
    {
      "epoch": 0.1061,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002695175879396985,
      "loss": 2.6309,
      "step": 21220
    },
    {
      "epoch": 0.10615,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00026950251256281405,
      "loss": 2.4886,
      "step": 21230
    },
    {
      "epoch": 0.1062,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002694874371859296,
      "loss": 2.5971,
      "step": 21240
    },
    {
      "epoch": 0.10625,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002694723618090452,
      "loss": 2.5244,
      "step": 21250
    },
    {
      "epoch": 0.1063,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002694572864321608,
      "loss": 2.5171,
      "step": 21260
    },
    {
      "epoch": 0.10635,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00026944221105527634,
      "loss": 2.5414,
      "step": 21270
    },
    {
      "epoch": 0.1064,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00026942713567839195,
      "loss": 2.543,
      "step": 21280
    },
    {
      "epoch": 0.10645,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002694120603015075,
      "loss": 2.6339,
      "step": 21290
    },
    {
      "epoch": 0.1065,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00026939698492462307,
      "loss": 2.5598,
      "step": 21300
    },
    {
      "epoch": 0.10655,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002693819095477387,
      "loss": 2.5247,
      "step": 21310
    },
    {
      "epoch": 0.1066,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00026936683417085424,
      "loss": 2.517,
      "step": 21320
    },
    {
      "epoch": 0.10665,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002693517587939698,
      "loss": 2.5255,
      "step": 21330
    },
    {
      "epoch": 0.1067,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002693366834170854,
      "loss": 2.4913,
      "step": 21340
    },
    {
      "epoch": 0.10675,
      "grad_norm": 1.484375,
      "learning_rate": 0.00026932160804020097,
      "loss": 2.4969,
      "step": 21350
    },
    {
      "epoch": 0.1068,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026930653266331653,
      "loss": 2.5475,
      "step": 21360
    },
    {
      "epoch": 0.10685,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026929145728643214,
      "loss": 2.51,
      "step": 21370
    },
    {
      "epoch": 0.1069,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002692763819095477,
      "loss": 2.5302,
      "step": 21380
    },
    {
      "epoch": 0.10695,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002692613065326633,
      "loss": 2.5559,
      "step": 21390
    },
    {
      "epoch": 0.107,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002692462311557789,
      "loss": 2.5843,
      "step": 21400
    },
    {
      "epoch": 0.10705,
      "grad_norm": 1.34375,
      "learning_rate": 0.00026923115577889443,
      "loss": 2.523,
      "step": 21410
    },
    {
      "epoch": 0.1071,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026921608040201005,
      "loss": 2.5429,
      "step": 21420
    },
    {
      "epoch": 0.10715,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002692010050251256,
      "loss": 2.6026,
      "step": 21430
    },
    {
      "epoch": 0.1072,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002691859296482412,
      "loss": 2.5388,
      "step": 21440
    },
    {
      "epoch": 0.10725,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002691708542713568,
      "loss": 2.53,
      "step": 21450
    },
    {
      "epoch": 0.1073,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00026915577889447234,
      "loss": 2.5262,
      "step": 21460
    },
    {
      "epoch": 0.10735,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026914070351758795,
      "loss": 2.4978,
      "step": 21470
    },
    {
      "epoch": 0.1074,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002691256281407035,
      "loss": 2.4798,
      "step": 21480
    },
    {
      "epoch": 0.10745,
      "grad_norm": 1.515625,
      "learning_rate": 0.00026911055276381907,
      "loss": 2.5571,
      "step": 21490
    },
    {
      "epoch": 0.1075,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002690954773869347,
      "loss": 2.5375,
      "step": 21500
    },
    {
      "epoch": 0.10755,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00026908040201005024,
      "loss": 2.5198,
      "step": 21510
    },
    {
      "epoch": 0.1076,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002690653266331658,
      "loss": 2.5993,
      "step": 21520
    },
    {
      "epoch": 0.10765,
      "grad_norm": 1.515625,
      "learning_rate": 0.00026905025125628136,
      "loss": 2.5519,
      "step": 21530
    },
    {
      "epoch": 0.1077,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00026903517587939697,
      "loss": 2.5172,
      "step": 21540
    },
    {
      "epoch": 0.10775,
      "grad_norm": 1.734375,
      "learning_rate": 0.00026902010050251253,
      "loss": 2.5498,
      "step": 21550
    },
    {
      "epoch": 0.1078,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002690050251256281,
      "loss": 2.5646,
      "step": 21560
    },
    {
      "epoch": 0.10785,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002689899497487437,
      "loss": 2.4904,
      "step": 21570
    },
    {
      "epoch": 0.1079,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00026897487437185926,
      "loss": 2.5206,
      "step": 21580
    },
    {
      "epoch": 0.10795,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002689597989949748,
      "loss": 2.5374,
      "step": 21590
    },
    {
      "epoch": 0.108,
      "grad_norm": 1.609375,
      "learning_rate": 0.00026894472361809043,
      "loss": 2.4672,
      "step": 21600
    },
    {
      "epoch": 0.10805,
      "grad_norm": 1.546875,
      "learning_rate": 0.000268929648241206,
      "loss": 2.4917,
      "step": 21610
    },
    {
      "epoch": 0.1081,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026891457286432155,
      "loss": 2.4952,
      "step": 21620
    },
    {
      "epoch": 0.10815,
      "grad_norm": 1.625,
      "learning_rate": 0.00026889949748743717,
      "loss": 2.5458,
      "step": 21630
    },
    {
      "epoch": 0.1082,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002688844221105527,
      "loss": 2.557,
      "step": 21640
    },
    {
      "epoch": 0.10825,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026886934673366834,
      "loss": 2.5753,
      "step": 21650
    },
    {
      "epoch": 0.1083,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002688542713567839,
      "loss": 2.4932,
      "step": 21660
    },
    {
      "epoch": 0.10835,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026883919597989946,
      "loss": 2.5393,
      "step": 21670
    },
    {
      "epoch": 0.1084,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026882412060301507,
      "loss": 2.5726,
      "step": 21680
    },
    {
      "epoch": 0.10845,
      "grad_norm": 1.703125,
      "learning_rate": 0.00026880904522613063,
      "loss": 2.4879,
      "step": 21690
    },
    {
      "epoch": 0.1085,
      "grad_norm": 1.453125,
      "learning_rate": 0.00026879396984924624,
      "loss": 2.5215,
      "step": 21700
    },
    {
      "epoch": 0.10855,
      "grad_norm": 1.4375,
      "learning_rate": 0.0002687788944723618,
      "loss": 2.5192,
      "step": 21710
    },
    {
      "epoch": 0.1086,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026876381909547736,
      "loss": 2.5127,
      "step": 21720
    },
    {
      "epoch": 0.10865,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026874874371859297,
      "loss": 2.6194,
      "step": 21730
    },
    {
      "epoch": 0.1087,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026873366834170853,
      "loss": 2.5363,
      "step": 21740
    },
    {
      "epoch": 0.10875,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002687185929648241,
      "loss": 2.5187,
      "step": 21750
    },
    {
      "epoch": 0.1088,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002687035175879397,
      "loss": 2.5414,
      "step": 21760
    },
    {
      "epoch": 0.10885,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026868844221105526,
      "loss": 2.5125,
      "step": 21770
    },
    {
      "epoch": 0.1089,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002686733668341708,
      "loss": 2.5375,
      "step": 21780
    },
    {
      "epoch": 0.10895,
      "grad_norm": 1.6875,
      "learning_rate": 0.00026865829145728643,
      "loss": 2.5366,
      "step": 21790
    },
    {
      "epoch": 0.109,
      "grad_norm": 1.59375,
      "learning_rate": 0.000268643216080402,
      "loss": 2.5076,
      "step": 21800
    },
    {
      "epoch": 0.10905,
      "grad_norm": 1.625,
      "learning_rate": 0.00026862814070351755,
      "loss": 2.4905,
      "step": 21810
    },
    {
      "epoch": 0.1091,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00026861306532663317,
      "loss": 2.5497,
      "step": 21820
    },
    {
      "epoch": 0.10915,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002685979899497487,
      "loss": 2.5257,
      "step": 21830
    },
    {
      "epoch": 0.1092,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002685829145728643,
      "loss": 2.4968,
      "step": 21840
    },
    {
      "epoch": 0.10925,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00026856783919597984,
      "loss": 2.4937,
      "step": 21850
    },
    {
      "epoch": 0.1093,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026855276381909546,
      "loss": 2.5768,
      "step": 21860
    },
    {
      "epoch": 0.10935,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000268537688442211,
      "loss": 2.5506,
      "step": 21870
    },
    {
      "epoch": 0.1094,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002685226130653266,
      "loss": 2.4958,
      "step": 21880
    },
    {
      "epoch": 0.10945,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002685075376884422,
      "loss": 2.5752,
      "step": 21890
    },
    {
      "epoch": 0.1095,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026849246231155775,
      "loss": 2.5263,
      "step": 21900
    },
    {
      "epoch": 0.10955,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026847738693467336,
      "loss": 2.526,
      "step": 21910
    },
    {
      "epoch": 0.1096,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002684623115577889,
      "loss": 2.511,
      "step": 21920
    },
    {
      "epoch": 0.10965,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002684472361809045,
      "loss": 2.529,
      "step": 21930
    },
    {
      "epoch": 0.1097,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002684321608040201,
      "loss": 2.4825,
      "step": 21940
    },
    {
      "epoch": 0.10975,
      "grad_norm": 1.890625,
      "learning_rate": 0.00026841708542713565,
      "loss": 2.5051,
      "step": 21950
    },
    {
      "epoch": 0.1098,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026840201005025126,
      "loss": 2.4585,
      "step": 21960
    },
    {
      "epoch": 0.10985,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002683869346733668,
      "loss": 2.5391,
      "step": 21970
    },
    {
      "epoch": 0.1099,
      "grad_norm": 1.421875,
      "learning_rate": 0.0002683718592964824,
      "loss": 2.5358,
      "step": 21980
    },
    {
      "epoch": 0.10995,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000268356783919598,
      "loss": 2.5729,
      "step": 21990
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00026834170854271355,
      "loss": 2.4903,
      "step": 22000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.520439863204956,
      "eval_runtime": 93.5495,
      "eval_samples_per_second": 26.724,
      "eval_steps_per_second": 0.428,
      "step": 22000
    },
    {
      "epoch": 0.11005,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002683266331658291,
      "loss": 2.5298,
      "step": 22010
    },
    {
      "epoch": 0.1101,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002683115577889447,
      "loss": 2.5215,
      "step": 22020
    },
    {
      "epoch": 0.11015,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002682964824120603,
      "loss": 2.5206,
      "step": 22030
    },
    {
      "epoch": 0.1102,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00026828140703517584,
      "loss": 2.5128,
      "step": 22040
    },
    {
      "epoch": 0.11025,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026826633165829146,
      "loss": 2.4842,
      "step": 22050
    },
    {
      "epoch": 0.1103,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000268251256281407,
      "loss": 2.563,
      "step": 22060
    },
    {
      "epoch": 0.11035,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002682361809045226,
      "loss": 2.474,
      "step": 22070
    },
    {
      "epoch": 0.1104,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002682211055276382,
      "loss": 2.5572,
      "step": 22080
    },
    {
      "epoch": 0.11045,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026820603015075375,
      "loss": 2.5248,
      "step": 22090
    },
    {
      "epoch": 0.1105,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002681909547738693,
      "loss": 2.5362,
      "step": 22100
    },
    {
      "epoch": 0.11055,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002681758793969849,
      "loss": 2.5891,
      "step": 22110
    },
    {
      "epoch": 0.1106,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002681608040201005,
      "loss": 2.538,
      "step": 22120
    },
    {
      "epoch": 0.11065,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00026814572864321604,
      "loss": 2.5573,
      "step": 22130
    },
    {
      "epoch": 0.1107,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002681306532663316,
      "loss": 2.5565,
      "step": 22140
    },
    {
      "epoch": 0.11075,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002681155778894472,
      "loss": 2.5261,
      "step": 22150
    },
    {
      "epoch": 0.1108,
      "grad_norm": 1.703125,
      "learning_rate": 0.00026810050251256277,
      "loss": 2.4947,
      "step": 22160
    },
    {
      "epoch": 0.11085,
      "grad_norm": 1.625,
      "learning_rate": 0.0002680854271356784,
      "loss": 2.5341,
      "step": 22170
    },
    {
      "epoch": 0.1109,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026807035175879394,
      "loss": 2.5187,
      "step": 22180
    },
    {
      "epoch": 0.11095,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002680552763819095,
      "loss": 2.5054,
      "step": 22190
    },
    {
      "epoch": 0.111,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002680402010050251,
      "loss": 2.552,
      "step": 22200
    },
    {
      "epoch": 0.11105,
      "grad_norm": 1.484375,
      "learning_rate": 0.00026802512562814067,
      "loss": 2.5186,
      "step": 22210
    },
    {
      "epoch": 0.1111,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002680100502512563,
      "loss": 2.5036,
      "step": 22220
    },
    {
      "epoch": 0.11115,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026799497487437184,
      "loss": 2.483,
      "step": 22230
    },
    {
      "epoch": 0.1112,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002679798994974874,
      "loss": 2.536,
      "step": 22240
    },
    {
      "epoch": 0.11125,
      "grad_norm": 1.578125,
      "learning_rate": 0.000267964824120603,
      "loss": 2.5322,
      "step": 22250
    },
    {
      "epoch": 0.1113,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002679497487437186,
      "loss": 2.5115,
      "step": 22260
    },
    {
      "epoch": 0.11135,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002679346733668342,
      "loss": 2.5463,
      "step": 22270
    },
    {
      "epoch": 0.1114,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00026791959798994975,
      "loss": 2.4642,
      "step": 22280
    },
    {
      "epoch": 0.11145,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002679045226130653,
      "loss": 2.532,
      "step": 22290
    },
    {
      "epoch": 0.1115,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00026788944723618087,
      "loss": 2.5526,
      "step": 22300
    },
    {
      "epoch": 0.11155,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002678743718592965,
      "loss": 2.4524,
      "step": 22310
    },
    {
      "epoch": 0.1116,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00026785929648241204,
      "loss": 2.5097,
      "step": 22320
    },
    {
      "epoch": 0.11165,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002678442211055276,
      "loss": 2.5068,
      "step": 22330
    },
    {
      "epoch": 0.1117,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002678291457286432,
      "loss": 2.5162,
      "step": 22340
    },
    {
      "epoch": 0.11175,
      "grad_norm": 1.609375,
      "learning_rate": 0.00026781407035175877,
      "loss": 2.4855,
      "step": 22350
    },
    {
      "epoch": 0.1118,
      "grad_norm": 1.625,
      "learning_rate": 0.00026779899497487433,
      "loss": 2.5129,
      "step": 22360
    },
    {
      "epoch": 0.11185,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00026778391959798994,
      "loss": 2.5114,
      "step": 22370
    },
    {
      "epoch": 0.1119,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002677688442211055,
      "loss": 2.4975,
      "step": 22380
    },
    {
      "epoch": 0.11195,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026775376884422106,
      "loss": 2.5152,
      "step": 22390
    },
    {
      "epoch": 0.112,
      "grad_norm": 1.515625,
      "learning_rate": 0.00026773869346733667,
      "loss": 2.518,
      "step": 22400
    },
    {
      "epoch": 0.11205,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00026772361809045223,
      "loss": 2.4969,
      "step": 22410
    },
    {
      "epoch": 0.1121,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002677085427135678,
      "loss": 2.506,
      "step": 22420
    },
    {
      "epoch": 0.11215,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002676934673366834,
      "loss": 2.586,
      "step": 22430
    },
    {
      "epoch": 0.1122,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026767839195979896,
      "loss": 2.5419,
      "step": 22440
    },
    {
      "epoch": 0.11225,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002676633165829145,
      "loss": 2.573,
      "step": 22450
    },
    {
      "epoch": 0.1123,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00026764824120603013,
      "loss": 2.5158,
      "step": 22460
    },
    {
      "epoch": 0.11235,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002676331658291457,
      "loss": 2.5126,
      "step": 22470
    },
    {
      "epoch": 0.1124,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002676180904522613,
      "loss": 2.5563,
      "step": 22480
    },
    {
      "epoch": 0.11245,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00026760301507537687,
      "loss": 2.5079,
      "step": 22490
    },
    {
      "epoch": 0.1125,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002675879396984924,
      "loss": 2.5013,
      "step": 22500
    },
    {
      "epoch": 0.11255,
      "grad_norm": 1.796875,
      "learning_rate": 0.00026757286432160804,
      "loss": 2.5734,
      "step": 22510
    },
    {
      "epoch": 0.1126,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002675577889447236,
      "loss": 2.5204,
      "step": 22520
    },
    {
      "epoch": 0.11265,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002675427135678392,
      "loss": 2.5398,
      "step": 22530
    },
    {
      "epoch": 0.1127,
      "grad_norm": 1.703125,
      "learning_rate": 0.00026752763819095477,
      "loss": 2.5256,
      "step": 22540
    },
    {
      "epoch": 0.11275,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00026751256281407033,
      "loss": 2.5661,
      "step": 22550
    },
    {
      "epoch": 0.1128,
      "grad_norm": 1.765625,
      "learning_rate": 0.00026749748743718594,
      "loss": 2.537,
      "step": 22560
    },
    {
      "epoch": 0.11285,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002674824120603015,
      "loss": 2.4665,
      "step": 22570
    },
    {
      "epoch": 0.1129,
      "grad_norm": 1.625,
      "learning_rate": 0.00026746733668341706,
      "loss": 2.4699,
      "step": 22580
    },
    {
      "epoch": 0.11295,
      "grad_norm": 1.484375,
      "learning_rate": 0.00026745226130653267,
      "loss": 2.4744,
      "step": 22590
    },
    {
      "epoch": 0.113,
      "grad_norm": 1.515625,
      "learning_rate": 0.00026743718592964823,
      "loss": 2.5354,
      "step": 22600
    },
    {
      "epoch": 0.11305,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002674221105527638,
      "loss": 2.5118,
      "step": 22610
    },
    {
      "epoch": 0.1131,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026740703517587935,
      "loss": 2.5274,
      "step": 22620
    },
    {
      "epoch": 0.11315,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026739195979899496,
      "loss": 2.5252,
      "step": 22630
    },
    {
      "epoch": 0.1132,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002673768844221105,
      "loss": 2.4425,
      "step": 22640
    },
    {
      "epoch": 0.11325,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002673618090452261,
      "loss": 2.4803,
      "step": 22650
    },
    {
      "epoch": 0.1133,
      "grad_norm": 1.625,
      "learning_rate": 0.0002673467336683417,
      "loss": 2.5839,
      "step": 22660
    },
    {
      "epoch": 0.11335,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026733165829145725,
      "loss": 2.4684,
      "step": 22670
    },
    {
      "epoch": 0.1134,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002673165829145728,
      "loss": 2.5451,
      "step": 22680
    },
    {
      "epoch": 0.11345,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002673015075376884,
      "loss": 2.5041,
      "step": 22690
    },
    {
      "epoch": 0.1135,
      "grad_norm": 1.4609375,
      "learning_rate": 0.000267286432160804,
      "loss": 2.51,
      "step": 22700
    },
    {
      "epoch": 0.11355,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00026727135678391954,
      "loss": 2.4922,
      "step": 22710
    },
    {
      "epoch": 0.1136,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026725628140703516,
      "loss": 2.5558,
      "step": 22720
    },
    {
      "epoch": 0.11365,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002672412060301507,
      "loss": 2.4975,
      "step": 22730
    },
    {
      "epoch": 0.1137,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002672261306532663,
      "loss": 2.4902,
      "step": 22740
    },
    {
      "epoch": 0.11375,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002672110552763819,
      "loss": 2.4905,
      "step": 22750
    },
    {
      "epoch": 0.1138,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026719597989949745,
      "loss": 2.4925,
      "step": 22760
    },
    {
      "epoch": 0.11385,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026718090452261306,
      "loss": 2.4988,
      "step": 22770
    },
    {
      "epoch": 0.1139,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002671658291457286,
      "loss": 2.522,
      "step": 22780
    },
    {
      "epoch": 0.11395,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026715075376884423,
      "loss": 2.5022,
      "step": 22790
    },
    {
      "epoch": 0.114,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002671356783919598,
      "loss": 2.494,
      "step": 22800
    },
    {
      "epoch": 0.11405,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00026712060301507535,
      "loss": 2.5249,
      "step": 22810
    },
    {
      "epoch": 0.1141,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00026710552763819096,
      "loss": 2.5084,
      "step": 22820
    },
    {
      "epoch": 0.11415,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002670904522613065,
      "loss": 2.585,
      "step": 22830
    },
    {
      "epoch": 0.1142,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002670753768844221,
      "loss": 2.5242,
      "step": 22840
    },
    {
      "epoch": 0.11425,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002670603015075377,
      "loss": 2.509,
      "step": 22850
    },
    {
      "epoch": 0.1143,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026704522613065325,
      "loss": 2.5344,
      "step": 22860
    },
    {
      "epoch": 0.11435,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002670301507537688,
      "loss": 2.5285,
      "step": 22870
    },
    {
      "epoch": 0.1144,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002670150753768844,
      "loss": 2.4334,
      "step": 22880
    },
    {
      "epoch": 0.11445,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000267,
      "loss": 2.483,
      "step": 22890
    },
    {
      "epoch": 0.1145,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026698492462311554,
      "loss": 2.536,
      "step": 22900
    },
    {
      "epoch": 0.11455,
      "grad_norm": 1.625,
      "learning_rate": 0.00026696984924623116,
      "loss": 2.5012,
      "step": 22910
    },
    {
      "epoch": 0.1146,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002669547738693467,
      "loss": 2.5256,
      "step": 22920
    },
    {
      "epoch": 0.11465,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002669396984924623,
      "loss": 2.5003,
      "step": 22930
    },
    {
      "epoch": 0.1147,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026692462311557783,
      "loss": 2.5475,
      "step": 22940
    },
    {
      "epoch": 0.11475,
      "grad_norm": 1.625,
      "learning_rate": 0.00026690954773869345,
      "loss": 2.5027,
      "step": 22950
    },
    {
      "epoch": 0.1148,
      "grad_norm": 1.5546875,
      "learning_rate": 0.000266894472361809,
      "loss": 2.5096,
      "step": 22960
    },
    {
      "epoch": 0.11485,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026687939698492457,
      "loss": 2.476,
      "step": 22970
    },
    {
      "epoch": 0.1149,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002668643216080402,
      "loss": 2.5048,
      "step": 22980
    },
    {
      "epoch": 0.11495,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00026684924623115574,
      "loss": 2.5079,
      "step": 22990
    },
    {
      "epoch": 0.115,
      "grad_norm": 2.0,
      "learning_rate": 0.0002668341708542713,
      "loss": 2.5248,
      "step": 23000
    },
    {
      "epoch": 0.11505,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002668190954773869,
      "loss": 2.4936,
      "step": 23010
    },
    {
      "epoch": 0.1151,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026680402010050247,
      "loss": 2.5125,
      "step": 23020
    },
    {
      "epoch": 0.11515,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002667889447236181,
      "loss": 2.4448,
      "step": 23030
    },
    {
      "epoch": 0.1152,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00026677386934673364,
      "loss": 2.5671,
      "step": 23040
    },
    {
      "epoch": 0.11525,
      "grad_norm": 1.609375,
      "learning_rate": 0.00026675879396984925,
      "loss": 2.4235,
      "step": 23050
    },
    {
      "epoch": 0.1153,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002667437185929648,
      "loss": 2.5061,
      "step": 23060
    },
    {
      "epoch": 0.11535,
      "grad_norm": 1.734375,
      "learning_rate": 0.00026672864321608037,
      "loss": 2.5208,
      "step": 23070
    },
    {
      "epoch": 0.1154,
      "grad_norm": 1.5625,
      "learning_rate": 0.000266713567839196,
      "loss": 2.4741,
      "step": 23080
    },
    {
      "epoch": 0.11545,
      "grad_norm": 1.828125,
      "learning_rate": 0.00026669849246231154,
      "loss": 2.5036,
      "step": 23090
    },
    {
      "epoch": 0.1155,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002666834170854271,
      "loss": 2.4885,
      "step": 23100
    },
    {
      "epoch": 0.11555,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002666683417085427,
      "loss": 2.4793,
      "step": 23110
    },
    {
      "epoch": 0.1156,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002666532663316583,
      "loss": 2.5533,
      "step": 23120
    },
    {
      "epoch": 0.11565,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00026663819095477383,
      "loss": 2.5247,
      "step": 23130
    },
    {
      "epoch": 0.1157,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026662311557788945,
      "loss": 2.4835,
      "step": 23140
    },
    {
      "epoch": 0.11575,
      "grad_norm": 1.484375,
      "learning_rate": 0.000266608040201005,
      "loss": 2.4672,
      "step": 23150
    },
    {
      "epoch": 0.1158,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026659296482412057,
      "loss": 2.4362,
      "step": 23160
    },
    {
      "epoch": 0.11585,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002665778894472362,
      "loss": 2.4957,
      "step": 23170
    },
    {
      "epoch": 0.1159,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026656281407035174,
      "loss": 2.5204,
      "step": 23180
    },
    {
      "epoch": 0.11595,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002665477386934673,
      "loss": 2.4969,
      "step": 23190
    },
    {
      "epoch": 0.116,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002665326633165829,
      "loss": 2.5028,
      "step": 23200
    },
    {
      "epoch": 0.11605,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026651758793969847,
      "loss": 2.5006,
      "step": 23210
    },
    {
      "epoch": 0.1161,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00026650251256281403,
      "loss": 2.4971,
      "step": 23220
    },
    {
      "epoch": 0.11615,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002664874371859296,
      "loss": 2.5009,
      "step": 23230
    },
    {
      "epoch": 0.1162,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002664723618090452,
      "loss": 2.4613,
      "step": 23240
    },
    {
      "epoch": 0.11625,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026645728643216076,
      "loss": 2.5528,
      "step": 23250
    },
    {
      "epoch": 0.1163,
      "grad_norm": 1.625,
      "learning_rate": 0.0002664422110552763,
      "loss": 2.48,
      "step": 23260
    },
    {
      "epoch": 0.11635,
      "grad_norm": 1.703125,
      "learning_rate": 0.00026642713567839193,
      "loss": 2.4796,
      "step": 23270
    },
    {
      "epoch": 0.1164,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002664120603015075,
      "loss": 2.4869,
      "step": 23280
    },
    {
      "epoch": 0.11645,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002663969849246231,
      "loss": 2.4756,
      "step": 23290
    },
    {
      "epoch": 0.1165,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026638190954773866,
      "loss": 2.4725,
      "step": 23300
    },
    {
      "epoch": 0.11655,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002663668341708542,
      "loss": 2.4867,
      "step": 23310
    },
    {
      "epoch": 0.1166,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026635175879396983,
      "loss": 2.5338,
      "step": 23320
    },
    {
      "epoch": 0.11665,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002663366834170854,
      "loss": 2.5397,
      "step": 23330
    },
    {
      "epoch": 0.1167,
      "grad_norm": 1.4453125,
      "learning_rate": 0.000266321608040201,
      "loss": 2.4865,
      "step": 23340
    },
    {
      "epoch": 0.11675,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026630653266331657,
      "loss": 2.5411,
      "step": 23350
    },
    {
      "epoch": 0.1168,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002662914572864322,
      "loss": 2.4968,
      "step": 23360
    },
    {
      "epoch": 0.11685,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026627638190954774,
      "loss": 2.5299,
      "step": 23370
    },
    {
      "epoch": 0.1169,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002662613065326633,
      "loss": 2.4656,
      "step": 23380
    },
    {
      "epoch": 0.11695,
      "grad_norm": 1.875,
      "learning_rate": 0.00026624623115577886,
      "loss": 2.4843,
      "step": 23390
    },
    {
      "epoch": 0.117,
      "grad_norm": 1.75,
      "learning_rate": 0.00026623115577889447,
      "loss": 2.4764,
      "step": 23400
    },
    {
      "epoch": 0.11705,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00026621608040201003,
      "loss": 2.4344,
      "step": 23410
    },
    {
      "epoch": 0.1171,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0002662010050251256,
      "loss": 2.5576,
      "step": 23420
    },
    {
      "epoch": 0.11715,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002661859296482412,
      "loss": 2.5075,
      "step": 23430
    },
    {
      "epoch": 0.1172,
      "grad_norm": 1.625,
      "learning_rate": 0.00026617085427135676,
      "loss": 2.4889,
      "step": 23440
    },
    {
      "epoch": 0.11725,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002661557788944723,
      "loss": 2.5057,
      "step": 23450
    },
    {
      "epoch": 0.1173,
      "grad_norm": 1.75,
      "learning_rate": 0.00026614070351758793,
      "loss": 2.5131,
      "step": 23460
    },
    {
      "epoch": 0.11735,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002661256281407035,
      "loss": 2.4937,
      "step": 23470
    },
    {
      "epoch": 0.1174,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026611055276381905,
      "loss": 2.5375,
      "step": 23480
    },
    {
      "epoch": 0.11745,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026609547738693466,
      "loss": 2.4562,
      "step": 23490
    },
    {
      "epoch": 0.1175,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002660804020100502,
      "loss": 2.5454,
      "step": 23500
    },
    {
      "epoch": 0.11755,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002660653266331658,
      "loss": 2.4854,
      "step": 23510
    },
    {
      "epoch": 0.1176,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002660502512562814,
      "loss": 2.5426,
      "step": 23520
    },
    {
      "epoch": 0.11765,
      "grad_norm": 1.78125,
      "learning_rate": 0.00026603517587939695,
      "loss": 2.5161,
      "step": 23530
    },
    {
      "epoch": 0.1177,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002660201005025125,
      "loss": 2.5595,
      "step": 23540
    },
    {
      "epoch": 0.11775,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002660050251256281,
      "loss": 2.4847,
      "step": 23550
    },
    {
      "epoch": 0.1178,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002659899497487437,
      "loss": 2.4643,
      "step": 23560
    },
    {
      "epoch": 0.11785,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026597487437185924,
      "loss": 2.4961,
      "step": 23570
    },
    {
      "epoch": 0.1179,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026595979899497486,
      "loss": 2.4687,
      "step": 23580
    },
    {
      "epoch": 0.11795,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002659447236180904,
      "loss": 2.4695,
      "step": 23590
    },
    {
      "epoch": 0.118,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026592964824120603,
      "loss": 2.5448,
      "step": 23600
    },
    {
      "epoch": 0.11805,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002659145728643216,
      "loss": 2.4951,
      "step": 23610
    },
    {
      "epoch": 0.1181,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002658994974874372,
      "loss": 2.5083,
      "step": 23620
    },
    {
      "epoch": 0.11815,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026588442211055276,
      "loss": 2.5003,
      "step": 23630
    },
    {
      "epoch": 0.1182,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002658693467336683,
      "loss": 2.4991,
      "step": 23640
    },
    {
      "epoch": 0.11825,
      "grad_norm": 1.671875,
      "learning_rate": 0.00026585427135678393,
      "loss": 2.4636,
      "step": 23650
    },
    {
      "epoch": 0.1183,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002658391959798995,
      "loss": 2.4993,
      "step": 23660
    },
    {
      "epoch": 0.11835,
      "grad_norm": 1.609375,
      "learning_rate": 0.00026582412060301505,
      "loss": 2.4854,
      "step": 23670
    },
    {
      "epoch": 0.1184,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026580904522613066,
      "loss": 2.5416,
      "step": 23680
    },
    {
      "epoch": 0.11845,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002657939698492462,
      "loss": 2.469,
      "step": 23690
    },
    {
      "epoch": 0.1185,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002657788944723618,
      "loss": 2.491,
      "step": 23700
    },
    {
      "epoch": 0.11855,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00026576381909547734,
      "loss": 2.5167,
      "step": 23710
    },
    {
      "epoch": 0.1186,
      "grad_norm": 1.625,
      "learning_rate": 0.00026574874371859295,
      "loss": 2.4227,
      "step": 23720
    },
    {
      "epoch": 0.11865,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002657336683417085,
      "loss": 2.5095,
      "step": 23730
    },
    {
      "epoch": 0.1187,
      "grad_norm": 1.671875,
      "learning_rate": 0.00026571859296482407,
      "loss": 2.482,
      "step": 23740
    },
    {
      "epoch": 0.11875,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002657035175879397,
      "loss": 2.4654,
      "step": 23750
    },
    {
      "epoch": 0.1188,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00026568844221105524,
      "loss": 2.4487,
      "step": 23760
    },
    {
      "epoch": 0.11885,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002656733668341708,
      "loss": 2.525,
      "step": 23770
    },
    {
      "epoch": 0.1189,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002656582914572864,
      "loss": 2.4945,
      "step": 23780
    },
    {
      "epoch": 0.11895,
      "grad_norm": 1.5625,
      "learning_rate": 0.000265643216080402,
      "loss": 2.4866,
      "step": 23790
    },
    {
      "epoch": 0.119,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026562814070351753,
      "loss": 2.5164,
      "step": 23800
    },
    {
      "epoch": 0.11905,
      "grad_norm": 1.453125,
      "learning_rate": 0.00026561306532663315,
      "loss": 2.5295,
      "step": 23810
    },
    {
      "epoch": 0.1191,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002655979899497487,
      "loss": 2.4461,
      "step": 23820
    },
    {
      "epoch": 0.11915,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026558291457286427,
      "loss": 2.47,
      "step": 23830
    },
    {
      "epoch": 0.1192,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002655678391959799,
      "loss": 2.4735,
      "step": 23840
    },
    {
      "epoch": 0.11925,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00026555276381909544,
      "loss": 2.4914,
      "step": 23850
    },
    {
      "epoch": 0.1193,
      "grad_norm": 1.515625,
      "learning_rate": 0.00026553768844221105,
      "loss": 2.4664,
      "step": 23860
    },
    {
      "epoch": 0.11935,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002655226130653266,
      "loss": 2.506,
      "step": 23870
    },
    {
      "epoch": 0.1194,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026550753768844217,
      "loss": 2.4744,
      "step": 23880
    },
    {
      "epoch": 0.11945,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002654924623115578,
      "loss": 2.56,
      "step": 23890
    },
    {
      "epoch": 0.1195,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026547738693467334,
      "loss": 2.4882,
      "step": 23900
    },
    {
      "epoch": 0.11955,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00026546231155778895,
      "loss": 2.478,
      "step": 23910
    },
    {
      "epoch": 0.1196,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002654472361809045,
      "loss": 2.4848,
      "step": 23920
    },
    {
      "epoch": 0.11965,
      "grad_norm": 1.5,
      "learning_rate": 0.00026543216080402007,
      "loss": 2.551,
      "step": 23930
    },
    {
      "epoch": 0.1197,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002654170854271357,
      "loss": 2.4578,
      "step": 23940
    },
    {
      "epoch": 0.11975,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026540201005025124,
      "loss": 2.544,
      "step": 23950
    },
    {
      "epoch": 0.1198,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002653869346733668,
      "loss": 2.4313,
      "step": 23960
    },
    {
      "epoch": 0.11985,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002653718592964824,
      "loss": 2.4632,
      "step": 23970
    },
    {
      "epoch": 0.1199,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000265356783919598,
      "loss": 2.5094,
      "step": 23980
    },
    {
      "epoch": 0.11995,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00026534170854271353,
      "loss": 2.5357,
      "step": 23990
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026532663316582915,
      "loss": 2.508,
      "step": 24000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.4741568565368652,
      "eval_runtime": 91.2339,
      "eval_samples_per_second": 27.402,
      "eval_steps_per_second": 0.438,
      "step": 24000
    },
    {
      "epoch": 0.12005,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002653115577889447,
      "loss": 2.4826,
      "step": 24010
    },
    {
      "epoch": 0.1201,
      "grad_norm": 1.6875,
      "learning_rate": 0.00026529648241206027,
      "loss": 2.4563,
      "step": 24020
    },
    {
      "epoch": 0.12015,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002652814070351758,
      "loss": 2.5036,
      "step": 24030
    },
    {
      "epoch": 0.1202,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026526633165829144,
      "loss": 2.4962,
      "step": 24040
    },
    {
      "epoch": 0.12025,
      "grad_norm": 1.8359375,
      "learning_rate": 0.000265251256281407,
      "loss": 2.5157,
      "step": 24050
    },
    {
      "epoch": 0.1203,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026523618090452256,
      "loss": 2.4796,
      "step": 24060
    },
    {
      "epoch": 0.12035,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00026522110552763817,
      "loss": 2.5047,
      "step": 24070
    },
    {
      "epoch": 0.1204,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00026520603015075373,
      "loss": 2.4701,
      "step": 24080
    },
    {
      "epoch": 0.12045,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002651909547738693,
      "loss": 2.4613,
      "step": 24090
    },
    {
      "epoch": 0.1205,
      "grad_norm": 1.375,
      "learning_rate": 0.0002651758793969849,
      "loss": 2.5083,
      "step": 24100
    },
    {
      "epoch": 0.12055,
      "grad_norm": 1.765625,
      "learning_rate": 0.00026516080402010046,
      "loss": 2.5448,
      "step": 24110
    },
    {
      "epoch": 0.1206,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00026514572864321607,
      "loss": 2.5383,
      "step": 24120
    },
    {
      "epoch": 0.12065,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026513065326633163,
      "loss": 2.4525,
      "step": 24130
    },
    {
      "epoch": 0.1207,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002651155778894472,
      "loss": 2.4652,
      "step": 24140
    },
    {
      "epoch": 0.12075,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002651005025125628,
      "loss": 2.4532,
      "step": 24150
    },
    {
      "epoch": 0.1208,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026508542713567836,
      "loss": 2.4979,
      "step": 24160
    },
    {
      "epoch": 0.12085,
      "grad_norm": 1.484375,
      "learning_rate": 0.000265070351758794,
      "loss": 2.4969,
      "step": 24170
    },
    {
      "epoch": 0.1209,
      "grad_norm": 1.625,
      "learning_rate": 0.00026505527638190954,
      "loss": 2.4933,
      "step": 24180
    },
    {
      "epoch": 0.12095,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002650402010050251,
      "loss": 2.4966,
      "step": 24190
    },
    {
      "epoch": 0.121,
      "grad_norm": 1.5,
      "learning_rate": 0.0002650251256281407,
      "loss": 2.5054,
      "step": 24200
    },
    {
      "epoch": 0.12105,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026501005025125627,
      "loss": 2.5064,
      "step": 24210
    },
    {
      "epoch": 0.1211,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002649949748743718,
      "loss": 2.5065,
      "step": 24220
    },
    {
      "epoch": 0.12115,
      "grad_norm": 1.5,
      "learning_rate": 0.00026497989949748744,
      "loss": 2.4287,
      "step": 24230
    },
    {
      "epoch": 0.1212,
      "grad_norm": 1.5,
      "learning_rate": 0.000264964824120603,
      "loss": 2.5511,
      "step": 24240
    },
    {
      "epoch": 0.12125,
      "grad_norm": 1.609375,
      "learning_rate": 0.00026494974874371856,
      "loss": 2.4818,
      "step": 24250
    },
    {
      "epoch": 0.1213,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026493467336683417,
      "loss": 2.4705,
      "step": 24260
    },
    {
      "epoch": 0.12135,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026491959798994973,
      "loss": 2.497,
      "step": 24270
    },
    {
      "epoch": 0.1214,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002649045226130653,
      "loss": 2.4971,
      "step": 24280
    },
    {
      "epoch": 0.12145,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002648894472361809,
      "loss": 2.514,
      "step": 24290
    },
    {
      "epoch": 0.1215,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00026487437185929646,
      "loss": 2.5027,
      "step": 24300
    },
    {
      "epoch": 0.12155,
      "grad_norm": 1.6640625,
      "learning_rate": 0.000264859296482412,
      "loss": 2.4929,
      "step": 24310
    },
    {
      "epoch": 0.1216,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002648442211055276,
      "loss": 2.414,
      "step": 24320
    },
    {
      "epoch": 0.12165,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002648291457286432,
      "loss": 2.4219,
      "step": 24330
    },
    {
      "epoch": 0.1217,
      "grad_norm": 1.671875,
      "learning_rate": 0.00026481407035175875,
      "loss": 2.4419,
      "step": 24340
    },
    {
      "epoch": 0.12175,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002647989949748743,
      "loss": 2.4661,
      "step": 24350
    },
    {
      "epoch": 0.1218,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002647839195979899,
      "loss": 2.5284,
      "step": 24360
    },
    {
      "epoch": 0.12185,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002647688442211055,
      "loss": 2.4549,
      "step": 24370
    },
    {
      "epoch": 0.1219,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002647537688442211,
      "loss": 2.4905,
      "step": 24380
    },
    {
      "epoch": 0.12195,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00026473869346733665,
      "loss": 2.434,
      "step": 24390
    },
    {
      "epoch": 0.122,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002647236180904522,
      "loss": 2.544,
      "step": 24400
    },
    {
      "epoch": 0.12205,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002647085427135678,
      "loss": 2.5011,
      "step": 24410
    },
    {
      "epoch": 0.1221,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002646934673366834,
      "loss": 2.4732,
      "step": 24420
    },
    {
      "epoch": 0.12215,
      "grad_norm": 2.234375,
      "learning_rate": 0.000264678391959799,
      "loss": 2.494,
      "step": 24430
    },
    {
      "epoch": 0.1222,
      "grad_norm": 2.0,
      "learning_rate": 0.00026466331658291456,
      "loss": 2.5401,
      "step": 24440
    },
    {
      "epoch": 0.12225,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002646482412060301,
      "loss": 2.4705,
      "step": 24450
    },
    {
      "epoch": 0.1223,
      "grad_norm": 1.703125,
      "learning_rate": 0.00026463316582914573,
      "loss": 2.4641,
      "step": 24460
    },
    {
      "epoch": 0.12235,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002646180904522613,
      "loss": 2.481,
      "step": 24470
    },
    {
      "epoch": 0.1224,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00026460301507537685,
      "loss": 2.5232,
      "step": 24480
    },
    {
      "epoch": 0.12245,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026458793969849246,
      "loss": 2.4764,
      "step": 24490
    },
    {
      "epoch": 0.1225,
      "grad_norm": 1.4296875,
      "learning_rate": 0.000264572864321608,
      "loss": 2.4247,
      "step": 24500
    },
    {
      "epoch": 0.12255,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002645577889447236,
      "loss": 2.5364,
      "step": 24510
    },
    {
      "epoch": 0.1226,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002645427135678392,
      "loss": 2.5248,
      "step": 24520
    },
    {
      "epoch": 0.12265,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026452763819095475,
      "loss": 2.5052,
      "step": 24530
    },
    {
      "epoch": 0.1227,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002645125628140703,
      "loss": 2.4684,
      "step": 24540
    },
    {
      "epoch": 0.12275,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002644974874371859,
      "loss": 2.4558,
      "step": 24550
    },
    {
      "epoch": 0.1228,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002644824120603015,
      "loss": 2.5242,
      "step": 24560
    },
    {
      "epoch": 0.12285,
      "grad_norm": 1.640625,
      "learning_rate": 0.00026446733668341704,
      "loss": 2.4785,
      "step": 24570
    },
    {
      "epoch": 0.1229,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026445226130653265,
      "loss": 2.4797,
      "step": 24580
    },
    {
      "epoch": 0.12295,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002644371859296482,
      "loss": 2.5007,
      "step": 24590
    },
    {
      "epoch": 0.123,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00026442211055276377,
      "loss": 2.4927,
      "step": 24600
    },
    {
      "epoch": 0.12305,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002644070351758794,
      "loss": 2.467,
      "step": 24610
    },
    {
      "epoch": 0.1231,
      "grad_norm": 1.71875,
      "learning_rate": 0.00026439195979899494,
      "loss": 2.4921,
      "step": 24620
    },
    {
      "epoch": 0.12315,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002643768844221105,
      "loss": 2.4388,
      "step": 24630
    },
    {
      "epoch": 0.1232,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002643618090452261,
      "loss": 2.5359,
      "step": 24640
    },
    {
      "epoch": 0.12325,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002643467336683417,
      "loss": 2.4699,
      "step": 24650
    },
    {
      "epoch": 0.1233,
      "grad_norm": 1.71875,
      "learning_rate": 0.00026433165829145723,
      "loss": 2.4928,
      "step": 24660
    },
    {
      "epoch": 0.12335,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00026431658291457285,
      "loss": 2.4131,
      "step": 24670
    },
    {
      "epoch": 0.1234,
      "grad_norm": 1.40625,
      "learning_rate": 0.0002643015075376884,
      "loss": 2.4898,
      "step": 24680
    },
    {
      "epoch": 0.12345,
      "grad_norm": 1.609375,
      "learning_rate": 0.000264286432160804,
      "loss": 2.4306,
      "step": 24690
    },
    {
      "epoch": 0.1235,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002642713567839196,
      "loss": 2.557,
      "step": 24700
    },
    {
      "epoch": 0.12355,
      "grad_norm": 1.796875,
      "learning_rate": 0.00026425628140703514,
      "loss": 2.4131,
      "step": 24710
    },
    {
      "epoch": 0.1236,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026424120603015075,
      "loss": 2.5332,
      "step": 24720
    },
    {
      "epoch": 0.12365,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002642261306532663,
      "loss": 2.4204,
      "step": 24730
    },
    {
      "epoch": 0.1237,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002642110552763819,
      "loss": 2.4767,
      "step": 24740
    },
    {
      "epoch": 0.12375,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002641959798994975,
      "loss": 2.5015,
      "step": 24750
    },
    {
      "epoch": 0.1238,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026418090452261304,
      "loss": 2.4657,
      "step": 24760
    },
    {
      "epoch": 0.12385,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00026416582914572865,
      "loss": 2.4818,
      "step": 24770
    },
    {
      "epoch": 0.1239,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002641507537688442,
      "loss": 2.4671,
      "step": 24780
    },
    {
      "epoch": 0.12395,
      "grad_norm": 1.796875,
      "learning_rate": 0.00026413567839195977,
      "loss": 2.4449,
      "step": 24790
    },
    {
      "epoch": 0.124,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026412060301507533,
      "loss": 2.5122,
      "step": 24800
    },
    {
      "epoch": 0.12405,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00026410552763819094,
      "loss": 2.485,
      "step": 24810
    },
    {
      "epoch": 0.1241,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002640904522613065,
      "loss": 2.4604,
      "step": 24820
    },
    {
      "epoch": 0.12415,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026407537688442206,
      "loss": 2.4495,
      "step": 24830
    },
    {
      "epoch": 0.1242,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002640603015075377,
      "loss": 2.449,
      "step": 24840
    },
    {
      "epoch": 0.12425,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026404522613065323,
      "loss": 2.5452,
      "step": 24850
    },
    {
      "epoch": 0.1243,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002640301507537688,
      "loss": 2.4879,
      "step": 24860
    },
    {
      "epoch": 0.12435,
      "grad_norm": 1.625,
      "learning_rate": 0.0002640150753768844,
      "loss": 2.438,
      "step": 24870
    },
    {
      "epoch": 0.1244,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026399999999999997,
      "loss": 2.4934,
      "step": 24880
    },
    {
      "epoch": 0.12445,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002639849246231155,
      "loss": 2.4361,
      "step": 24890
    },
    {
      "epoch": 0.1245,
      "grad_norm": 1.515625,
      "learning_rate": 0.00026396984924623114,
      "loss": 2.5206,
      "step": 24900
    },
    {
      "epoch": 0.12455,
      "grad_norm": 1.5,
      "learning_rate": 0.0002639547738693467,
      "loss": 2.4494,
      "step": 24910
    },
    {
      "epoch": 0.1246,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00026393969849246226,
      "loss": 2.5513,
      "step": 24920
    },
    {
      "epoch": 0.12465,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00026392462311557787,
      "loss": 2.4614,
      "step": 24930
    },
    {
      "epoch": 0.1247,
      "grad_norm": 1.6875,
      "learning_rate": 0.00026390954773869343,
      "loss": 2.4846,
      "step": 24940
    },
    {
      "epoch": 0.12475,
      "grad_norm": 1.625,
      "learning_rate": 0.00026389447236180904,
      "loss": 2.4504,
      "step": 24950
    },
    {
      "epoch": 0.1248,
      "grad_norm": 1.5,
      "learning_rate": 0.0002638793969849246,
      "loss": 2.4382,
      "step": 24960
    },
    {
      "epoch": 0.12485,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00026386432160804016,
      "loss": 2.4755,
      "step": 24970
    },
    {
      "epoch": 0.1249,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00026384924623115577,
      "loss": 2.4771,
      "step": 24980
    },
    {
      "epoch": 0.12495,
      "grad_norm": 1.703125,
      "learning_rate": 0.00026383417085427133,
      "loss": 2.4919,
      "step": 24990
    },
    {
      "epoch": 0.125,
      "grad_norm": 1.90625,
      "learning_rate": 0.00026381909547738695,
      "loss": 2.5118,
      "step": 25000
    },
    {
      "epoch": 0.12505,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002638040201005025,
      "loss": 2.4234,
      "step": 25010
    },
    {
      "epoch": 0.1251,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026378894472361806,
      "loss": 2.5106,
      "step": 25020
    },
    {
      "epoch": 0.12515,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002637738693467337,
      "loss": 2.4647,
      "step": 25030
    },
    {
      "epoch": 0.1252,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026375879396984924,
      "loss": 2.4785,
      "step": 25040
    },
    {
      "epoch": 0.12525,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002637437185929648,
      "loss": 2.4391,
      "step": 25050
    },
    {
      "epoch": 0.1253,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002637286432160804,
      "loss": 2.5086,
      "step": 25060
    },
    {
      "epoch": 0.12535,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00026371356783919597,
      "loss": 2.4806,
      "step": 25070
    },
    {
      "epoch": 0.1254,
      "grad_norm": 1.5,
      "learning_rate": 0.0002636984924623115,
      "loss": 2.5416,
      "step": 25080
    },
    {
      "epoch": 0.12545,
      "grad_norm": 1.734375,
      "learning_rate": 0.00026368341708542714,
      "loss": 2.4393,
      "step": 25090
    },
    {
      "epoch": 0.1255,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002636683417085427,
      "loss": 2.4647,
      "step": 25100
    },
    {
      "epoch": 0.12555,
      "grad_norm": 1.71875,
      "learning_rate": 0.00026365326633165826,
      "loss": 2.4777,
      "step": 25110
    },
    {
      "epoch": 0.1256,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002636381909547738,
      "loss": 2.5535,
      "step": 25120
    },
    {
      "epoch": 0.12565,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026362311557788943,
      "loss": 2.4837,
      "step": 25130
    },
    {
      "epoch": 0.1257,
      "grad_norm": 1.421875,
      "learning_rate": 0.000263608040201005,
      "loss": 2.455,
      "step": 25140
    },
    {
      "epoch": 0.12575,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026359296482412055,
      "loss": 2.4638,
      "step": 25150
    },
    {
      "epoch": 0.1258,
      "grad_norm": 1.734375,
      "learning_rate": 0.00026357788944723616,
      "loss": 2.5382,
      "step": 25160
    },
    {
      "epoch": 0.12585,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002635628140703517,
      "loss": 2.4711,
      "step": 25170
    },
    {
      "epoch": 0.1259,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002635477386934673,
      "loss": 2.525,
      "step": 25180
    },
    {
      "epoch": 0.12595,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002635326633165829,
      "loss": 2.4551,
      "step": 25190
    },
    {
      "epoch": 0.126,
      "grad_norm": 1.4375,
      "learning_rate": 0.00026351758793969845,
      "loss": 2.4518,
      "step": 25200
    },
    {
      "epoch": 0.12605,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026350251256281406,
      "loss": 2.4833,
      "step": 25210
    },
    {
      "epoch": 0.1261,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002634874371859296,
      "loss": 2.5094,
      "step": 25220
    },
    {
      "epoch": 0.12615,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002634723618090452,
      "loss": 2.4452,
      "step": 25230
    },
    {
      "epoch": 0.1262,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002634572864321608,
      "loss": 2.4893,
      "step": 25240
    },
    {
      "epoch": 0.12625,
      "grad_norm": 1.640625,
      "learning_rate": 0.00026344221105527635,
      "loss": 2.4545,
      "step": 25250
    },
    {
      "epoch": 0.1263,
      "grad_norm": 1.609375,
      "learning_rate": 0.00026342713567839197,
      "loss": 2.4934,
      "step": 25260
    },
    {
      "epoch": 0.12635,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002634120603015075,
      "loss": 2.4409,
      "step": 25270
    },
    {
      "epoch": 0.1264,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002633969849246231,
      "loss": 2.4716,
      "step": 25280
    },
    {
      "epoch": 0.12645,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002633819095477387,
      "loss": 2.4746,
      "step": 25290
    },
    {
      "epoch": 0.1265,
      "grad_norm": 1.453125,
      "learning_rate": 0.00026336683417085426,
      "loss": 2.4302,
      "step": 25300
    },
    {
      "epoch": 0.12655,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002633517587939698,
      "loss": 2.4577,
      "step": 25310
    },
    {
      "epoch": 0.1266,
      "grad_norm": 1.390625,
      "learning_rate": 0.00026333668341708543,
      "loss": 2.4465,
      "step": 25320
    },
    {
      "epoch": 0.12665,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000263321608040201,
      "loss": 2.4662,
      "step": 25330
    },
    {
      "epoch": 0.1267,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026330653266331655,
      "loss": 2.4602,
      "step": 25340
    },
    {
      "epoch": 0.12675,
      "grad_norm": 1.625,
      "learning_rate": 0.00026329145728643216,
      "loss": 2.4855,
      "step": 25350
    },
    {
      "epoch": 0.1268,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002632763819095477,
      "loss": 2.4659,
      "step": 25360
    },
    {
      "epoch": 0.12685,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002632613065326633,
      "loss": 2.5161,
      "step": 25370
    },
    {
      "epoch": 0.1269,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002632462311557789,
      "loss": 2.4842,
      "step": 25380
    },
    {
      "epoch": 0.12695,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00026323115577889445,
      "loss": 2.4688,
      "step": 25390
    },
    {
      "epoch": 0.127,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026321608040201,
      "loss": 2.4874,
      "step": 25400
    },
    {
      "epoch": 0.12705,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026320100502512557,
      "loss": 2.4771,
      "step": 25410
    },
    {
      "epoch": 0.1271,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002631859296482412,
      "loss": 2.4125,
      "step": 25420
    },
    {
      "epoch": 0.12715,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026317085427135674,
      "loss": 2.4527,
      "step": 25430
    },
    {
      "epoch": 0.1272,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002631557788944723,
      "loss": 2.4658,
      "step": 25440
    },
    {
      "epoch": 0.12725,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002631407035175879,
      "loss": 2.4745,
      "step": 25450
    },
    {
      "epoch": 0.1273,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00026312562814070347,
      "loss": 2.4435,
      "step": 25460
    },
    {
      "epoch": 0.12735,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002631105527638191,
      "loss": 2.513,
      "step": 25470
    },
    {
      "epoch": 0.1274,
      "grad_norm": 1.65625,
      "learning_rate": 0.00026309547738693464,
      "loss": 2.4414,
      "step": 25480
    },
    {
      "epoch": 0.12745,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002630804020100502,
      "loss": 2.4666,
      "step": 25490
    },
    {
      "epoch": 0.1275,
      "grad_norm": 1.625,
      "learning_rate": 0.0002630653266331658,
      "loss": 2.4653,
      "step": 25500
    },
    {
      "epoch": 0.12755,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002630502512562814,
      "loss": 2.464,
      "step": 25510
    },
    {
      "epoch": 0.1276,
      "grad_norm": 1.6875,
      "learning_rate": 0.000263035175879397,
      "loss": 2.4461,
      "step": 25520
    },
    {
      "epoch": 0.12765,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026302010050251255,
      "loss": 2.4571,
      "step": 25530
    },
    {
      "epoch": 0.1277,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002630050251256281,
      "loss": 2.486,
      "step": 25540
    },
    {
      "epoch": 0.12775,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002629899497487437,
      "loss": 2.5086,
      "step": 25550
    },
    {
      "epoch": 0.1278,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002629748743718593,
      "loss": 2.4902,
      "step": 25560
    },
    {
      "epoch": 0.12785,
      "grad_norm": 1.5,
      "learning_rate": 0.00026295979899497484,
      "loss": 2.4612,
      "step": 25570
    },
    {
      "epoch": 0.1279,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026294472361809045,
      "loss": 2.424,
      "step": 25580
    },
    {
      "epoch": 0.12795,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000262929648241206,
      "loss": 2.4987,
      "step": 25590
    },
    {
      "epoch": 0.128,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00026291457286432157,
      "loss": 2.4049,
      "step": 25600
    },
    {
      "epoch": 0.12805,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002628994974874372,
      "loss": 2.4904,
      "step": 25610
    },
    {
      "epoch": 0.1281,
      "grad_norm": 1.765625,
      "learning_rate": 0.00026288442211055274,
      "loss": 2.4514,
      "step": 25620
    },
    {
      "epoch": 0.12815,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002628693467336683,
      "loss": 2.4551,
      "step": 25630
    },
    {
      "epoch": 0.1282,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002628542713567839,
      "loss": 2.4439,
      "step": 25640
    },
    {
      "epoch": 0.12825,
      "grad_norm": 1.6875,
      "learning_rate": 0.00026283919597989947,
      "loss": 2.512,
      "step": 25650
    },
    {
      "epoch": 0.1283,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00026282412060301503,
      "loss": 2.4387,
      "step": 25660
    },
    {
      "epoch": 0.12835,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026280904522613064,
      "loss": 2.464,
      "step": 25670
    },
    {
      "epoch": 0.1284,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002627939698492462,
      "loss": 2.4636,
      "step": 25680
    },
    {
      "epoch": 0.12845,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00026277889447236176,
      "loss": 2.4405,
      "step": 25690
    },
    {
      "epoch": 0.1285,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002627638190954774,
      "loss": 2.466,
      "step": 25700
    },
    {
      "epoch": 0.12855,
      "grad_norm": 1.484375,
      "learning_rate": 0.00026274874371859294,
      "loss": 2.5207,
      "step": 25710
    },
    {
      "epoch": 0.1286,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002627336683417085,
      "loss": 2.5305,
      "step": 25720
    },
    {
      "epoch": 0.12865,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002627185929648241,
      "loss": 2.4334,
      "step": 25730
    },
    {
      "epoch": 0.1287,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00026270351758793967,
      "loss": 2.4335,
      "step": 25740
    },
    {
      "epoch": 0.12875,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002626884422110552,
      "loss": 2.4396,
      "step": 25750
    },
    {
      "epoch": 0.1288,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026267336683417084,
      "loss": 2.4899,
      "step": 25760
    },
    {
      "epoch": 0.12885,
      "grad_norm": 1.3828125,
      "learning_rate": 0.0002626582914572864,
      "loss": 2.4789,
      "step": 25770
    },
    {
      "epoch": 0.1289,
      "grad_norm": 1.6875,
      "learning_rate": 0.000262643216080402,
      "loss": 2.4694,
      "step": 25780
    },
    {
      "epoch": 0.12895,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026262814070351757,
      "loss": 2.4544,
      "step": 25790
    },
    {
      "epoch": 0.129,
      "grad_norm": 1.640625,
      "learning_rate": 0.00026261306532663313,
      "loss": 2.4889,
      "step": 25800
    },
    {
      "epoch": 0.12905,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00026259798994974874,
      "loss": 2.4277,
      "step": 25810
    },
    {
      "epoch": 0.1291,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002625829145728643,
      "loss": 2.4272,
      "step": 25820
    },
    {
      "epoch": 0.12915,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002625678391959799,
      "loss": 2.4714,
      "step": 25830
    },
    {
      "epoch": 0.1292,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002625527638190955,
      "loss": 2.4432,
      "step": 25840
    },
    {
      "epoch": 0.12925,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026253768844221103,
      "loss": 2.442,
      "step": 25850
    },
    {
      "epoch": 0.1293,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026252261306532665,
      "loss": 2.4617,
      "step": 25860
    },
    {
      "epoch": 0.12935,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002625075376884422,
      "loss": 2.467,
      "step": 25870
    },
    {
      "epoch": 0.1294,
      "grad_norm": 1.484375,
      "learning_rate": 0.00026249246231155776,
      "loss": 2.4434,
      "step": 25880
    },
    {
      "epoch": 0.12945,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002624773869346733,
      "loss": 2.4212,
      "step": 25890
    },
    {
      "epoch": 0.1295,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026246231155778894,
      "loss": 2.4507,
      "step": 25900
    },
    {
      "epoch": 0.12955,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002624472361809045,
      "loss": 2.4467,
      "step": 25910
    },
    {
      "epoch": 0.1296,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00026243216080402005,
      "loss": 2.5074,
      "step": 25920
    },
    {
      "epoch": 0.12965,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00026241708542713567,
      "loss": 2.4915,
      "step": 25930
    },
    {
      "epoch": 0.1297,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002624020100502512,
      "loss": 2.4537,
      "step": 25940
    },
    {
      "epoch": 0.12975,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002623869346733668,
      "loss": 2.4501,
      "step": 25950
    },
    {
      "epoch": 0.1298,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002623718592964824,
      "loss": 2.5024,
      "step": 25960
    },
    {
      "epoch": 0.12985,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00026235678391959796,
      "loss": 2.4062,
      "step": 25970
    },
    {
      "epoch": 0.1299,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002623417085427135,
      "loss": 2.4664,
      "step": 25980
    },
    {
      "epoch": 0.12995,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026232663316582913,
      "loss": 2.398,
      "step": 25990
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002623115577889447,
      "loss": 2.4545,
      "step": 26000
    },
    {
      "epoch": 0.13,
      "eval_loss": NaN,
      "eval_runtime": 94.0722,
      "eval_samples_per_second": 26.575,
      "eval_steps_per_second": 0.425,
      "step": 26000
    },
    {
      "epoch": 0.13005,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026229648241206025,
      "loss": 2.4832,
      "step": 26010
    },
    {
      "epoch": 0.1301,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026228140703517586,
      "loss": 2.4558,
      "step": 26020
    },
    {
      "epoch": 0.13015,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002622663316582914,
      "loss": 2.411,
      "step": 26030
    },
    {
      "epoch": 0.1302,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026225125628140703,
      "loss": 2.4813,
      "step": 26040
    },
    {
      "epoch": 0.13025,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002622361809045226,
      "loss": 2.4638,
      "step": 26050
    },
    {
      "epoch": 0.1303,
      "grad_norm": 1.6875,
      "learning_rate": 0.00026222110552763815,
      "loss": 2.508,
      "step": 26060
    },
    {
      "epoch": 0.13035,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026220603015075376,
      "loss": 2.4552,
      "step": 26070
    },
    {
      "epoch": 0.1304,
      "grad_norm": 1.4453125,
      "learning_rate": 0.0002621909547738693,
      "loss": 2.4991,
      "step": 26080
    },
    {
      "epoch": 0.13045,
      "grad_norm": 1.46875,
      "learning_rate": 0.00026217587939698494,
      "loss": 2.4554,
      "step": 26090
    },
    {
      "epoch": 0.1305,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002621608040201005,
      "loss": 2.4443,
      "step": 26100
    },
    {
      "epoch": 0.13055,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00026214572864321605,
      "loss": 2.467,
      "step": 26110
    },
    {
      "epoch": 0.1306,
      "grad_norm": 1.640625,
      "learning_rate": 0.00026213065326633167,
      "loss": 2.482,
      "step": 26120
    },
    {
      "epoch": 0.13065,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002621155778894472,
      "loss": 2.4771,
      "step": 26130
    },
    {
      "epoch": 0.1307,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002621005025125628,
      "loss": 2.5056,
      "step": 26140
    },
    {
      "epoch": 0.13075,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002620854271356784,
      "loss": 2.5106,
      "step": 26150
    },
    {
      "epoch": 0.1308,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026207035175879396,
      "loss": 2.4195,
      "step": 26160
    },
    {
      "epoch": 0.13085,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002620552763819095,
      "loss": 2.4791,
      "step": 26170
    },
    {
      "epoch": 0.1309,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00026204020100502513,
      "loss": 2.4658,
      "step": 26180
    },
    {
      "epoch": 0.13095,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002620251256281407,
      "loss": 2.4579,
      "step": 26190
    },
    {
      "epoch": 0.131,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00026201005025125625,
      "loss": 2.4506,
      "step": 26200
    },
    {
      "epoch": 0.13105,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002619949748743718,
      "loss": 2.3926,
      "step": 26210
    },
    {
      "epoch": 0.1311,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002619798994974874,
      "loss": 2.4568,
      "step": 26220
    },
    {
      "epoch": 0.13115,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000261964824120603,
      "loss": 2.4868,
      "step": 26230
    },
    {
      "epoch": 0.1312,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026194974874371854,
      "loss": 2.4631,
      "step": 26240
    },
    {
      "epoch": 0.13125,
      "grad_norm": 1.625,
      "learning_rate": 0.00026193467336683415,
      "loss": 2.4481,
      "step": 26250
    },
    {
      "epoch": 0.1313,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002619195979899497,
      "loss": 2.4493,
      "step": 26260
    },
    {
      "epoch": 0.13135,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00026190452261306527,
      "loss": 2.4681,
      "step": 26270
    },
    {
      "epoch": 0.1314,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002618894472361809,
      "loss": 2.4557,
      "step": 26280
    },
    {
      "epoch": 0.13145,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026187437185929644,
      "loss": 2.45,
      "step": 26290
    },
    {
      "epoch": 0.1315,
      "grad_norm": 1.625,
      "learning_rate": 0.00026185929648241205,
      "loss": 2.4796,
      "step": 26300
    },
    {
      "epoch": 0.13155,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002618442211055276,
      "loss": 2.4858,
      "step": 26310
    },
    {
      "epoch": 0.1316,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026182914572864317,
      "loss": 2.4451,
      "step": 26320
    },
    {
      "epoch": 0.13165,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002618140703517588,
      "loss": 2.3967,
      "step": 26330
    },
    {
      "epoch": 0.1317,
      "grad_norm": 1.53125,
      "learning_rate": 0.00026179899497487434,
      "loss": 2.4665,
      "step": 26340
    },
    {
      "epoch": 0.13175,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00026178391959798996,
      "loss": 2.4887,
      "step": 26350
    },
    {
      "epoch": 0.1318,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002617688442211055,
      "loss": 2.4812,
      "step": 26360
    },
    {
      "epoch": 0.13185,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002617537688442211,
      "loss": 2.4994,
      "step": 26370
    },
    {
      "epoch": 0.1319,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002617386934673367,
      "loss": 2.4987,
      "step": 26380
    },
    {
      "epoch": 0.13195,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00026172361809045225,
      "loss": 2.4721,
      "step": 26390
    },
    {
      "epoch": 0.132,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002617085427135678,
      "loss": 2.464,
      "step": 26400
    },
    {
      "epoch": 0.13205,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002616934673366834,
      "loss": 2.4463,
      "step": 26410
    },
    {
      "epoch": 0.1321,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000261678391959799,
      "loss": 2.3881,
      "step": 26420
    },
    {
      "epoch": 0.13215,
      "grad_norm": 1.6875,
      "learning_rate": 0.00026166331658291454,
      "loss": 2.4554,
      "step": 26430
    },
    {
      "epoch": 0.1322,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00026164824120603015,
      "loss": 2.4897,
      "step": 26440
    },
    {
      "epoch": 0.13225,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002616331658291457,
      "loss": 2.4655,
      "step": 26450
    },
    {
      "epoch": 0.1323,
      "grad_norm": 1.78125,
      "learning_rate": 0.00026161809045226127,
      "loss": 2.4874,
      "step": 26460
    },
    {
      "epoch": 0.13235,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002616030150753769,
      "loss": 2.4011,
      "step": 26470
    },
    {
      "epoch": 0.1324,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026158793969849244,
      "loss": 2.4764,
      "step": 26480
    },
    {
      "epoch": 0.13245,
      "grad_norm": 1.5,
      "learning_rate": 0.000261572864321608,
      "loss": 2.4643,
      "step": 26490
    },
    {
      "epoch": 0.1325,
      "grad_norm": 1.5,
      "learning_rate": 0.00026155778894472356,
      "loss": 2.5256,
      "step": 26500
    },
    {
      "epoch": 0.13255,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026154271356783917,
      "loss": 2.402,
      "step": 26510
    },
    {
      "epoch": 0.1326,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00026152763819095473,
      "loss": 2.4701,
      "step": 26520
    },
    {
      "epoch": 0.13265,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002615125628140703,
      "loss": 2.4585,
      "step": 26530
    },
    {
      "epoch": 0.1327,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002614974874371859,
      "loss": 2.484,
      "step": 26540
    },
    {
      "epoch": 0.13275,
      "grad_norm": 1.59375,
      "learning_rate": 0.00026148241206030146,
      "loss": 2.4458,
      "step": 26550
    },
    {
      "epoch": 0.1328,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002614673366834171,
      "loss": 2.4974,
      "step": 26560
    },
    {
      "epoch": 0.13285,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00026145226130653264,
      "loss": 2.4086,
      "step": 26570
    },
    {
      "epoch": 0.1329,
      "grad_norm": 2.09375,
      "learning_rate": 0.0002614371859296482,
      "loss": 2.4862,
      "step": 26580
    },
    {
      "epoch": 0.13295,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002614221105527638,
      "loss": 2.445,
      "step": 26590
    },
    {
      "epoch": 0.133,
      "grad_norm": 1.78125,
      "learning_rate": 0.00026140703517587937,
      "loss": 2.4704,
      "step": 26600
    },
    {
      "epoch": 0.13305,
      "grad_norm": 1.59375,
      "learning_rate": 0.000261391959798995,
      "loss": 2.4579,
      "step": 26610
    },
    {
      "epoch": 0.1331,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026137688442211054,
      "loss": 2.5078,
      "step": 26620
    },
    {
      "epoch": 0.13315,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002613618090452261,
      "loss": 2.4275,
      "step": 26630
    },
    {
      "epoch": 0.1332,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002613467336683417,
      "loss": 2.4409,
      "step": 26640
    },
    {
      "epoch": 0.13325,
      "grad_norm": 1.671875,
      "learning_rate": 0.00026133165829145727,
      "loss": 2.52,
      "step": 26650
    },
    {
      "epoch": 0.1333,
      "grad_norm": 1.6875,
      "learning_rate": 0.00026131658291457283,
      "loss": 2.4212,
      "step": 26660
    },
    {
      "epoch": 0.13335,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00026130150753768844,
      "loss": 2.4479,
      "step": 26670
    },
    {
      "epoch": 0.1334,
      "grad_norm": 1.671875,
      "learning_rate": 0.000261286432160804,
      "loss": 2.4579,
      "step": 26680
    },
    {
      "epoch": 0.13345,
      "grad_norm": 1.765625,
      "learning_rate": 0.00026127135678391956,
      "loss": 2.4821,
      "step": 26690
    },
    {
      "epoch": 0.1335,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002612562814070352,
      "loss": 2.4473,
      "step": 26700
    },
    {
      "epoch": 0.13355,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00026124120603015073,
      "loss": 2.4819,
      "step": 26710
    },
    {
      "epoch": 0.1336,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002612261306532663,
      "loss": 2.4142,
      "step": 26720
    },
    {
      "epoch": 0.13365,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002612110552763819,
      "loss": 2.4187,
      "step": 26730
    },
    {
      "epoch": 0.1337,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00026119597989949746,
      "loss": 2.4501,
      "step": 26740
    },
    {
      "epoch": 0.13375,
      "grad_norm": 1.5546875,
      "learning_rate": 0.000261180904522613,
      "loss": 2.4673,
      "step": 26750
    },
    {
      "epoch": 0.1338,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026116582914572864,
      "loss": 2.4101,
      "step": 26760
    },
    {
      "epoch": 0.13385,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002611507537688442,
      "loss": 2.4439,
      "step": 26770
    },
    {
      "epoch": 0.1339,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026113567839195975,
      "loss": 2.4684,
      "step": 26780
    },
    {
      "epoch": 0.13395,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00026112060301507537,
      "loss": 2.4109,
      "step": 26790
    },
    {
      "epoch": 0.134,
      "grad_norm": 1.875,
      "learning_rate": 0.0002611055276381909,
      "loss": 2.4435,
      "step": 26800
    },
    {
      "epoch": 0.13405,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002610904522613065,
      "loss": 2.4354,
      "step": 26810
    },
    {
      "epoch": 0.1341,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002610753768844221,
      "loss": 2.3858,
      "step": 26820
    },
    {
      "epoch": 0.13415,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026106030150753766,
      "loss": 2.4587,
      "step": 26830
    },
    {
      "epoch": 0.1342,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002610452261306532,
      "loss": 2.4508,
      "step": 26840
    },
    {
      "epoch": 0.13425,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00026103015075376883,
      "loss": 2.4459,
      "step": 26850
    },
    {
      "epoch": 0.1343,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002610150753768844,
      "loss": 2.4527,
      "step": 26860
    },
    {
      "epoch": 0.13435,
      "grad_norm": 1.65625,
      "learning_rate": 0.000261,
      "loss": 2.4671,
      "step": 26870
    },
    {
      "epoch": 0.1344,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026098492462311556,
      "loss": 2.44,
      "step": 26880
    },
    {
      "epoch": 0.13445,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002609698492462311,
      "loss": 2.4597,
      "step": 26890
    },
    {
      "epoch": 0.1345,
      "grad_norm": 1.578125,
      "learning_rate": 0.00026095477386934673,
      "loss": 2.4275,
      "step": 26900
    },
    {
      "epoch": 0.13455,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002609396984924623,
      "loss": 2.4181,
      "step": 26910
    },
    {
      "epoch": 0.1346,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002609246231155779,
      "loss": 2.4017,
      "step": 26920
    },
    {
      "epoch": 0.13465,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026090954773869346,
      "loss": 2.4927,
      "step": 26930
    },
    {
      "epoch": 0.1347,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000260894472361809,
      "loss": 2.4332,
      "step": 26940
    },
    {
      "epoch": 0.13475,
      "grad_norm": 1.734375,
      "learning_rate": 0.00026087939698492464,
      "loss": 2.5208,
      "step": 26950
    },
    {
      "epoch": 0.1348,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002608643216080402,
      "loss": 2.427,
      "step": 26960
    },
    {
      "epoch": 0.13485,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00026084924623115575,
      "loss": 2.4626,
      "step": 26970
    },
    {
      "epoch": 0.1349,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002608341708542713,
      "loss": 2.4258,
      "step": 26980
    },
    {
      "epoch": 0.13495,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002608190954773869,
      "loss": 2.4812,
      "step": 26990
    },
    {
      "epoch": 0.135,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002608040201005025,
      "loss": 2.4992,
      "step": 27000
    },
    {
      "epoch": 0.13505,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00026078894472361804,
      "loss": 2.4101,
      "step": 27010
    },
    {
      "epoch": 0.1351,
      "grad_norm": 1.609375,
      "learning_rate": 0.00026077386934673366,
      "loss": 2.4874,
      "step": 27020
    },
    {
      "epoch": 0.13515,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002607587939698492,
      "loss": 2.4571,
      "step": 27030
    },
    {
      "epoch": 0.1352,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002607437185929648,
      "loss": 2.4027,
      "step": 27040
    },
    {
      "epoch": 0.13525,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002607286432160804,
      "loss": 2.4644,
      "step": 27050
    },
    {
      "epoch": 0.1353,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00026071356783919595,
      "loss": 2.461,
      "step": 27060
    },
    {
      "epoch": 0.13535,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002606984924623115,
      "loss": 2.4845,
      "step": 27070
    },
    {
      "epoch": 0.1354,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002606834170854271,
      "loss": 2.4021,
      "step": 27080
    },
    {
      "epoch": 0.13545,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002606683417085427,
      "loss": 2.4531,
      "step": 27090
    },
    {
      "epoch": 0.1355,
      "grad_norm": 1.609375,
      "learning_rate": 0.00026065326633165824,
      "loss": 2.4008,
      "step": 27100
    },
    {
      "epoch": 0.13555,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026063819095477385,
      "loss": 2.4572,
      "step": 27110
    },
    {
      "epoch": 0.1356,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002606231155778894,
      "loss": 2.4379,
      "step": 27120
    },
    {
      "epoch": 0.13565,
      "grad_norm": 1.65625,
      "learning_rate": 0.000260608040201005,
      "loss": 2.4916,
      "step": 27130
    },
    {
      "epoch": 0.1357,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002605929648241206,
      "loss": 2.4058,
      "step": 27140
    },
    {
      "epoch": 0.13575,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026057788944723614,
      "loss": 2.4312,
      "step": 27150
    },
    {
      "epoch": 0.1358,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00026056281407035175,
      "loss": 2.4662,
      "step": 27160
    },
    {
      "epoch": 0.13585,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002605477386934673,
      "loss": 2.4512,
      "step": 27170
    },
    {
      "epoch": 0.1359,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002605326633165829,
      "loss": 2.3903,
      "step": 27180
    },
    {
      "epoch": 0.13595,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002605175879396985,
      "loss": 2.459,
      "step": 27190
    },
    {
      "epoch": 0.136,
      "grad_norm": 1.71875,
      "learning_rate": 0.00026050251256281404,
      "loss": 2.4228,
      "step": 27200
    },
    {
      "epoch": 0.13605,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00026048743718592966,
      "loss": 2.3901,
      "step": 27210
    },
    {
      "epoch": 0.1361,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002604723618090452,
      "loss": 2.4138,
      "step": 27220
    },
    {
      "epoch": 0.13615,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002604572864321608,
      "loss": 2.4959,
      "step": 27230
    },
    {
      "epoch": 0.1362,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002604422110552764,
      "loss": 2.4387,
      "step": 27240
    },
    {
      "epoch": 0.13625,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00026042713567839195,
      "loss": 2.415,
      "step": 27250
    },
    {
      "epoch": 0.1363,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002604120603015075,
      "loss": 2.4046,
      "step": 27260
    },
    {
      "epoch": 0.13635,
      "grad_norm": 1.625,
      "learning_rate": 0.0002603969849246231,
      "loss": 2.4448,
      "step": 27270
    },
    {
      "epoch": 0.1364,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002603819095477387,
      "loss": 2.4339,
      "step": 27280
    },
    {
      "epoch": 0.13645,
      "grad_norm": 1.625,
      "learning_rate": 0.00026036683417085424,
      "loss": 2.4084,
      "step": 27290
    },
    {
      "epoch": 0.1365,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002603517587939698,
      "loss": 2.4555,
      "step": 27300
    },
    {
      "epoch": 0.13655,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002603366834170854,
      "loss": 2.4939,
      "step": 27310
    },
    {
      "epoch": 0.1366,
      "grad_norm": 1.4375,
      "learning_rate": 0.00026032160804020097,
      "loss": 2.4286,
      "step": 27320
    },
    {
      "epoch": 0.13665,
      "grad_norm": 1.703125,
      "learning_rate": 0.00026030653266331653,
      "loss": 2.4539,
      "step": 27330
    },
    {
      "epoch": 0.1367,
      "grad_norm": 1.71875,
      "learning_rate": 0.00026029145728643214,
      "loss": 2.4332,
      "step": 27340
    },
    {
      "epoch": 0.13675,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002602763819095477,
      "loss": 2.4733,
      "step": 27350
    },
    {
      "epoch": 0.1368,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00026026130653266326,
      "loss": 2.4552,
      "step": 27360
    },
    {
      "epoch": 0.13685,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002602462311557789,
      "loss": 2.352,
      "step": 27370
    },
    {
      "epoch": 0.1369,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00026023115577889443,
      "loss": 2.4508,
      "step": 27380
    },
    {
      "epoch": 0.13695,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00026021608040201005,
      "loss": 2.4485,
      "step": 27390
    },
    {
      "epoch": 0.137,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002602010050251256,
      "loss": 2.4317,
      "step": 27400
    },
    {
      "epoch": 0.13705,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00026018592964824116,
      "loss": 2.4838,
      "step": 27410
    },
    {
      "epoch": 0.1371,
      "grad_norm": 2.359375,
      "learning_rate": 0.0002601708542713568,
      "loss": 2.4479,
      "step": 27420
    },
    {
      "epoch": 0.13715,
      "grad_norm": 1.71875,
      "learning_rate": 0.00026015577889447234,
      "loss": 2.4086,
      "step": 27430
    },
    {
      "epoch": 0.1372,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00026014070351758795,
      "loss": 2.365,
      "step": 27440
    },
    {
      "epoch": 0.13725,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002601256281407035,
      "loss": 2.4433,
      "step": 27450
    },
    {
      "epoch": 0.1373,
      "grad_norm": 1.75,
      "learning_rate": 0.00026011055276381907,
      "loss": 2.3995,
      "step": 27460
    },
    {
      "epoch": 0.13735,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002600954773869347,
      "loss": 2.4387,
      "step": 27470
    },
    {
      "epoch": 0.1374,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00026008040201005024,
      "loss": 2.4296,
      "step": 27480
    },
    {
      "epoch": 0.13745,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002600653266331658,
      "loss": 2.5083,
      "step": 27490
    },
    {
      "epoch": 0.1375,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002600502512562814,
      "loss": 2.4567,
      "step": 27500
    },
    {
      "epoch": 0.13755,
      "grad_norm": 1.453125,
      "learning_rate": 0.00026003517587939697,
      "loss": 2.4428,
      "step": 27510
    },
    {
      "epoch": 0.1376,
      "grad_norm": 1.546875,
      "learning_rate": 0.00026002010050251253,
      "loss": 2.4042,
      "step": 27520
    },
    {
      "epoch": 0.13765,
      "grad_norm": 1.5625,
      "learning_rate": 0.00026000502512562814,
      "loss": 2.4402,
      "step": 27530
    },
    {
      "epoch": 0.1377,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002599899497487437,
      "loss": 2.4615,
      "step": 27540
    },
    {
      "epoch": 0.13775,
      "grad_norm": 1.625,
      "learning_rate": 0.00025997487437185926,
      "loss": 2.4619,
      "step": 27550
    },
    {
      "epoch": 0.1378,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002599597989949749,
      "loss": 2.4313,
      "step": 27560
    },
    {
      "epoch": 0.13785,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025994472361809043,
      "loss": 2.5616,
      "step": 27570
    },
    {
      "epoch": 0.1379,
      "grad_norm": 1.578125,
      "learning_rate": 0.000259929648241206,
      "loss": 2.4437,
      "step": 27580
    },
    {
      "epoch": 0.13795,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002599145728643216,
      "loss": 2.4188,
      "step": 27590
    },
    {
      "epoch": 0.138,
      "grad_norm": 1.515625,
      "learning_rate": 0.00025989949748743716,
      "loss": 2.4959,
      "step": 27600
    },
    {
      "epoch": 0.13805,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002598844221105527,
      "loss": 2.437,
      "step": 27610
    },
    {
      "epoch": 0.1381,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002598693467336683,
      "loss": 2.457,
      "step": 27620
    },
    {
      "epoch": 0.13815,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002598542713567839,
      "loss": 2.4396,
      "step": 27630
    },
    {
      "epoch": 0.1382,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00025983919597989945,
      "loss": 2.4739,
      "step": 27640
    },
    {
      "epoch": 0.13825,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00025982412060301507,
      "loss": 2.3991,
      "step": 27650
    },
    {
      "epoch": 0.1383,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002598090452261306,
      "loss": 2.4441,
      "step": 27660
    },
    {
      "epoch": 0.13835,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002597939698492462,
      "loss": 2.3775,
      "step": 27670
    },
    {
      "epoch": 0.1384,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002597788944723618,
      "loss": 2.4331,
      "step": 27680
    },
    {
      "epoch": 0.13845,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00025976381909547736,
      "loss": 2.3366,
      "step": 27690
    },
    {
      "epoch": 0.1385,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025974874371859297,
      "loss": 2.4419,
      "step": 27700
    },
    {
      "epoch": 0.13855,
      "grad_norm": 1.5625,
      "learning_rate": 0.00025973366834170853,
      "loss": 2.4679,
      "step": 27710
    },
    {
      "epoch": 0.1386,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002597185929648241,
      "loss": 2.4231,
      "step": 27720
    },
    {
      "epoch": 0.13865,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002597035175879397,
      "loss": 2.4921,
      "step": 27730
    },
    {
      "epoch": 0.1387,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00025968844221105526,
      "loss": 2.4659,
      "step": 27740
    },
    {
      "epoch": 0.13875,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002596733668341708,
      "loss": 2.5119,
      "step": 27750
    },
    {
      "epoch": 0.1388,
      "grad_norm": 1.640625,
      "learning_rate": 0.00025965829145728643,
      "loss": 2.4428,
      "step": 27760
    },
    {
      "epoch": 0.13885,
      "grad_norm": 1.65625,
      "learning_rate": 0.000259643216080402,
      "loss": 2.5261,
      "step": 27770
    },
    {
      "epoch": 0.1389,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025962814070351755,
      "loss": 2.4025,
      "step": 27780
    },
    {
      "epoch": 0.13895,
      "grad_norm": 1.609375,
      "learning_rate": 0.00025961306532663316,
      "loss": 2.4318,
      "step": 27790
    },
    {
      "epoch": 0.139,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002595979899497487,
      "loss": 2.4304,
      "step": 27800
    },
    {
      "epoch": 0.13905,
      "grad_norm": 1.5,
      "learning_rate": 0.0002595829145728643,
      "loss": 2.4368,
      "step": 27810
    },
    {
      "epoch": 0.1391,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002595678391959799,
      "loss": 2.4349,
      "step": 27820
    },
    {
      "epoch": 0.13915,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025955276381909545,
      "loss": 2.4689,
      "step": 27830
    },
    {
      "epoch": 0.1392,
      "grad_norm": 1.609375,
      "learning_rate": 0.000259537688442211,
      "loss": 2.4367,
      "step": 27840
    },
    {
      "epoch": 0.13925,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002595226130653266,
      "loss": 2.4335,
      "step": 27850
    },
    {
      "epoch": 0.1393,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002595075376884422,
      "loss": 2.4386,
      "step": 27860
    },
    {
      "epoch": 0.13935,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025949246231155774,
      "loss": 2.4552,
      "step": 27870
    },
    {
      "epoch": 0.1394,
      "grad_norm": 1.34375,
      "learning_rate": 0.00025947738693467336,
      "loss": 2.3999,
      "step": 27880
    },
    {
      "epoch": 0.13945,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002594623115577889,
      "loss": 2.4377,
      "step": 27890
    },
    {
      "epoch": 0.1395,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002594472361809045,
      "loss": 2.4509,
      "step": 27900
    },
    {
      "epoch": 0.13955,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025943216080402003,
      "loss": 2.4242,
      "step": 27910
    },
    {
      "epoch": 0.1396,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025941708542713565,
      "loss": 2.4636,
      "step": 27920
    },
    {
      "epoch": 0.13965,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002594020100502512,
      "loss": 2.4377,
      "step": 27930
    },
    {
      "epoch": 0.1397,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002593869346733668,
      "loss": 2.438,
      "step": 27940
    },
    {
      "epoch": 0.13975,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002593718592964824,
      "loss": 2.3893,
      "step": 27950
    },
    {
      "epoch": 0.1398,
      "grad_norm": 1.4765625,
      "learning_rate": 0.000259356783919598,
      "loss": 2.3917,
      "step": 27960
    },
    {
      "epoch": 0.13985,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025934170854271355,
      "loss": 2.4231,
      "step": 27970
    },
    {
      "epoch": 0.1399,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002593266331658291,
      "loss": 2.4125,
      "step": 27980
    },
    {
      "epoch": 0.13995,
      "grad_norm": 1.3515625,
      "learning_rate": 0.0002593115577889447,
      "loss": 2.3806,
      "step": 27990
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002592964824120603,
      "loss": 2.4574,
      "step": 28000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.4211742877960205,
      "eval_runtime": 91.1227,
      "eval_samples_per_second": 27.436,
      "eval_steps_per_second": 0.439,
      "step": 28000
    },
    {
      "epoch": 0.14005,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002592814070351759,
      "loss": 2.4552,
      "step": 28010
    },
    {
      "epoch": 0.1401,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025926633165829145,
      "loss": 2.4655,
      "step": 28020
    },
    {
      "epoch": 0.14015,
      "grad_norm": 1.6640625,
      "learning_rate": 0.000259251256281407,
      "loss": 2.4576,
      "step": 28030
    },
    {
      "epoch": 0.1402,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002592361809045226,
      "loss": 2.3798,
      "step": 28040
    },
    {
      "epoch": 0.14025,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002592211055276382,
      "loss": 2.4677,
      "step": 28050
    },
    {
      "epoch": 0.1403,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00025920603015075375,
      "loss": 2.4017,
      "step": 28060
    },
    {
      "epoch": 0.14035,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002591909547738693,
      "loss": 2.4093,
      "step": 28070
    },
    {
      "epoch": 0.1404,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002591758793969849,
      "loss": 2.3942,
      "step": 28080
    },
    {
      "epoch": 0.14045,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002591608040201005,
      "loss": 2.392,
      "step": 28090
    },
    {
      "epoch": 0.1405,
      "grad_norm": 1.515625,
      "learning_rate": 0.00025914572864321604,
      "loss": 2.4068,
      "step": 28100
    },
    {
      "epoch": 0.14055,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025913065326633165,
      "loss": 2.4182,
      "step": 28110
    },
    {
      "epoch": 0.1406,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002591155778894472,
      "loss": 2.4487,
      "step": 28120
    },
    {
      "epoch": 0.14065,
      "grad_norm": 1.765625,
      "learning_rate": 0.00025910050251256277,
      "loss": 2.419,
      "step": 28130
    },
    {
      "epoch": 0.1407,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002590854271356784,
      "loss": 2.4334,
      "step": 28140
    },
    {
      "epoch": 0.14075,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00025907035175879394,
      "loss": 2.3875,
      "step": 28150
    },
    {
      "epoch": 0.1408,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002590552763819095,
      "loss": 2.41,
      "step": 28160
    },
    {
      "epoch": 0.14085,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002590402010050251,
      "loss": 2.447,
      "step": 28170
    },
    {
      "epoch": 0.1409,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025902512562814067,
      "loss": 2.3984,
      "step": 28180
    },
    {
      "epoch": 0.14095,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00025901005025125623,
      "loss": 2.4573,
      "step": 28190
    },
    {
      "epoch": 0.141,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025899497487437184,
      "loss": 2.4421,
      "step": 28200
    },
    {
      "epoch": 0.14105,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002589798994974874,
      "loss": 2.4444,
      "step": 28210
    },
    {
      "epoch": 0.1411,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000258964824120603,
      "loss": 2.4357,
      "step": 28220
    },
    {
      "epoch": 0.14115,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002589497487437186,
      "loss": 2.3895,
      "step": 28230
    },
    {
      "epoch": 0.1412,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00025893467336683413,
      "loss": 2.421,
      "step": 28240
    },
    {
      "epoch": 0.14125,
      "grad_norm": 1.640625,
      "learning_rate": 0.00025891959798994975,
      "loss": 2.4761,
      "step": 28250
    },
    {
      "epoch": 0.1413,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002589045226130653,
      "loss": 2.447,
      "step": 28260
    },
    {
      "epoch": 0.14135,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002588894472361809,
      "loss": 2.3947,
      "step": 28270
    },
    {
      "epoch": 0.1414,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002588743718592965,
      "loss": 2.4209,
      "step": 28280
    },
    {
      "epoch": 0.14145,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00025885929648241204,
      "loss": 2.4446,
      "step": 28290
    },
    {
      "epoch": 0.1415,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00025884422110552765,
      "loss": 2.458,
      "step": 28300
    },
    {
      "epoch": 0.14155,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002588291457286432,
      "loss": 2.4453,
      "step": 28310
    },
    {
      "epoch": 0.1416,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025881407035175877,
      "loss": 2.435,
      "step": 28320
    },
    {
      "epoch": 0.14165,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002587989949748744,
      "loss": 2.4409,
      "step": 28330
    },
    {
      "epoch": 0.1417,
      "grad_norm": 1.6875,
      "learning_rate": 0.00025878391959798994,
      "loss": 2.425,
      "step": 28340
    },
    {
      "epoch": 0.14175,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002587688442211055,
      "loss": 2.3904,
      "step": 28350
    },
    {
      "epoch": 0.1418,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002587537688442211,
      "loss": 2.4385,
      "step": 28360
    },
    {
      "epoch": 0.14185,
      "grad_norm": 1.734375,
      "learning_rate": 0.00025873869346733667,
      "loss": 2.4393,
      "step": 28370
    },
    {
      "epoch": 0.1419,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00025872361809045223,
      "loss": 2.3858,
      "step": 28380
    },
    {
      "epoch": 0.14195,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002587085427135678,
      "loss": 2.4087,
      "step": 28390
    },
    {
      "epoch": 0.142,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002586934673366834,
      "loss": 2.4134,
      "step": 28400
    },
    {
      "epoch": 0.14205,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00025867839195979896,
      "loss": 2.4785,
      "step": 28410
    },
    {
      "epoch": 0.1421,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002586633165829145,
      "loss": 2.4245,
      "step": 28420
    },
    {
      "epoch": 0.14215,
      "grad_norm": 1.53125,
      "learning_rate": 0.00025864824120603013,
      "loss": 2.4275,
      "step": 28430
    },
    {
      "epoch": 0.1422,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002586331658291457,
      "loss": 2.4339,
      "step": 28440
    },
    {
      "epoch": 0.14225,
      "grad_norm": 1.8125,
      "learning_rate": 0.00025861809045226125,
      "loss": 2.4966,
      "step": 28450
    },
    {
      "epoch": 0.1423,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025860301507537686,
      "loss": 2.3913,
      "step": 28460
    },
    {
      "epoch": 0.14235,
      "grad_norm": 1.4140625,
      "learning_rate": 0.0002585879396984924,
      "loss": 2.4557,
      "step": 28470
    },
    {
      "epoch": 0.1424,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000258572864321608,
      "loss": 2.4303,
      "step": 28480
    },
    {
      "epoch": 0.14245,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002585577889447236,
      "loss": 2.4487,
      "step": 28490
    },
    {
      "epoch": 0.1425,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025854271356783915,
      "loss": 2.3889,
      "step": 28500
    },
    {
      "epoch": 0.14255,
      "grad_norm": 1.734375,
      "learning_rate": 0.00025852763819095477,
      "loss": 2.4241,
      "step": 28510
    },
    {
      "epoch": 0.1426,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002585125628140703,
      "loss": 2.3832,
      "step": 28520
    },
    {
      "epoch": 0.14265,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025849748743718594,
      "loss": 2.4087,
      "step": 28530
    },
    {
      "epoch": 0.1427,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002584824120603015,
      "loss": 2.4927,
      "step": 28540
    },
    {
      "epoch": 0.14275,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025846733668341706,
      "loss": 2.4451,
      "step": 28550
    },
    {
      "epoch": 0.1428,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025845226130653267,
      "loss": 2.4657,
      "step": 28560
    },
    {
      "epoch": 0.14285,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00025843718592964823,
      "loss": 2.3719,
      "step": 28570
    },
    {
      "epoch": 0.1429,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002584221105527638,
      "loss": 2.4102,
      "step": 28580
    },
    {
      "epoch": 0.14295,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002584070351758794,
      "loss": 2.4626,
      "step": 28590
    },
    {
      "epoch": 0.143,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025839195979899496,
      "loss": 2.4391,
      "step": 28600
    },
    {
      "epoch": 0.14305,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002583768844221105,
      "loss": 2.3902,
      "step": 28610
    },
    {
      "epoch": 0.1431,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025836180904522613,
      "loss": 2.3705,
      "step": 28620
    },
    {
      "epoch": 0.14315,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002583467336683417,
      "loss": 2.4155,
      "step": 28630
    },
    {
      "epoch": 0.1432,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025833165829145725,
      "loss": 2.3846,
      "step": 28640
    },
    {
      "epoch": 0.14325,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025831658291457286,
      "loss": 2.3861,
      "step": 28650
    },
    {
      "epoch": 0.1433,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002583015075376884,
      "loss": 2.3785,
      "step": 28660
    },
    {
      "epoch": 0.14335,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000258286432160804,
      "loss": 2.3772,
      "step": 28670
    },
    {
      "epoch": 0.1434,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002582713567839196,
      "loss": 2.3938,
      "step": 28680
    },
    {
      "epoch": 0.14345,
      "grad_norm": 1.3359375,
      "learning_rate": 0.00025825628140703515,
      "loss": 2.468,
      "step": 28690
    },
    {
      "epoch": 0.1435,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002582412060301507,
      "loss": 2.3992,
      "step": 28700
    },
    {
      "epoch": 0.14355,
      "grad_norm": 1.828125,
      "learning_rate": 0.00025822613065326627,
      "loss": 2.4163,
      "step": 28710
    },
    {
      "epoch": 0.1436,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002582110552763819,
      "loss": 2.4614,
      "step": 28720
    },
    {
      "epoch": 0.14365,
      "grad_norm": 1.5625,
      "learning_rate": 0.00025819597989949744,
      "loss": 2.4186,
      "step": 28730
    },
    {
      "epoch": 0.1437,
      "grad_norm": 1.53125,
      "learning_rate": 0.000258180904522613,
      "loss": 2.3792,
      "step": 28740
    },
    {
      "epoch": 0.14375,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002581658291457286,
      "loss": 2.4034,
      "step": 28750
    },
    {
      "epoch": 0.1438,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002581507537688442,
      "loss": 2.49,
      "step": 28760
    },
    {
      "epoch": 0.14385,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002581356783919598,
      "loss": 2.4136,
      "step": 28770
    },
    {
      "epoch": 0.1439,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025812060301507535,
      "loss": 2.4251,
      "step": 28780
    },
    {
      "epoch": 0.14395,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002581055276381909,
      "loss": 2.378,
      "step": 28790
    },
    {
      "epoch": 0.144,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002580904522613065,
      "loss": 2.4404,
      "step": 28800
    },
    {
      "epoch": 0.14405,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002580753768844221,
      "loss": 2.4128,
      "step": 28810
    },
    {
      "epoch": 0.1441,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002580603015075377,
      "loss": 2.3724,
      "step": 28820
    },
    {
      "epoch": 0.14415,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025804522613065325,
      "loss": 2.476,
      "step": 28830
    },
    {
      "epoch": 0.1442,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002580301507537688,
      "loss": 2.3935,
      "step": 28840
    },
    {
      "epoch": 0.14425,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002580150753768844,
      "loss": 2.4058,
      "step": 28850
    },
    {
      "epoch": 0.1443,
      "grad_norm": 1.875,
      "learning_rate": 0.000258,
      "loss": 2.397,
      "step": 28860
    },
    {
      "epoch": 0.14435,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00025798492462311554,
      "loss": 2.4106,
      "step": 28870
    },
    {
      "epoch": 0.1444,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025796984924623116,
      "loss": 2.4194,
      "step": 28880
    },
    {
      "epoch": 0.14445,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002579547738693467,
      "loss": 2.4522,
      "step": 28890
    },
    {
      "epoch": 0.1445,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002579396984924623,
      "loss": 2.4056,
      "step": 28900
    },
    {
      "epoch": 0.14455,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002579246231155779,
      "loss": 2.3765,
      "step": 28910
    },
    {
      "epoch": 0.1446,
      "grad_norm": 1.765625,
      "learning_rate": 0.00025790954773869345,
      "loss": 2.412,
      "step": 28920
    },
    {
      "epoch": 0.14465,
      "grad_norm": 1.578125,
      "learning_rate": 0.000257894472361809,
      "loss": 2.4252,
      "step": 28930
    },
    {
      "epoch": 0.1447,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002578793969849246,
      "loss": 2.4605,
      "step": 28940
    },
    {
      "epoch": 0.14475,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002578643216080402,
      "loss": 2.4192,
      "step": 28950
    },
    {
      "epoch": 0.1448,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025784924623115574,
      "loss": 2.4496,
      "step": 28960
    },
    {
      "epoch": 0.14485,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00025783417085427135,
      "loss": 2.3788,
      "step": 28970
    },
    {
      "epoch": 0.1449,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002578190954773869,
      "loss": 2.4063,
      "step": 28980
    },
    {
      "epoch": 0.14495,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025780402010050247,
      "loss": 2.4298,
      "step": 28990
    },
    {
      "epoch": 0.145,
      "grad_norm": 1.7578125,
      "learning_rate": 0.000257788944723618,
      "loss": 2.4284,
      "step": 29000
    },
    {
      "epoch": 0.14505,
      "grad_norm": 1.5,
      "learning_rate": 0.00025777386934673364,
      "loss": 2.3786,
      "step": 29010
    },
    {
      "epoch": 0.1451,
      "grad_norm": 1.625,
      "learning_rate": 0.0002577587939698492,
      "loss": 2.3873,
      "step": 29020
    },
    {
      "epoch": 0.14515,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002577437185929648,
      "loss": 2.3887,
      "step": 29030
    },
    {
      "epoch": 0.1452,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025772864321608037,
      "loss": 2.4379,
      "step": 29040
    },
    {
      "epoch": 0.14525,
      "grad_norm": 1.734375,
      "learning_rate": 0.00025771356783919593,
      "loss": 2.3859,
      "step": 29050
    },
    {
      "epoch": 0.1453,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025769849246231154,
      "loss": 2.368,
      "step": 29060
    },
    {
      "epoch": 0.14535,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002576834170854271,
      "loss": 2.3989,
      "step": 29070
    },
    {
      "epoch": 0.1454,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002576683417085427,
      "loss": 2.4414,
      "step": 29080
    },
    {
      "epoch": 0.14545,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002576532663316583,
      "loss": 2.4121,
      "step": 29090
    },
    {
      "epoch": 0.1455,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002576381909547739,
      "loss": 2.4353,
      "step": 29100
    },
    {
      "epoch": 0.14555,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025762311557788945,
      "loss": 2.39,
      "step": 29110
    },
    {
      "epoch": 0.1456,
      "grad_norm": 1.6796875,
      "learning_rate": 0.000257608040201005,
      "loss": 2.4629,
      "step": 29120
    },
    {
      "epoch": 0.14565,
      "grad_norm": 1.75,
      "learning_rate": 0.0002575929648241206,
      "loss": 2.4593,
      "step": 29130
    },
    {
      "epoch": 0.1457,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002575778894472362,
      "loss": 2.4203,
      "step": 29140
    },
    {
      "epoch": 0.14575,
      "grad_norm": 1.828125,
      "learning_rate": 0.00025756281407035174,
      "loss": 2.4083,
      "step": 29150
    },
    {
      "epoch": 0.1458,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002575477386934673,
      "loss": 2.4234,
      "step": 29160
    },
    {
      "epoch": 0.14585,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002575326633165829,
      "loss": 2.406,
      "step": 29170
    },
    {
      "epoch": 0.1459,
      "grad_norm": 1.53125,
      "learning_rate": 0.00025751758793969847,
      "loss": 2.4209,
      "step": 29180
    },
    {
      "epoch": 0.14595,
      "grad_norm": 1.578125,
      "learning_rate": 0.000257502512562814,
      "loss": 2.4101,
      "step": 29190
    },
    {
      "epoch": 0.146,
      "grad_norm": 1.625,
      "learning_rate": 0.00025748743718592964,
      "loss": 2.4809,
      "step": 29200
    },
    {
      "epoch": 0.14605,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002574723618090452,
      "loss": 2.4357,
      "step": 29210
    },
    {
      "epoch": 0.1461,
      "grad_norm": 1.671875,
      "learning_rate": 0.00025745728643216076,
      "loss": 2.352,
      "step": 29220
    },
    {
      "epoch": 0.14615,
      "grad_norm": 1.6875,
      "learning_rate": 0.00025744221105527637,
      "loss": 2.4103,
      "step": 29230
    },
    {
      "epoch": 0.1462,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00025742713567839193,
      "loss": 2.3998,
      "step": 29240
    },
    {
      "epoch": 0.14625,
      "grad_norm": 1.4765625,
      "learning_rate": 0.0002574120603015075,
      "loss": 2.3874,
      "step": 29250
    },
    {
      "epoch": 0.1463,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002573969849246231,
      "loss": 2.4747,
      "step": 29260
    },
    {
      "epoch": 0.14635,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025738190954773866,
      "loss": 2.3657,
      "step": 29270
    },
    {
      "epoch": 0.1464,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002573668341708542,
      "loss": 2.4162,
      "step": 29280
    },
    {
      "epoch": 0.14645,
      "grad_norm": 1.671875,
      "learning_rate": 0.00025735175879396983,
      "loss": 2.4311,
      "step": 29290
    },
    {
      "epoch": 0.1465,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002573366834170854,
      "loss": 2.4519,
      "step": 29300
    },
    {
      "epoch": 0.14655,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025732160804020095,
      "loss": 2.418,
      "step": 29310
    },
    {
      "epoch": 0.1466,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00025730653266331656,
      "loss": 2.4154,
      "step": 29320
    },
    {
      "epoch": 0.14665,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002572914572864321,
      "loss": 2.3875,
      "step": 29330
    },
    {
      "epoch": 0.1467,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025727638190954774,
      "loss": 2.3947,
      "step": 29340
    },
    {
      "epoch": 0.14675,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002572613065326633,
      "loss": 2.462,
      "step": 29350
    },
    {
      "epoch": 0.1468,
      "grad_norm": 1.5625,
      "learning_rate": 0.00025724623115577885,
      "loss": 2.3613,
      "step": 29360
    },
    {
      "epoch": 0.14685,
      "grad_norm": 1.8125,
      "learning_rate": 0.00025723115577889447,
      "loss": 2.4318,
      "step": 29370
    },
    {
      "epoch": 0.1469,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00025721608040201,
      "loss": 2.424,
      "step": 29380
    },
    {
      "epoch": 0.14695,
      "grad_norm": 1.8125,
      "learning_rate": 0.00025720100502512564,
      "loss": 2.398,
      "step": 29390
    },
    {
      "epoch": 0.147,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002571859296482412,
      "loss": 2.4207,
      "step": 29400
    },
    {
      "epoch": 0.14705,
      "grad_norm": 1.4375,
      "learning_rate": 0.00025717085427135676,
      "loss": 2.428,
      "step": 29410
    },
    {
      "epoch": 0.1471,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025715577889447237,
      "loss": 2.3916,
      "step": 29420
    },
    {
      "epoch": 0.14715,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025714070351758793,
      "loss": 2.4329,
      "step": 29430
    },
    {
      "epoch": 0.1472,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002571256281407035,
      "loss": 2.3913,
      "step": 29440
    },
    {
      "epoch": 0.14725,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002571105527638191,
      "loss": 2.4417,
      "step": 29450
    },
    {
      "epoch": 0.1473,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00025709547738693466,
      "loss": 2.4089,
      "step": 29460
    },
    {
      "epoch": 0.14735,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002570804020100502,
      "loss": 2.3923,
      "step": 29470
    },
    {
      "epoch": 0.1474,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002570653266331658,
      "loss": 2.413,
      "step": 29480
    },
    {
      "epoch": 0.14745,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002570502512562814,
      "loss": 2.4433,
      "step": 29490
    },
    {
      "epoch": 0.1475,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025703517587939695,
      "loss": 2.4361,
      "step": 29500
    },
    {
      "epoch": 0.14755,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002570201005025125,
      "loss": 2.4107,
      "step": 29510
    },
    {
      "epoch": 0.1476,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002570050251256281,
      "loss": 2.4281,
      "step": 29520
    },
    {
      "epoch": 0.14765,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002569899497487437,
      "loss": 2.4285,
      "step": 29530
    },
    {
      "epoch": 0.1477,
      "grad_norm": 1.609375,
      "learning_rate": 0.00025697487437185924,
      "loss": 2.4188,
      "step": 29540
    },
    {
      "epoch": 0.14775,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00025695979899497485,
      "loss": 2.4433,
      "step": 29550
    },
    {
      "epoch": 0.1478,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002569447236180904,
      "loss": 2.4145,
      "step": 29560
    },
    {
      "epoch": 0.14785,
      "grad_norm": 1.671875,
      "learning_rate": 0.00025692964824120597,
      "loss": 2.4377,
      "step": 29570
    },
    {
      "epoch": 0.1479,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002569145728643216,
      "loss": 2.3944,
      "step": 29580
    },
    {
      "epoch": 0.14795,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00025689949748743714,
      "loss": 2.4233,
      "step": 29590
    },
    {
      "epoch": 0.148,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025688442211055276,
      "loss": 2.3986,
      "step": 29600
    },
    {
      "epoch": 0.14805,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002568693467336683,
      "loss": 2.3778,
      "step": 29610
    },
    {
      "epoch": 0.1481,
      "grad_norm": 1.625,
      "learning_rate": 0.0002568542713567839,
      "loss": 2.4357,
      "step": 29620
    },
    {
      "epoch": 0.14815,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002568391959798995,
      "loss": 2.3743,
      "step": 29630
    },
    {
      "epoch": 0.1482,
      "grad_norm": 1.734375,
      "learning_rate": 0.00025682412060301505,
      "loss": 2.4568,
      "step": 29640
    },
    {
      "epoch": 0.14825,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025680904522613066,
      "loss": 2.421,
      "step": 29650
    },
    {
      "epoch": 0.1483,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002567939698492462,
      "loss": 2.4232,
      "step": 29660
    },
    {
      "epoch": 0.14835,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002567788944723618,
      "loss": 2.3968,
      "step": 29670
    },
    {
      "epoch": 0.1484,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002567638190954774,
      "loss": 2.4388,
      "step": 29680
    },
    {
      "epoch": 0.14845,
      "grad_norm": 1.5625,
      "learning_rate": 0.00025674874371859295,
      "loss": 2.473,
      "step": 29690
    },
    {
      "epoch": 0.1485,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002567336683417085,
      "loss": 2.446,
      "step": 29700
    },
    {
      "epoch": 0.14855,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002567185929648241,
      "loss": 2.3875,
      "step": 29710
    },
    {
      "epoch": 0.1486,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002567035175879397,
      "loss": 2.3856,
      "step": 29720
    },
    {
      "epoch": 0.14865,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00025668844221105524,
      "loss": 2.405,
      "step": 29730
    },
    {
      "epoch": 0.1487,
      "grad_norm": 1.5,
      "learning_rate": 0.00025667336683417086,
      "loss": 2.3752,
      "step": 29740
    },
    {
      "epoch": 0.14875,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002566582914572864,
      "loss": 2.3897,
      "step": 29750
    },
    {
      "epoch": 0.1488,
      "grad_norm": 1.7578125,
      "learning_rate": 0.000256643216080402,
      "loss": 2.4229,
      "step": 29760
    },
    {
      "epoch": 0.14885,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002566281407035176,
      "loss": 2.4198,
      "step": 29770
    },
    {
      "epoch": 0.1489,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025661306532663315,
      "loss": 2.4383,
      "step": 29780
    },
    {
      "epoch": 0.14895,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002565979899497487,
      "loss": 2.3414,
      "step": 29790
    },
    {
      "epoch": 0.149,
      "grad_norm": 1.5625,
      "learning_rate": 0.00025658291457286426,
      "loss": 2.4016,
      "step": 29800
    },
    {
      "epoch": 0.14905,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002565678391959799,
      "loss": 2.3991,
      "step": 29810
    },
    {
      "epoch": 0.1491,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025655276381909544,
      "loss": 2.4241,
      "step": 29820
    },
    {
      "epoch": 0.14915,
      "grad_norm": 1.546875,
      "learning_rate": 0.000256537688442211,
      "loss": 2.3981,
      "step": 29830
    },
    {
      "epoch": 0.1492,
      "grad_norm": 1.625,
      "learning_rate": 0.0002565226130653266,
      "loss": 2.4317,
      "step": 29840
    },
    {
      "epoch": 0.14925,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025650753768844217,
      "loss": 2.4385,
      "step": 29850
    },
    {
      "epoch": 0.1493,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002564924623115578,
      "loss": 2.431,
      "step": 29860
    },
    {
      "epoch": 0.14935,
      "grad_norm": 1.53125,
      "learning_rate": 0.00025647738693467334,
      "loss": 2.4492,
      "step": 29870
    },
    {
      "epoch": 0.1494,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002564623115577889,
      "loss": 2.3908,
      "step": 29880
    },
    {
      "epoch": 0.14945,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002564472361809045,
      "loss": 2.4145,
      "step": 29890
    },
    {
      "epoch": 0.1495,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025643216080402007,
      "loss": 2.4087,
      "step": 29900
    },
    {
      "epoch": 0.14955,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002564170854271357,
      "loss": 2.3509,
      "step": 29910
    },
    {
      "epoch": 0.1496,
      "grad_norm": 1.796875,
      "learning_rate": 0.00025640201005025124,
      "loss": 2.4238,
      "step": 29920
    },
    {
      "epoch": 0.14965,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002563869346733668,
      "loss": 2.3734,
      "step": 29930
    },
    {
      "epoch": 0.1497,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002563718592964824,
      "loss": 2.4,
      "step": 29940
    },
    {
      "epoch": 0.14975,
      "grad_norm": 1.7734375,
      "learning_rate": 0.000256356783919598,
      "loss": 2.3966,
      "step": 29950
    },
    {
      "epoch": 0.1498,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025634170854271353,
      "loss": 2.3513,
      "step": 29960
    },
    {
      "epoch": 0.14985,
      "grad_norm": 1.671875,
      "learning_rate": 0.00025632663316582915,
      "loss": 2.3725,
      "step": 29970
    },
    {
      "epoch": 0.1499,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002563115577889447,
      "loss": 2.4274,
      "step": 29980
    },
    {
      "epoch": 0.14995,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025629648241206026,
      "loss": 2.3732,
      "step": 29990
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002562814070351759,
      "loss": 2.4217,
      "step": 30000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.39341139793396,
      "eval_runtime": 91.4034,
      "eval_samples_per_second": 27.351,
      "eval_steps_per_second": 0.438,
      "step": 30000
    },
    {
      "epoch": 0.15005,
      "grad_norm": 1.53125,
      "learning_rate": 0.00025626633165829144,
      "loss": 2.393,
      "step": 30010
    },
    {
      "epoch": 0.1501,
      "grad_norm": 1.6640625,
      "learning_rate": 0.000256251256281407,
      "loss": 2.4028,
      "step": 30020
    },
    {
      "epoch": 0.15015,
      "grad_norm": 1.515625,
      "learning_rate": 0.0002562361809045226,
      "loss": 2.4372,
      "step": 30030
    },
    {
      "epoch": 0.1502,
      "grad_norm": 1.515625,
      "learning_rate": 0.00025622110552763817,
      "loss": 2.403,
      "step": 30040
    },
    {
      "epoch": 0.15025,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002562060301507537,
      "loss": 2.4137,
      "step": 30050
    },
    {
      "epoch": 0.1503,
      "grad_norm": 1.484375,
      "learning_rate": 0.00025619095477386934,
      "loss": 2.3863,
      "step": 30060
    },
    {
      "epoch": 0.15035,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002561758793969849,
      "loss": 2.4215,
      "step": 30070
    },
    {
      "epoch": 0.1504,
      "grad_norm": 1.640625,
      "learning_rate": 0.00025616080402010046,
      "loss": 2.4292,
      "step": 30080
    },
    {
      "epoch": 0.15045,
      "grad_norm": 1.8359375,
      "learning_rate": 0.000256145728643216,
      "loss": 2.4301,
      "step": 30090
    },
    {
      "epoch": 0.1505,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00025613065326633163,
      "loss": 2.3951,
      "step": 30100
    },
    {
      "epoch": 0.15055,
      "grad_norm": 1.75,
      "learning_rate": 0.0002561155778894472,
      "loss": 2.4036,
      "step": 30110
    },
    {
      "epoch": 0.1506,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002561005025125628,
      "loss": 2.3591,
      "step": 30120
    },
    {
      "epoch": 0.15065,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00025608542713567836,
      "loss": 2.3729,
      "step": 30130
    },
    {
      "epoch": 0.1507,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002560703517587939,
      "loss": 2.4295,
      "step": 30140
    },
    {
      "epoch": 0.15075,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00025605527638190953,
      "loss": 2.3689,
      "step": 30150
    },
    {
      "epoch": 0.1508,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002560402010050251,
      "loss": 2.4423,
      "step": 30160
    },
    {
      "epoch": 0.15085,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002560251256281407,
      "loss": 2.4303,
      "step": 30170
    },
    {
      "epoch": 0.1509,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025601005025125626,
      "loss": 2.3554,
      "step": 30180
    },
    {
      "epoch": 0.15095,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002559949748743718,
      "loss": 2.4036,
      "step": 30190
    },
    {
      "epoch": 0.151,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025597989949748744,
      "loss": 2.4023,
      "step": 30200
    },
    {
      "epoch": 0.15105,
      "grad_norm": 1.8515625,
      "learning_rate": 0.000255964824120603,
      "loss": 2.3708,
      "step": 30210
    },
    {
      "epoch": 0.1511,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002559497487437186,
      "loss": 2.457,
      "step": 30220
    },
    {
      "epoch": 0.15115,
      "grad_norm": 1.734375,
      "learning_rate": 0.00025593467336683417,
      "loss": 2.4022,
      "step": 30230
    },
    {
      "epoch": 0.1512,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002559195979899497,
      "loss": 2.4004,
      "step": 30240
    },
    {
      "epoch": 0.15125,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002559045226130653,
      "loss": 2.3718,
      "step": 30250
    },
    {
      "epoch": 0.1513,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002558894472361809,
      "loss": 2.3961,
      "step": 30260
    },
    {
      "epoch": 0.15135,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00025587437185929646,
      "loss": 2.4286,
      "step": 30270
    },
    {
      "epoch": 0.1514,
      "grad_norm": 1.625,
      "learning_rate": 0.000255859296482412,
      "loss": 2.4281,
      "step": 30280
    },
    {
      "epoch": 0.15145,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025584422110552763,
      "loss": 2.462,
      "step": 30290
    },
    {
      "epoch": 0.1515,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002558291457286432,
      "loss": 2.4375,
      "step": 30300
    },
    {
      "epoch": 0.15155,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00025581407035175875,
      "loss": 2.4156,
      "step": 30310
    },
    {
      "epoch": 0.1516,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00025579899497487436,
      "loss": 2.3875,
      "step": 30320
    },
    {
      "epoch": 0.15165,
      "grad_norm": 1.75,
      "learning_rate": 0.0002557839195979899,
      "loss": 2.4191,
      "step": 30330
    },
    {
      "epoch": 0.1517,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002557688442211055,
      "loss": 2.3912,
      "step": 30340
    },
    {
      "epoch": 0.15175,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002557537688442211,
      "loss": 2.4125,
      "step": 30350
    },
    {
      "epoch": 0.1518,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025573869346733665,
      "loss": 2.4146,
      "step": 30360
    },
    {
      "epoch": 0.15185,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002557236180904522,
      "loss": 2.4363,
      "step": 30370
    },
    {
      "epoch": 0.1519,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002557085427135678,
      "loss": 2.4196,
      "step": 30380
    },
    {
      "epoch": 0.15195,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002556934673366834,
      "loss": 2.4031,
      "step": 30390
    },
    {
      "epoch": 0.152,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00025567839195979894,
      "loss": 2.4116,
      "step": 30400
    },
    {
      "epoch": 0.15205,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025566331658291456,
      "loss": 2.368,
      "step": 30410
    },
    {
      "epoch": 0.1521,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002556482412060301,
      "loss": 2.3716,
      "step": 30420
    },
    {
      "epoch": 0.15215,
      "grad_norm": 1.640625,
      "learning_rate": 0.00025563316582914573,
      "loss": 2.3707,
      "step": 30430
    },
    {
      "epoch": 0.1522,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002556180904522613,
      "loss": 2.4327,
      "step": 30440
    },
    {
      "epoch": 0.15225,
      "grad_norm": 1.78125,
      "learning_rate": 0.00025560301507537685,
      "loss": 2.4198,
      "step": 30450
    },
    {
      "epoch": 0.1523,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025558793969849246,
      "loss": 2.3795,
      "step": 30460
    },
    {
      "epoch": 0.15235,
      "grad_norm": 1.5078125,
      "learning_rate": 0.000255572864321608,
      "loss": 2.4047,
      "step": 30470
    },
    {
      "epoch": 0.1524,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025555778894472363,
      "loss": 2.382,
      "step": 30480
    },
    {
      "epoch": 0.15245,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002555427135678392,
      "loss": 2.4028,
      "step": 30490
    },
    {
      "epoch": 0.1525,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00025552763819095475,
      "loss": 2.4219,
      "step": 30500
    },
    {
      "epoch": 0.15255,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00025551256281407036,
      "loss": 2.358,
      "step": 30510
    },
    {
      "epoch": 0.1526,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002554974874371859,
      "loss": 2.4664,
      "step": 30520
    },
    {
      "epoch": 0.15265,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002554824120603015,
      "loss": 2.4398,
      "step": 30530
    },
    {
      "epoch": 0.1527,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002554673366834171,
      "loss": 2.4281,
      "step": 30540
    },
    {
      "epoch": 0.15275,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025545226130653265,
      "loss": 2.4405,
      "step": 30550
    },
    {
      "epoch": 0.1528,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002554371859296482,
      "loss": 2.4398,
      "step": 30560
    },
    {
      "epoch": 0.15285,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00025542211055276377,
      "loss": 2.394,
      "step": 30570
    },
    {
      "epoch": 0.1529,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002554070351758794,
      "loss": 2.4027,
      "step": 30580
    },
    {
      "epoch": 0.15295,
      "grad_norm": 1.6875,
      "learning_rate": 0.00025539195979899494,
      "loss": 2.3831,
      "step": 30590
    },
    {
      "epoch": 0.153,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002553768844221105,
      "loss": 2.3638,
      "step": 30600
    },
    {
      "epoch": 0.15305,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002553618090452261,
      "loss": 2.4408,
      "step": 30610
    },
    {
      "epoch": 0.1531,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002553467336683417,
      "loss": 2.3753,
      "step": 30620
    },
    {
      "epoch": 0.15315,
      "grad_norm": 1.5,
      "learning_rate": 0.00025533165829145723,
      "loss": 2.3738,
      "step": 30630
    },
    {
      "epoch": 0.1532,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00025531658291457285,
      "loss": 2.3477,
      "step": 30640
    },
    {
      "epoch": 0.15325,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002553015075376884,
      "loss": 2.4514,
      "step": 30650
    },
    {
      "epoch": 0.1533,
      "grad_norm": 1.75,
      "learning_rate": 0.00025528643216080396,
      "loss": 2.4322,
      "step": 30660
    },
    {
      "epoch": 0.15335,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002552713567839196,
      "loss": 2.4019,
      "step": 30670
    },
    {
      "epoch": 0.1534,
      "grad_norm": 1.6875,
      "learning_rate": 0.00025525628140703514,
      "loss": 2.3959,
      "step": 30680
    },
    {
      "epoch": 0.15345,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025524120603015075,
      "loss": 2.3618,
      "step": 30690
    },
    {
      "epoch": 0.1535,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002552261306532663,
      "loss": 2.392,
      "step": 30700
    },
    {
      "epoch": 0.15355,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025521105527638187,
      "loss": 2.38,
      "step": 30710
    },
    {
      "epoch": 0.1536,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002551959798994975,
      "loss": 2.3335,
      "step": 30720
    },
    {
      "epoch": 0.15365,
      "grad_norm": 1.71875,
      "learning_rate": 0.00025518090452261304,
      "loss": 2.4157,
      "step": 30730
    },
    {
      "epoch": 0.1537,
      "grad_norm": 1.90625,
      "learning_rate": 0.00025516582914572865,
      "loss": 2.3985,
      "step": 30740
    },
    {
      "epoch": 0.15375,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002551507537688442,
      "loss": 2.48,
      "step": 30750
    },
    {
      "epoch": 0.1538,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00025513567839195977,
      "loss": 2.4163,
      "step": 30760
    },
    {
      "epoch": 0.15385,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002551206030150754,
      "loss": 2.3877,
      "step": 30770
    },
    {
      "epoch": 0.1539,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00025510552763819094,
      "loss": 2.3638,
      "step": 30780
    },
    {
      "epoch": 0.15395,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002550904522613065,
      "loss": 2.3992,
      "step": 30790
    },
    {
      "epoch": 0.154,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002550753768844221,
      "loss": 2.4175,
      "step": 30800
    },
    {
      "epoch": 0.15405,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002550603015075377,
      "loss": 2.3984,
      "step": 30810
    },
    {
      "epoch": 0.1541,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025504522613065323,
      "loss": 2.3931,
      "step": 30820
    },
    {
      "epoch": 0.15415,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025503015075376885,
      "loss": 2.373,
      "step": 30830
    },
    {
      "epoch": 0.1542,
      "grad_norm": 1.625,
      "learning_rate": 0.0002550150753768844,
      "loss": 2.3953,
      "step": 30840
    },
    {
      "epoch": 0.15425,
      "grad_norm": 1.71875,
      "learning_rate": 0.00025499999999999996,
      "loss": 2.4333,
      "step": 30850
    },
    {
      "epoch": 0.1543,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002549849246231156,
      "loss": 2.3641,
      "step": 30860
    },
    {
      "epoch": 0.15435,
      "grad_norm": 1.46875,
      "learning_rate": 0.00025496984924623114,
      "loss": 2.3708,
      "step": 30870
    },
    {
      "epoch": 0.1544,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002549547738693467,
      "loss": 2.3343,
      "step": 30880
    },
    {
      "epoch": 0.15445,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00025493969849246225,
      "loss": 2.3847,
      "step": 30890
    },
    {
      "epoch": 0.1545,
      "grad_norm": 1.734375,
      "learning_rate": 0.00025492462311557787,
      "loss": 2.3627,
      "step": 30900
    },
    {
      "epoch": 0.15455,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002549095477386934,
      "loss": 2.4346,
      "step": 30910
    },
    {
      "epoch": 0.1546,
      "grad_norm": 1.8125,
      "learning_rate": 0.000254894472361809,
      "loss": 2.3738,
      "step": 30920
    },
    {
      "epoch": 0.15465,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002548793969849246,
      "loss": 2.3515,
      "step": 30930
    },
    {
      "epoch": 0.1547,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025486432160804016,
      "loss": 2.3704,
      "step": 30940
    },
    {
      "epoch": 0.15475,
      "grad_norm": 1.703125,
      "learning_rate": 0.00025484924623115577,
      "loss": 2.4243,
      "step": 30950
    },
    {
      "epoch": 0.1548,
      "grad_norm": 1.5,
      "learning_rate": 0.00025483417085427133,
      "loss": 2.3753,
      "step": 30960
    },
    {
      "epoch": 0.15485,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002548190954773869,
      "loss": 2.3475,
      "step": 30970
    },
    {
      "epoch": 0.1549,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002548040201005025,
      "loss": 2.4305,
      "step": 30980
    },
    {
      "epoch": 0.15495,
      "grad_norm": 1.734375,
      "learning_rate": 0.00025478894472361806,
      "loss": 2.344,
      "step": 30990
    },
    {
      "epoch": 0.155,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002547738693467337,
      "loss": 2.4038,
      "step": 31000
    },
    {
      "epoch": 0.15505,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00025475879396984923,
      "loss": 2.3501,
      "step": 31010
    },
    {
      "epoch": 0.1551,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002547437185929648,
      "loss": 2.372,
      "step": 31020
    },
    {
      "epoch": 0.15515,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002547286432160804,
      "loss": 2.3758,
      "step": 31030
    },
    {
      "epoch": 0.1552,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025471356783919596,
      "loss": 2.3763,
      "step": 31040
    },
    {
      "epoch": 0.15525,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002546984924623115,
      "loss": 2.4545,
      "step": 31050
    },
    {
      "epoch": 0.1553,
      "grad_norm": 1.515625,
      "learning_rate": 0.00025468341708542714,
      "loss": 2.4331,
      "step": 31060
    },
    {
      "epoch": 0.15535,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002546683417085427,
      "loss": 2.4039,
      "step": 31070
    },
    {
      "epoch": 0.1554,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00025465326633165825,
      "loss": 2.3556,
      "step": 31080
    },
    {
      "epoch": 0.15545,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025463819095477387,
      "loss": 2.3887,
      "step": 31090
    },
    {
      "epoch": 0.1555,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002546231155778894,
      "loss": 2.431,
      "step": 31100
    },
    {
      "epoch": 0.15555,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000254608040201005,
      "loss": 2.371,
      "step": 31110
    },
    {
      "epoch": 0.1556,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002545929648241206,
      "loss": 2.4238,
      "step": 31120
    },
    {
      "epoch": 0.15565,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025457788944723616,
      "loss": 2.392,
      "step": 31130
    },
    {
      "epoch": 0.1557,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002545628140703517,
      "loss": 2.3853,
      "step": 31140
    },
    {
      "epoch": 0.15575,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025454773869346733,
      "loss": 2.3204,
      "step": 31150
    },
    {
      "epoch": 0.1558,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002545326633165829,
      "loss": 2.3559,
      "step": 31160
    },
    {
      "epoch": 0.15585,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025451758793969845,
      "loss": 2.4299,
      "step": 31170
    },
    {
      "epoch": 0.1559,
      "grad_norm": 1.671875,
      "learning_rate": 0.000254502512562814,
      "loss": 2.4389,
      "step": 31180
    },
    {
      "epoch": 0.15595,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002544874371859296,
      "loss": 2.3707,
      "step": 31190
    },
    {
      "epoch": 0.156,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002544723618090452,
      "loss": 2.378,
      "step": 31200
    },
    {
      "epoch": 0.15605,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002544572864321608,
      "loss": 2.3903,
      "step": 31210
    },
    {
      "epoch": 0.1561,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00025444221105527635,
      "loss": 2.384,
      "step": 31220
    },
    {
      "epoch": 0.15615,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002544271356783919,
      "loss": 2.3448,
      "step": 31230
    },
    {
      "epoch": 0.1562,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002544120603015075,
      "loss": 2.3974,
      "step": 31240
    },
    {
      "epoch": 0.15625,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002543969849246231,
      "loss": 2.4109,
      "step": 31250
    },
    {
      "epoch": 0.1563,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002543819095477387,
      "loss": 2.4309,
      "step": 31260
    },
    {
      "epoch": 0.15635,
      "grad_norm": 1.671875,
      "learning_rate": 0.00025436683417085426,
      "loss": 2.3915,
      "step": 31270
    },
    {
      "epoch": 0.1564,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002543517587939698,
      "loss": 2.4027,
      "step": 31280
    },
    {
      "epoch": 0.15645,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00025433668341708543,
      "loss": 2.4001,
      "step": 31290
    },
    {
      "epoch": 0.1565,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000254321608040201,
      "loss": 2.3295,
      "step": 31300
    },
    {
      "epoch": 0.15655,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002543065326633166,
      "loss": 2.3898,
      "step": 31310
    },
    {
      "epoch": 0.1566,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025429145728643216,
      "loss": 2.4173,
      "step": 31320
    },
    {
      "epoch": 0.15665,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002542763819095477,
      "loss": 2.4107,
      "step": 31330
    },
    {
      "epoch": 0.1567,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002542613065326633,
      "loss": 2.4322,
      "step": 31340
    },
    {
      "epoch": 0.15675,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002542462311557789,
      "loss": 2.3636,
      "step": 31350
    },
    {
      "epoch": 0.1568,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025423115577889445,
      "loss": 2.4246,
      "step": 31360
    },
    {
      "epoch": 0.15685,
      "grad_norm": 1.71875,
      "learning_rate": 0.00025421608040201,
      "loss": 2.3624,
      "step": 31370
    },
    {
      "epoch": 0.1569,
      "grad_norm": 1.625,
      "learning_rate": 0.0002542010050251256,
      "loss": 2.4184,
      "step": 31380
    },
    {
      "epoch": 0.15695,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002541859296482412,
      "loss": 2.3998,
      "step": 31390
    },
    {
      "epoch": 0.157,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00025417085427135674,
      "loss": 2.3581,
      "step": 31400
    },
    {
      "epoch": 0.15705,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00025415577889447235,
      "loss": 2.3791,
      "step": 31410
    },
    {
      "epoch": 0.1571,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002541407035175879,
      "loss": 2.319,
      "step": 31420
    },
    {
      "epoch": 0.15715,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025412562814070347,
      "loss": 2.3752,
      "step": 31430
    },
    {
      "epoch": 0.1572,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002541105527638191,
      "loss": 2.4355,
      "step": 31440
    },
    {
      "epoch": 0.15725,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00025409547738693464,
      "loss": 2.3974,
      "step": 31450
    },
    {
      "epoch": 0.1573,
      "grad_norm": 1.625,
      "learning_rate": 0.0002540804020100502,
      "loss": 2.3917,
      "step": 31460
    },
    {
      "epoch": 0.15735,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002540653266331658,
      "loss": 2.4025,
      "step": 31470
    },
    {
      "epoch": 0.1574,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002540502512562814,
      "loss": 2.4107,
      "step": 31480
    },
    {
      "epoch": 0.15745,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00025403517587939693,
      "loss": 2.4203,
      "step": 31490
    },
    {
      "epoch": 0.1575,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025402010050251255,
      "loss": 2.3851,
      "step": 31500
    },
    {
      "epoch": 0.15755,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002540050251256281,
      "loss": 2.3863,
      "step": 31510
    },
    {
      "epoch": 0.1576,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002539899497487437,
      "loss": 2.3543,
      "step": 31520
    },
    {
      "epoch": 0.15765,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002539748743718593,
      "loss": 2.3328,
      "step": 31530
    },
    {
      "epoch": 0.1577,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025395979899497484,
      "loss": 2.3812,
      "step": 31540
    },
    {
      "epoch": 0.15775,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025394472361809045,
      "loss": 2.4312,
      "step": 31550
    },
    {
      "epoch": 0.1578,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000253929648241206,
      "loss": 2.4028,
      "step": 31560
    },
    {
      "epoch": 0.15785,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002539145728643216,
      "loss": 2.4109,
      "step": 31570
    },
    {
      "epoch": 0.1579,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002538994974874372,
      "loss": 2.3916,
      "step": 31580
    },
    {
      "epoch": 0.15795,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025388442211055274,
      "loss": 2.4149,
      "step": 31590
    },
    {
      "epoch": 0.158,
      "grad_norm": 1.53125,
      "learning_rate": 0.00025386934673366835,
      "loss": 2.3808,
      "step": 31600
    },
    {
      "epoch": 0.15805,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002538542713567839,
      "loss": 2.4537,
      "step": 31610
    },
    {
      "epoch": 0.1581,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00025383919597989947,
      "loss": 2.3731,
      "step": 31620
    },
    {
      "epoch": 0.15815,
      "grad_norm": 1.625,
      "learning_rate": 0.0002538241206030151,
      "loss": 2.4528,
      "step": 31630
    },
    {
      "epoch": 0.1582,
      "grad_norm": 1.765625,
      "learning_rate": 0.00025380904522613064,
      "loss": 2.38,
      "step": 31640
    },
    {
      "epoch": 0.15825,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002537939698492462,
      "loss": 2.4215,
      "step": 31650
    },
    {
      "epoch": 0.1583,
      "grad_norm": 1.78125,
      "learning_rate": 0.00025377889447236176,
      "loss": 2.377,
      "step": 31660
    },
    {
      "epoch": 0.15835,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002537638190954774,
      "loss": 2.3643,
      "step": 31670
    },
    {
      "epoch": 0.1584,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00025374874371859293,
      "loss": 2.3979,
      "step": 31680
    },
    {
      "epoch": 0.15845,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002537336683417085,
      "loss": 2.4264,
      "step": 31690
    },
    {
      "epoch": 0.1585,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002537185929648241,
      "loss": 2.3815,
      "step": 31700
    },
    {
      "epoch": 0.15855,
      "grad_norm": 1.90625,
      "learning_rate": 0.00025370351758793966,
      "loss": 2.3881,
      "step": 31710
    },
    {
      "epoch": 0.1586,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002536884422110552,
      "loss": 2.4117,
      "step": 31720
    },
    {
      "epoch": 0.15865,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025367336683417084,
      "loss": 2.392,
      "step": 31730
    },
    {
      "epoch": 0.1587,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002536582914572864,
      "loss": 2.3897,
      "step": 31740
    },
    {
      "epoch": 0.15875,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025364321608040195,
      "loss": 2.3586,
      "step": 31750
    },
    {
      "epoch": 0.1588,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025362814070351757,
      "loss": 2.4016,
      "step": 31760
    },
    {
      "epoch": 0.15885,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002536130653266331,
      "loss": 2.4466,
      "step": 31770
    },
    {
      "epoch": 0.1589,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025359798994974874,
      "loss": 2.378,
      "step": 31780
    },
    {
      "epoch": 0.15895,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002535829145728643,
      "loss": 2.3259,
      "step": 31790
    },
    {
      "epoch": 0.159,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025356783919597986,
      "loss": 2.3717,
      "step": 31800
    },
    {
      "epoch": 0.15905,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025355276381909547,
      "loss": 2.2962,
      "step": 31810
    },
    {
      "epoch": 0.1591,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00025353768844221103,
      "loss": 2.3515,
      "step": 31820
    },
    {
      "epoch": 0.15915,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025352261306532664,
      "loss": 2.3542,
      "step": 31830
    },
    {
      "epoch": 0.1592,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002535075376884422,
      "loss": 2.3123,
      "step": 31840
    },
    {
      "epoch": 0.15925,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00025349246231155776,
      "loss": 2.3508,
      "step": 31850
    },
    {
      "epoch": 0.1593,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002534773869346734,
      "loss": 2.3703,
      "step": 31860
    },
    {
      "epoch": 0.15935,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00025346231155778893,
      "loss": 2.37,
      "step": 31870
    },
    {
      "epoch": 0.1594,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002534472361809045,
      "loss": 2.4441,
      "step": 31880
    },
    {
      "epoch": 0.15945,
      "grad_norm": 1.46875,
      "learning_rate": 0.0002534321608040201,
      "loss": 2.4043,
      "step": 31890
    },
    {
      "epoch": 0.1595,
      "grad_norm": 1.78125,
      "learning_rate": 0.00025341708542713566,
      "loss": 2.4222,
      "step": 31900
    },
    {
      "epoch": 0.15955,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002534020100502512,
      "loss": 2.3661,
      "step": 31910
    },
    {
      "epoch": 0.1596,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025338693467336684,
      "loss": 2.3906,
      "step": 31920
    },
    {
      "epoch": 0.15965,
      "grad_norm": 2.0,
      "learning_rate": 0.0002533718592964824,
      "loss": 2.4206,
      "step": 31930
    },
    {
      "epoch": 0.1597,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025335678391959795,
      "loss": 2.4184,
      "step": 31940
    },
    {
      "epoch": 0.15975,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00025334170854271357,
      "loss": 2.4275,
      "step": 31950
    },
    {
      "epoch": 0.1598,
      "grad_norm": 1.78125,
      "learning_rate": 0.00025332663316582913,
      "loss": 2.3609,
      "step": 31960
    },
    {
      "epoch": 0.15985,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002533115577889447,
      "loss": 2.3803,
      "step": 31970
    },
    {
      "epoch": 0.1599,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025329648241206025,
      "loss": 2.4357,
      "step": 31980
    },
    {
      "epoch": 0.15995,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025328140703517586,
      "loss": 2.4263,
      "step": 31990
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002532663316582914,
      "loss": 2.3526,
      "step": 32000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.3660659790039062,
      "eval_runtime": 91.3468,
      "eval_samples_per_second": 27.368,
      "eval_steps_per_second": 0.438,
      "step": 32000
    },
    {
      "epoch": 0.16005,
      "grad_norm": 1.515625,
      "learning_rate": 0.000253251256281407,
      "loss": 2.4275,
      "step": 32010
    },
    {
      "epoch": 0.1601,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002532361809045226,
      "loss": 2.3786,
      "step": 32020
    },
    {
      "epoch": 0.16015,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00025322110552763815,
      "loss": 2.3459,
      "step": 32030
    },
    {
      "epoch": 0.1602,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025320603015075376,
      "loss": 2.3169,
      "step": 32040
    },
    {
      "epoch": 0.16025,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002531909547738693,
      "loss": 2.4022,
      "step": 32050
    },
    {
      "epoch": 0.1603,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002531758793969849,
      "loss": 2.3854,
      "step": 32060
    },
    {
      "epoch": 0.16035,
      "grad_norm": 1.625,
      "learning_rate": 0.0002531608040201005,
      "loss": 2.3785,
      "step": 32070
    },
    {
      "epoch": 0.1604,
      "grad_norm": 1.671875,
      "learning_rate": 0.00025314572864321605,
      "loss": 2.4065,
      "step": 32080
    },
    {
      "epoch": 0.16045,
      "grad_norm": 1.6875,
      "learning_rate": 0.00025313065326633167,
      "loss": 2.4214,
      "step": 32090
    },
    {
      "epoch": 0.1605,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002531155778894472,
      "loss": 2.3497,
      "step": 32100
    },
    {
      "epoch": 0.16055,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002531005025125628,
      "loss": 2.3337,
      "step": 32110
    },
    {
      "epoch": 0.1606,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002530854271356784,
      "loss": 2.3828,
      "step": 32120
    },
    {
      "epoch": 0.16065,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00025307035175879396,
      "loss": 2.3257,
      "step": 32130
    },
    {
      "epoch": 0.1607,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002530552763819095,
      "loss": 2.3371,
      "step": 32140
    },
    {
      "epoch": 0.16075,
      "grad_norm": 1.8125,
      "learning_rate": 0.00025304020100502513,
      "loss": 2.374,
      "step": 32150
    },
    {
      "epoch": 0.1608,
      "grad_norm": 1.5,
      "learning_rate": 0.0002530251256281407,
      "loss": 2.3789,
      "step": 32160
    },
    {
      "epoch": 0.16085,
      "grad_norm": 1.703125,
      "learning_rate": 0.00025301005025125625,
      "loss": 2.3795,
      "step": 32170
    },
    {
      "epoch": 0.1609,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025299497487437186,
      "loss": 2.3646,
      "step": 32180
    },
    {
      "epoch": 0.16095,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002529798994974874,
      "loss": 2.4033,
      "step": 32190
    },
    {
      "epoch": 0.161,
      "grad_norm": 1.5390625,
      "learning_rate": 0.000252964824120603,
      "loss": 2.3404,
      "step": 32200
    },
    {
      "epoch": 0.16105,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002529497487437186,
      "loss": 2.3995,
      "step": 32210
    },
    {
      "epoch": 0.1611,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00025293467336683415,
      "loss": 2.3843,
      "step": 32220
    },
    {
      "epoch": 0.16115,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002529195979899497,
      "loss": 2.301,
      "step": 32230
    },
    {
      "epoch": 0.1612,
      "grad_norm": 1.625,
      "learning_rate": 0.0002529045226130653,
      "loss": 2.4293,
      "step": 32240
    },
    {
      "epoch": 0.16125,
      "grad_norm": 1.4609375,
      "learning_rate": 0.0002528894472361809,
      "loss": 2.2996,
      "step": 32250
    },
    {
      "epoch": 0.1613,
      "grad_norm": 1.5,
      "learning_rate": 0.00025287437185929644,
      "loss": 2.3843,
      "step": 32260
    },
    {
      "epoch": 0.16135,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000252859296482412,
      "loss": 2.3441,
      "step": 32270
    },
    {
      "epoch": 0.1614,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002528442211055276,
      "loss": 2.3808,
      "step": 32280
    },
    {
      "epoch": 0.16145,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00025282914572864317,
      "loss": 2.4478,
      "step": 32290
    },
    {
      "epoch": 0.1615,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002528140703517588,
      "loss": 2.3478,
      "step": 32300
    },
    {
      "epoch": 0.16155,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00025279899497487434,
      "loss": 2.4203,
      "step": 32310
    },
    {
      "epoch": 0.1616,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002527839195979899,
      "loss": 2.4138,
      "step": 32320
    },
    {
      "epoch": 0.16165,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002527688442211055,
      "loss": 2.3818,
      "step": 32330
    },
    {
      "epoch": 0.1617,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002527537688442211,
      "loss": 2.4112,
      "step": 32340
    },
    {
      "epoch": 0.16175,
      "grad_norm": 2.25,
      "learning_rate": 0.0002527386934673367,
      "loss": 2.3852,
      "step": 32350
    },
    {
      "epoch": 0.1618,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025272361809045225,
      "loss": 2.3521,
      "step": 32360
    },
    {
      "epoch": 0.16185,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002527085427135678,
      "loss": 2.3787,
      "step": 32370
    },
    {
      "epoch": 0.1619,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002526934673366834,
      "loss": 2.3687,
      "step": 32380
    },
    {
      "epoch": 0.16195,
      "grad_norm": 1.59375,
      "learning_rate": 0.000252678391959799,
      "loss": 2.3887,
      "step": 32390
    },
    {
      "epoch": 0.162,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002526633165829146,
      "loss": 2.3561,
      "step": 32400
    },
    {
      "epoch": 0.16205,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00025264824120603015,
      "loss": 2.4253,
      "step": 32410
    },
    {
      "epoch": 0.1621,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002526331658291457,
      "loss": 2.3757,
      "step": 32420
    },
    {
      "epoch": 0.16215,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025261809045226127,
      "loss": 2.3739,
      "step": 32430
    },
    {
      "epoch": 0.1622,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002526030150753769,
      "loss": 2.423,
      "step": 32440
    },
    {
      "epoch": 0.16225,
      "grad_norm": 1.765625,
      "learning_rate": 0.00025258793969849244,
      "loss": 2.3829,
      "step": 32450
    },
    {
      "epoch": 0.1623,
      "grad_norm": 1.5546875,
      "learning_rate": 0.000252572864321608,
      "loss": 2.4352,
      "step": 32460
    },
    {
      "epoch": 0.16235,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002525577889447236,
      "loss": 2.3947,
      "step": 32470
    },
    {
      "epoch": 0.1624,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00025254271356783917,
      "loss": 2.3392,
      "step": 32480
    },
    {
      "epoch": 0.16245,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00025252763819095473,
      "loss": 2.3964,
      "step": 32490
    },
    {
      "epoch": 0.1625,
      "grad_norm": 1.90625,
      "learning_rate": 0.00025251256281407034,
      "loss": 2.3424,
      "step": 32500
    },
    {
      "epoch": 0.16255,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002524974874371859,
      "loss": 2.3483,
      "step": 32510
    },
    {
      "epoch": 0.1626,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025248241206030146,
      "loss": 2.3687,
      "step": 32520
    },
    {
      "epoch": 0.16265,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002524673366834171,
      "loss": 2.4094,
      "step": 32530
    },
    {
      "epoch": 0.1627,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025245226130653263,
      "loss": 2.3529,
      "step": 32540
    },
    {
      "epoch": 0.16275,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002524371859296482,
      "loss": 2.3501,
      "step": 32550
    },
    {
      "epoch": 0.1628,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002524221105527638,
      "loss": 2.3389,
      "step": 32560
    },
    {
      "epoch": 0.16285,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00025240703517587936,
      "loss": 2.3744,
      "step": 32570
    },
    {
      "epoch": 0.1629,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002523919597989949,
      "loss": 2.3515,
      "step": 32580
    },
    {
      "epoch": 0.16295,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00025237688442211054,
      "loss": 2.4014,
      "step": 32590
    },
    {
      "epoch": 0.163,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002523618090452261,
      "loss": 2.3448,
      "step": 32600
    },
    {
      "epoch": 0.16305,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002523467336683417,
      "loss": 2.445,
      "step": 32610
    },
    {
      "epoch": 0.1631,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025233165829145727,
      "loss": 2.3809,
      "step": 32620
    },
    {
      "epoch": 0.16315,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002523165829145728,
      "loss": 2.3875,
      "step": 32630
    },
    {
      "epoch": 0.1632,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025230150753768844,
      "loss": 2.3601,
      "step": 32640
    },
    {
      "epoch": 0.16325,
      "grad_norm": 1.6796875,
      "learning_rate": 0.000252286432160804,
      "loss": 2.4257,
      "step": 32650
    },
    {
      "epoch": 0.1633,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002522713567839196,
      "loss": 2.3767,
      "step": 32660
    },
    {
      "epoch": 0.16335,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025225628140703517,
      "loss": 2.3723,
      "step": 32670
    },
    {
      "epoch": 0.1634,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025224120603015073,
      "loss": 2.4475,
      "step": 32680
    },
    {
      "epoch": 0.16345,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025222613065326634,
      "loss": 2.3923,
      "step": 32690
    },
    {
      "epoch": 0.1635,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002522110552763819,
      "loss": 2.3501,
      "step": 32700
    },
    {
      "epoch": 0.16355,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00025219597989949746,
      "loss": 2.3505,
      "step": 32710
    },
    {
      "epoch": 0.1636,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002521809045226131,
      "loss": 2.3038,
      "step": 32720
    },
    {
      "epoch": 0.16365,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00025216582914572863,
      "loss": 2.3759,
      "step": 32730
    },
    {
      "epoch": 0.1637,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002521507537688442,
      "loss": 2.4079,
      "step": 32740
    },
    {
      "epoch": 0.16375,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00025213567839195975,
      "loss": 2.4069,
      "step": 32750
    },
    {
      "epoch": 0.1638,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025212060301507536,
      "loss": 2.3965,
      "step": 32760
    },
    {
      "epoch": 0.16385,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002521055276381909,
      "loss": 2.383,
      "step": 32770
    },
    {
      "epoch": 0.1639,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002520904522613065,
      "loss": 2.382,
      "step": 32780
    },
    {
      "epoch": 0.16395,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002520753768844221,
      "loss": 2.4114,
      "step": 32790
    },
    {
      "epoch": 0.164,
      "grad_norm": 1.671875,
      "learning_rate": 0.00025206030150753766,
      "loss": 2.349,
      "step": 32800
    },
    {
      "epoch": 0.16405,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002520452261306532,
      "loss": 2.3819,
      "step": 32810
    },
    {
      "epoch": 0.1641,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00025203015075376883,
      "loss": 2.3875,
      "step": 32820
    },
    {
      "epoch": 0.16415,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002520150753768844,
      "loss": 2.369,
      "step": 32830
    },
    {
      "epoch": 0.1642,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00025199999999999995,
      "loss": 2.2864,
      "step": 32840
    },
    {
      "epoch": 0.16425,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025198492462311556,
      "loss": 2.3096,
      "step": 32850
    },
    {
      "epoch": 0.1643,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002519698492462311,
      "loss": 2.4096,
      "step": 32860
    },
    {
      "epoch": 0.16435,
      "grad_norm": 1.5625,
      "learning_rate": 0.00025195477386934673,
      "loss": 2.3555,
      "step": 32870
    },
    {
      "epoch": 0.1644,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002519396984924623,
      "loss": 2.4692,
      "step": 32880
    },
    {
      "epoch": 0.16445,
      "grad_norm": 1.6875,
      "learning_rate": 0.00025192462311557785,
      "loss": 2.3348,
      "step": 32890
    },
    {
      "epoch": 0.1645,
      "grad_norm": 1.5625,
      "learning_rate": 0.00025190954773869346,
      "loss": 2.3406,
      "step": 32900
    },
    {
      "epoch": 0.16455,
      "grad_norm": 1.71875,
      "learning_rate": 0.000251894472361809,
      "loss": 2.3846,
      "step": 32910
    },
    {
      "epoch": 0.1646,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00025187939698492463,
      "loss": 2.3568,
      "step": 32920
    },
    {
      "epoch": 0.16465,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002518643216080402,
      "loss": 2.3811,
      "step": 32930
    },
    {
      "epoch": 0.1647,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00025184924623115575,
      "loss": 2.3515,
      "step": 32940
    },
    {
      "epoch": 0.16475,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00025183417085427137,
      "loss": 2.3335,
      "step": 32950
    },
    {
      "epoch": 0.1648,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002518190954773869,
      "loss": 2.4233,
      "step": 32960
    },
    {
      "epoch": 0.16485,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002518040201005025,
      "loss": 2.3807,
      "step": 32970
    },
    {
      "epoch": 0.1649,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002517889447236181,
      "loss": 2.3591,
      "step": 32980
    },
    {
      "epoch": 0.16495,
      "grad_norm": 1.640625,
      "learning_rate": 0.00025177386934673366,
      "loss": 2.396,
      "step": 32990
    },
    {
      "epoch": 0.165,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002517587939698492,
      "loss": 2.3394,
      "step": 33000
    },
    {
      "epoch": 0.16505,
      "grad_norm": 1.703125,
      "learning_rate": 0.00025174371859296483,
      "loss": 2.3924,
      "step": 33010
    },
    {
      "epoch": 0.1651,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002517286432160804,
      "loss": 2.3437,
      "step": 33020
    },
    {
      "epoch": 0.16515,
      "grad_norm": 1.71875,
      "learning_rate": 0.00025171356783919595,
      "loss": 2.397,
      "step": 33030
    },
    {
      "epoch": 0.1652,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025169849246231156,
      "loss": 2.3477,
      "step": 33040
    },
    {
      "epoch": 0.16525,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002516834170854271,
      "loss": 2.38,
      "step": 33050
    },
    {
      "epoch": 0.1653,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002516683417085427,
      "loss": 2.3435,
      "step": 33060
    },
    {
      "epoch": 0.16535,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00025165326633165824,
      "loss": 2.3654,
      "step": 33070
    },
    {
      "epoch": 0.1654,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025163819095477385,
      "loss": 2.3842,
      "step": 33080
    },
    {
      "epoch": 0.16545,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002516231155778894,
      "loss": 2.3785,
      "step": 33090
    },
    {
      "epoch": 0.1655,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025160804020100497,
      "loss": 2.389,
      "step": 33100
    },
    {
      "epoch": 0.16555,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002515929648241206,
      "loss": 2.3423,
      "step": 33110
    },
    {
      "epoch": 0.1656,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025157788944723614,
      "loss": 2.3736,
      "step": 33120
    },
    {
      "epoch": 0.16565,
      "grad_norm": 1.828125,
      "learning_rate": 0.00025156281407035175,
      "loss": 2.4108,
      "step": 33130
    },
    {
      "epoch": 0.1657,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002515477386934673,
      "loss": 2.362,
      "step": 33140
    },
    {
      "epoch": 0.16575,
      "grad_norm": 1.6875,
      "learning_rate": 0.00025153266331658287,
      "loss": 2.3693,
      "step": 33150
    },
    {
      "epoch": 0.1658,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002515175879396985,
      "loss": 2.3402,
      "step": 33160
    },
    {
      "epoch": 0.16585,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025150251256281404,
      "loss": 2.3887,
      "step": 33170
    },
    {
      "epoch": 0.1659,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025148743718592966,
      "loss": 2.3591,
      "step": 33180
    },
    {
      "epoch": 0.16595,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002514723618090452,
      "loss": 2.4112,
      "step": 33190
    },
    {
      "epoch": 0.166,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002514572864321608,
      "loss": 2.363,
      "step": 33200
    },
    {
      "epoch": 0.16605,
      "grad_norm": 1.875,
      "learning_rate": 0.0002514422110552764,
      "loss": 2.4067,
      "step": 33210
    },
    {
      "epoch": 0.1661,
      "grad_norm": 1.796875,
      "learning_rate": 0.00025142713567839195,
      "loss": 2.3165,
      "step": 33220
    },
    {
      "epoch": 0.16615,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002514120603015075,
      "loss": 2.3382,
      "step": 33230
    },
    {
      "epoch": 0.1662,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002513969849246231,
      "loss": 2.3318,
      "step": 33240
    },
    {
      "epoch": 0.16625,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002513819095477387,
      "loss": 2.3397,
      "step": 33250
    },
    {
      "epoch": 0.1663,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00025136683417085424,
      "loss": 2.3738,
      "step": 33260
    },
    {
      "epoch": 0.16635,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00025135175879396985,
      "loss": 2.3586,
      "step": 33270
    },
    {
      "epoch": 0.1664,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002513366834170854,
      "loss": 2.3455,
      "step": 33280
    },
    {
      "epoch": 0.16645,
      "grad_norm": 1.765625,
      "learning_rate": 0.00025132160804020097,
      "loss": 2.3156,
      "step": 33290
    },
    {
      "epoch": 0.1665,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002513065326633166,
      "loss": 2.3909,
      "step": 33300
    },
    {
      "epoch": 0.16655,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00025129145728643214,
      "loss": 2.3785,
      "step": 33310
    },
    {
      "epoch": 0.1666,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002512763819095477,
      "loss": 2.39,
      "step": 33320
    },
    {
      "epoch": 0.16665,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002512613065326633,
      "loss": 2.3745,
      "step": 33330
    },
    {
      "epoch": 0.1667,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025124623115577887,
      "loss": 2.3423,
      "step": 33340
    },
    {
      "epoch": 0.16675,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00025123115577889443,
      "loss": 2.4259,
      "step": 33350
    },
    {
      "epoch": 0.1668,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00025121608040201004,
      "loss": 2.3741,
      "step": 33360
    },
    {
      "epoch": 0.16685,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002512010050251256,
      "loss": 2.3724,
      "step": 33370
    },
    {
      "epoch": 0.1669,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00025118592964824116,
      "loss": 2.4047,
      "step": 33380
    },
    {
      "epoch": 0.16695,
      "grad_norm": 1.4296875,
      "learning_rate": 0.0002511708542713567,
      "loss": 2.3657,
      "step": 33390
    },
    {
      "epoch": 0.167,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00025115577889447233,
      "loss": 2.379,
      "step": 33400
    },
    {
      "epoch": 0.16705,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002511407035175879,
      "loss": 2.4042,
      "step": 33410
    },
    {
      "epoch": 0.1671,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002511256281407035,
      "loss": 2.346,
      "step": 33420
    },
    {
      "epoch": 0.16715,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00025111055276381906,
      "loss": 2.3909,
      "step": 33430
    },
    {
      "epoch": 0.1672,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002510954773869347,
      "loss": 2.3913,
      "step": 33440
    },
    {
      "epoch": 0.16725,
      "grad_norm": 1.859375,
      "learning_rate": 0.00025108040201005024,
      "loss": 2.3704,
      "step": 33450
    },
    {
      "epoch": 0.1673,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002510653266331658,
      "loss": 2.3909,
      "step": 33460
    },
    {
      "epoch": 0.16735,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002510502512562814,
      "loss": 2.3726,
      "step": 33470
    },
    {
      "epoch": 0.1674,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00025103517587939697,
      "loss": 2.3715,
      "step": 33480
    },
    {
      "epoch": 0.16745,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002510201005025126,
      "loss": 2.3604,
      "step": 33490
    },
    {
      "epoch": 0.1675,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025100502512562814,
      "loss": 2.366,
      "step": 33500
    },
    {
      "epoch": 0.16755,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002509899497487437,
      "loss": 2.3792,
      "step": 33510
    },
    {
      "epoch": 0.1676,
      "grad_norm": 1.875,
      "learning_rate": 0.00025097487437185926,
      "loss": 2.3569,
      "step": 33520
    },
    {
      "epoch": 0.16765,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025095979899497487,
      "loss": 2.3812,
      "step": 33530
    },
    {
      "epoch": 0.1677,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00025094472361809043,
      "loss": 2.3434,
      "step": 33540
    },
    {
      "epoch": 0.16775,
      "grad_norm": 1.609375,
      "learning_rate": 0.000250929648241206,
      "loss": 2.3422,
      "step": 33550
    },
    {
      "epoch": 0.1678,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002509145728643216,
      "loss": 2.3681,
      "step": 33560
    },
    {
      "epoch": 0.16785,
      "grad_norm": 1.59375,
      "learning_rate": 0.00025089949748743716,
      "loss": 2.3453,
      "step": 33570
    },
    {
      "epoch": 0.1679,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002508844221105527,
      "loss": 2.3835,
      "step": 33580
    },
    {
      "epoch": 0.16795,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025086934673366833,
      "loss": 2.3439,
      "step": 33590
    },
    {
      "epoch": 0.168,
      "grad_norm": 1.625,
      "learning_rate": 0.0002508542713567839,
      "loss": 2.3347,
      "step": 33600
    },
    {
      "epoch": 0.16805,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025083919597989945,
      "loss": 2.3965,
      "step": 33610
    },
    {
      "epoch": 0.1681,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00025082412060301507,
      "loss": 2.322,
      "step": 33620
    },
    {
      "epoch": 0.16815,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002508090452261306,
      "loss": 2.4334,
      "step": 33630
    },
    {
      "epoch": 0.1682,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002507939698492462,
      "loss": 2.3869,
      "step": 33640
    },
    {
      "epoch": 0.16825,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002507788944723618,
      "loss": 2.3478,
      "step": 33650
    },
    {
      "epoch": 0.1683,
      "grad_norm": 1.515625,
      "learning_rate": 0.00025076381909547736,
      "loss": 2.3809,
      "step": 33660
    },
    {
      "epoch": 0.16835,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002507487437185929,
      "loss": 2.415,
      "step": 33670
    },
    {
      "epoch": 0.1684,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025073366834170853,
      "loss": 2.2971,
      "step": 33680
    },
    {
      "epoch": 0.16845,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002507185929648241,
      "loss": 2.3689,
      "step": 33690
    },
    {
      "epoch": 0.1685,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002507035175879397,
      "loss": 2.3361,
      "step": 33700
    },
    {
      "epoch": 0.16855,
      "grad_norm": 2.0,
      "learning_rate": 0.00025068844221105526,
      "loss": 2.3576,
      "step": 33710
    },
    {
      "epoch": 0.1686,
      "grad_norm": 1.484375,
      "learning_rate": 0.0002506733668341708,
      "loss": 2.3535,
      "step": 33720
    },
    {
      "epoch": 0.16865,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00025065829145728643,
      "loss": 2.3828,
      "step": 33730
    },
    {
      "epoch": 0.1687,
      "grad_norm": 1.546875,
      "learning_rate": 0.000250643216080402,
      "loss": 2.2771,
      "step": 33740
    },
    {
      "epoch": 0.16875,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002506281407035176,
      "loss": 2.4028,
      "step": 33750
    },
    {
      "epoch": 0.1688,
      "grad_norm": 1.640625,
      "learning_rate": 0.00025061306532663316,
      "loss": 2.3431,
      "step": 33760
    },
    {
      "epoch": 0.16885,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002505979899497487,
      "loss": 2.3455,
      "step": 33770
    },
    {
      "epoch": 0.1689,
      "grad_norm": 1.796875,
      "learning_rate": 0.00025058291457286433,
      "loss": 2.4236,
      "step": 33780
    },
    {
      "epoch": 0.16895,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002505678391959799,
      "loss": 2.4014,
      "step": 33790
    },
    {
      "epoch": 0.169,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025055276381909545,
      "loss": 2.3709,
      "step": 33800
    },
    {
      "epoch": 0.16905,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025053768844221107,
      "loss": 2.3687,
      "step": 33810
    },
    {
      "epoch": 0.1691,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002505226130653266,
      "loss": 2.3671,
      "step": 33820
    },
    {
      "epoch": 0.16915,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002505075376884422,
      "loss": 2.3528,
      "step": 33830
    },
    {
      "epoch": 0.1692,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00025049246231155774,
      "loss": 2.361,
      "step": 33840
    },
    {
      "epoch": 0.16925,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025047738693467336,
      "loss": 2.331,
      "step": 33850
    },
    {
      "epoch": 0.1693,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002504623115577889,
      "loss": 2.4015,
      "step": 33860
    },
    {
      "epoch": 0.16935,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002504472361809045,
      "loss": 2.3624,
      "step": 33870
    },
    {
      "epoch": 0.1694,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002504321608040201,
      "loss": 2.3636,
      "step": 33880
    },
    {
      "epoch": 0.16945,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00025041708542713565,
      "loss": 2.3589,
      "step": 33890
    },
    {
      "epoch": 0.1695,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002504020100502512,
      "loss": 2.3585,
      "step": 33900
    },
    {
      "epoch": 0.16955,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002503869346733668,
      "loss": 2.3706,
      "step": 33910
    },
    {
      "epoch": 0.1696,
      "grad_norm": 1.625,
      "learning_rate": 0.0002503718592964824,
      "loss": 2.3486,
      "step": 33920
    },
    {
      "epoch": 0.16965,
      "grad_norm": 1.90625,
      "learning_rate": 0.00025035678391959794,
      "loss": 2.3932,
      "step": 33930
    },
    {
      "epoch": 0.1697,
      "grad_norm": 1.65625,
      "learning_rate": 0.00025034170854271355,
      "loss": 2.3576,
      "step": 33940
    },
    {
      "epoch": 0.16975,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002503266331658291,
      "loss": 2.3464,
      "step": 33950
    },
    {
      "epoch": 0.1698,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00025031155778894467,
      "loss": 2.4064,
      "step": 33960
    },
    {
      "epoch": 0.16985,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002502964824120603,
      "loss": 2.299,
      "step": 33970
    },
    {
      "epoch": 0.1699,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025028140703517584,
      "loss": 2.3712,
      "step": 33980
    },
    {
      "epoch": 0.16995,
      "grad_norm": 1.84375,
      "learning_rate": 0.00025026633165829145,
      "loss": 2.3713,
      "step": 33990
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000250251256281407,
      "loss": 2.3717,
      "step": 34000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.347675323486328,
      "eval_runtime": 89.7009,
      "eval_samples_per_second": 27.87,
      "eval_steps_per_second": 0.446,
      "step": 34000
    },
    {
      "epoch": 0.17005,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002502361809045226,
      "loss": 2.3283,
      "step": 34010
    },
    {
      "epoch": 0.1701,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002502211055276382,
      "loss": 2.3856,
      "step": 34020
    },
    {
      "epoch": 0.17015,
      "grad_norm": 1.578125,
      "learning_rate": 0.00025020603015075374,
      "loss": 2.3513,
      "step": 34030
    },
    {
      "epoch": 0.1702,
      "grad_norm": 2.140625,
      "learning_rate": 0.00025019095477386936,
      "loss": 2.3051,
      "step": 34040
    },
    {
      "epoch": 0.17025,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002501758793969849,
      "loss": 2.3834,
      "step": 34050
    },
    {
      "epoch": 0.1703,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002501608040201005,
      "loss": 2.3148,
      "step": 34060
    },
    {
      "epoch": 0.17035,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002501457286432161,
      "loss": 2.381,
      "step": 34070
    },
    {
      "epoch": 0.1704,
      "grad_norm": 1.546875,
      "learning_rate": 0.00025013065326633165,
      "loss": 2.3927,
      "step": 34080
    },
    {
      "epoch": 0.17045,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002501155778894472,
      "loss": 2.415,
      "step": 34090
    },
    {
      "epoch": 0.1705,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002501005025125628,
      "loss": 2.3258,
      "step": 34100
    },
    {
      "epoch": 0.17055,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002500854271356784,
      "loss": 2.4003,
      "step": 34110
    },
    {
      "epoch": 0.1706,
      "grad_norm": 1.6875,
      "learning_rate": 0.00025007035175879394,
      "loss": 2.3523,
      "step": 34120
    },
    {
      "epoch": 0.17065,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00025005527638190955,
      "loss": 2.3746,
      "step": 34130
    },
    {
      "epoch": 0.1707,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002500402010050251,
      "loss": 2.3709,
      "step": 34140
    },
    {
      "epoch": 0.17075,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00025002512562814067,
      "loss": 2.3689,
      "step": 34150
    },
    {
      "epoch": 0.1708,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002500100502512562,
      "loss": 2.3505,
      "step": 34160
    },
    {
      "epoch": 0.17085,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024999497487437184,
      "loss": 2.3683,
      "step": 34170
    },
    {
      "epoch": 0.1709,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002499798994974874,
      "loss": 2.339,
      "step": 34180
    },
    {
      "epoch": 0.17095,
      "grad_norm": 1.515625,
      "learning_rate": 0.00024996482412060296,
      "loss": 2.3816,
      "step": 34190
    },
    {
      "epoch": 0.171,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00024994974874371857,
      "loss": 2.3137,
      "step": 34200
    },
    {
      "epoch": 0.17105,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024993467336683413,
      "loss": 2.3373,
      "step": 34210
    },
    {
      "epoch": 0.1711,
      "grad_norm": 1.75,
      "learning_rate": 0.0002499195979899497,
      "loss": 2.346,
      "step": 34220
    },
    {
      "epoch": 0.17115,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002499045226130653,
      "loss": 2.3687,
      "step": 34230
    },
    {
      "epoch": 0.1712,
      "grad_norm": 1.953125,
      "learning_rate": 0.00024988944723618086,
      "loss": 2.3859,
      "step": 34240
    },
    {
      "epoch": 0.17125,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002498743718592965,
      "loss": 2.3674,
      "step": 34250
    },
    {
      "epoch": 0.1713,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024985929648241203,
      "loss": 2.3274,
      "step": 34260
    },
    {
      "epoch": 0.17135,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024984422110552765,
      "loss": 2.3906,
      "step": 34270
    },
    {
      "epoch": 0.1714,
      "grad_norm": 2.03125,
      "learning_rate": 0.0002498291457286432,
      "loss": 2.3433,
      "step": 34280
    },
    {
      "epoch": 0.17145,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00024981407035175876,
      "loss": 2.3258,
      "step": 34290
    },
    {
      "epoch": 0.1715,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002497989949748744,
      "loss": 2.3822,
      "step": 34300
    },
    {
      "epoch": 0.17155,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024978391959798994,
      "loss": 2.3868,
      "step": 34310
    },
    {
      "epoch": 0.1716,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002497688442211055,
      "loss": 2.3349,
      "step": 34320
    },
    {
      "epoch": 0.17165,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002497537688442211,
      "loss": 2.3273,
      "step": 34330
    },
    {
      "epoch": 0.1717,
      "grad_norm": 1.734375,
      "learning_rate": 0.00024973869346733667,
      "loss": 2.355,
      "step": 34340
    },
    {
      "epoch": 0.17175,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024972361809045223,
      "loss": 2.3544,
      "step": 34350
    },
    {
      "epoch": 0.1718,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024970854271356784,
      "loss": 2.3425,
      "step": 34360
    },
    {
      "epoch": 0.17185,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002496934673366834,
      "loss": 2.324,
      "step": 34370
    },
    {
      "epoch": 0.1719,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024967839195979896,
      "loss": 2.3607,
      "step": 34380
    },
    {
      "epoch": 0.17195,
      "grad_norm": 1.734375,
      "learning_rate": 0.00024966331658291457,
      "loss": 2.4164,
      "step": 34390
    },
    {
      "epoch": 0.172,
      "grad_norm": 1.578125,
      "learning_rate": 0.00024964824120603013,
      "loss": 2.4224,
      "step": 34400
    },
    {
      "epoch": 0.17205,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002496331658291457,
      "loss": 2.3978,
      "step": 34410
    },
    {
      "epoch": 0.1721,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002496180904522613,
      "loss": 2.3396,
      "step": 34420
    },
    {
      "epoch": 0.17215,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00024960301507537686,
      "loss": 2.4044,
      "step": 34430
    },
    {
      "epoch": 0.1722,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002495879396984924,
      "loss": 2.2941,
      "step": 34440
    },
    {
      "epoch": 0.17225,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00024957286432160803,
      "loss": 2.3612,
      "step": 34450
    },
    {
      "epoch": 0.1723,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002495577889447236,
      "loss": 2.3637,
      "step": 34460
    },
    {
      "epoch": 0.17235,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00024954271356783915,
      "loss": 2.3846,
      "step": 34470
    },
    {
      "epoch": 0.1724,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002495276381909547,
      "loss": 2.4144,
      "step": 34480
    },
    {
      "epoch": 0.17245,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0002495125628140703,
      "loss": 2.3805,
      "step": 34490
    },
    {
      "epoch": 0.1725,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002494974874371859,
      "loss": 2.3975,
      "step": 34500
    },
    {
      "epoch": 0.17255,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002494824120603015,
      "loss": 2.3148,
      "step": 34510
    },
    {
      "epoch": 0.1726,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00024946733668341706,
      "loss": 2.327,
      "step": 34520
    },
    {
      "epoch": 0.17265,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002494522613065326,
      "loss": 2.3518,
      "step": 34530
    },
    {
      "epoch": 0.1727,
      "grad_norm": 1.59375,
      "learning_rate": 0.00024943718592964823,
      "loss": 2.3815,
      "step": 34540
    },
    {
      "epoch": 0.17275,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002494221105527638,
      "loss": 2.4101,
      "step": 34550
    },
    {
      "epoch": 0.1728,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002494070351758794,
      "loss": 2.3163,
      "step": 34560
    },
    {
      "epoch": 0.17285,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024939195979899496,
      "loss": 2.3476,
      "step": 34570
    },
    {
      "epoch": 0.1729,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024937688442211057,
      "loss": 2.3444,
      "step": 34580
    },
    {
      "epoch": 0.17295,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024936180904522613,
      "loss": 2.3645,
      "step": 34590
    },
    {
      "epoch": 0.173,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002493467336683417,
      "loss": 2.3732,
      "step": 34600
    },
    {
      "epoch": 0.17305,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024933165829145725,
      "loss": 2.3169,
      "step": 34610
    },
    {
      "epoch": 0.1731,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00024931658291457286,
      "loss": 2.3339,
      "step": 34620
    },
    {
      "epoch": 0.17315,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002493015075376884,
      "loss": 2.3518,
      "step": 34630
    },
    {
      "epoch": 0.1732,
      "grad_norm": 1.6875,
      "learning_rate": 0.000249286432160804,
      "loss": 2.3756,
      "step": 34640
    },
    {
      "epoch": 0.17325,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002492713567839196,
      "loss": 2.3928,
      "step": 34650
    },
    {
      "epoch": 0.1733,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00024925628140703515,
      "loss": 2.3575,
      "step": 34660
    },
    {
      "epoch": 0.17335,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002492412060301507,
      "loss": 2.2536,
      "step": 34670
    },
    {
      "epoch": 0.1734,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002492261306532663,
      "loss": 2.3845,
      "step": 34680
    },
    {
      "epoch": 0.17345,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002492110552763819,
      "loss": 2.2941,
      "step": 34690
    },
    {
      "epoch": 0.1735,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024919597989949744,
      "loss": 2.3374,
      "step": 34700
    },
    {
      "epoch": 0.17355,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024918090452261306,
      "loss": 2.3126,
      "step": 34710
    },
    {
      "epoch": 0.1736,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002491658291457286,
      "loss": 2.3575,
      "step": 34720
    },
    {
      "epoch": 0.17365,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002491507537688442,
      "loss": 2.3254,
      "step": 34730
    },
    {
      "epoch": 0.1737,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002491356783919598,
      "loss": 2.3201,
      "step": 34740
    },
    {
      "epoch": 0.17375,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024912060301507535,
      "loss": 2.3259,
      "step": 34750
    },
    {
      "epoch": 0.1738,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002491055276381909,
      "loss": 2.3562,
      "step": 34760
    },
    {
      "epoch": 0.17385,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002490904522613065,
      "loss": 2.3516,
      "step": 34770
    },
    {
      "epoch": 0.1739,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002490753768844221,
      "loss": 2.3553,
      "step": 34780
    },
    {
      "epoch": 0.17395,
      "grad_norm": 1.625,
      "learning_rate": 0.00024906030150753764,
      "loss": 2.4042,
      "step": 34790
    },
    {
      "epoch": 0.174,
      "grad_norm": 1.59375,
      "learning_rate": 0.00024904522613065325,
      "loss": 2.3099,
      "step": 34800
    },
    {
      "epoch": 0.17405,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002490301507537688,
      "loss": 2.4474,
      "step": 34810
    },
    {
      "epoch": 0.1741,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002490150753768844,
      "loss": 2.3556,
      "step": 34820
    },
    {
      "epoch": 0.17415,
      "grad_norm": 1.5625,
      "learning_rate": 0.000249,
      "loss": 2.3481,
      "step": 34830
    },
    {
      "epoch": 0.1742,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002489849246231156,
      "loss": 2.3367,
      "step": 34840
    },
    {
      "epoch": 0.17425,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024896984924623115,
      "loss": 2.346,
      "step": 34850
    },
    {
      "epoch": 0.1743,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002489547738693467,
      "loss": 2.3353,
      "step": 34860
    },
    {
      "epoch": 0.17435,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002489396984924623,
      "loss": 2.375,
      "step": 34870
    },
    {
      "epoch": 0.1744,
      "grad_norm": 1.75,
      "learning_rate": 0.0002489246231155779,
      "loss": 2.3092,
      "step": 34880
    },
    {
      "epoch": 0.17445,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024890954773869344,
      "loss": 2.3235,
      "step": 34890
    },
    {
      "epoch": 0.1745,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024889447236180906,
      "loss": 2.3752,
      "step": 34900
    },
    {
      "epoch": 0.17455,
      "grad_norm": 1.5234375,
      "learning_rate": 0.0002488793969849246,
      "loss": 2.3035,
      "step": 34910
    },
    {
      "epoch": 0.1746,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002488643216080402,
      "loss": 2.3234,
      "step": 34920
    },
    {
      "epoch": 0.17465,
      "grad_norm": 1.53125,
      "learning_rate": 0.00024884924623115573,
      "loss": 2.2763,
      "step": 34930
    },
    {
      "epoch": 0.1747,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00024883417085427135,
      "loss": 2.3682,
      "step": 34940
    },
    {
      "epoch": 0.17475,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002488190954773869,
      "loss": 2.3648,
      "step": 34950
    },
    {
      "epoch": 0.1748,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00024880402010050246,
      "loss": 2.3979,
      "step": 34960
    },
    {
      "epoch": 0.17485,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002487889447236181,
      "loss": 2.3679,
      "step": 34970
    },
    {
      "epoch": 0.1749,
      "grad_norm": 1.578125,
      "learning_rate": 0.00024877386934673364,
      "loss": 2.33,
      "step": 34980
    },
    {
      "epoch": 0.17495,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002487587939698492,
      "loss": 2.4026,
      "step": 34990
    },
    {
      "epoch": 0.175,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002487437185929648,
      "loss": 2.3955,
      "step": 35000
    },
    {
      "epoch": 0.17505,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00024872864321608037,
      "loss": 2.3438,
      "step": 35010
    },
    {
      "epoch": 0.1751,
      "grad_norm": 1.578125,
      "learning_rate": 0.00024871356783919593,
      "loss": 2.3657,
      "step": 35020
    },
    {
      "epoch": 0.17515,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024869849246231154,
      "loss": 2.3536,
      "step": 35030
    },
    {
      "epoch": 0.1752,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002486834170854271,
      "loss": 2.3466,
      "step": 35040
    },
    {
      "epoch": 0.17525,
      "grad_norm": 1.78125,
      "learning_rate": 0.00024866834170854266,
      "loss": 2.3491,
      "step": 35050
    },
    {
      "epoch": 0.1753,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024865326633165827,
      "loss": 2.3024,
      "step": 35060
    },
    {
      "epoch": 0.17535,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00024863819095477383,
      "loss": 2.3904,
      "step": 35070
    },
    {
      "epoch": 0.1754,
      "grad_norm": 1.625,
      "learning_rate": 0.00024862311557788944,
      "loss": 2.3779,
      "step": 35080
    },
    {
      "epoch": 0.17545,
      "grad_norm": 1.6796875,
      "learning_rate": 0.000248608040201005,
      "loss": 2.386,
      "step": 35090
    },
    {
      "epoch": 0.1755,
      "grad_norm": 1.734375,
      "learning_rate": 0.00024859296482412056,
      "loss": 2.3525,
      "step": 35100
    },
    {
      "epoch": 0.17555,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002485778894472362,
      "loss": 2.3645,
      "step": 35110
    },
    {
      "epoch": 0.1756,
      "grad_norm": 1.96875,
      "learning_rate": 0.00024856281407035173,
      "loss": 2.372,
      "step": 35120
    },
    {
      "epoch": 0.17565,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024854773869346735,
      "loss": 2.3153,
      "step": 35130
    },
    {
      "epoch": 0.1757,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002485326633165829,
      "loss": 2.3535,
      "step": 35140
    },
    {
      "epoch": 0.17575,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00024851758793969847,
      "loss": 2.3392,
      "step": 35150
    },
    {
      "epoch": 0.1758,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002485025125628141,
      "loss": 2.3647,
      "step": 35160
    },
    {
      "epoch": 0.17585,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024848743718592964,
      "loss": 2.353,
      "step": 35170
    },
    {
      "epoch": 0.1759,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002484723618090452,
      "loss": 2.3426,
      "step": 35180
    },
    {
      "epoch": 0.17595,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002484572864321608,
      "loss": 2.3914,
      "step": 35190
    },
    {
      "epoch": 0.176,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024844221105527637,
      "loss": 2.3349,
      "step": 35200
    },
    {
      "epoch": 0.17605,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024842713567839193,
      "loss": 2.3381,
      "step": 35210
    },
    {
      "epoch": 0.1761,
      "grad_norm": 1.734375,
      "learning_rate": 0.00024841206030150754,
      "loss": 2.3402,
      "step": 35220
    },
    {
      "epoch": 0.17615,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002483969849246231,
      "loss": 2.402,
      "step": 35230
    },
    {
      "epoch": 0.1762,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00024838190954773866,
      "loss": 2.3076,
      "step": 35240
    },
    {
      "epoch": 0.17625,
      "grad_norm": 2.203125,
      "learning_rate": 0.0002483668341708542,
      "loss": 2.3538,
      "step": 35250
    },
    {
      "epoch": 0.1763,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024835175879396983,
      "loss": 2.3942,
      "step": 35260
    },
    {
      "epoch": 0.17635,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002483366834170854,
      "loss": 2.3106,
      "step": 35270
    },
    {
      "epoch": 0.1764,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024832160804020095,
      "loss": 2.3429,
      "step": 35280
    },
    {
      "epoch": 0.17645,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00024830653266331656,
      "loss": 2.3806,
      "step": 35290
    },
    {
      "epoch": 0.1765,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002482914572864321,
      "loss": 2.3519,
      "step": 35300
    },
    {
      "epoch": 0.17655,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002482763819095477,
      "loss": 2.3744,
      "step": 35310
    },
    {
      "epoch": 0.1766,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002482613065326633,
      "loss": 2.3561,
      "step": 35320
    },
    {
      "epoch": 0.17665,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00024824623115577885,
      "loss": 2.3319,
      "step": 35330
    },
    {
      "epoch": 0.1767,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00024823115577889447,
      "loss": 2.3601,
      "step": 35340
    },
    {
      "epoch": 0.17675,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00024821608040201,
      "loss": 2.3839,
      "step": 35350
    },
    {
      "epoch": 0.1768,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002482010050251256,
      "loss": 2.3687,
      "step": 35360
    },
    {
      "epoch": 0.17685,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002481859296482412,
      "loss": 2.3756,
      "step": 35370
    },
    {
      "epoch": 0.1769,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024817085427135676,
      "loss": 2.3361,
      "step": 35380
    },
    {
      "epoch": 0.17695,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024815577889447237,
      "loss": 2.3651,
      "step": 35390
    },
    {
      "epoch": 0.177,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024814070351758793,
      "loss": 2.3626,
      "step": 35400
    },
    {
      "epoch": 0.17705,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002481256281407035,
      "loss": 2.3882,
      "step": 35410
    },
    {
      "epoch": 0.1771,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002481105527638191,
      "loss": 2.3523,
      "step": 35420
    },
    {
      "epoch": 0.17715,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00024809547738693466,
      "loss": 2.3444,
      "step": 35430
    },
    {
      "epoch": 0.1772,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002480804020100502,
      "loss": 2.343,
      "step": 35440
    },
    {
      "epoch": 0.17725,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00024806532663316583,
      "loss": 2.324,
      "step": 35450
    },
    {
      "epoch": 0.1773,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002480502512562814,
      "loss": 2.3801,
      "step": 35460
    },
    {
      "epoch": 0.17735,
      "grad_norm": 1.90625,
      "learning_rate": 0.00024803517587939695,
      "loss": 2.4089,
      "step": 35470
    },
    {
      "epoch": 0.1774,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00024802010050251256,
      "loss": 2.361,
      "step": 35480
    },
    {
      "epoch": 0.17745,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002480050251256281,
      "loss": 2.3382,
      "step": 35490
    },
    {
      "epoch": 0.1775,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002479899497487437,
      "loss": 2.3932,
      "step": 35500
    },
    {
      "epoch": 0.17755,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002479748743718593,
      "loss": 2.3788,
      "step": 35510
    },
    {
      "epoch": 0.1776,
      "grad_norm": 1.421875,
      "learning_rate": 0.00024795979899497485,
      "loss": 2.2993,
      "step": 35520
    },
    {
      "epoch": 0.17765,
      "grad_norm": 1.5,
      "learning_rate": 0.0002479447236180904,
      "loss": 2.3557,
      "step": 35530
    },
    {
      "epoch": 0.1777,
      "grad_norm": 1.8046875,
      "learning_rate": 0.000247929648241206,
      "loss": 2.2945,
      "step": 35540
    },
    {
      "epoch": 0.17775,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002479145728643216,
      "loss": 2.3214,
      "step": 35550
    },
    {
      "epoch": 0.1778,
      "grad_norm": 1.59375,
      "learning_rate": 0.00024789949748743714,
      "loss": 2.3779,
      "step": 35560
    },
    {
      "epoch": 0.17785,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002478844221105527,
      "loss": 2.3216,
      "step": 35570
    },
    {
      "epoch": 0.1779,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002478693467336683,
      "loss": 2.3458,
      "step": 35580
    },
    {
      "epoch": 0.17795,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002478542713567839,
      "loss": 2.3134,
      "step": 35590
    },
    {
      "epoch": 0.178,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002478391959798995,
      "loss": 2.3605,
      "step": 35600
    },
    {
      "epoch": 0.17805,
      "grad_norm": 1.515625,
      "learning_rate": 0.00024782412060301505,
      "loss": 2.3367,
      "step": 35610
    },
    {
      "epoch": 0.1781,
      "grad_norm": 1.625,
      "learning_rate": 0.0002478090452261306,
      "loss": 2.3094,
      "step": 35620
    },
    {
      "epoch": 0.17815,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002477939698492462,
      "loss": 2.315,
      "step": 35630
    },
    {
      "epoch": 0.1782,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002477788944723618,
      "loss": 2.3516,
      "step": 35640
    },
    {
      "epoch": 0.17825,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002477638190954774,
      "loss": 2.3611,
      "step": 35650
    },
    {
      "epoch": 0.1783,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024774874371859295,
      "loss": 2.4186,
      "step": 35660
    },
    {
      "epoch": 0.17835,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002477336683417085,
      "loss": 2.297,
      "step": 35670
    },
    {
      "epoch": 0.1784,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002477185929648241,
      "loss": 2.3129,
      "step": 35680
    },
    {
      "epoch": 0.17845,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002477035175879397,
      "loss": 2.361,
      "step": 35690
    },
    {
      "epoch": 0.1785,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002476884422110553,
      "loss": 2.3632,
      "step": 35700
    },
    {
      "epoch": 0.17855,
      "grad_norm": 1.546875,
      "learning_rate": 0.00024767336683417085,
      "loss": 2.3381,
      "step": 35710
    },
    {
      "epoch": 0.1786,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002476582914572864,
      "loss": 2.3925,
      "step": 35720
    },
    {
      "epoch": 0.17865,
      "grad_norm": 1.625,
      "learning_rate": 0.00024764321608040197,
      "loss": 2.3044,
      "step": 35730
    },
    {
      "epoch": 0.1787,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002476281407035176,
      "loss": 2.2782,
      "step": 35740
    },
    {
      "epoch": 0.17875,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024761306532663314,
      "loss": 2.3723,
      "step": 35750
    },
    {
      "epoch": 0.1788,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002475979899497487,
      "loss": 2.3471,
      "step": 35760
    },
    {
      "epoch": 0.17885,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002475829145728643,
      "loss": 2.3712,
      "step": 35770
    },
    {
      "epoch": 0.1789,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002475678391959799,
      "loss": 2.3268,
      "step": 35780
    },
    {
      "epoch": 0.17895,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00024755276381909543,
      "loss": 2.3539,
      "step": 35790
    },
    {
      "epoch": 0.179,
      "grad_norm": 1.625,
      "learning_rate": 0.00024753768844221105,
      "loss": 2.315,
      "step": 35800
    },
    {
      "epoch": 0.17905,
      "grad_norm": 1.625,
      "learning_rate": 0.0002475226130653266,
      "loss": 2.3309,
      "step": 35810
    },
    {
      "epoch": 0.1791,
      "grad_norm": 1.625,
      "learning_rate": 0.00024750753768844216,
      "loss": 2.3649,
      "step": 35820
    },
    {
      "epoch": 0.17915,
      "grad_norm": 1.625,
      "learning_rate": 0.0002474924623115578,
      "loss": 2.3777,
      "step": 35830
    },
    {
      "epoch": 0.1792,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00024747738693467334,
      "loss": 2.3186,
      "step": 35840
    },
    {
      "epoch": 0.17925,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002474623115577889,
      "loss": 2.3611,
      "step": 35850
    },
    {
      "epoch": 0.1793,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002474472361809045,
      "loss": 2.3011,
      "step": 35860
    },
    {
      "epoch": 0.17935,
      "grad_norm": 1.53125,
      "learning_rate": 0.00024743216080402007,
      "loss": 2.3103,
      "step": 35870
    },
    {
      "epoch": 0.1794,
      "grad_norm": 1.734375,
      "learning_rate": 0.00024741708542713563,
      "loss": 2.3618,
      "step": 35880
    },
    {
      "epoch": 0.17945,
      "grad_norm": 1.90625,
      "learning_rate": 0.00024740201005025124,
      "loss": 2.3286,
      "step": 35890
    },
    {
      "epoch": 0.1795,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002473869346733668,
      "loss": 2.4038,
      "step": 35900
    },
    {
      "epoch": 0.17955,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002473718592964824,
      "loss": 2.3313,
      "step": 35910
    },
    {
      "epoch": 0.1796,
      "grad_norm": 1.546875,
      "learning_rate": 0.00024735678391959797,
      "loss": 2.3529,
      "step": 35920
    },
    {
      "epoch": 0.17965,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00024734170854271353,
      "loss": 2.3746,
      "step": 35930
    },
    {
      "epoch": 0.1797,
      "grad_norm": 1.578125,
      "learning_rate": 0.00024732663316582914,
      "loss": 2.3262,
      "step": 35940
    },
    {
      "epoch": 0.17975,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002473115577889447,
      "loss": 2.282,
      "step": 35950
    },
    {
      "epoch": 0.1798,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002472964824120603,
      "loss": 2.3483,
      "step": 35960
    },
    {
      "epoch": 0.17985,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002472814070351759,
      "loss": 2.3507,
      "step": 35970
    },
    {
      "epoch": 0.1799,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024726633165829143,
      "loss": 2.3483,
      "step": 35980
    },
    {
      "epoch": 0.17995,
      "grad_norm": 1.546875,
      "learning_rate": 0.00024725125628140705,
      "loss": 2.3736,
      "step": 35990
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.625,
      "learning_rate": 0.0002472361809045226,
      "loss": 2.3811,
      "step": 36000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.325746774673462,
      "eval_runtime": 94.0177,
      "eval_samples_per_second": 26.591,
      "eval_steps_per_second": 0.425,
      "step": 36000
    },
    {
      "epoch": 0.18005,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00024722110552763817,
      "loss": 2.3918,
      "step": 36010
    },
    {
      "epoch": 0.1801,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002472060301507537,
      "loss": 2.3445,
      "step": 36020
    },
    {
      "epoch": 0.18015,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024719095477386934,
      "loss": 2.2973,
      "step": 36030
    },
    {
      "epoch": 0.1802,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002471758793969849,
      "loss": 2.3683,
      "step": 36040
    },
    {
      "epoch": 0.18025,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024716080402010046,
      "loss": 2.2948,
      "step": 36050
    },
    {
      "epoch": 0.1803,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024714572864321607,
      "loss": 2.3502,
      "step": 36060
    },
    {
      "epoch": 0.18035,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024713065326633163,
      "loss": 2.3207,
      "step": 36070
    },
    {
      "epoch": 0.1804,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002471155778894472,
      "loss": 2.3352,
      "step": 36080
    },
    {
      "epoch": 0.18045,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002471005025125628,
      "loss": 2.3405,
      "step": 36090
    },
    {
      "epoch": 0.1805,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00024708542713567836,
      "loss": 2.2846,
      "step": 36100
    },
    {
      "epoch": 0.18055,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002470703517587939,
      "loss": 2.3872,
      "step": 36110
    },
    {
      "epoch": 0.1806,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024705527638190953,
      "loss": 2.3346,
      "step": 36120
    },
    {
      "epoch": 0.18065,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002470402010050251,
      "loss": 2.3178,
      "step": 36130
    },
    {
      "epoch": 0.1807,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024702512562814065,
      "loss": 2.3347,
      "step": 36140
    },
    {
      "epoch": 0.18075,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024701005025125626,
      "loss": 2.3406,
      "step": 36150
    },
    {
      "epoch": 0.1808,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002469949748743718,
      "loss": 2.3493,
      "step": 36160
    },
    {
      "epoch": 0.18085,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024697989949748743,
      "loss": 2.3507,
      "step": 36170
    },
    {
      "epoch": 0.1809,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000246964824120603,
      "loss": 2.3619,
      "step": 36180
    },
    {
      "epoch": 0.18095,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024694974874371855,
      "loss": 2.2741,
      "step": 36190
    },
    {
      "epoch": 0.181,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024693467336683417,
      "loss": 2.2949,
      "step": 36200
    },
    {
      "epoch": 0.18105,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002469195979899497,
      "loss": 2.3895,
      "step": 36210
    },
    {
      "epoch": 0.1811,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00024690452261306534,
      "loss": 2.3866,
      "step": 36220
    },
    {
      "epoch": 0.18115,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002468894472361809,
      "loss": 2.2925,
      "step": 36230
    },
    {
      "epoch": 0.1812,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00024687437185929646,
      "loss": 2.3208,
      "step": 36240
    },
    {
      "epoch": 0.18125,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024685929648241207,
      "loss": 2.3334,
      "step": 36250
    },
    {
      "epoch": 0.1813,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024684422110552763,
      "loss": 2.3336,
      "step": 36260
    },
    {
      "epoch": 0.18135,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002468291457286432,
      "loss": 2.3336,
      "step": 36270
    },
    {
      "epoch": 0.1814,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002468140703517588,
      "loss": 2.3765,
      "step": 36280
    },
    {
      "epoch": 0.18145,
      "grad_norm": 1.515625,
      "learning_rate": 0.00024679899497487436,
      "loss": 2.4245,
      "step": 36290
    },
    {
      "epoch": 0.1815,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002467839195979899,
      "loss": 2.3303,
      "step": 36300
    },
    {
      "epoch": 0.18155,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024676884422110553,
      "loss": 2.4014,
      "step": 36310
    },
    {
      "epoch": 0.1816,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002467537688442211,
      "loss": 2.3173,
      "step": 36320
    },
    {
      "epoch": 0.18165,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024673869346733665,
      "loss": 2.3106,
      "step": 36330
    },
    {
      "epoch": 0.1817,
      "grad_norm": 2.34375,
      "learning_rate": 0.0002467236180904522,
      "loss": 2.3573,
      "step": 36340
    },
    {
      "epoch": 0.18175,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002467085427135678,
      "loss": 2.322,
      "step": 36350
    },
    {
      "epoch": 0.1818,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002466934673366834,
      "loss": 2.3561,
      "step": 36360
    },
    {
      "epoch": 0.18185,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024667839195979894,
      "loss": 2.3368,
      "step": 36370
    },
    {
      "epoch": 0.1819,
      "grad_norm": 1.75,
      "learning_rate": 0.00024666331658291455,
      "loss": 2.3442,
      "step": 36380
    },
    {
      "epoch": 0.18195,
      "grad_norm": 1.453125,
      "learning_rate": 0.0002466482412060301,
      "loss": 2.3445,
      "step": 36390
    },
    {
      "epoch": 0.182,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024663316582914567,
      "loss": 2.3731,
      "step": 36400
    },
    {
      "epoch": 0.18205,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002466180904522613,
      "loss": 2.3803,
      "step": 36410
    },
    {
      "epoch": 0.1821,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00024660301507537684,
      "loss": 2.3513,
      "step": 36420
    },
    {
      "epoch": 0.18215,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024658793969849246,
      "loss": 2.3803,
      "step": 36430
    },
    {
      "epoch": 0.1822,
      "grad_norm": 1.59375,
      "learning_rate": 0.000246572864321608,
      "loss": 2.4034,
      "step": 36440
    },
    {
      "epoch": 0.18225,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002465577889447236,
      "loss": 2.3811,
      "step": 36450
    },
    {
      "epoch": 0.1823,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002465427135678392,
      "loss": 2.4029,
      "step": 36460
    },
    {
      "epoch": 0.18235,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024652763819095475,
      "loss": 2.326,
      "step": 36470
    },
    {
      "epoch": 0.1824,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00024651256281407036,
      "loss": 2.2997,
      "step": 36480
    },
    {
      "epoch": 0.18245,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002464974874371859,
      "loss": 2.2931,
      "step": 36490
    },
    {
      "epoch": 0.1825,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002464824120603015,
      "loss": 2.3475,
      "step": 36500
    },
    {
      "epoch": 0.18255,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002464673366834171,
      "loss": 2.3395,
      "step": 36510
    },
    {
      "epoch": 0.1826,
      "grad_norm": 1.515625,
      "learning_rate": 0.00024645226130653265,
      "loss": 2.318,
      "step": 36520
    },
    {
      "epoch": 0.18265,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002464371859296482,
      "loss": 2.3229,
      "step": 36530
    },
    {
      "epoch": 0.1827,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002464221105527638,
      "loss": 2.3357,
      "step": 36540
    },
    {
      "epoch": 0.18275,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002464070351758794,
      "loss": 2.3874,
      "step": 36550
    },
    {
      "epoch": 0.1828,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024639195979899494,
      "loss": 2.3412,
      "step": 36560
    },
    {
      "epoch": 0.18285,
      "grad_norm": 1.75,
      "learning_rate": 0.00024637688442211055,
      "loss": 2.3193,
      "step": 36570
    },
    {
      "epoch": 0.1829,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002463618090452261,
      "loss": 2.2757,
      "step": 36580
    },
    {
      "epoch": 0.18295,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00024634673366834167,
      "loss": 2.3215,
      "step": 36590
    },
    {
      "epoch": 0.183,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002463316582914573,
      "loss": 2.3452,
      "step": 36600
    },
    {
      "epoch": 0.18305,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024631658291457284,
      "loss": 2.34,
      "step": 36610
    },
    {
      "epoch": 0.1831,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002463015075376884,
      "loss": 2.3066,
      "step": 36620
    },
    {
      "epoch": 0.18315,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000246286432160804,
      "loss": 2.3653,
      "step": 36630
    },
    {
      "epoch": 0.1832,
      "grad_norm": 1.625,
      "learning_rate": 0.0002462713567839196,
      "loss": 2.3571,
      "step": 36640
    },
    {
      "epoch": 0.18325,
      "grad_norm": 1.625,
      "learning_rate": 0.00024625628140703513,
      "loss": 2.3147,
      "step": 36650
    },
    {
      "epoch": 0.1833,
      "grad_norm": 1.75,
      "learning_rate": 0.0002462412060301507,
      "loss": 2.2783,
      "step": 36660
    },
    {
      "epoch": 0.18335,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002462261306532663,
      "loss": 2.4222,
      "step": 36670
    },
    {
      "epoch": 0.1834,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024621105527638187,
      "loss": 2.3212,
      "step": 36680
    },
    {
      "epoch": 0.18345,
      "grad_norm": 1.625,
      "learning_rate": 0.0002461959798994975,
      "loss": 2.3661,
      "step": 36690
    },
    {
      "epoch": 0.1835,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024618090452261304,
      "loss": 2.3225,
      "step": 36700
    },
    {
      "epoch": 0.18355,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002461658291457286,
      "loss": 2.3105,
      "step": 36710
    },
    {
      "epoch": 0.1836,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002461507537688442,
      "loss": 2.3017,
      "step": 36720
    },
    {
      "epoch": 0.18365,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024613567839195977,
      "loss": 2.3531,
      "step": 36730
    },
    {
      "epoch": 0.1837,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002461206030150754,
      "loss": 2.3397,
      "step": 36740
    },
    {
      "epoch": 0.18375,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00024610552763819094,
      "loss": 2.3149,
      "step": 36750
    },
    {
      "epoch": 0.1838,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002460904522613065,
      "loss": 2.3504,
      "step": 36760
    },
    {
      "epoch": 0.18385,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002460753768844221,
      "loss": 2.2567,
      "step": 36770
    },
    {
      "epoch": 0.1839,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024606030150753767,
      "loss": 2.3187,
      "step": 36780
    },
    {
      "epoch": 0.18395,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002460452261306533,
      "loss": 2.3729,
      "step": 36790
    },
    {
      "epoch": 0.184,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00024603015075376884,
      "loss": 2.2862,
      "step": 36800
    },
    {
      "epoch": 0.18405,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002460150753768844,
      "loss": 2.2971,
      "step": 36810
    },
    {
      "epoch": 0.1841,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00024599999999999996,
      "loss": 2.4029,
      "step": 36820
    },
    {
      "epoch": 0.18415,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002459849246231156,
      "loss": 2.3362,
      "step": 36830
    },
    {
      "epoch": 0.1842,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024596984924623113,
      "loss": 2.339,
      "step": 36840
    },
    {
      "epoch": 0.18425,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002459547738693467,
      "loss": 2.3466,
      "step": 36850
    },
    {
      "epoch": 0.1843,
      "grad_norm": 1.625,
      "learning_rate": 0.0002459396984924623,
      "loss": 2.3369,
      "step": 36860
    },
    {
      "epoch": 0.18435,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024592462311557787,
      "loss": 2.3639,
      "step": 36870
    },
    {
      "epoch": 0.1844,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002459095477386934,
      "loss": 2.3283,
      "step": 36880
    },
    {
      "epoch": 0.18445,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00024589447236180904,
      "loss": 2.3327,
      "step": 36890
    },
    {
      "epoch": 0.1845,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002458793969849246,
      "loss": 2.3726,
      "step": 36900
    },
    {
      "epoch": 0.18455,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00024586432160804016,
      "loss": 2.259,
      "step": 36910
    },
    {
      "epoch": 0.1846,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024584924623115577,
      "loss": 2.2993,
      "step": 36920
    },
    {
      "epoch": 0.18465,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00024583417085427133,
      "loss": 2.3277,
      "step": 36930
    },
    {
      "epoch": 0.1847,
      "grad_norm": 1.75,
      "learning_rate": 0.0002458190954773869,
      "loss": 2.3619,
      "step": 36940
    },
    {
      "epoch": 0.18475,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002458040201005025,
      "loss": 2.3555,
      "step": 36950
    },
    {
      "epoch": 0.1848,
      "grad_norm": 1.625,
      "learning_rate": 0.00024578894472361806,
      "loss": 2.3655,
      "step": 36960
    },
    {
      "epoch": 0.18485,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002457738693467336,
      "loss": 2.2932,
      "step": 36970
    },
    {
      "epoch": 0.1849,
      "grad_norm": 1.8125,
      "learning_rate": 0.00024575879396984923,
      "loss": 2.3224,
      "step": 36980
    },
    {
      "epoch": 0.18495,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002457437185929648,
      "loss": 2.3196,
      "step": 36990
    },
    {
      "epoch": 0.185,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002457286432160804,
      "loss": 2.3076,
      "step": 37000
    },
    {
      "epoch": 0.18505,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024571356783919596,
      "loss": 2.3652,
      "step": 37010
    },
    {
      "epoch": 0.1851,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002456984924623115,
      "loss": 2.2645,
      "step": 37020
    },
    {
      "epoch": 0.18515,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024568341708542713,
      "loss": 2.3338,
      "step": 37030
    },
    {
      "epoch": 0.1852,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002456683417085427,
      "loss": 2.2804,
      "step": 37040
    },
    {
      "epoch": 0.18525,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002456532663316583,
      "loss": 2.2901,
      "step": 37050
    },
    {
      "epoch": 0.1853,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00024563819095477387,
      "loss": 2.2798,
      "step": 37060
    },
    {
      "epoch": 0.18535,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002456231155778894,
      "loss": 2.3316,
      "step": 37070
    },
    {
      "epoch": 0.1854,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00024560804020100504,
      "loss": 2.373,
      "step": 37080
    },
    {
      "epoch": 0.18545,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002455929648241206,
      "loss": 2.323,
      "step": 37090
    },
    {
      "epoch": 0.1855,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00024557788944723616,
      "loss": 2.3489,
      "step": 37100
    },
    {
      "epoch": 0.18555,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002455628140703517,
      "loss": 2.2803,
      "step": 37110
    },
    {
      "epoch": 0.1856,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00024554773869346733,
      "loss": 2.3143,
      "step": 37120
    },
    {
      "epoch": 0.18565,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002455326633165829,
      "loss": 2.3515,
      "step": 37130
    },
    {
      "epoch": 0.1857,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00024551758793969845,
      "loss": 2.3183,
      "step": 37140
    },
    {
      "epoch": 0.18575,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024550251256281406,
      "loss": 2.3358,
      "step": 37150
    },
    {
      "epoch": 0.1858,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002454874371859296,
      "loss": 2.3098,
      "step": 37160
    },
    {
      "epoch": 0.18585,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002454723618090452,
      "loss": 2.3029,
      "step": 37170
    },
    {
      "epoch": 0.1859,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002454572864321608,
      "loss": 2.3804,
      "step": 37180
    },
    {
      "epoch": 0.18595,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024544221105527635,
      "loss": 2.329,
      "step": 37190
    },
    {
      "epoch": 0.186,
      "grad_norm": 1.75,
      "learning_rate": 0.0002454271356783919,
      "loss": 2.3495,
      "step": 37200
    },
    {
      "epoch": 0.18605,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002454120603015075,
      "loss": 2.3721,
      "step": 37210
    },
    {
      "epoch": 0.1861,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002453969849246231,
      "loss": 2.3242,
      "step": 37220
    },
    {
      "epoch": 0.18615,
      "grad_norm": 1.453125,
      "learning_rate": 0.00024538190954773864,
      "loss": 2.3251,
      "step": 37230
    },
    {
      "epoch": 0.1862,
      "grad_norm": 1.59375,
      "learning_rate": 0.00024536683417085425,
      "loss": 2.3213,
      "step": 37240
    },
    {
      "epoch": 0.18625,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002453517587939698,
      "loss": 2.3527,
      "step": 37250
    },
    {
      "epoch": 0.1863,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002453366834170854,
      "loss": 2.368,
      "step": 37260
    },
    {
      "epoch": 0.18635,
      "grad_norm": 1.625,
      "learning_rate": 0.000245321608040201,
      "loss": 2.3169,
      "step": 37270
    },
    {
      "epoch": 0.1864,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024530653266331654,
      "loss": 2.3603,
      "step": 37280
    },
    {
      "epoch": 0.18645,
      "grad_norm": 1.578125,
      "learning_rate": 0.00024529145728643216,
      "loss": 2.2649,
      "step": 37290
    },
    {
      "epoch": 0.1865,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002452763819095477,
      "loss": 2.322,
      "step": 37300
    },
    {
      "epoch": 0.18655,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00024526130653266333,
      "loss": 2.3192,
      "step": 37310
    },
    {
      "epoch": 0.1866,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002452462311557789,
      "loss": 2.3881,
      "step": 37320
    },
    {
      "epoch": 0.18665,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024523115577889445,
      "loss": 2.3331,
      "step": 37330
    },
    {
      "epoch": 0.1867,
      "grad_norm": 1.578125,
      "learning_rate": 0.00024521608040201006,
      "loss": 2.331,
      "step": 37340
    },
    {
      "epoch": 0.18675,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002452010050251256,
      "loss": 2.3559,
      "step": 37350
    },
    {
      "epoch": 0.1868,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002451859296482412,
      "loss": 2.3081,
      "step": 37360
    },
    {
      "epoch": 0.18685,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002451708542713568,
      "loss": 2.3787,
      "step": 37370
    },
    {
      "epoch": 0.1869,
      "grad_norm": 1.828125,
      "learning_rate": 0.00024515577889447235,
      "loss": 2.3606,
      "step": 37380
    },
    {
      "epoch": 0.18695,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002451407035175879,
      "loss": 2.3741,
      "step": 37390
    },
    {
      "epoch": 0.187,
      "grad_norm": 1.5,
      "learning_rate": 0.0002451256281407035,
      "loss": 2.3268,
      "step": 37400
    },
    {
      "epoch": 0.18705,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002451105527638191,
      "loss": 2.3191,
      "step": 37410
    },
    {
      "epoch": 0.1871,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00024509547738693464,
      "loss": 2.3154,
      "step": 37420
    },
    {
      "epoch": 0.18715,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002450804020100502,
      "loss": 2.3315,
      "step": 37430
    },
    {
      "epoch": 0.1872,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002450653266331658,
      "loss": 2.3456,
      "step": 37440
    },
    {
      "epoch": 0.18725,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024505025125628137,
      "loss": 2.2571,
      "step": 37450
    },
    {
      "epoch": 0.1873,
      "grad_norm": 1.546875,
      "learning_rate": 0.00024503517587939693,
      "loss": 2.3738,
      "step": 37460
    },
    {
      "epoch": 0.18735,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024502010050251254,
      "loss": 2.3411,
      "step": 37470
    },
    {
      "epoch": 0.1874,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002450050251256281,
      "loss": 2.3896,
      "step": 37480
    },
    {
      "epoch": 0.18745,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00024498994974874366,
      "loss": 2.3227,
      "step": 37490
    },
    {
      "epoch": 0.1875,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002449748743718593,
      "loss": 2.332,
      "step": 37500
    },
    {
      "epoch": 0.18755,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024495979899497483,
      "loss": 2.3602,
      "step": 37510
    },
    {
      "epoch": 0.1876,
      "grad_norm": 1.875,
      "learning_rate": 0.00024494472361809045,
      "loss": 2.2985,
      "step": 37520
    },
    {
      "epoch": 0.18765,
      "grad_norm": 1.5703125,
      "learning_rate": 0.000244929648241206,
      "loss": 2.3357,
      "step": 37530
    },
    {
      "epoch": 0.1877,
      "grad_norm": 1.46875,
      "learning_rate": 0.00024491457286432157,
      "loss": 2.2992,
      "step": 37540
    },
    {
      "epoch": 0.18775,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002448994974874372,
      "loss": 2.3792,
      "step": 37550
    },
    {
      "epoch": 0.1878,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024488442211055274,
      "loss": 2.306,
      "step": 37560
    },
    {
      "epoch": 0.18785,
      "grad_norm": 1.578125,
      "learning_rate": 0.00024486934673366835,
      "loss": 2.3223,
      "step": 37570
    },
    {
      "epoch": 0.1879,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002448542713567839,
      "loss": 2.3414,
      "step": 37580
    },
    {
      "epoch": 0.18795,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024483919597989947,
      "loss": 2.344,
      "step": 37590
    },
    {
      "epoch": 0.188,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002448241206030151,
      "loss": 2.3187,
      "step": 37600
    },
    {
      "epoch": 0.18805,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00024480904522613064,
      "loss": 2.2917,
      "step": 37610
    },
    {
      "epoch": 0.1881,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002447939698492462,
      "loss": 2.2673,
      "step": 37620
    },
    {
      "epoch": 0.18815,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002447788944723618,
      "loss": 2.3302,
      "step": 37630
    },
    {
      "epoch": 0.1882,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024476381909547737,
      "loss": 2.3147,
      "step": 37640
    },
    {
      "epoch": 0.18825,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00024474874371859293,
      "loss": 2.303,
      "step": 37650
    },
    {
      "epoch": 0.1883,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024473366834170854,
      "loss": 2.3351,
      "step": 37660
    },
    {
      "epoch": 0.18835,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002447185929648241,
      "loss": 2.3257,
      "step": 37670
    },
    {
      "epoch": 0.1884,
      "grad_norm": 2.109375,
      "learning_rate": 0.00024470351758793966,
      "loss": 2.3629,
      "step": 37680
    },
    {
      "epoch": 0.18845,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002446884422110553,
      "loss": 2.3237,
      "step": 37690
    },
    {
      "epoch": 0.1885,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024467336683417083,
      "loss": 2.2639,
      "step": 37700
    },
    {
      "epoch": 0.18855,
      "grad_norm": 1.625,
      "learning_rate": 0.0002446582914572864,
      "loss": 2.3497,
      "step": 37710
    },
    {
      "epoch": 0.1886,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000244643216080402,
      "loss": 2.3395,
      "step": 37720
    },
    {
      "epoch": 0.18865,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024462814070351757,
      "loss": 2.3155,
      "step": 37730
    },
    {
      "epoch": 0.1887,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002446130653266331,
      "loss": 2.3554,
      "step": 37740
    },
    {
      "epoch": 0.18875,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002445979899497487,
      "loss": 2.3493,
      "step": 37750
    },
    {
      "epoch": 0.1888,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002445829145728643,
      "loss": 2.3708,
      "step": 37760
    },
    {
      "epoch": 0.18885,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00024456783919597986,
      "loss": 2.3429,
      "step": 37770
    },
    {
      "epoch": 0.1889,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00024455276381909547,
      "loss": 2.4041,
      "step": 37780
    },
    {
      "epoch": 0.18895,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024453768844221103,
      "loss": 2.3264,
      "step": 37790
    },
    {
      "epoch": 0.189,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002445226130653266,
      "loss": 2.3004,
      "step": 37800
    },
    {
      "epoch": 0.18905,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002445075376884422,
      "loss": 2.3205,
      "step": 37810
    },
    {
      "epoch": 0.1891,
      "grad_norm": 1.953125,
      "learning_rate": 0.00024449246231155776,
      "loss": 2.3053,
      "step": 37820
    },
    {
      "epoch": 0.18915,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00024447738693467337,
      "loss": 2.3437,
      "step": 37830
    },
    {
      "epoch": 0.1892,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024446231155778893,
      "loss": 2.2614,
      "step": 37840
    },
    {
      "epoch": 0.18925,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002444472361809045,
      "loss": 2.3035,
      "step": 37850
    },
    {
      "epoch": 0.1893,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002444321608040201,
      "loss": 2.2858,
      "step": 37860
    },
    {
      "epoch": 0.18935,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024441708542713566,
      "loss": 2.296,
      "step": 37870
    },
    {
      "epoch": 0.1894,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002444020100502513,
      "loss": 2.3162,
      "step": 37880
    },
    {
      "epoch": 0.18945,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024438693467336684,
      "loss": 2.2756,
      "step": 37890
    },
    {
      "epoch": 0.1895,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002443718592964824,
      "loss": 2.3206,
      "step": 37900
    },
    {
      "epoch": 0.18955,
      "grad_norm": 1.734375,
      "learning_rate": 0.00024435678391959795,
      "loss": 2.3467,
      "step": 37910
    },
    {
      "epoch": 0.1896,
      "grad_norm": 1.9375,
      "learning_rate": 0.00024434170854271357,
      "loss": 2.2727,
      "step": 37920
    },
    {
      "epoch": 0.18965,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002443266331658291,
      "loss": 2.3416,
      "step": 37930
    },
    {
      "epoch": 0.1897,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002443115577889447,
      "loss": 2.3372,
      "step": 37940
    },
    {
      "epoch": 0.18975,
      "grad_norm": 1.625,
      "learning_rate": 0.0002442964824120603,
      "loss": 2.2521,
      "step": 37950
    },
    {
      "epoch": 0.1898,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024428140703517586,
      "loss": 2.3065,
      "step": 37960
    },
    {
      "epoch": 0.18985,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002442663316582914,
      "loss": 2.3213,
      "step": 37970
    },
    {
      "epoch": 0.1899,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00024425125628140703,
      "loss": 2.2693,
      "step": 37980
    },
    {
      "epoch": 0.18995,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002442361809045226,
      "loss": 2.3026,
      "step": 37990
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00024422110552763815,
      "loss": 2.3182,
      "step": 38000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.3114733695983887,
      "eval_runtime": 90.9718,
      "eval_samples_per_second": 27.481,
      "eval_steps_per_second": 0.44,
      "step": 38000
    },
    {
      "epoch": 0.19005,
      "grad_norm": 1.5625,
      "learning_rate": 0.00024420603015075376,
      "loss": 2.286,
      "step": 38010
    },
    {
      "epoch": 0.1901,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002441909547738693,
      "loss": 2.3069,
      "step": 38020
    },
    {
      "epoch": 0.19015,
      "grad_norm": 1.625,
      "learning_rate": 0.0002441758793969849,
      "loss": 2.2895,
      "step": 38030
    },
    {
      "epoch": 0.1902,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002441608040201005,
      "loss": 2.3527,
      "step": 38040
    },
    {
      "epoch": 0.19025,
      "grad_norm": 1.5,
      "learning_rate": 0.00024414572864321605,
      "loss": 2.3027,
      "step": 38050
    },
    {
      "epoch": 0.1903,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00024413065326633164,
      "loss": 2.2939,
      "step": 38060
    },
    {
      "epoch": 0.19035,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002441155778894472,
      "loss": 2.2953,
      "step": 38070
    },
    {
      "epoch": 0.1904,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002441005025125628,
      "loss": 2.3026,
      "step": 38080
    },
    {
      "epoch": 0.19045,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00024408542713567837,
      "loss": 2.2694,
      "step": 38090
    },
    {
      "epoch": 0.1905,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00024407035175879393,
      "loss": 2.349,
      "step": 38100
    },
    {
      "epoch": 0.19055,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00024405527638190954,
      "loss": 2.297,
      "step": 38110
    },
    {
      "epoch": 0.1906,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002440402010050251,
      "loss": 2.3227,
      "step": 38120
    },
    {
      "epoch": 0.19065,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024402512562814068,
      "loss": 2.291,
      "step": 38130
    },
    {
      "epoch": 0.1907,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024401005025125627,
      "loss": 2.2773,
      "step": 38140
    },
    {
      "epoch": 0.19075,
      "grad_norm": 1.890625,
      "learning_rate": 0.00024399497487437183,
      "loss": 2.298,
      "step": 38150
    },
    {
      "epoch": 0.1908,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024397989949748742,
      "loss": 2.3333,
      "step": 38160
    },
    {
      "epoch": 0.19085,
      "grad_norm": 1.703125,
      "learning_rate": 0.000243964824120603,
      "loss": 2.3074,
      "step": 38170
    },
    {
      "epoch": 0.1909,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002439497487437186,
      "loss": 2.3167,
      "step": 38180
    },
    {
      "epoch": 0.19095,
      "grad_norm": 1.5625,
      "learning_rate": 0.00024393467336683415,
      "loss": 2.2835,
      "step": 38190
    },
    {
      "epoch": 0.191,
      "grad_norm": 1.5546875,
      "learning_rate": 0.0002439195979899497,
      "loss": 2.2623,
      "step": 38200
    },
    {
      "epoch": 0.19105,
      "grad_norm": 1.59375,
      "learning_rate": 0.00024390452261306532,
      "loss": 2.345,
      "step": 38210
    },
    {
      "epoch": 0.1911,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024388944723618088,
      "loss": 2.2501,
      "step": 38220
    },
    {
      "epoch": 0.19115,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024387437185929644,
      "loss": 2.3314,
      "step": 38230
    },
    {
      "epoch": 0.1912,
      "grad_norm": 1.5,
      "learning_rate": 0.00024385929648241205,
      "loss": 2.3431,
      "step": 38240
    },
    {
      "epoch": 0.19125,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002438442211055276,
      "loss": 2.3057,
      "step": 38250
    },
    {
      "epoch": 0.1913,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002438291457286432,
      "loss": 2.2933,
      "step": 38260
    },
    {
      "epoch": 0.19135,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00024381407035175878,
      "loss": 2.2943,
      "step": 38270
    },
    {
      "epoch": 0.1914,
      "grad_norm": 1.578125,
      "learning_rate": 0.00024379899497487434,
      "loss": 2.2933,
      "step": 38280
    },
    {
      "epoch": 0.19145,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00024378391959798993,
      "loss": 2.3465,
      "step": 38290
    },
    {
      "epoch": 0.1915,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002437688442211055,
      "loss": 2.2769,
      "step": 38300
    },
    {
      "epoch": 0.19155,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002437537688442211,
      "loss": 2.2946,
      "step": 38310
    },
    {
      "epoch": 0.1916,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00024373869346733666,
      "loss": 2.3213,
      "step": 38320
    },
    {
      "epoch": 0.19165,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00024372361809045224,
      "loss": 2.3288,
      "step": 38330
    },
    {
      "epoch": 0.1917,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024370854271356783,
      "loss": 2.3672,
      "step": 38340
    },
    {
      "epoch": 0.19175,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002436934673366834,
      "loss": 2.3299,
      "step": 38350
    },
    {
      "epoch": 0.1918,
      "grad_norm": 2.125,
      "learning_rate": 0.00024367839195979895,
      "loss": 2.3223,
      "step": 38360
    },
    {
      "epoch": 0.19185,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024366331658291456,
      "loss": 2.3419,
      "step": 38370
    },
    {
      "epoch": 0.1919,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024364824120603012,
      "loss": 2.2557,
      "step": 38380
    },
    {
      "epoch": 0.19195,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002436331658291457,
      "loss": 2.2901,
      "step": 38390
    },
    {
      "epoch": 0.192,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002436180904522613,
      "loss": 2.3541,
      "step": 38400
    },
    {
      "epoch": 0.19205,
      "grad_norm": 1.75,
      "learning_rate": 0.00024360301507537685,
      "loss": 2.321,
      "step": 38410
    },
    {
      "epoch": 0.1921,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00024358793969849244,
      "loss": 2.3533,
      "step": 38420
    },
    {
      "epoch": 0.19215,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024357286432160802,
      "loss": 2.2779,
      "step": 38430
    },
    {
      "epoch": 0.1922,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002435577889447236,
      "loss": 2.2917,
      "step": 38440
    },
    {
      "epoch": 0.19225,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024354271356783917,
      "loss": 2.3161,
      "step": 38450
    },
    {
      "epoch": 0.1923,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024352763819095476,
      "loss": 2.2737,
      "step": 38460
    },
    {
      "epoch": 0.19235,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024351256281407034,
      "loss": 2.3744,
      "step": 38470
    },
    {
      "epoch": 0.1924,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002434974874371859,
      "loss": 2.2578,
      "step": 38480
    },
    {
      "epoch": 0.19245,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002434824120603015,
      "loss": 2.349,
      "step": 38490
    },
    {
      "epoch": 0.1925,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024346733668341707,
      "loss": 2.3486,
      "step": 38500
    },
    {
      "epoch": 0.19255,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024345226130653263,
      "loss": 2.3225,
      "step": 38510
    },
    {
      "epoch": 0.1926,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024343718592964822,
      "loss": 2.3372,
      "step": 38520
    },
    {
      "epoch": 0.19265,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002434221105527638,
      "loss": 2.2953,
      "step": 38530
    },
    {
      "epoch": 0.1927,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024340703517587936,
      "loss": 2.2197,
      "step": 38540
    },
    {
      "epoch": 0.19275,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024339195979899495,
      "loss": 2.3252,
      "step": 38550
    },
    {
      "epoch": 0.1928,
      "grad_norm": 1.78125,
      "learning_rate": 0.00024337688442211053,
      "loss": 2.2726,
      "step": 38560
    },
    {
      "epoch": 0.19285,
      "grad_norm": 1.4765625,
      "learning_rate": 0.00024336180904522612,
      "loss": 2.2725,
      "step": 38570
    },
    {
      "epoch": 0.1929,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00024334673366834168,
      "loss": 2.3288,
      "step": 38580
    },
    {
      "epoch": 0.19295,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00024333165829145727,
      "loss": 2.3313,
      "step": 38590
    },
    {
      "epoch": 0.193,
      "grad_norm": 1.78125,
      "learning_rate": 0.00024331658291457285,
      "loss": 2.3388,
      "step": 38600
    },
    {
      "epoch": 0.19305,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002433015075376884,
      "loss": 2.3189,
      "step": 38610
    },
    {
      "epoch": 0.1931,
      "grad_norm": 1.59375,
      "learning_rate": 0.00024328643216080402,
      "loss": 2.2874,
      "step": 38620
    },
    {
      "epoch": 0.19315,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024327135678391958,
      "loss": 2.3632,
      "step": 38630
    },
    {
      "epoch": 0.1932,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024325628140703514,
      "loss": 2.2765,
      "step": 38640
    },
    {
      "epoch": 0.19325,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024324120603015076,
      "loss": 2.3118,
      "step": 38650
    },
    {
      "epoch": 0.1933,
      "grad_norm": 1.5625,
      "learning_rate": 0.00024322613065326631,
      "loss": 2.3238,
      "step": 38660
    },
    {
      "epoch": 0.19335,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024321105527638187,
      "loss": 2.2915,
      "step": 38670
    },
    {
      "epoch": 0.1934,
      "grad_norm": 1.75,
      "learning_rate": 0.00024319597989949746,
      "loss": 2.3283,
      "step": 38680
    },
    {
      "epoch": 0.19345,
      "grad_norm": 1.875,
      "learning_rate": 0.00024318090452261305,
      "loss": 2.3333,
      "step": 38690
    },
    {
      "epoch": 0.1935,
      "grad_norm": 1.5625,
      "learning_rate": 0.00024316582914572863,
      "loss": 2.324,
      "step": 38700
    },
    {
      "epoch": 0.19355,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002431507537688442,
      "loss": 2.276,
      "step": 38710
    },
    {
      "epoch": 0.1936,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00024313567839195978,
      "loss": 2.2302,
      "step": 38720
    },
    {
      "epoch": 0.19365,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024312060301507536,
      "loss": 2.3063,
      "step": 38730
    },
    {
      "epoch": 0.1937,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024310552763819092,
      "loss": 2.2547,
      "step": 38740
    },
    {
      "epoch": 0.19375,
      "grad_norm": 1.890625,
      "learning_rate": 0.00024309045226130654,
      "loss": 2.3534,
      "step": 38750
    },
    {
      "epoch": 0.1938,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002430753768844221,
      "loss": 2.3519,
      "step": 38760
    },
    {
      "epoch": 0.19385,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024306030150753765,
      "loss": 2.3309,
      "step": 38770
    },
    {
      "epoch": 0.1939,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024304522613065327,
      "loss": 2.2758,
      "step": 38780
    },
    {
      "epoch": 0.19395,
      "grad_norm": 1.78125,
      "learning_rate": 0.00024303015075376883,
      "loss": 2.2691,
      "step": 38790
    },
    {
      "epoch": 0.194,
      "grad_norm": 1.8125,
      "learning_rate": 0.00024301507537688438,
      "loss": 2.3413,
      "step": 38800
    },
    {
      "epoch": 0.19405,
      "grad_norm": 1.640625,
      "learning_rate": 0.000243,
      "loss": 2.3388,
      "step": 38810
    },
    {
      "epoch": 0.1941,
      "grad_norm": 1.828125,
      "learning_rate": 0.00024298492462311556,
      "loss": 2.2903,
      "step": 38820
    },
    {
      "epoch": 0.19415,
      "grad_norm": 2.078125,
      "learning_rate": 0.00024296984924623114,
      "loss": 2.3285,
      "step": 38830
    },
    {
      "epoch": 0.1942,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002429547738693467,
      "loss": 2.2971,
      "step": 38840
    },
    {
      "epoch": 0.19425,
      "grad_norm": 1.75,
      "learning_rate": 0.0002429396984924623,
      "loss": 2.2654,
      "step": 38850
    },
    {
      "epoch": 0.1943,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00024292462311557787,
      "loss": 2.3343,
      "step": 38860
    },
    {
      "epoch": 0.19435,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024290954773869343,
      "loss": 2.2643,
      "step": 38870
    },
    {
      "epoch": 0.1944,
      "grad_norm": 1.84375,
      "learning_rate": 0.00024289447236180905,
      "loss": 2.3495,
      "step": 38880
    },
    {
      "epoch": 0.19445,
      "grad_norm": 1.625,
      "learning_rate": 0.0002428793969849246,
      "loss": 2.2905,
      "step": 38890
    },
    {
      "epoch": 0.1945,
      "grad_norm": 1.546875,
      "learning_rate": 0.00024286432160804016,
      "loss": 2.281,
      "step": 38900
    },
    {
      "epoch": 0.19455,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024284924623115578,
      "loss": 2.3117,
      "step": 38910
    },
    {
      "epoch": 0.1946,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024283417085427134,
      "loss": 2.2654,
      "step": 38920
    },
    {
      "epoch": 0.19465,
      "grad_norm": 1.75,
      "learning_rate": 0.0002428190954773869,
      "loss": 2.3887,
      "step": 38930
    },
    {
      "epoch": 0.1947,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002428040201005025,
      "loss": 2.311,
      "step": 38940
    },
    {
      "epoch": 0.19475,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024278894472361807,
      "loss": 2.2859,
      "step": 38950
    },
    {
      "epoch": 0.1948,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00024277386934673365,
      "loss": 2.2924,
      "step": 38960
    },
    {
      "epoch": 0.19485,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024275879396984924,
      "loss": 2.3411,
      "step": 38970
    },
    {
      "epoch": 0.1949,
      "grad_norm": 1.625,
      "learning_rate": 0.0002427437185929648,
      "loss": 2.2909,
      "step": 38980
    },
    {
      "epoch": 0.19495,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024272864321608038,
      "loss": 2.3071,
      "step": 38990
    },
    {
      "epoch": 0.195,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00024271356783919594,
      "loss": 2.2675,
      "step": 39000
    },
    {
      "epoch": 0.19505,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00024269849246231156,
      "loss": 2.374,
      "step": 39010
    },
    {
      "epoch": 0.1951,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024268341708542712,
      "loss": 2.3185,
      "step": 39020
    },
    {
      "epoch": 0.19515,
      "grad_norm": 1.828125,
      "learning_rate": 0.00024266834170854268,
      "loss": 2.2786,
      "step": 39030
    },
    {
      "epoch": 0.1952,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002426532663316583,
      "loss": 2.3066,
      "step": 39040
    },
    {
      "epoch": 0.19525,
      "grad_norm": 1.546875,
      "learning_rate": 0.00024263819095477385,
      "loss": 2.2627,
      "step": 39050
    },
    {
      "epoch": 0.1953,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002426231155778894,
      "loss": 2.3183,
      "step": 39060
    },
    {
      "epoch": 0.19535,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00024260804020100502,
      "loss": 2.3182,
      "step": 39070
    },
    {
      "epoch": 0.1954,
      "grad_norm": 1.734375,
      "learning_rate": 0.00024259296482412058,
      "loss": 2.3424,
      "step": 39080
    },
    {
      "epoch": 0.19545,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024257788944723616,
      "loss": 2.2706,
      "step": 39090
    },
    {
      "epoch": 0.1955,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00024256281407035175,
      "loss": 2.2984,
      "step": 39100
    },
    {
      "epoch": 0.19555,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002425477386934673,
      "loss": 2.3103,
      "step": 39110
    },
    {
      "epoch": 0.1956,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002425326633165829,
      "loss": 2.2881,
      "step": 39120
    },
    {
      "epoch": 0.19565,
      "grad_norm": 1.84375,
      "learning_rate": 0.00024251758793969848,
      "loss": 2.2986,
      "step": 39130
    },
    {
      "epoch": 0.1957,
      "grad_norm": 1.734375,
      "learning_rate": 0.00024250251256281407,
      "loss": 2.2915,
      "step": 39140
    },
    {
      "epoch": 0.19575,
      "grad_norm": 1.546875,
      "learning_rate": 0.00024248743718592963,
      "loss": 2.2673,
      "step": 39150
    },
    {
      "epoch": 0.1958,
      "grad_norm": 1.84375,
      "learning_rate": 0.00024247236180904519,
      "loss": 2.3813,
      "step": 39160
    },
    {
      "epoch": 0.19585,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002424572864321608,
      "loss": 2.2639,
      "step": 39170
    },
    {
      "epoch": 0.1959,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024244221105527636,
      "loss": 2.2809,
      "step": 39180
    },
    {
      "epoch": 0.19595,
      "grad_norm": 1.5625,
      "learning_rate": 0.00024242713567839192,
      "loss": 2.337,
      "step": 39190
    },
    {
      "epoch": 0.196,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024241206030150753,
      "loss": 2.2857,
      "step": 39200
    },
    {
      "epoch": 0.19605,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002423969849246231,
      "loss": 2.3657,
      "step": 39210
    },
    {
      "epoch": 0.1961,
      "grad_norm": 1.84375,
      "learning_rate": 0.00024238190954773865,
      "loss": 2.2671,
      "step": 39220
    },
    {
      "epoch": 0.19615,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00024236683417085426,
      "loss": 2.3365,
      "step": 39230
    },
    {
      "epoch": 0.1962,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024235175879396982,
      "loss": 2.2962,
      "step": 39240
    },
    {
      "epoch": 0.19625,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002423366834170854,
      "loss": 2.2637,
      "step": 39250
    },
    {
      "epoch": 0.1963,
      "grad_norm": 1.65625,
      "learning_rate": 0.000242321608040201,
      "loss": 2.2981,
      "step": 39260
    },
    {
      "epoch": 0.19635,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00024230653266331658,
      "loss": 2.241,
      "step": 39270
    },
    {
      "epoch": 0.1964,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024229145728643214,
      "loss": 2.2796,
      "step": 39280
    },
    {
      "epoch": 0.19645,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002422763819095477,
      "loss": 2.3166,
      "step": 39290
    },
    {
      "epoch": 0.1965,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002422613065326633,
      "loss": 2.2707,
      "step": 39300
    },
    {
      "epoch": 0.19655,
      "grad_norm": 1.8125,
      "learning_rate": 0.00024224623115577887,
      "loss": 2.3565,
      "step": 39310
    },
    {
      "epoch": 0.1966,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024223115577889443,
      "loss": 2.3011,
      "step": 39320
    },
    {
      "epoch": 0.19665,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024221608040201004,
      "loss": 2.3338,
      "step": 39330
    },
    {
      "epoch": 0.1967,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002422010050251256,
      "loss": 2.3153,
      "step": 39340
    },
    {
      "epoch": 0.19675,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024218592964824116,
      "loss": 2.2842,
      "step": 39350
    },
    {
      "epoch": 0.1968,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00024217085427135677,
      "loss": 2.3239,
      "step": 39360
    },
    {
      "epoch": 0.19685,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024215577889447233,
      "loss": 2.2716,
      "step": 39370
    },
    {
      "epoch": 0.1969,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00024214070351758792,
      "loss": 2.3308,
      "step": 39380
    },
    {
      "epoch": 0.19695,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002421256281407035,
      "loss": 2.2589,
      "step": 39390
    },
    {
      "epoch": 0.197,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002421105527638191,
      "loss": 2.2726,
      "step": 39400
    },
    {
      "epoch": 0.19705,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00024209547738693465,
      "loss": 2.3743,
      "step": 39410
    },
    {
      "epoch": 0.1971,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00024208040201005024,
      "loss": 2.2235,
      "step": 39420
    },
    {
      "epoch": 0.19715,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024206532663316582,
      "loss": 2.3295,
      "step": 39430
    },
    {
      "epoch": 0.1972,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024205025125628138,
      "loss": 2.3317,
      "step": 39440
    },
    {
      "epoch": 0.19725,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024203517587939694,
      "loss": 2.2975,
      "step": 39450
    },
    {
      "epoch": 0.1973,
      "grad_norm": 1.625,
      "learning_rate": 0.00024202010050251255,
      "loss": 2.2883,
      "step": 39460
    },
    {
      "epoch": 0.19735,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002420050251256281,
      "loss": 2.2794,
      "step": 39470
    },
    {
      "epoch": 0.1974,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024198994974874367,
      "loss": 2.2706,
      "step": 39480
    },
    {
      "epoch": 0.19745,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024197487437185928,
      "loss": 2.2699,
      "step": 39490
    },
    {
      "epoch": 0.1975,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00024195979899497484,
      "loss": 2.2839,
      "step": 39500
    },
    {
      "epoch": 0.19755,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00024194472361809043,
      "loss": 2.3213,
      "step": 39510
    },
    {
      "epoch": 0.1976,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024192964824120601,
      "loss": 2.2714,
      "step": 39520
    },
    {
      "epoch": 0.19765,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002419145728643216,
      "loss": 2.2602,
      "step": 39530
    },
    {
      "epoch": 0.1977,
      "grad_norm": 1.875,
      "learning_rate": 0.00024189949748743716,
      "loss": 2.2797,
      "step": 39540
    },
    {
      "epoch": 0.19775,
      "grad_norm": 1.75,
      "learning_rate": 0.00024188442211055275,
      "loss": 2.2814,
      "step": 39550
    },
    {
      "epoch": 0.1978,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00024186934673366833,
      "loss": 2.3154,
      "step": 39560
    },
    {
      "epoch": 0.19785,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002418542713567839,
      "loss": 2.2105,
      "step": 39570
    },
    {
      "epoch": 0.1979,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002418391959798995,
      "loss": 2.3328,
      "step": 39580
    },
    {
      "epoch": 0.19795,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024182412060301506,
      "loss": 2.2845,
      "step": 39590
    },
    {
      "epoch": 0.198,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00024180904522613062,
      "loss": 2.2847,
      "step": 39600
    },
    {
      "epoch": 0.19805,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024179396984924618,
      "loss": 2.3327,
      "step": 39610
    },
    {
      "epoch": 0.1981,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002417788944723618,
      "loss": 2.3421,
      "step": 39620
    },
    {
      "epoch": 0.19815,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024176381909547735,
      "loss": 2.3337,
      "step": 39630
    },
    {
      "epoch": 0.1982,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024174874371859294,
      "loss": 2.2975,
      "step": 39640
    },
    {
      "epoch": 0.19825,
      "grad_norm": 1.765625,
      "learning_rate": 0.00024173366834170853,
      "loss": 2.2777,
      "step": 39650
    },
    {
      "epoch": 0.1983,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024171859296482408,
      "loss": 2.3887,
      "step": 39660
    },
    {
      "epoch": 0.19835,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024170351758793967,
      "loss": 2.2892,
      "step": 39670
    },
    {
      "epoch": 0.1984,
      "grad_norm": 1.78125,
      "learning_rate": 0.00024168844221105526,
      "loss": 2.2988,
      "step": 39680
    },
    {
      "epoch": 0.19845,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024167336683417084,
      "loss": 2.2826,
      "step": 39690
    },
    {
      "epoch": 0.1985,
      "grad_norm": 1.75,
      "learning_rate": 0.0002416582914572864,
      "loss": 2.2653,
      "step": 39700
    },
    {
      "epoch": 0.19855,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024164321608040202,
      "loss": 2.2974,
      "step": 39710
    },
    {
      "epoch": 0.1986,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024162814070351757,
      "loss": 2.2677,
      "step": 39720
    },
    {
      "epoch": 0.19865,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024161306532663313,
      "loss": 2.3154,
      "step": 39730
    },
    {
      "epoch": 0.1987,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00024159798994974875,
      "loss": 2.2659,
      "step": 39740
    },
    {
      "epoch": 0.19875,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002415829145728643,
      "loss": 2.3449,
      "step": 39750
    },
    {
      "epoch": 0.1988,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024156783919597986,
      "loss": 2.2497,
      "step": 39760
    },
    {
      "epoch": 0.19885,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024155276381909545,
      "loss": 2.2702,
      "step": 39770
    },
    {
      "epoch": 0.1989,
      "grad_norm": 1.75,
      "learning_rate": 0.00024153768844221104,
      "loss": 2.3545,
      "step": 39780
    },
    {
      "epoch": 0.19895,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002415226130653266,
      "loss": 2.2861,
      "step": 39790
    },
    {
      "epoch": 0.199,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024150753768844218,
      "loss": 2.321,
      "step": 39800
    },
    {
      "epoch": 0.19905,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024149246231155777,
      "loss": 2.2893,
      "step": 39810
    },
    {
      "epoch": 0.1991,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00024147738693467335,
      "loss": 2.3308,
      "step": 39820
    },
    {
      "epoch": 0.19915,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002414623115577889,
      "loss": 2.2784,
      "step": 39830
    },
    {
      "epoch": 0.1992,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024144723618090453,
      "loss": 2.2605,
      "step": 39840
    },
    {
      "epoch": 0.19925,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024143216080402009,
      "loss": 2.326,
      "step": 39850
    },
    {
      "epoch": 0.1993,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00024141708542713564,
      "loss": 2.2977,
      "step": 39860
    },
    {
      "epoch": 0.19935,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024140201005025126,
      "loss": 2.3152,
      "step": 39870
    },
    {
      "epoch": 0.1994,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00024138693467336682,
      "loss": 2.2671,
      "step": 39880
    },
    {
      "epoch": 0.19945,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024137185929648238,
      "loss": 2.3008,
      "step": 39890
    },
    {
      "epoch": 0.1995,
      "grad_norm": 1.5859375,
      "learning_rate": 0.000241356783919598,
      "loss": 2.3088,
      "step": 39900
    },
    {
      "epoch": 0.19955,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00024134170854271355,
      "loss": 2.2851,
      "step": 39910
    },
    {
      "epoch": 0.1996,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002413266331658291,
      "loss": 2.2982,
      "step": 39920
    },
    {
      "epoch": 0.19965,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002413115577889447,
      "loss": 2.2967,
      "step": 39930
    },
    {
      "epoch": 0.1997,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00024129648241206028,
      "loss": 2.279,
      "step": 39940
    },
    {
      "epoch": 0.19975,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024128140703517586,
      "loss": 2.2568,
      "step": 39950
    },
    {
      "epoch": 0.1998,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024126633165829142,
      "loss": 2.2879,
      "step": 39960
    },
    {
      "epoch": 0.19985,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024125125628140704,
      "loss": 2.3066,
      "step": 39970
    },
    {
      "epoch": 0.1999,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002412361809045226,
      "loss": 2.3147,
      "step": 39980
    },
    {
      "epoch": 0.19995,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00024122110552763816,
      "loss": 2.2939,
      "step": 39990
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024120603015075377,
      "loss": 2.3139,
      "step": 40000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.2908337116241455,
      "eval_runtime": 91.7535,
      "eval_samples_per_second": 27.247,
      "eval_steps_per_second": 0.436,
      "step": 40000
    },
    {
      "epoch": 0.20005,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00024119095477386933,
      "loss": 2.2817,
      "step": 40010
    },
    {
      "epoch": 0.2001,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024117587939698489,
      "loss": 2.2842,
      "step": 40020
    },
    {
      "epoch": 0.20015,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002411608040201005,
      "loss": 2.2788,
      "step": 40030
    },
    {
      "epoch": 0.2002,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00024114572864321606,
      "loss": 2.3236,
      "step": 40040
    },
    {
      "epoch": 0.20025,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024113065326633162,
      "loss": 2.3195,
      "step": 40050
    },
    {
      "epoch": 0.2003,
      "grad_norm": 1.625,
      "learning_rate": 0.00024111557788944723,
      "loss": 2.3095,
      "step": 40060
    },
    {
      "epoch": 0.20035,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002411005025125628,
      "loss": 2.277,
      "step": 40070
    },
    {
      "epoch": 0.2004,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00024108542713567838,
      "loss": 2.3021,
      "step": 40080
    },
    {
      "epoch": 0.20045,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024107035175879393,
      "loss": 2.3175,
      "step": 40090
    },
    {
      "epoch": 0.2005,
      "grad_norm": 2.015625,
      "learning_rate": 0.00024105527638190955,
      "loss": 2.2459,
      "step": 40100
    },
    {
      "epoch": 0.20055,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002410402010050251,
      "loss": 2.2474,
      "step": 40110
    },
    {
      "epoch": 0.2006,
      "grad_norm": 1.5625,
      "learning_rate": 0.00024102512562814067,
      "loss": 2.2854,
      "step": 40120
    },
    {
      "epoch": 0.20065,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024101005025125628,
      "loss": 2.2366,
      "step": 40130
    },
    {
      "epoch": 0.2007,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024099497487437184,
      "loss": 2.3265,
      "step": 40140
    },
    {
      "epoch": 0.20075,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002409798994974874,
      "loss": 2.265,
      "step": 40150
    },
    {
      "epoch": 0.2008,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000240964824120603,
      "loss": 2.3054,
      "step": 40160
    },
    {
      "epoch": 0.20085,
      "grad_norm": 1.71875,
      "learning_rate": 0.00024094974874371857,
      "loss": 2.3494,
      "step": 40170
    },
    {
      "epoch": 0.2009,
      "grad_norm": 1.875,
      "learning_rate": 0.00024093467336683413,
      "loss": 2.317,
      "step": 40180
    },
    {
      "epoch": 0.20095,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024091959798994974,
      "loss": 2.3016,
      "step": 40190
    },
    {
      "epoch": 0.201,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002409045226130653,
      "loss": 2.2571,
      "step": 40200
    },
    {
      "epoch": 0.20105,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002408894472361809,
      "loss": 2.3048,
      "step": 40210
    },
    {
      "epoch": 0.2011,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00024087437185929647,
      "loss": 2.2519,
      "step": 40220
    },
    {
      "epoch": 0.20115,
      "grad_norm": 1.65625,
      "learning_rate": 0.00024085929648241203,
      "loss": 2.2881,
      "step": 40230
    },
    {
      "epoch": 0.2012,
      "grad_norm": 1.78125,
      "learning_rate": 0.00024084422110552762,
      "loss": 2.2989,
      "step": 40240
    },
    {
      "epoch": 0.20125,
      "grad_norm": 1.59375,
      "learning_rate": 0.00024082914572864318,
      "loss": 2.265,
      "step": 40250
    },
    {
      "epoch": 0.2013,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002408140703517588,
      "loss": 2.2656,
      "step": 40260
    },
    {
      "epoch": 0.20135,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024079899497487435,
      "loss": 2.2902,
      "step": 40270
    },
    {
      "epoch": 0.2014,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002407839195979899,
      "loss": 2.3139,
      "step": 40280
    },
    {
      "epoch": 0.20145,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00024076884422110552,
      "loss": 2.2261,
      "step": 40290
    },
    {
      "epoch": 0.2015,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00024075376884422108,
      "loss": 2.328,
      "step": 40300
    },
    {
      "epoch": 0.20155,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024073869346733664,
      "loss": 2.3297,
      "step": 40310
    },
    {
      "epoch": 0.2016,
      "grad_norm": 1.6875,
      "learning_rate": 0.00024072361809045225,
      "loss": 2.284,
      "step": 40320
    },
    {
      "epoch": 0.20165,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002407085427135678,
      "loss": 2.3127,
      "step": 40330
    },
    {
      "epoch": 0.2017,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002406934673366834,
      "loss": 2.3573,
      "step": 40340
    },
    {
      "epoch": 0.20175,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00024067839195979898,
      "loss": 2.3145,
      "step": 40350
    },
    {
      "epoch": 0.2018,
      "grad_norm": 1.75,
      "learning_rate": 0.00024066331658291454,
      "loss": 2.3146,
      "step": 40360
    },
    {
      "epoch": 0.20185,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00024064824120603013,
      "loss": 2.2349,
      "step": 40370
    },
    {
      "epoch": 0.2019,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002406331658291457,
      "loss": 2.3248,
      "step": 40380
    },
    {
      "epoch": 0.20195,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002406180904522613,
      "loss": 2.3178,
      "step": 40390
    },
    {
      "epoch": 0.202,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024060301507537686,
      "loss": 2.359,
      "step": 40400
    },
    {
      "epoch": 0.20205,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00024058793969849242,
      "loss": 2.2485,
      "step": 40410
    },
    {
      "epoch": 0.2021,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00024057286432160803,
      "loss": 2.3414,
      "step": 40420
    },
    {
      "epoch": 0.20215,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002405577889447236,
      "loss": 2.2636,
      "step": 40430
    },
    {
      "epoch": 0.2022,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024054271356783915,
      "loss": 2.2757,
      "step": 40440
    },
    {
      "epoch": 0.20225,
      "grad_norm": 1.703125,
      "learning_rate": 0.00024052763819095476,
      "loss": 2.2783,
      "step": 40450
    },
    {
      "epoch": 0.2023,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024051256281407032,
      "loss": 2.2978,
      "step": 40460
    },
    {
      "epoch": 0.20235,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002404974874371859,
      "loss": 2.3542,
      "step": 40470
    },
    {
      "epoch": 0.2024,
      "grad_norm": 1.546875,
      "learning_rate": 0.0002404824120603015,
      "loss": 2.3113,
      "step": 40480
    },
    {
      "epoch": 0.20245,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00024046733668341705,
      "loss": 2.2604,
      "step": 40490
    },
    {
      "epoch": 0.2025,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00024045226130653264,
      "loss": 2.3109,
      "step": 40500
    },
    {
      "epoch": 0.20255,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00024043718592964823,
      "loss": 2.2667,
      "step": 40510
    },
    {
      "epoch": 0.2026,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002404221105527638,
      "loss": 2.3063,
      "step": 40520
    },
    {
      "epoch": 0.20265,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00024040703517587937,
      "loss": 2.2558,
      "step": 40530
    },
    {
      "epoch": 0.2027,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00024039195979899493,
      "loss": 2.291,
      "step": 40540
    },
    {
      "epoch": 0.20275,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00024037688442211054,
      "loss": 2.3188,
      "step": 40550
    },
    {
      "epoch": 0.2028,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002403618090452261,
      "loss": 2.28,
      "step": 40560
    },
    {
      "epoch": 0.20285,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024034673366834166,
      "loss": 2.2676,
      "step": 40570
    },
    {
      "epoch": 0.2029,
      "grad_norm": 1.671875,
      "learning_rate": 0.00024033165829145727,
      "loss": 2.2797,
      "step": 40580
    },
    {
      "epoch": 0.20295,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024031658291457283,
      "loss": 2.3444,
      "step": 40590
    },
    {
      "epoch": 0.203,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00024030150753768842,
      "loss": 2.2679,
      "step": 40600
    },
    {
      "epoch": 0.20305,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000240286432160804,
      "loss": 2.3137,
      "step": 40610
    },
    {
      "epoch": 0.2031,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00024027135678391956,
      "loss": 2.2972,
      "step": 40620
    },
    {
      "epoch": 0.20315,
      "grad_norm": 1.640625,
      "learning_rate": 0.00024025628140703515,
      "loss": 2.2898,
      "step": 40630
    },
    {
      "epoch": 0.2032,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00024024120603015074,
      "loss": 2.2718,
      "step": 40640
    },
    {
      "epoch": 0.20325,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00024022613065326632,
      "loss": 2.2495,
      "step": 40650
    },
    {
      "epoch": 0.2033,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00024021105527638188,
      "loss": 2.2759,
      "step": 40660
    },
    {
      "epoch": 0.20335,
      "grad_norm": 1.828125,
      "learning_rate": 0.00024019597989949747,
      "loss": 2.2477,
      "step": 40670
    },
    {
      "epoch": 0.2034,
      "grad_norm": 1.796875,
      "learning_rate": 0.00024018090452261305,
      "loss": 2.3685,
      "step": 40680
    },
    {
      "epoch": 0.20345,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002401658291457286,
      "loss": 2.2952,
      "step": 40690
    },
    {
      "epoch": 0.2035,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00024015075376884417,
      "loss": 2.3398,
      "step": 40700
    },
    {
      "epoch": 0.20355,
      "grad_norm": 1.609375,
      "learning_rate": 0.00024013567839195979,
      "loss": 2.322,
      "step": 40710
    },
    {
      "epoch": 0.2036,
      "grad_norm": 1.84375,
      "learning_rate": 0.00024012060301507534,
      "loss": 2.293,
      "step": 40720
    },
    {
      "epoch": 0.20365,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00024010552763819093,
      "loss": 2.3623,
      "step": 40730
    },
    {
      "epoch": 0.2037,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00024009045226130652,
      "loss": 2.2821,
      "step": 40740
    },
    {
      "epoch": 0.20375,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00024007537688442208,
      "loss": 2.3267,
      "step": 40750
    },
    {
      "epoch": 0.2038,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00024006030150753766,
      "loss": 2.2575,
      "step": 40760
    },
    {
      "epoch": 0.20385,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00024004522613065325,
      "loss": 2.3132,
      "step": 40770
    },
    {
      "epoch": 0.2039,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00024003015075376883,
      "loss": 2.2828,
      "step": 40780
    },
    {
      "epoch": 0.20395,
      "grad_norm": 1.875,
      "learning_rate": 0.0002400150753768844,
      "loss": 2.2489,
      "step": 40790
    },
    {
      "epoch": 0.204,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00023999999999999998,
      "loss": 2.3117,
      "step": 40800
    },
    {
      "epoch": 0.20405,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023998492462311557,
      "loss": 2.2616,
      "step": 40810
    },
    {
      "epoch": 0.2041,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023996984924623112,
      "loss": 2.2934,
      "step": 40820
    },
    {
      "epoch": 0.20415,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023995477386934674,
      "loss": 2.2676,
      "step": 40830
    },
    {
      "epoch": 0.2042,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002399396984924623,
      "loss": 2.3259,
      "step": 40840
    },
    {
      "epoch": 0.20425,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00023992462311557786,
      "loss": 2.2541,
      "step": 40850
    },
    {
      "epoch": 0.2043,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023990954773869344,
      "loss": 2.2737,
      "step": 40860
    },
    {
      "epoch": 0.20435,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023989447236180903,
      "loss": 2.3006,
      "step": 40870
    },
    {
      "epoch": 0.2044,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002398793969849246,
      "loss": 2.2616,
      "step": 40880
    },
    {
      "epoch": 0.20445,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00023986432160804017,
      "loss": 2.3504,
      "step": 40890
    },
    {
      "epoch": 0.2045,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023984924623115576,
      "loss": 2.2333,
      "step": 40900
    },
    {
      "epoch": 0.20455,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023983417085427134,
      "loss": 2.2678,
      "step": 40910
    },
    {
      "epoch": 0.2046,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002398190954773869,
      "loss": 2.2918,
      "step": 40920
    },
    {
      "epoch": 0.20465,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002398040201005025,
      "loss": 2.2831,
      "step": 40930
    },
    {
      "epoch": 0.2047,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023978894472361808,
      "loss": 2.289,
      "step": 40940
    },
    {
      "epoch": 0.20475,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00023977386934673364,
      "loss": 2.2711,
      "step": 40950
    },
    {
      "epoch": 0.2048,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023975879396984925,
      "loss": 2.3218,
      "step": 40960
    },
    {
      "epoch": 0.20485,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002397437185929648,
      "loss": 2.2607,
      "step": 40970
    },
    {
      "epoch": 0.2049,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023972864321608037,
      "loss": 2.3323,
      "step": 40980
    },
    {
      "epoch": 0.20495,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00023971356783919598,
      "loss": 2.3015,
      "step": 40990
    },
    {
      "epoch": 0.205,
      "grad_norm": 1.75,
      "learning_rate": 0.00023969849246231154,
      "loss": 2.2624,
      "step": 41000
    },
    {
      "epoch": 0.20505,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002396834170854271,
      "loss": 2.3362,
      "step": 41010
    },
    {
      "epoch": 0.2051,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023966834170854268,
      "loss": 2.2199,
      "step": 41020
    },
    {
      "epoch": 0.20515,
      "grad_norm": 1.59375,
      "learning_rate": 0.00023965326633165827,
      "loss": 2.2705,
      "step": 41030
    },
    {
      "epoch": 0.2052,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00023963819095477386,
      "loss": 2.2908,
      "step": 41040
    },
    {
      "epoch": 0.20525,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023962311557788941,
      "loss": 2.304,
      "step": 41050
    },
    {
      "epoch": 0.2053,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000239608040201005,
      "loss": 2.329,
      "step": 41060
    },
    {
      "epoch": 0.20535,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002395929648241206,
      "loss": 2.2934,
      "step": 41070
    },
    {
      "epoch": 0.2054,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023957788944723615,
      "loss": 2.3088,
      "step": 41080
    },
    {
      "epoch": 0.20545,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023956281407035176,
      "loss": 2.2736,
      "step": 41090
    },
    {
      "epoch": 0.2055,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023954773869346732,
      "loss": 2.321,
      "step": 41100
    },
    {
      "epoch": 0.20555,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023953266331658288,
      "loss": 2.2552,
      "step": 41110
    },
    {
      "epoch": 0.2056,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002395175879396985,
      "loss": 2.3398,
      "step": 41120
    },
    {
      "epoch": 0.20565,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023950251256281405,
      "loss": 2.2242,
      "step": 41130
    },
    {
      "epoch": 0.2057,
      "grad_norm": 1.875,
      "learning_rate": 0.0002394874371859296,
      "loss": 2.3017,
      "step": 41140
    },
    {
      "epoch": 0.20575,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00023947236180904522,
      "loss": 2.2396,
      "step": 41150
    },
    {
      "epoch": 0.2058,
      "grad_norm": 1.75,
      "learning_rate": 0.00023945728643216078,
      "loss": 2.2804,
      "step": 41160
    },
    {
      "epoch": 0.20585,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023944221105527637,
      "loss": 2.2827,
      "step": 41170
    },
    {
      "epoch": 0.2059,
      "grad_norm": 1.921875,
      "learning_rate": 0.00023942713567839193,
      "loss": 2.2751,
      "step": 41180
    },
    {
      "epoch": 0.20595,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002394120603015075,
      "loss": 2.304,
      "step": 41190
    },
    {
      "epoch": 0.206,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002393969849246231,
      "loss": 2.2211,
      "step": 41200
    },
    {
      "epoch": 0.20605,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023938190954773866,
      "loss": 2.2474,
      "step": 41210
    },
    {
      "epoch": 0.2061,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023936683417085427,
      "loss": 2.2887,
      "step": 41220
    },
    {
      "epoch": 0.20615,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00023935175879396983,
      "loss": 2.2943,
      "step": 41230
    },
    {
      "epoch": 0.2062,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002393366834170854,
      "loss": 2.3143,
      "step": 41240
    },
    {
      "epoch": 0.20625,
      "grad_norm": 1.71875,
      "learning_rate": 0.000239321608040201,
      "loss": 2.2749,
      "step": 41250
    },
    {
      "epoch": 0.2063,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023930653266331656,
      "loss": 2.3393,
      "step": 41260
    },
    {
      "epoch": 0.20635,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023929145728643212,
      "loss": 2.289,
      "step": 41270
    },
    {
      "epoch": 0.2064,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023927638190954773,
      "loss": 2.2809,
      "step": 41280
    },
    {
      "epoch": 0.20645,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002392613065326633,
      "loss": 2.2914,
      "step": 41290
    },
    {
      "epoch": 0.2065,
      "grad_norm": 1.75,
      "learning_rate": 0.00023924623115577888,
      "loss": 2.3034,
      "step": 41300
    },
    {
      "epoch": 0.20655,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023923115577889446,
      "loss": 2.2899,
      "step": 41310
    },
    {
      "epoch": 0.2066,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023921608040201002,
      "loss": 2.2269,
      "step": 41320
    },
    {
      "epoch": 0.20665,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002392010050251256,
      "loss": 2.2845,
      "step": 41330
    },
    {
      "epoch": 0.2067,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00023918592964824117,
      "loss": 2.2907,
      "step": 41340
    },
    {
      "epoch": 0.20675,
      "grad_norm": 1.625,
      "learning_rate": 0.00023917085427135678,
      "loss": 2.2829,
      "step": 41350
    },
    {
      "epoch": 0.2068,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023915577889447234,
      "loss": 2.3175,
      "step": 41360
    },
    {
      "epoch": 0.20685,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002391407035175879,
      "loss": 2.2802,
      "step": 41370
    },
    {
      "epoch": 0.2069,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002391256281407035,
      "loss": 2.3067,
      "step": 41380
    },
    {
      "epoch": 0.20695,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023911055276381907,
      "loss": 2.305,
      "step": 41390
    },
    {
      "epoch": 0.207,
      "grad_norm": 1.75,
      "learning_rate": 0.00023909547738693463,
      "loss": 2.2875,
      "step": 41400
    },
    {
      "epoch": 0.20705,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00023908040201005024,
      "loss": 2.327,
      "step": 41410
    },
    {
      "epoch": 0.2071,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002390653266331658,
      "loss": 2.3276,
      "step": 41420
    },
    {
      "epoch": 0.20715,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002390502512562814,
      "loss": 2.219,
      "step": 41430
    },
    {
      "epoch": 0.2072,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00023903517587939697,
      "loss": 2.3099,
      "step": 41440
    },
    {
      "epoch": 0.20725,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023902010050251253,
      "loss": 2.2242,
      "step": 41450
    },
    {
      "epoch": 0.2073,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00023900502512562812,
      "loss": 2.2708,
      "step": 41460
    },
    {
      "epoch": 0.20735,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002389899497487437,
      "loss": 2.2981,
      "step": 41470
    },
    {
      "epoch": 0.2074,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002389748743718593,
      "loss": 2.2569,
      "step": 41480
    },
    {
      "epoch": 0.20745,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00023895979899497485,
      "loss": 2.3397,
      "step": 41490
    },
    {
      "epoch": 0.2075,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002389447236180904,
      "loss": 2.2961,
      "step": 41500
    },
    {
      "epoch": 0.20755,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023892964824120602,
      "loss": 2.3465,
      "step": 41510
    },
    {
      "epoch": 0.2076,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00023891457286432158,
      "loss": 2.3326,
      "step": 41520
    },
    {
      "epoch": 0.20765,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023889949748743714,
      "loss": 2.3094,
      "step": 41530
    },
    {
      "epoch": 0.2077,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00023888442211055275,
      "loss": 2.3127,
      "step": 41540
    },
    {
      "epoch": 0.20775,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002388693467336683,
      "loss": 2.3101,
      "step": 41550
    },
    {
      "epoch": 0.2078,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002388542713567839,
      "loss": 2.2638,
      "step": 41560
    },
    {
      "epoch": 0.20785,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00023883919597989949,
      "loss": 2.2601,
      "step": 41570
    },
    {
      "epoch": 0.2079,
      "grad_norm": 2.0625,
      "learning_rate": 0.00023882412060301504,
      "loss": 2.2998,
      "step": 41580
    },
    {
      "epoch": 0.20795,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023880904522613063,
      "loss": 2.2331,
      "step": 41590
    },
    {
      "epoch": 0.208,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023879396984924622,
      "loss": 2.262,
      "step": 41600
    },
    {
      "epoch": 0.20805,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002387788944723618,
      "loss": 2.3142,
      "step": 41610
    },
    {
      "epoch": 0.2081,
      "grad_norm": 1.453125,
      "learning_rate": 0.00023876381909547736,
      "loss": 2.3224,
      "step": 41620
    },
    {
      "epoch": 0.20815,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023874874371859292,
      "loss": 2.2404,
      "step": 41630
    },
    {
      "epoch": 0.2082,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023873366834170853,
      "loss": 2.3013,
      "step": 41640
    },
    {
      "epoch": 0.20825,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002387185929648241,
      "loss": 2.2578,
      "step": 41650
    },
    {
      "epoch": 0.2083,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023870351758793965,
      "loss": 2.2579,
      "step": 41660
    },
    {
      "epoch": 0.20835,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023868844221105527,
      "loss": 2.2952,
      "step": 41670
    },
    {
      "epoch": 0.2084,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023867336683417082,
      "loss": 2.2716,
      "step": 41680
    },
    {
      "epoch": 0.20845,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002386582914572864,
      "loss": 2.3563,
      "step": 41690
    },
    {
      "epoch": 0.2085,
      "grad_norm": 1.8828125,
      "learning_rate": 0.000238643216080402,
      "loss": 2.2389,
      "step": 41700
    },
    {
      "epoch": 0.20855,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023862814070351756,
      "loss": 2.2318,
      "step": 41710
    },
    {
      "epoch": 0.2086,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00023861306532663314,
      "loss": 2.2803,
      "step": 41720
    },
    {
      "epoch": 0.20865,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00023859798994974873,
      "loss": 2.2811,
      "step": 41730
    },
    {
      "epoch": 0.2087,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023858291457286431,
      "loss": 2.2736,
      "step": 41740
    },
    {
      "epoch": 0.20875,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023856783919597987,
      "loss": 2.2615,
      "step": 41750
    },
    {
      "epoch": 0.2088,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023855276381909546,
      "loss": 2.2706,
      "step": 41760
    },
    {
      "epoch": 0.20885,
      "grad_norm": 1.5625,
      "learning_rate": 0.00023853768844221105,
      "loss": 2.2153,
      "step": 41770
    },
    {
      "epoch": 0.2089,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002385226130653266,
      "loss": 2.2925,
      "step": 41780
    },
    {
      "epoch": 0.20895,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023850753768844216,
      "loss": 2.2555,
      "step": 41790
    },
    {
      "epoch": 0.209,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00023849246231155778,
      "loss": 2.299,
      "step": 41800
    },
    {
      "epoch": 0.20905,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023847738693467334,
      "loss": 2.3041,
      "step": 41810
    },
    {
      "epoch": 0.2091,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023846231155778892,
      "loss": 2.2895,
      "step": 41820
    },
    {
      "epoch": 0.20915,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002384472361809045,
      "loss": 2.2958,
      "step": 41830
    },
    {
      "epoch": 0.2092,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023843216080402007,
      "loss": 2.2714,
      "step": 41840
    },
    {
      "epoch": 0.20925,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023841708542713565,
      "loss": 2.3093,
      "step": 41850
    },
    {
      "epoch": 0.2093,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023840201005025124,
      "loss": 2.291,
      "step": 41860
    },
    {
      "epoch": 0.20935,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023838693467336682,
      "loss": 2.3078,
      "step": 41870
    },
    {
      "epoch": 0.2094,
      "grad_norm": 1.75,
      "learning_rate": 0.00023837185929648238,
      "loss": 2.2707,
      "step": 41880
    },
    {
      "epoch": 0.20945,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023835678391959797,
      "loss": 2.3563,
      "step": 41890
    },
    {
      "epoch": 0.2095,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023834170854271356,
      "loss": 2.3092,
      "step": 41900
    },
    {
      "epoch": 0.20955,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023832663316582911,
      "loss": 2.3173,
      "step": 41910
    },
    {
      "epoch": 0.2096,
      "grad_norm": 1.515625,
      "learning_rate": 0.00023831155778894473,
      "loss": 2.2946,
      "step": 41920
    },
    {
      "epoch": 0.20965,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002382964824120603,
      "loss": 2.2587,
      "step": 41930
    },
    {
      "epoch": 0.2097,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00023828140703517585,
      "loss": 2.3,
      "step": 41940
    },
    {
      "epoch": 0.20975,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023826633165829143,
      "loss": 2.3179,
      "step": 41950
    },
    {
      "epoch": 0.2098,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023825125628140702,
      "loss": 2.2621,
      "step": 41960
    },
    {
      "epoch": 0.20985,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023823618090452258,
      "loss": 2.245,
      "step": 41970
    },
    {
      "epoch": 0.2099,
      "grad_norm": 1.59375,
      "learning_rate": 0.00023822110552763816,
      "loss": 2.3297,
      "step": 41980
    },
    {
      "epoch": 0.20995,
      "grad_norm": 1.828125,
      "learning_rate": 0.00023820603015075375,
      "loss": 2.2043,
      "step": 41990
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023819095477386934,
      "loss": 2.2802,
      "step": 42000
    },
    {
      "epoch": 0.21,
      "eval_loss": 2.2755801677703857,
      "eval_runtime": 89.2317,
      "eval_samples_per_second": 28.017,
      "eval_steps_per_second": 0.448,
      "step": 42000
    },
    {
      "epoch": 0.21005,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002381758793969849,
      "loss": 2.2736,
      "step": 42010
    },
    {
      "epoch": 0.2101,
      "grad_norm": 1.890625,
      "learning_rate": 0.00023816080402010048,
      "loss": 2.2972,
      "step": 42020
    },
    {
      "epoch": 0.21015,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023814572864321607,
      "loss": 2.2858,
      "step": 42030
    },
    {
      "epoch": 0.2102,
      "grad_norm": 1.84375,
      "learning_rate": 0.00023813065326633163,
      "loss": 2.2761,
      "step": 42040
    },
    {
      "epoch": 0.21025,
      "grad_norm": 1.890625,
      "learning_rate": 0.00023811557788944724,
      "loss": 2.3291,
      "step": 42050
    },
    {
      "epoch": 0.2103,
      "grad_norm": 2.078125,
      "learning_rate": 0.0002381005025125628,
      "loss": 2.2329,
      "step": 42060
    },
    {
      "epoch": 0.21035,
      "grad_norm": 1.59375,
      "learning_rate": 0.00023808542713567836,
      "loss": 2.298,
      "step": 42070
    },
    {
      "epoch": 0.2104,
      "grad_norm": 1.546875,
      "learning_rate": 0.00023807035175879397,
      "loss": 2.2366,
      "step": 42080
    },
    {
      "epoch": 0.21045,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023805527638190953,
      "loss": 2.2604,
      "step": 42090
    },
    {
      "epoch": 0.2105,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002380402010050251,
      "loss": 2.2376,
      "step": 42100
    },
    {
      "epoch": 0.21055,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023802512562814067,
      "loss": 2.3001,
      "step": 42110
    },
    {
      "epoch": 0.2106,
      "grad_norm": 1.609375,
      "learning_rate": 0.00023801005025125626,
      "loss": 2.3069,
      "step": 42120
    },
    {
      "epoch": 0.21065,
      "grad_norm": 2.09375,
      "learning_rate": 0.00023799497487437185,
      "loss": 2.2209,
      "step": 42130
    },
    {
      "epoch": 0.2107,
      "grad_norm": 1.75,
      "learning_rate": 0.0002379798994974874,
      "loss": 2.2887,
      "step": 42140
    },
    {
      "epoch": 0.21075,
      "grad_norm": 1.9140625,
      "learning_rate": 0.000237964824120603,
      "loss": 2.2339,
      "step": 42150
    },
    {
      "epoch": 0.2108,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023794974874371858,
      "loss": 2.2927,
      "step": 42160
    },
    {
      "epoch": 0.21085,
      "grad_norm": 1.828125,
      "learning_rate": 0.00023793467336683414,
      "loss": 2.2933,
      "step": 42170
    },
    {
      "epoch": 0.2109,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00023791959798994975,
      "loss": 2.3206,
      "step": 42180
    },
    {
      "epoch": 0.21095,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002379045226130653,
      "loss": 2.2947,
      "step": 42190
    },
    {
      "epoch": 0.211,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023788944723618087,
      "loss": 2.2899,
      "step": 42200
    },
    {
      "epoch": 0.21105,
      "grad_norm": 1.859375,
      "learning_rate": 0.00023787437185929648,
      "loss": 2.2751,
      "step": 42210
    },
    {
      "epoch": 0.2111,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023785929648241204,
      "loss": 2.2774,
      "step": 42220
    },
    {
      "epoch": 0.21115,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002378442211055276,
      "loss": 2.3398,
      "step": 42230
    },
    {
      "epoch": 0.2112,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002378291457286432,
      "loss": 2.2335,
      "step": 42240
    },
    {
      "epoch": 0.21125,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00023781407035175877,
      "loss": 2.284,
      "step": 42250
    },
    {
      "epoch": 0.2113,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023779899497487436,
      "loss": 2.2337,
      "step": 42260
    },
    {
      "epoch": 0.21135,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00023778391959798992,
      "loss": 2.2668,
      "step": 42270
    },
    {
      "epoch": 0.2114,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002377688442211055,
      "loss": 2.2247,
      "step": 42280
    },
    {
      "epoch": 0.21145,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002377537688442211,
      "loss": 2.2401,
      "step": 42290
    },
    {
      "epoch": 0.2115,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023773869346733665,
      "loss": 2.296,
      "step": 42300
    },
    {
      "epoch": 0.21155,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023772361809045226,
      "loss": 2.2349,
      "step": 42310
    },
    {
      "epoch": 0.2116,
      "grad_norm": 1.625,
      "learning_rate": 0.00023770854271356782,
      "loss": 2.2811,
      "step": 42320
    },
    {
      "epoch": 0.21165,
      "grad_norm": 1.75,
      "learning_rate": 0.00023769346733668338,
      "loss": 2.2899,
      "step": 42330
    },
    {
      "epoch": 0.2117,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000237678391959799,
      "loss": 2.2799,
      "step": 42340
    },
    {
      "epoch": 0.21175,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023766331658291455,
      "loss": 2.2761,
      "step": 42350
    },
    {
      "epoch": 0.2118,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002376482412060301,
      "loss": 2.3713,
      "step": 42360
    },
    {
      "epoch": 0.21185,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00023763316582914572,
      "loss": 2.2415,
      "step": 42370
    },
    {
      "epoch": 0.2119,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023761809045226128,
      "loss": 2.3156,
      "step": 42380
    },
    {
      "epoch": 0.21195,
      "grad_norm": 1.609375,
      "learning_rate": 0.00023760301507537687,
      "loss": 2.2436,
      "step": 42390
    },
    {
      "epoch": 0.212,
      "grad_norm": 1.546875,
      "learning_rate": 0.00023758793969849245,
      "loss": 2.3092,
      "step": 42400
    },
    {
      "epoch": 0.21205,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023757286432160801,
      "loss": 2.2718,
      "step": 42410
    },
    {
      "epoch": 0.2121,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002375577889447236,
      "loss": 2.2938,
      "step": 42420
    },
    {
      "epoch": 0.21215,
      "grad_norm": 1.75,
      "learning_rate": 0.00023754271356783916,
      "loss": 2.2912,
      "step": 42430
    },
    {
      "epoch": 0.2122,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023752763819095477,
      "loss": 2.2877,
      "step": 42440
    },
    {
      "epoch": 0.21225,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023751256281407033,
      "loss": 2.2951,
      "step": 42450
    },
    {
      "epoch": 0.2123,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002374974874371859,
      "loss": 2.3337,
      "step": 42460
    },
    {
      "epoch": 0.21235,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002374824120603015,
      "loss": 2.3171,
      "step": 42470
    },
    {
      "epoch": 0.2124,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00023746733668341706,
      "loss": 2.2306,
      "step": 42480
    },
    {
      "epoch": 0.21245,
      "grad_norm": 1.4375,
      "learning_rate": 0.00023745226130653262,
      "loss": 2.2613,
      "step": 42490
    },
    {
      "epoch": 0.2125,
      "grad_norm": 1.75,
      "learning_rate": 0.00023743718592964823,
      "loss": 2.2518,
      "step": 42500
    },
    {
      "epoch": 0.21255,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002374221105527638,
      "loss": 2.2108,
      "step": 42510
    },
    {
      "epoch": 0.2126,
      "grad_norm": 1.84375,
      "learning_rate": 0.00023740703517587938,
      "loss": 2.2839,
      "step": 42520
    },
    {
      "epoch": 0.21265,
      "grad_norm": 1.4375,
      "learning_rate": 0.00023739195979899497,
      "loss": 2.282,
      "step": 42530
    },
    {
      "epoch": 0.2127,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023737688442211052,
      "loss": 2.3211,
      "step": 42540
    },
    {
      "epoch": 0.21275,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002373618090452261,
      "loss": 2.2867,
      "step": 42550
    },
    {
      "epoch": 0.2128,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002373467336683417,
      "loss": 2.2482,
      "step": 42560
    },
    {
      "epoch": 0.21285,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023733165829145728,
      "loss": 2.2714,
      "step": 42570
    },
    {
      "epoch": 0.2129,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00023731658291457284,
      "loss": 2.3046,
      "step": 42580
    },
    {
      "epoch": 0.21295,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002373015075376884,
      "loss": 2.2686,
      "step": 42590
    },
    {
      "epoch": 0.213,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023728643216080401,
      "loss": 2.3028,
      "step": 42600
    },
    {
      "epoch": 0.21305,
      "grad_norm": 1.75,
      "learning_rate": 0.00023727135678391957,
      "loss": 2.2762,
      "step": 42610
    },
    {
      "epoch": 0.2131,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023725628140703513,
      "loss": 2.3195,
      "step": 42620
    },
    {
      "epoch": 0.21315,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023724120603015075,
      "loss": 2.2288,
      "step": 42630
    },
    {
      "epoch": 0.2132,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002372261306532663,
      "loss": 2.2969,
      "step": 42640
    },
    {
      "epoch": 0.21325,
      "grad_norm": 2.0625,
      "learning_rate": 0.0002372110552763819,
      "loss": 2.3209,
      "step": 42650
    },
    {
      "epoch": 0.2133,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023719597989949748,
      "loss": 2.2887,
      "step": 42660
    },
    {
      "epoch": 0.21335,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00023718090452261304,
      "loss": 2.2588,
      "step": 42670
    },
    {
      "epoch": 0.2134,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023716582914572862,
      "loss": 2.2617,
      "step": 42680
    },
    {
      "epoch": 0.21345,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002371507537688442,
      "loss": 2.2732,
      "step": 42690
    },
    {
      "epoch": 0.2135,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002371356783919598,
      "loss": 2.2703,
      "step": 42700
    },
    {
      "epoch": 0.21355,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023712060301507535,
      "loss": 2.2341,
      "step": 42710
    },
    {
      "epoch": 0.2136,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002371055276381909,
      "loss": 2.3142,
      "step": 42720
    },
    {
      "epoch": 0.21365,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023709045226130652,
      "loss": 2.268,
      "step": 42730
    },
    {
      "epoch": 0.2137,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023707537688442208,
      "loss": 2.2458,
      "step": 42740
    },
    {
      "epoch": 0.21375,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00023706030150753764,
      "loss": 2.2876,
      "step": 42750
    },
    {
      "epoch": 0.2138,
      "grad_norm": 1.59375,
      "learning_rate": 0.00023704522613065326,
      "loss": 2.2739,
      "step": 42760
    },
    {
      "epoch": 0.21385,
      "grad_norm": 1.625,
      "learning_rate": 0.00023703015075376882,
      "loss": 2.2404,
      "step": 42770
    },
    {
      "epoch": 0.2139,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002370150753768844,
      "loss": 2.2549,
      "step": 42780
    },
    {
      "epoch": 0.21395,
      "grad_norm": 1.5234375,
      "learning_rate": 0.000237,
      "loss": 2.2579,
      "step": 42790
    },
    {
      "epoch": 0.214,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023698492462311555,
      "loss": 2.2782,
      "step": 42800
    },
    {
      "epoch": 0.21405,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00023696984924623113,
      "loss": 2.2499,
      "step": 42810
    },
    {
      "epoch": 0.2141,
      "grad_norm": 1.90625,
      "learning_rate": 0.00023695477386934672,
      "loss": 2.3566,
      "step": 42820
    },
    {
      "epoch": 0.21415,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002369396984924623,
      "loss": 2.2694,
      "step": 42830
    },
    {
      "epoch": 0.2142,
      "grad_norm": 1.625,
      "learning_rate": 0.00023692462311557786,
      "loss": 2.2168,
      "step": 42840
    },
    {
      "epoch": 0.21425,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023690954773869345,
      "loss": 2.2536,
      "step": 42850
    },
    {
      "epoch": 0.2143,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023689447236180904,
      "loss": 2.2672,
      "step": 42860
    },
    {
      "epoch": 0.21435,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002368793969849246,
      "loss": 2.2236,
      "step": 42870
    },
    {
      "epoch": 0.2144,
      "grad_norm": 1.953125,
      "learning_rate": 0.00023686432160804015,
      "loss": 2.2896,
      "step": 42880
    },
    {
      "epoch": 0.21445,
      "grad_norm": 1.75,
      "learning_rate": 0.00023684924623115577,
      "loss": 2.2756,
      "step": 42890
    },
    {
      "epoch": 0.2145,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023683417085427133,
      "loss": 2.2845,
      "step": 42900
    },
    {
      "epoch": 0.21455,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002368190954773869,
      "loss": 2.2606,
      "step": 42910
    },
    {
      "epoch": 0.2146,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002368040201005025,
      "loss": 2.3029,
      "step": 42920
    },
    {
      "epoch": 0.21465,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023678894472361806,
      "loss": 2.2138,
      "step": 42930
    },
    {
      "epoch": 0.2147,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023677386934673364,
      "loss": 2.2453,
      "step": 42940
    },
    {
      "epoch": 0.21475,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023675879396984923,
      "loss": 2.3091,
      "step": 42950
    },
    {
      "epoch": 0.2148,
      "grad_norm": 1.828125,
      "learning_rate": 0.00023674371859296482,
      "loss": 2.2661,
      "step": 42960
    },
    {
      "epoch": 0.21485,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023672864321608037,
      "loss": 2.3005,
      "step": 42970
    },
    {
      "epoch": 0.2149,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00023671356783919596,
      "loss": 2.2386,
      "step": 42980
    },
    {
      "epoch": 0.21495,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023669849246231155,
      "loss": 2.2697,
      "step": 42990
    },
    {
      "epoch": 0.215,
      "grad_norm": 1.75,
      "learning_rate": 0.0002366834170854271,
      "loss": 2.2691,
      "step": 43000
    },
    {
      "epoch": 0.21505,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023666834170854272,
      "loss": 2.2918,
      "step": 43010
    },
    {
      "epoch": 0.2151,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023665326633165828,
      "loss": 2.2742,
      "step": 43020
    },
    {
      "epoch": 0.21515,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00023663819095477384,
      "loss": 2.2363,
      "step": 43030
    },
    {
      "epoch": 0.2152,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00023662311557788942,
      "loss": 2.2397,
      "step": 43040
    },
    {
      "epoch": 0.21525,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000236608040201005,
      "loss": 2.2988,
      "step": 43050
    },
    {
      "epoch": 0.2153,
      "grad_norm": 1.953125,
      "learning_rate": 0.00023659296482412057,
      "loss": 2.2063,
      "step": 43060
    },
    {
      "epoch": 0.21535,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00023657788944723615,
      "loss": 2.3005,
      "step": 43070
    },
    {
      "epoch": 0.2154,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00023656281407035174,
      "loss": 2.2833,
      "step": 43080
    },
    {
      "epoch": 0.21545,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023654773869346733,
      "loss": 2.1789,
      "step": 43090
    },
    {
      "epoch": 0.2155,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023653266331658289,
      "loss": 2.187,
      "step": 43100
    },
    {
      "epoch": 0.21555,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023651758793969847,
      "loss": 2.2755,
      "step": 43110
    },
    {
      "epoch": 0.2156,
      "grad_norm": 1.828125,
      "learning_rate": 0.00023650251256281406,
      "loss": 2.3167,
      "step": 43120
    },
    {
      "epoch": 0.21565,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00023648743718592962,
      "loss": 2.2307,
      "step": 43130
    },
    {
      "epoch": 0.2157,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00023647236180904523,
      "loss": 2.2956,
      "step": 43140
    },
    {
      "epoch": 0.21575,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002364572864321608,
      "loss": 2.2806,
      "step": 43150
    },
    {
      "epoch": 0.2158,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023644221105527635,
      "loss": 2.285,
      "step": 43160
    },
    {
      "epoch": 0.21585,
      "grad_norm": 1.75,
      "learning_rate": 0.00023642713567839196,
      "loss": 2.2549,
      "step": 43170
    },
    {
      "epoch": 0.2159,
      "grad_norm": 1.96875,
      "learning_rate": 0.00023641206030150752,
      "loss": 2.2917,
      "step": 43180
    },
    {
      "epoch": 0.21595,
      "grad_norm": 1.75,
      "learning_rate": 0.00023639698492462308,
      "loss": 2.2211,
      "step": 43190
    },
    {
      "epoch": 0.216,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023638190954773867,
      "loss": 2.2548,
      "step": 43200
    },
    {
      "epoch": 0.21605,
      "grad_norm": 1.921875,
      "learning_rate": 0.00023636683417085425,
      "loss": 2.2617,
      "step": 43210
    },
    {
      "epoch": 0.2161,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023635175879396984,
      "loss": 2.325,
      "step": 43220
    },
    {
      "epoch": 0.21615,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002363366834170854,
      "loss": 2.2217,
      "step": 43230
    },
    {
      "epoch": 0.2162,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023632160804020098,
      "loss": 2.2349,
      "step": 43240
    },
    {
      "epoch": 0.21625,
      "grad_norm": 1.4375,
      "learning_rate": 0.00023630653266331657,
      "loss": 2.2936,
      "step": 43250
    },
    {
      "epoch": 0.2163,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023629145728643213,
      "loss": 2.3119,
      "step": 43260
    },
    {
      "epoch": 0.21635,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023627638190954774,
      "loss": 2.2715,
      "step": 43270
    },
    {
      "epoch": 0.2164,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002362613065326633,
      "loss": 2.2745,
      "step": 43280
    },
    {
      "epoch": 0.21645,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023624623115577886,
      "loss": 2.2585,
      "step": 43290
    },
    {
      "epoch": 0.2165,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023623115577889447,
      "loss": 2.2549,
      "step": 43300
    },
    {
      "epoch": 0.21655,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023621608040201003,
      "loss": 2.3207,
      "step": 43310
    },
    {
      "epoch": 0.2166,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002362010050251256,
      "loss": 2.2488,
      "step": 43320
    },
    {
      "epoch": 0.21665,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002361859296482412,
      "loss": 2.2818,
      "step": 43330
    },
    {
      "epoch": 0.2167,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023617085427135676,
      "loss": 2.3479,
      "step": 43340
    },
    {
      "epoch": 0.21675,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00023615577889447235,
      "loss": 2.3356,
      "step": 43350
    },
    {
      "epoch": 0.2168,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002361407035175879,
      "loss": 2.2428,
      "step": 43360
    },
    {
      "epoch": 0.21685,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002361256281407035,
      "loss": 2.2669,
      "step": 43370
    },
    {
      "epoch": 0.2169,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023611055276381908,
      "loss": 2.2537,
      "step": 43380
    },
    {
      "epoch": 0.21695,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023609547738693464,
      "loss": 2.2873,
      "step": 43390
    },
    {
      "epoch": 0.217,
      "grad_norm": 1.75,
      "learning_rate": 0.00023608040201005025,
      "loss": 2.2851,
      "step": 43400
    },
    {
      "epoch": 0.21705,
      "grad_norm": 1.625,
      "learning_rate": 0.0002360653266331658,
      "loss": 2.2706,
      "step": 43410
    },
    {
      "epoch": 0.2171,
      "grad_norm": 1.75,
      "learning_rate": 0.00023605025125628137,
      "loss": 2.2885,
      "step": 43420
    },
    {
      "epoch": 0.21715,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023603517587939698,
      "loss": 2.3068,
      "step": 43430
    },
    {
      "epoch": 0.2172,
      "grad_norm": 1.578125,
      "learning_rate": 0.00023602010050251254,
      "loss": 2.2981,
      "step": 43440
    },
    {
      "epoch": 0.21725,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002360050251256281,
      "loss": 2.2568,
      "step": 43450
    },
    {
      "epoch": 0.2173,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023598994974874371,
      "loss": 2.2713,
      "step": 43460
    },
    {
      "epoch": 0.21735,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023597487437185927,
      "loss": 2.2263,
      "step": 43470
    },
    {
      "epoch": 0.2174,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00023595979899497486,
      "loss": 2.2284,
      "step": 43480
    },
    {
      "epoch": 0.21745,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023594472361809045,
      "loss": 2.2354,
      "step": 43490
    },
    {
      "epoch": 0.2175,
      "grad_norm": 1.6875,
      "learning_rate": 0.000235929648241206,
      "loss": 2.2489,
      "step": 43500
    },
    {
      "epoch": 0.21755,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002359145728643216,
      "loss": 2.2919,
      "step": 43510
    },
    {
      "epoch": 0.2176,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023589949748743715,
      "loss": 2.2972,
      "step": 43520
    },
    {
      "epoch": 0.21765,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023588442211055276,
      "loss": 2.2212,
      "step": 43530
    },
    {
      "epoch": 0.2177,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023586934673366832,
      "loss": 2.2636,
      "step": 43540
    },
    {
      "epoch": 0.21775,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023585427135678388,
      "loss": 2.2865,
      "step": 43550
    },
    {
      "epoch": 0.2178,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002358391959798995,
      "loss": 2.3027,
      "step": 43560
    },
    {
      "epoch": 0.21785,
      "grad_norm": 1.515625,
      "learning_rate": 0.00023582412060301505,
      "loss": 2.2757,
      "step": 43570
    },
    {
      "epoch": 0.2179,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002358090452261306,
      "loss": 2.2868,
      "step": 43580
    },
    {
      "epoch": 0.21795,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023579396984924623,
      "loss": 2.3182,
      "step": 43590
    },
    {
      "epoch": 0.218,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00023577889447236178,
      "loss": 2.2259,
      "step": 43600
    },
    {
      "epoch": 0.21805,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023576381909547737,
      "loss": 2.3067,
      "step": 43610
    },
    {
      "epoch": 0.2181,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00023574874371859296,
      "loss": 2.2419,
      "step": 43620
    },
    {
      "epoch": 0.21815,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023573366834170852,
      "loss": 2.2802,
      "step": 43630
    },
    {
      "epoch": 0.2182,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002357185929648241,
      "loss": 2.2221,
      "step": 43640
    },
    {
      "epoch": 0.21825,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002357035175879397,
      "loss": 2.3236,
      "step": 43650
    },
    {
      "epoch": 0.2183,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023568844221105527,
      "loss": 2.2643,
      "step": 43660
    },
    {
      "epoch": 0.21835,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023567336683417083,
      "loss": 2.3312,
      "step": 43670
    },
    {
      "epoch": 0.2184,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002356582914572864,
      "loss": 2.2212,
      "step": 43680
    },
    {
      "epoch": 0.21845,
      "grad_norm": 1.84375,
      "learning_rate": 0.000235643216080402,
      "loss": 2.3154,
      "step": 43690
    },
    {
      "epoch": 0.2185,
      "grad_norm": 1.875,
      "learning_rate": 0.00023562814070351756,
      "loss": 2.2601,
      "step": 43700
    },
    {
      "epoch": 0.21855,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023561306532663312,
      "loss": 2.2706,
      "step": 43710
    },
    {
      "epoch": 0.2186,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023559798994974874,
      "loss": 2.2449,
      "step": 43720
    },
    {
      "epoch": 0.21865,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002355829145728643,
      "loss": 2.2628,
      "step": 43730
    },
    {
      "epoch": 0.2187,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023556783919597988,
      "loss": 2.2491,
      "step": 43740
    },
    {
      "epoch": 0.21875,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023555276381909547,
      "loss": 2.2838,
      "step": 43750
    },
    {
      "epoch": 0.2188,
      "grad_norm": 1.578125,
      "learning_rate": 0.00023553768844221103,
      "loss": 2.3366,
      "step": 43760
    },
    {
      "epoch": 0.21885,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002355226130653266,
      "loss": 2.2552,
      "step": 43770
    },
    {
      "epoch": 0.2189,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002355075376884422,
      "loss": 2.2532,
      "step": 43780
    },
    {
      "epoch": 0.21895,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023549246231155778,
      "loss": 2.2601,
      "step": 43790
    },
    {
      "epoch": 0.219,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023547738693467334,
      "loss": 2.2802,
      "step": 43800
    },
    {
      "epoch": 0.21905,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002354623115577889,
      "loss": 2.2289,
      "step": 43810
    },
    {
      "epoch": 0.2191,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023544723618090452,
      "loss": 2.311,
      "step": 43820
    },
    {
      "epoch": 0.21915,
      "grad_norm": 1.84375,
      "learning_rate": 0.00023543216080402007,
      "loss": 2.2307,
      "step": 43830
    },
    {
      "epoch": 0.2192,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023541708542713563,
      "loss": 2.3128,
      "step": 43840
    },
    {
      "epoch": 0.21925,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023540201005025125,
      "loss": 2.2436,
      "step": 43850
    },
    {
      "epoch": 0.2193,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002353869346733668,
      "loss": 2.2728,
      "step": 43860
    },
    {
      "epoch": 0.21935,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002353718592964824,
      "loss": 2.2857,
      "step": 43870
    },
    {
      "epoch": 0.2194,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023535678391959798,
      "loss": 2.2781,
      "step": 43880
    },
    {
      "epoch": 0.21945,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00023534170854271354,
      "loss": 2.2755,
      "step": 43890
    },
    {
      "epoch": 0.2195,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023532663316582912,
      "loss": 2.297,
      "step": 43900
    },
    {
      "epoch": 0.21955,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002353115577889447,
      "loss": 2.2668,
      "step": 43910
    },
    {
      "epoch": 0.2196,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002352964824120603,
      "loss": 2.2585,
      "step": 43920
    },
    {
      "epoch": 0.21965,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00023528140703517585,
      "loss": 2.3075,
      "step": 43930
    },
    {
      "epoch": 0.2197,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023526633165829144,
      "loss": 2.2627,
      "step": 43940
    },
    {
      "epoch": 0.21975,
      "grad_norm": 1.4609375,
      "learning_rate": 0.00023525125628140703,
      "loss": 2.296,
      "step": 43950
    },
    {
      "epoch": 0.2198,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023523618090452259,
      "loss": 2.235,
      "step": 43960
    },
    {
      "epoch": 0.21985,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00023522110552763814,
      "loss": 2.2395,
      "step": 43970
    },
    {
      "epoch": 0.2199,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023520603015075376,
      "loss": 2.2178,
      "step": 43980
    },
    {
      "epoch": 0.21995,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00023519095477386932,
      "loss": 2.3024,
      "step": 43990
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002351758793969849,
      "loss": 2.241,
      "step": 44000
    },
    {
      "epoch": 0.22,
      "eval_loss": 2.2530243396759033,
      "eval_runtime": 90.1728,
      "eval_samples_per_second": 27.725,
      "eval_steps_per_second": 0.444,
      "step": 44000
    },
    {
      "epoch": 0.22005,
      "grad_norm": 1.75,
      "learning_rate": 0.0002351608040201005,
      "loss": 2.2621,
      "step": 44010
    },
    {
      "epoch": 0.2201,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023514572864321605,
      "loss": 2.2779,
      "step": 44020
    },
    {
      "epoch": 0.22015,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023513065326633163,
      "loss": 2.2835,
      "step": 44030
    },
    {
      "epoch": 0.2202,
      "grad_norm": 1.75,
      "learning_rate": 0.00023511557788944722,
      "loss": 2.2363,
      "step": 44040
    },
    {
      "epoch": 0.22025,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002351005025125628,
      "loss": 2.2714,
      "step": 44050
    },
    {
      "epoch": 0.2203,
      "grad_norm": 1.875,
      "learning_rate": 0.00023508542713567837,
      "loss": 2.2027,
      "step": 44060
    },
    {
      "epoch": 0.22035,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023507035175879395,
      "loss": 2.2726,
      "step": 44070
    },
    {
      "epoch": 0.2204,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023505527638190954,
      "loss": 2.2025,
      "step": 44080
    },
    {
      "epoch": 0.22045,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002350402010050251,
      "loss": 2.2979,
      "step": 44090
    },
    {
      "epoch": 0.2205,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002350251256281407,
      "loss": 2.2798,
      "step": 44100
    },
    {
      "epoch": 0.22055,
      "grad_norm": 1.578125,
      "learning_rate": 0.00023501005025125627,
      "loss": 2.3107,
      "step": 44110
    },
    {
      "epoch": 0.2206,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00023499497487437183,
      "loss": 2.2185,
      "step": 44120
    },
    {
      "epoch": 0.22065,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023497989949748741,
      "loss": 2.2293,
      "step": 44130
    },
    {
      "epoch": 0.2207,
      "grad_norm": 1.796875,
      "learning_rate": 0.000234964824120603,
      "loss": 2.2609,
      "step": 44140
    },
    {
      "epoch": 0.22075,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023494974874371856,
      "loss": 2.2345,
      "step": 44150
    },
    {
      "epoch": 0.2208,
      "grad_norm": 1.59375,
      "learning_rate": 0.00023493467336683415,
      "loss": 2.2924,
      "step": 44160
    },
    {
      "epoch": 0.22085,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023491959798994973,
      "loss": 2.2319,
      "step": 44170
    },
    {
      "epoch": 0.2209,
      "grad_norm": 1.625,
      "learning_rate": 0.00023490452261306532,
      "loss": 2.2869,
      "step": 44180
    },
    {
      "epoch": 0.22095,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00023488944723618088,
      "loss": 2.2994,
      "step": 44190
    },
    {
      "epoch": 0.221,
      "grad_norm": 1.75,
      "learning_rate": 0.00023487437185929646,
      "loss": 2.2971,
      "step": 44200
    },
    {
      "epoch": 0.22105,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023485929648241205,
      "loss": 2.251,
      "step": 44210
    },
    {
      "epoch": 0.2211,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002348442211055276,
      "loss": 2.337,
      "step": 44220
    },
    {
      "epoch": 0.22115,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00023482914572864322,
      "loss": 2.2403,
      "step": 44230
    },
    {
      "epoch": 0.2212,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023481407035175878,
      "loss": 2.2463,
      "step": 44240
    },
    {
      "epoch": 0.22125,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023479899497487434,
      "loss": 2.2627,
      "step": 44250
    },
    {
      "epoch": 0.2213,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023478391959798995,
      "loss": 2.2812,
      "step": 44260
    },
    {
      "epoch": 0.22135,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002347688442211055,
      "loss": 2.2497,
      "step": 44270
    },
    {
      "epoch": 0.2214,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00023475376884422107,
      "loss": 2.253,
      "step": 44280
    },
    {
      "epoch": 0.22145,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023473869346733666,
      "loss": 2.2628,
      "step": 44290
    },
    {
      "epoch": 0.2215,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023472361809045224,
      "loss": 2.3415,
      "step": 44300
    },
    {
      "epoch": 0.22155,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023470854271356783,
      "loss": 2.2714,
      "step": 44310
    },
    {
      "epoch": 0.2216,
      "grad_norm": 1.875,
      "learning_rate": 0.0002346934673366834,
      "loss": 2.2651,
      "step": 44320
    },
    {
      "epoch": 0.22165,
      "grad_norm": 1.609375,
      "learning_rate": 0.00023467839195979897,
      "loss": 2.2723,
      "step": 44330
    },
    {
      "epoch": 0.2217,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00023466331658291456,
      "loss": 2.2779,
      "step": 44340
    },
    {
      "epoch": 0.22175,
      "grad_norm": 1.625,
      "learning_rate": 0.00023464824120603012,
      "loss": 2.2997,
      "step": 44350
    },
    {
      "epoch": 0.2218,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023463316582914573,
      "loss": 2.244,
      "step": 44360
    },
    {
      "epoch": 0.22185,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002346180904522613,
      "loss": 2.2804,
      "step": 44370
    },
    {
      "epoch": 0.2219,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023460301507537685,
      "loss": 2.1878,
      "step": 44380
    },
    {
      "epoch": 0.22195,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023458793969849246,
      "loss": 2.2555,
      "step": 44390
    },
    {
      "epoch": 0.222,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023457286432160802,
      "loss": 2.254,
      "step": 44400
    },
    {
      "epoch": 0.22205,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023455778894472358,
      "loss": 2.2886,
      "step": 44410
    },
    {
      "epoch": 0.2221,
      "grad_norm": 2.09375,
      "learning_rate": 0.0002345427135678392,
      "loss": 2.2554,
      "step": 44420
    },
    {
      "epoch": 0.22215,
      "grad_norm": 1.578125,
      "learning_rate": 0.00023452763819095475,
      "loss": 2.3099,
      "step": 44430
    },
    {
      "epoch": 0.2222,
      "grad_norm": 1.921875,
      "learning_rate": 0.00023451256281407034,
      "loss": 2.2317,
      "step": 44440
    },
    {
      "epoch": 0.22225,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002344974874371859,
      "loss": 2.2509,
      "step": 44450
    },
    {
      "epoch": 0.2223,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023448241206030148,
      "loss": 2.2128,
      "step": 44460
    },
    {
      "epoch": 0.22235,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00023446733668341707,
      "loss": 2.3323,
      "step": 44470
    },
    {
      "epoch": 0.2224,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00023445226130653263,
      "loss": 2.286,
      "step": 44480
    },
    {
      "epoch": 0.22245,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023443718592964824,
      "loss": 2.2404,
      "step": 44490
    },
    {
      "epoch": 0.2225,
      "grad_norm": 1.625,
      "learning_rate": 0.0002344221105527638,
      "loss": 2.2524,
      "step": 44500
    },
    {
      "epoch": 0.22255,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023440703517587936,
      "loss": 2.2261,
      "step": 44510
    },
    {
      "epoch": 0.2226,
      "grad_norm": 1.84375,
      "learning_rate": 0.00023439195979899497,
      "loss": 2.2318,
      "step": 44520
    },
    {
      "epoch": 0.22265,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023437688442211053,
      "loss": 2.2725,
      "step": 44530
    },
    {
      "epoch": 0.2227,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002343618090452261,
      "loss": 2.2742,
      "step": 44540
    },
    {
      "epoch": 0.22275,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002343467336683417,
      "loss": 2.2651,
      "step": 44550
    },
    {
      "epoch": 0.2228,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023433165829145726,
      "loss": 2.2513,
      "step": 44560
    },
    {
      "epoch": 0.22285,
      "grad_norm": 1.546875,
      "learning_rate": 0.00023431658291457285,
      "loss": 2.1985,
      "step": 44570
    },
    {
      "epoch": 0.2229,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023430150753768844,
      "loss": 2.2426,
      "step": 44580
    },
    {
      "epoch": 0.22295,
      "grad_norm": 1.6171875,
      "learning_rate": 0.000234286432160804,
      "loss": 2.2282,
      "step": 44590
    },
    {
      "epoch": 0.223,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023427135678391958,
      "loss": 2.2981,
      "step": 44600
    },
    {
      "epoch": 0.22305,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023425628140703514,
      "loss": 2.2702,
      "step": 44610
    },
    {
      "epoch": 0.2231,
      "grad_norm": 1.75,
      "learning_rate": 0.00023424120603015075,
      "loss": 2.2355,
      "step": 44620
    },
    {
      "epoch": 0.22315,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002342261306532663,
      "loss": 2.2564,
      "step": 44630
    },
    {
      "epoch": 0.2232,
      "grad_norm": 1.609375,
      "learning_rate": 0.00023421105527638187,
      "loss": 2.2173,
      "step": 44640
    },
    {
      "epoch": 0.22325,
      "grad_norm": 1.953125,
      "learning_rate": 0.00023419597989949748,
      "loss": 2.255,
      "step": 44650
    },
    {
      "epoch": 0.2233,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023418090452261304,
      "loss": 2.2902,
      "step": 44660
    },
    {
      "epoch": 0.22335,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002341658291457286,
      "loss": 2.2489,
      "step": 44670
    },
    {
      "epoch": 0.2234,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023415075376884422,
      "loss": 2.2965,
      "step": 44680
    },
    {
      "epoch": 0.22345,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023413567839195978,
      "loss": 2.2031,
      "step": 44690
    },
    {
      "epoch": 0.2235,
      "grad_norm": 1.75,
      "learning_rate": 0.00023412060301507533,
      "loss": 2.3175,
      "step": 44700
    },
    {
      "epoch": 0.22355,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023410552763819095,
      "loss": 2.2579,
      "step": 44710
    },
    {
      "epoch": 0.2236,
      "grad_norm": 1.53125,
      "learning_rate": 0.0002340904522613065,
      "loss": 2.2917,
      "step": 44720
    },
    {
      "epoch": 0.22365,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002340753768844221,
      "loss": 2.2694,
      "step": 44730
    },
    {
      "epoch": 0.2237,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023406030150753768,
      "loss": 2.2413,
      "step": 44740
    },
    {
      "epoch": 0.22375,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00023404522613065326,
      "loss": 2.2378,
      "step": 44750
    },
    {
      "epoch": 0.2238,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023403015075376882,
      "loss": 2.2692,
      "step": 44760
    },
    {
      "epoch": 0.22385,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023401507537688438,
      "loss": 2.2441,
      "step": 44770
    },
    {
      "epoch": 0.2239,
      "grad_norm": 1.71875,
      "learning_rate": 0.000234,
      "loss": 2.2228,
      "step": 44780
    },
    {
      "epoch": 0.22395,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023398492462311555,
      "loss": 2.2654,
      "step": 44790
    },
    {
      "epoch": 0.224,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00023396984924623111,
      "loss": 2.2742,
      "step": 44800
    },
    {
      "epoch": 0.22405,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00023395477386934673,
      "loss": 2.2424,
      "step": 44810
    },
    {
      "epoch": 0.2241,
      "grad_norm": 1.59375,
      "learning_rate": 0.00023393969849246229,
      "loss": 2.2907,
      "step": 44820
    },
    {
      "epoch": 0.22415,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023392462311557784,
      "loss": 2.2893,
      "step": 44830
    },
    {
      "epoch": 0.2242,
      "grad_norm": 1.828125,
      "learning_rate": 0.00023390954773869346,
      "loss": 2.2962,
      "step": 44840
    },
    {
      "epoch": 0.22425,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023389447236180902,
      "loss": 2.2588,
      "step": 44850
    },
    {
      "epoch": 0.2243,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002338793969849246,
      "loss": 2.2455,
      "step": 44860
    },
    {
      "epoch": 0.22435,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002338643216080402,
      "loss": 2.2829,
      "step": 44870
    },
    {
      "epoch": 0.2244,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023384924623115578,
      "loss": 2.3019,
      "step": 44880
    },
    {
      "epoch": 0.22445,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023383417085427133,
      "loss": 2.2708,
      "step": 44890
    },
    {
      "epoch": 0.2245,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023381909547738692,
      "loss": 2.219,
      "step": 44900
    },
    {
      "epoch": 0.22455,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002338040201005025,
      "loss": 2.2972,
      "step": 44910
    },
    {
      "epoch": 0.2246,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023378894472361807,
      "loss": 2.2701,
      "step": 44920
    },
    {
      "epoch": 0.22465,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023377386934673362,
      "loss": 2.2359,
      "step": 44930
    },
    {
      "epoch": 0.2247,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023375879396984924,
      "loss": 2.2685,
      "step": 44940
    },
    {
      "epoch": 0.22475,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002337437185929648,
      "loss": 2.2752,
      "step": 44950
    },
    {
      "epoch": 0.2248,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00023372864321608036,
      "loss": 2.275,
      "step": 44960
    },
    {
      "epoch": 0.22485,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023371356783919597,
      "loss": 2.2772,
      "step": 44970
    },
    {
      "epoch": 0.2249,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023369849246231153,
      "loss": 2.2855,
      "step": 44980
    },
    {
      "epoch": 0.22495,
      "grad_norm": 1.375,
      "learning_rate": 0.00023368341708542711,
      "loss": 2.3034,
      "step": 44990
    },
    {
      "epoch": 0.225,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002336683417085427,
      "loss": 2.3045,
      "step": 45000
    },
    {
      "epoch": 0.22505,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023365326633165829,
      "loss": 2.3135,
      "step": 45010
    },
    {
      "epoch": 0.2251,
      "grad_norm": 2.046875,
      "learning_rate": 0.00023363819095477385,
      "loss": 2.2511,
      "step": 45020
    },
    {
      "epoch": 0.22515,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00023362311557788943,
      "loss": 2.2867,
      "step": 45030
    },
    {
      "epoch": 0.2252,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023360804020100502,
      "loss": 2.2434,
      "step": 45040
    },
    {
      "epoch": 0.22525,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023359296482412058,
      "loss": 2.3045,
      "step": 45050
    },
    {
      "epoch": 0.2253,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00023357788944723614,
      "loss": 2.2625,
      "step": 45060
    },
    {
      "epoch": 0.22535,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023356281407035175,
      "loss": 2.2964,
      "step": 45070
    },
    {
      "epoch": 0.2254,
      "grad_norm": 2.09375,
      "learning_rate": 0.0002335477386934673,
      "loss": 2.292,
      "step": 45080
    },
    {
      "epoch": 0.22545,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023353266331658287,
      "loss": 2.2336,
      "step": 45090
    },
    {
      "epoch": 0.2255,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023351758793969848,
      "loss": 2.2477,
      "step": 45100
    },
    {
      "epoch": 0.22555,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023350251256281404,
      "loss": 2.2715,
      "step": 45110
    },
    {
      "epoch": 0.2256,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00023348743718592963,
      "loss": 2.2154,
      "step": 45120
    },
    {
      "epoch": 0.22565,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002334723618090452,
      "loss": 2.2998,
      "step": 45130
    },
    {
      "epoch": 0.2257,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002334572864321608,
      "loss": 2.2371,
      "step": 45140
    },
    {
      "epoch": 0.22575,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023344221105527636,
      "loss": 2.3047,
      "step": 45150
    },
    {
      "epoch": 0.2258,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023342713567839194,
      "loss": 2.2638,
      "step": 45160
    },
    {
      "epoch": 0.22585,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023341206030150753,
      "loss": 2.2369,
      "step": 45170
    },
    {
      "epoch": 0.2259,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002333969849246231,
      "loss": 2.3057,
      "step": 45180
    },
    {
      "epoch": 0.22595,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002333819095477387,
      "loss": 2.2582,
      "step": 45190
    },
    {
      "epoch": 0.226,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023336683417085426,
      "loss": 2.1904,
      "step": 45200
    },
    {
      "epoch": 0.22605,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023335175879396982,
      "loss": 2.2584,
      "step": 45210
    },
    {
      "epoch": 0.2261,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023333668341708538,
      "loss": 2.2878,
      "step": 45220
    },
    {
      "epoch": 0.22615,
      "grad_norm": 1.8828125,
      "learning_rate": 0.000233321608040201,
      "loss": 2.2652,
      "step": 45230
    },
    {
      "epoch": 0.2262,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023330653266331655,
      "loss": 2.2163,
      "step": 45240
    },
    {
      "epoch": 0.22625,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023329145728643214,
      "loss": 2.2496,
      "step": 45250
    },
    {
      "epoch": 0.2263,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023327638190954772,
      "loss": 2.248,
      "step": 45260
    },
    {
      "epoch": 0.22635,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023326130653266328,
      "loss": 2.2914,
      "step": 45270
    },
    {
      "epoch": 0.2264,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023324623115577887,
      "loss": 2.1925,
      "step": 45280
    },
    {
      "epoch": 0.22645,
      "grad_norm": 1.75,
      "learning_rate": 0.00023323115577889445,
      "loss": 2.2529,
      "step": 45290
    },
    {
      "epoch": 0.2265,
      "grad_norm": 2.015625,
      "learning_rate": 0.00023321608040201004,
      "loss": 2.2171,
      "step": 45300
    },
    {
      "epoch": 0.22655,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002332010050251256,
      "loss": 2.2051,
      "step": 45310
    },
    {
      "epoch": 0.2266,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002331859296482412,
      "loss": 2.2718,
      "step": 45320
    },
    {
      "epoch": 0.22665,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00023317085427135677,
      "loss": 2.2185,
      "step": 45330
    },
    {
      "epoch": 0.2267,
      "grad_norm": 1.75,
      "learning_rate": 0.00023315577889447233,
      "loss": 2.2988,
      "step": 45340
    },
    {
      "epoch": 0.22675,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023314070351758794,
      "loss": 2.294,
      "step": 45350
    },
    {
      "epoch": 0.2268,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002331256281407035,
      "loss": 2.25,
      "step": 45360
    },
    {
      "epoch": 0.22685,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023311055276381906,
      "loss": 2.2773,
      "step": 45370
    },
    {
      "epoch": 0.2269,
      "grad_norm": 1.75,
      "learning_rate": 0.00023309547738693465,
      "loss": 2.2579,
      "step": 45380
    },
    {
      "epoch": 0.22695,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023308040201005023,
      "loss": 2.2287,
      "step": 45390
    },
    {
      "epoch": 0.227,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002330653266331658,
      "loss": 2.2736,
      "step": 45400
    },
    {
      "epoch": 0.22705,
      "grad_norm": 1.8125,
      "learning_rate": 0.00023305025125628138,
      "loss": 2.2596,
      "step": 45410
    },
    {
      "epoch": 0.2271,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023303517587939696,
      "loss": 2.2768,
      "step": 45420
    },
    {
      "epoch": 0.22715,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023302010050251255,
      "loss": 2.2458,
      "step": 45430
    },
    {
      "epoch": 0.2272,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002330050251256281,
      "loss": 2.248,
      "step": 45440
    },
    {
      "epoch": 0.22725,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00023298994974874372,
      "loss": 2.2256,
      "step": 45450
    },
    {
      "epoch": 0.2273,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023297487437185928,
      "loss": 2.262,
      "step": 45460
    },
    {
      "epoch": 0.22735,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023295979899497484,
      "loss": 2.2201,
      "step": 45470
    },
    {
      "epoch": 0.2274,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023294472361809045,
      "loss": 2.2588,
      "step": 45480
    },
    {
      "epoch": 0.22745,
      "grad_norm": 1.65625,
      "learning_rate": 0.000232929648241206,
      "loss": 2.2549,
      "step": 45490
    },
    {
      "epoch": 0.2275,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023291457286432157,
      "loss": 2.2309,
      "step": 45500
    },
    {
      "epoch": 0.22755,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00023289949748743719,
      "loss": 2.2293,
      "step": 45510
    },
    {
      "epoch": 0.2276,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023288442211055274,
      "loss": 2.2418,
      "step": 45520
    },
    {
      "epoch": 0.22765,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002328693467336683,
      "loss": 2.2902,
      "step": 45530
    },
    {
      "epoch": 0.2277,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002328542713567839,
      "loss": 2.2602,
      "step": 45540
    },
    {
      "epoch": 0.22775,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023283919597989948,
      "loss": 2.2737,
      "step": 45550
    },
    {
      "epoch": 0.2278,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023282412060301506,
      "loss": 2.2648,
      "step": 45560
    },
    {
      "epoch": 0.22785,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023280904522613062,
      "loss": 2.2773,
      "step": 45570
    },
    {
      "epoch": 0.2279,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023279396984924623,
      "loss": 2.2848,
      "step": 45580
    },
    {
      "epoch": 0.22795,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002327788944723618,
      "loss": 2.2344,
      "step": 45590
    },
    {
      "epoch": 0.228,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023276381909547735,
      "loss": 2.3023,
      "step": 45600
    },
    {
      "epoch": 0.22805,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00023274874371859296,
      "loss": 2.2449,
      "step": 45610
    },
    {
      "epoch": 0.2281,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023273366834170852,
      "loss": 2.2242,
      "step": 45620
    },
    {
      "epoch": 0.22815,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023271859296482408,
      "loss": 2.188,
      "step": 45630
    },
    {
      "epoch": 0.2282,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002327035175879397,
      "loss": 2.2367,
      "step": 45640
    },
    {
      "epoch": 0.22825,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023268844221105525,
      "loss": 2.2648,
      "step": 45650
    },
    {
      "epoch": 0.2283,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023267336683417081,
      "loss": 2.3225,
      "step": 45660
    },
    {
      "epoch": 0.22835,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00023265829145728643,
      "loss": 2.1886,
      "step": 45670
    },
    {
      "epoch": 0.2284,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023264321608040199,
      "loss": 2.2666,
      "step": 45680
    },
    {
      "epoch": 0.22845,
      "grad_norm": 1.75,
      "learning_rate": 0.00023262814070351757,
      "loss": 2.3118,
      "step": 45690
    },
    {
      "epoch": 0.2285,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023261306532663313,
      "loss": 2.2915,
      "step": 45700
    },
    {
      "epoch": 0.22855,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023259798994974872,
      "loss": 2.2393,
      "step": 45710
    },
    {
      "epoch": 0.2286,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002325829145728643,
      "loss": 2.2713,
      "step": 45720
    },
    {
      "epoch": 0.22865,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023256783919597986,
      "loss": 2.2137,
      "step": 45730
    },
    {
      "epoch": 0.2287,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023255276381909548,
      "loss": 2.2631,
      "step": 45740
    },
    {
      "epoch": 0.22875,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023253768844221103,
      "loss": 2.1689,
      "step": 45750
    },
    {
      "epoch": 0.2288,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002325226130653266,
      "loss": 2.2768,
      "step": 45760
    },
    {
      "epoch": 0.22885,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002325075376884422,
      "loss": 2.1816,
      "step": 45770
    },
    {
      "epoch": 0.2289,
      "grad_norm": 1.5625,
      "learning_rate": 0.00023249246231155777,
      "loss": 2.293,
      "step": 45780
    },
    {
      "epoch": 0.22895,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023247738693467332,
      "loss": 2.249,
      "step": 45790
    },
    {
      "epoch": 0.229,
      "grad_norm": 1.734375,
      "learning_rate": 0.00023246231155778894,
      "loss": 2.2549,
      "step": 45800
    },
    {
      "epoch": 0.22905,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002324472361809045,
      "loss": 2.2343,
      "step": 45810
    },
    {
      "epoch": 0.2291,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023243216080402008,
      "loss": 2.2697,
      "step": 45820
    },
    {
      "epoch": 0.22915,
      "grad_norm": 1.953125,
      "learning_rate": 0.00023241708542713567,
      "loss": 2.2162,
      "step": 45830
    },
    {
      "epoch": 0.2292,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023240201005025123,
      "loss": 2.3232,
      "step": 45840
    },
    {
      "epoch": 0.22925,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023238693467336681,
      "loss": 2.2309,
      "step": 45850
    },
    {
      "epoch": 0.2293,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023237185929648237,
      "loss": 2.2245,
      "step": 45860
    },
    {
      "epoch": 0.22935,
      "grad_norm": 1.90625,
      "learning_rate": 0.000232356783919598,
      "loss": 2.2511,
      "step": 45870
    },
    {
      "epoch": 0.2294,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023234170854271355,
      "loss": 2.3078,
      "step": 45880
    },
    {
      "epoch": 0.22945,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002323266331658291,
      "loss": 2.2996,
      "step": 45890
    },
    {
      "epoch": 0.2295,
      "grad_norm": 1.875,
      "learning_rate": 0.00023231155778894472,
      "loss": 2.2687,
      "step": 45900
    },
    {
      "epoch": 0.22955,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023229648241206028,
      "loss": 2.2253,
      "step": 45910
    },
    {
      "epoch": 0.2296,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023228140703517584,
      "loss": 2.3225,
      "step": 45920
    },
    {
      "epoch": 0.22965,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023226633165829145,
      "loss": 2.2456,
      "step": 45930
    },
    {
      "epoch": 0.2297,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000232251256281407,
      "loss": 2.252,
      "step": 45940
    },
    {
      "epoch": 0.22975,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002322361809045226,
      "loss": 2.2255,
      "step": 45950
    },
    {
      "epoch": 0.2298,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00023222110552763818,
      "loss": 2.2598,
      "step": 45960
    },
    {
      "epoch": 0.22985,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023220603015075374,
      "loss": 2.2538,
      "step": 45970
    },
    {
      "epoch": 0.2299,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023219095477386933,
      "loss": 2.2744,
      "step": 45980
    },
    {
      "epoch": 0.22995,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002321758793969849,
      "loss": 2.2452,
      "step": 45990
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002321608040201005,
      "loss": 2.2525,
      "step": 46000
    },
    {
      "epoch": 0.23,
      "eval_loss": 2.2345120906829834,
      "eval_runtime": 90.936,
      "eval_samples_per_second": 27.492,
      "eval_steps_per_second": 0.44,
      "step": 46000
    },
    {
      "epoch": 0.23005,
      "grad_norm": 1.875,
      "learning_rate": 0.00023214572864321606,
      "loss": 2.2184,
      "step": 46010
    },
    {
      "epoch": 0.2301,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023213065326633162,
      "loss": 2.2757,
      "step": 46020
    },
    {
      "epoch": 0.23015,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023211557788944723,
      "loss": 2.2249,
      "step": 46030
    },
    {
      "epoch": 0.2302,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002321005025125628,
      "loss": 2.2633,
      "step": 46040
    },
    {
      "epoch": 0.23025,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00023208542713567835,
      "loss": 2.2445,
      "step": 46050
    },
    {
      "epoch": 0.2303,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023207035175879396,
      "loss": 2.2434,
      "step": 46060
    },
    {
      "epoch": 0.23035,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00023205527638190952,
      "loss": 2.1872,
      "step": 46070
    },
    {
      "epoch": 0.2304,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002320402010050251,
      "loss": 2.2714,
      "step": 46080
    },
    {
      "epoch": 0.23045,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002320251256281407,
      "loss": 2.2214,
      "step": 46090
    },
    {
      "epoch": 0.2305,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023201005025125625,
      "loss": 2.2756,
      "step": 46100
    },
    {
      "epoch": 0.23055,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00023199497487437184,
      "loss": 2.2476,
      "step": 46110
    },
    {
      "epoch": 0.2306,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00023197989949748742,
      "loss": 2.2811,
      "step": 46120
    },
    {
      "epoch": 0.23065,
      "grad_norm": 1.6015625,
      "learning_rate": 0.000231964824120603,
      "loss": 2.2767,
      "step": 46130
    },
    {
      "epoch": 0.2307,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023194974874371857,
      "loss": 2.2888,
      "step": 46140
    },
    {
      "epoch": 0.23075,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023193467336683413,
      "loss": 2.1868,
      "step": 46150
    },
    {
      "epoch": 0.2308,
      "grad_norm": 1.828125,
      "learning_rate": 0.00023191959798994974,
      "loss": 2.2572,
      "step": 46160
    },
    {
      "epoch": 0.23085,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002319045226130653,
      "loss": 2.2511,
      "step": 46170
    },
    {
      "epoch": 0.2309,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023188944723618086,
      "loss": 2.268,
      "step": 46180
    },
    {
      "epoch": 0.23095,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023187437185929647,
      "loss": 2.2791,
      "step": 46190
    },
    {
      "epoch": 0.231,
      "grad_norm": 2.046875,
      "learning_rate": 0.00023185929648241203,
      "loss": 2.3286,
      "step": 46200
    },
    {
      "epoch": 0.23105,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023184422110552762,
      "loss": 2.1871,
      "step": 46210
    },
    {
      "epoch": 0.2311,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002318291457286432,
      "loss": 2.2383,
      "step": 46220
    },
    {
      "epoch": 0.23115,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00023181407035175876,
      "loss": 2.2703,
      "step": 46230
    },
    {
      "epoch": 0.2312,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023179899497487435,
      "loss": 2.2971,
      "step": 46240
    },
    {
      "epoch": 0.23125,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023178391959798993,
      "loss": 2.2297,
      "step": 46250
    },
    {
      "epoch": 0.2313,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023176884422110552,
      "loss": 2.2823,
      "step": 46260
    },
    {
      "epoch": 0.23135,
      "grad_norm": 1.6875,
      "learning_rate": 0.00023175376884422108,
      "loss": 2.2138,
      "step": 46270
    },
    {
      "epoch": 0.2314,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00023173869346733666,
      "loss": 2.2539,
      "step": 46280
    },
    {
      "epoch": 0.23145,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023172361809045225,
      "loss": 2.2115,
      "step": 46290
    },
    {
      "epoch": 0.2315,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002317085427135678,
      "loss": 2.2219,
      "step": 46300
    },
    {
      "epoch": 0.23155,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00023169346733668337,
      "loss": 2.2638,
      "step": 46310
    },
    {
      "epoch": 0.2316,
      "grad_norm": 1.59375,
      "learning_rate": 0.00023167839195979898,
      "loss": 2.2581,
      "step": 46320
    },
    {
      "epoch": 0.23165,
      "grad_norm": 1.84375,
      "learning_rate": 0.00023166331658291454,
      "loss": 2.1709,
      "step": 46330
    },
    {
      "epoch": 0.2317,
      "grad_norm": 1.75,
      "learning_rate": 0.00023164824120603013,
      "loss": 2.2702,
      "step": 46340
    },
    {
      "epoch": 0.23175,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002316331658291457,
      "loss": 2.2461,
      "step": 46350
    },
    {
      "epoch": 0.2318,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023161809045226127,
      "loss": 2.2182,
      "step": 46360
    },
    {
      "epoch": 0.23185,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023160301507537686,
      "loss": 2.2301,
      "step": 46370
    },
    {
      "epoch": 0.2319,
      "grad_norm": 1.625,
      "learning_rate": 0.00023158793969849244,
      "loss": 2.2425,
      "step": 46380
    },
    {
      "epoch": 0.23195,
      "grad_norm": 2.15625,
      "learning_rate": 0.00023157286432160803,
      "loss": 2.2437,
      "step": 46390
    },
    {
      "epoch": 0.232,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002315577889447236,
      "loss": 2.2877,
      "step": 46400
    },
    {
      "epoch": 0.23205,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023154271356783918,
      "loss": 2.2202,
      "step": 46410
    },
    {
      "epoch": 0.2321,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023152763819095476,
      "loss": 2.2397,
      "step": 46420
    },
    {
      "epoch": 0.23215,
      "grad_norm": 1.625,
      "learning_rate": 0.00023151256281407032,
      "loss": 2.2459,
      "step": 46430
    },
    {
      "epoch": 0.2322,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023149748743718593,
      "loss": 2.31,
      "step": 46440
    },
    {
      "epoch": 0.23225,
      "grad_norm": 1.5390625,
      "learning_rate": 0.0002314824120603015,
      "loss": 2.2145,
      "step": 46450
    },
    {
      "epoch": 0.2323,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023146733668341705,
      "loss": 2.2392,
      "step": 46460
    },
    {
      "epoch": 0.23235,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023145226130653264,
      "loss": 2.2958,
      "step": 46470
    },
    {
      "epoch": 0.2324,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023143718592964822,
      "loss": 2.2064,
      "step": 46480
    },
    {
      "epoch": 0.23245,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023142211055276378,
      "loss": 2.2715,
      "step": 46490
    },
    {
      "epoch": 0.2325,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023140703517587937,
      "loss": 2.1894,
      "step": 46500
    },
    {
      "epoch": 0.23255,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00023139195979899496,
      "loss": 2.2612,
      "step": 46510
    },
    {
      "epoch": 0.2326,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00023137688442211054,
      "loss": 2.2436,
      "step": 46520
    },
    {
      "epoch": 0.23265,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002313618090452261,
      "loss": 2.1961,
      "step": 46530
    },
    {
      "epoch": 0.2327,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023134673366834169,
      "loss": 2.2731,
      "step": 46540
    },
    {
      "epoch": 0.23275,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023133165829145727,
      "loss": 2.2881,
      "step": 46550
    },
    {
      "epoch": 0.2328,
      "grad_norm": 1.828125,
      "learning_rate": 0.00023131658291457283,
      "loss": 2.2901,
      "step": 46560
    },
    {
      "epoch": 0.23285,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023130150753768844,
      "loss": 2.2117,
      "step": 46570
    },
    {
      "epoch": 0.2329,
      "grad_norm": 1.5625,
      "learning_rate": 0.000231286432160804,
      "loss": 2.2152,
      "step": 46580
    },
    {
      "epoch": 0.23295,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00023127135678391956,
      "loss": 2.2798,
      "step": 46590
    },
    {
      "epoch": 0.233,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023125628140703518,
      "loss": 2.2249,
      "step": 46600
    },
    {
      "epoch": 0.23305,
      "grad_norm": 1.75,
      "learning_rate": 0.00023124120603015073,
      "loss": 2.2543,
      "step": 46610
    },
    {
      "epoch": 0.2331,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002312261306532663,
      "loss": 2.2491,
      "step": 46620
    },
    {
      "epoch": 0.23315,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023121105527638188,
      "loss": 2.2492,
      "step": 46630
    },
    {
      "epoch": 0.2332,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023119597989949747,
      "loss": 2.215,
      "step": 46640
    },
    {
      "epoch": 0.23325,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023118090452261305,
      "loss": 2.242,
      "step": 46650
    },
    {
      "epoch": 0.2333,
      "grad_norm": 1.59375,
      "learning_rate": 0.0002311658291457286,
      "loss": 2.2162,
      "step": 46660
    },
    {
      "epoch": 0.23335,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002311507537688442,
      "loss": 2.2969,
      "step": 46670
    },
    {
      "epoch": 0.2334,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00023113567839195978,
      "loss": 2.2232,
      "step": 46680
    },
    {
      "epoch": 0.23345,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023112060301507534,
      "loss": 2.281,
      "step": 46690
    },
    {
      "epoch": 0.2335,
      "grad_norm": 1.78125,
      "learning_rate": 0.00023110552763819096,
      "loss": 2.2517,
      "step": 46700
    },
    {
      "epoch": 0.23355,
      "grad_norm": 1.59375,
      "learning_rate": 0.00023109045226130651,
      "loss": 2.2703,
      "step": 46710
    },
    {
      "epoch": 0.2336,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023107537688442207,
      "loss": 2.1969,
      "step": 46720
    },
    {
      "epoch": 0.23365,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002310603015075377,
      "loss": 2.2373,
      "step": 46730
    },
    {
      "epoch": 0.2337,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00023104522613065325,
      "loss": 2.2931,
      "step": 46740
    },
    {
      "epoch": 0.23375,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002310301507537688,
      "loss": 2.1793,
      "step": 46750
    },
    {
      "epoch": 0.2338,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00023101507537688442,
      "loss": 2.2213,
      "step": 46760
    },
    {
      "epoch": 0.23385,
      "grad_norm": 1.625,
      "learning_rate": 0.00023099999999999998,
      "loss": 2.2414,
      "step": 46770
    },
    {
      "epoch": 0.2339,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023098492462311556,
      "loss": 2.2516,
      "step": 46780
    },
    {
      "epoch": 0.23395,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023096984924623112,
      "loss": 2.2254,
      "step": 46790
    },
    {
      "epoch": 0.234,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002309547738693467,
      "loss": 2.1989,
      "step": 46800
    },
    {
      "epoch": 0.23405,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002309396984924623,
      "loss": 2.2251,
      "step": 46810
    },
    {
      "epoch": 0.2341,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023092462311557785,
      "loss": 2.2807,
      "step": 46820
    },
    {
      "epoch": 0.23415,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023090954773869347,
      "loss": 2.2824,
      "step": 46830
    },
    {
      "epoch": 0.2342,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023089447236180903,
      "loss": 2.2803,
      "step": 46840
    },
    {
      "epoch": 0.23425,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023087939698492458,
      "loss": 2.2789,
      "step": 46850
    },
    {
      "epoch": 0.2343,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002308643216080402,
      "loss": 2.2592,
      "step": 46860
    },
    {
      "epoch": 0.23435,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00023084924623115576,
      "loss": 2.2799,
      "step": 46870
    },
    {
      "epoch": 0.2344,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00023083417085427132,
      "loss": 2.2239,
      "step": 46880
    },
    {
      "epoch": 0.23445,
      "grad_norm": 1.875,
      "learning_rate": 0.00023081909547738693,
      "loss": 2.2654,
      "step": 46890
    },
    {
      "epoch": 0.2345,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002308040201005025,
      "loss": 2.1866,
      "step": 46900
    },
    {
      "epoch": 0.23455,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023078894472361807,
      "loss": 2.2836,
      "step": 46910
    },
    {
      "epoch": 0.2346,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00023077386934673366,
      "loss": 2.1725,
      "step": 46920
    },
    {
      "epoch": 0.23465,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00023075879396984922,
      "loss": 2.273,
      "step": 46930
    },
    {
      "epoch": 0.2347,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002307437185929648,
      "loss": 2.1222,
      "step": 46940
    },
    {
      "epoch": 0.23475,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00023072864321608036,
      "loss": 2.2335,
      "step": 46950
    },
    {
      "epoch": 0.2348,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023071356783919598,
      "loss": 2.211,
      "step": 46960
    },
    {
      "epoch": 0.23485,
      "grad_norm": 1.84375,
      "learning_rate": 0.00023069849246231154,
      "loss": 2.2071,
      "step": 46970
    },
    {
      "epoch": 0.2349,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002306834170854271,
      "loss": 2.2666,
      "step": 46980
    },
    {
      "epoch": 0.23495,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002306683417085427,
      "loss": 2.2946,
      "step": 46990
    },
    {
      "epoch": 0.235,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00023065326633165827,
      "loss": 2.2696,
      "step": 47000
    },
    {
      "epoch": 0.23505,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00023063819095477383,
      "loss": 2.2885,
      "step": 47010
    },
    {
      "epoch": 0.2351,
      "grad_norm": 1.71875,
      "learning_rate": 0.00023062311557788944,
      "loss": 2.2419,
      "step": 47020
    },
    {
      "epoch": 0.23515,
      "grad_norm": 1.84375,
      "learning_rate": 0.000230608040201005,
      "loss": 2.3028,
      "step": 47030
    },
    {
      "epoch": 0.2352,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023059296482412059,
      "loss": 2.267,
      "step": 47040
    },
    {
      "epoch": 0.23525,
      "grad_norm": 1.65625,
      "learning_rate": 0.00023057788944723617,
      "loss": 2.2733,
      "step": 47050
    },
    {
      "epoch": 0.2353,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00023056281407035173,
      "loss": 2.2141,
      "step": 47060
    },
    {
      "epoch": 0.23535,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00023054773869346732,
      "loss": 2.2574,
      "step": 47070
    },
    {
      "epoch": 0.2354,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002305326633165829,
      "loss": 2.2123,
      "step": 47080
    },
    {
      "epoch": 0.23545,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002305175879396985,
      "loss": 2.2716,
      "step": 47090
    },
    {
      "epoch": 0.2355,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023050251256281405,
      "loss": 2.2574,
      "step": 47100
    },
    {
      "epoch": 0.23555,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002304874371859296,
      "loss": 2.2534,
      "step": 47110
    },
    {
      "epoch": 0.2356,
      "grad_norm": 1.90625,
      "learning_rate": 0.00023047236180904522,
      "loss": 2.244,
      "step": 47120
    },
    {
      "epoch": 0.23565,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00023045728643216078,
      "loss": 2.2937,
      "step": 47130
    },
    {
      "epoch": 0.2357,
      "grad_norm": 1.640625,
      "learning_rate": 0.00023044221105527634,
      "loss": 2.2038,
      "step": 47140
    },
    {
      "epoch": 0.23575,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00023042713567839195,
      "loss": 2.2954,
      "step": 47150
    },
    {
      "epoch": 0.2358,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002304120603015075,
      "loss": 2.2594,
      "step": 47160
    },
    {
      "epoch": 0.23585,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002303969849246231,
      "loss": 2.2021,
      "step": 47170
    },
    {
      "epoch": 0.2359,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023038190954773868,
      "loss": 2.2616,
      "step": 47180
    },
    {
      "epoch": 0.23595,
      "grad_norm": 1.875,
      "learning_rate": 0.00023036683417085424,
      "loss": 2.246,
      "step": 47190
    },
    {
      "epoch": 0.236,
      "grad_norm": 1.796875,
      "learning_rate": 0.00023035175879396983,
      "loss": 2.262,
      "step": 47200
    },
    {
      "epoch": 0.23605,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002303366834170854,
      "loss": 2.2006,
      "step": 47210
    },
    {
      "epoch": 0.2361,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000230321608040201,
      "loss": 2.2489,
      "step": 47220
    },
    {
      "epoch": 0.23615,
      "grad_norm": 1.703125,
      "learning_rate": 0.00023030653266331656,
      "loss": 2.2376,
      "step": 47230
    },
    {
      "epoch": 0.2362,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023029145728643214,
      "loss": 2.2478,
      "step": 47240
    },
    {
      "epoch": 0.23625,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00023027638190954773,
      "loss": 2.2352,
      "step": 47250
    },
    {
      "epoch": 0.2363,
      "grad_norm": 1.75,
      "learning_rate": 0.0002302613065326633,
      "loss": 2.3166,
      "step": 47260
    },
    {
      "epoch": 0.23635,
      "grad_norm": 1.75,
      "learning_rate": 0.00023024623115577885,
      "loss": 2.2523,
      "step": 47270
    },
    {
      "epoch": 0.2364,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023023115577889446,
      "loss": 2.3059,
      "step": 47280
    },
    {
      "epoch": 0.23645,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00023021608040201002,
      "loss": 2.22,
      "step": 47290
    },
    {
      "epoch": 0.2365,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002302010050251256,
      "loss": 2.2927,
      "step": 47300
    },
    {
      "epoch": 0.23655,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002301859296482412,
      "loss": 2.2513,
      "step": 47310
    },
    {
      "epoch": 0.2366,
      "grad_norm": 1.90625,
      "learning_rate": 0.00023017085427135675,
      "loss": 2.2508,
      "step": 47320
    },
    {
      "epoch": 0.23665,
      "grad_norm": 1.671875,
      "learning_rate": 0.00023015577889447234,
      "loss": 2.2287,
      "step": 47330
    },
    {
      "epoch": 0.2367,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00023014070351758792,
      "loss": 2.238,
      "step": 47340
    },
    {
      "epoch": 0.23675,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002301256281407035,
      "loss": 2.2214,
      "step": 47350
    },
    {
      "epoch": 0.2368,
      "grad_norm": 1.859375,
      "learning_rate": 0.00023011055276381907,
      "loss": 2.2273,
      "step": 47360
    },
    {
      "epoch": 0.23685,
      "grad_norm": 1.765625,
      "learning_rate": 0.00023009547738693466,
      "loss": 2.2119,
      "step": 47370
    },
    {
      "epoch": 0.2369,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00023008040201005024,
      "loss": 2.2831,
      "step": 47380
    },
    {
      "epoch": 0.23695,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002300653266331658,
      "loss": 2.2459,
      "step": 47390
    },
    {
      "epoch": 0.237,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00023005025125628136,
      "loss": 2.2619,
      "step": 47400
    },
    {
      "epoch": 0.23705,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00023003517587939697,
      "loss": 2.2594,
      "step": 47410
    },
    {
      "epoch": 0.2371,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00023002010050251253,
      "loss": 2.2631,
      "step": 47420
    },
    {
      "epoch": 0.23715,
      "grad_norm": 1.75,
      "learning_rate": 0.00023000502512562812,
      "loss": 2.1747,
      "step": 47430
    },
    {
      "epoch": 0.2372,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002299899497487437,
      "loss": 2.2553,
      "step": 47440
    },
    {
      "epoch": 0.23725,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022997487437185926,
      "loss": 2.1855,
      "step": 47450
    },
    {
      "epoch": 0.2373,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022995979899497485,
      "loss": 2.2414,
      "step": 47460
    },
    {
      "epoch": 0.23735,
      "grad_norm": 2.015625,
      "learning_rate": 0.00022994472361809044,
      "loss": 2.2398,
      "step": 47470
    },
    {
      "epoch": 0.2374,
      "grad_norm": 1.625,
      "learning_rate": 0.00022992964824120602,
      "loss": 2.2527,
      "step": 47480
    },
    {
      "epoch": 0.23745,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022991457286432158,
      "loss": 2.2183,
      "step": 47490
    },
    {
      "epoch": 0.2375,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00022989949748743717,
      "loss": 2.2286,
      "step": 47500
    },
    {
      "epoch": 0.23755,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022988442211055275,
      "loss": 2.2177,
      "step": 47510
    },
    {
      "epoch": 0.2376,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002298693467336683,
      "loss": 2.2648,
      "step": 47520
    },
    {
      "epoch": 0.23765,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022985427135678392,
      "loss": 2.2501,
      "step": 47530
    },
    {
      "epoch": 0.2377,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022983919597989948,
      "loss": 2.2056,
      "step": 47540
    },
    {
      "epoch": 0.23775,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022982412060301504,
      "loss": 2.3038,
      "step": 47550
    },
    {
      "epoch": 0.2378,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022980904522613063,
      "loss": 2.2789,
      "step": 47560
    },
    {
      "epoch": 0.23785,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022979396984924621,
      "loss": 2.2856,
      "step": 47570
    },
    {
      "epoch": 0.2379,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022977889447236177,
      "loss": 2.2356,
      "step": 47580
    },
    {
      "epoch": 0.23795,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00022976381909547736,
      "loss": 2.2675,
      "step": 47590
    },
    {
      "epoch": 0.238,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022974874371859295,
      "loss": 2.204,
      "step": 47600
    },
    {
      "epoch": 0.23805,
      "grad_norm": 1.9375,
      "learning_rate": 0.00022973366834170853,
      "loss": 2.2702,
      "step": 47610
    },
    {
      "epoch": 0.2381,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002297185929648241,
      "loss": 2.2079,
      "step": 47620
    },
    {
      "epoch": 0.23815,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022970351758793968,
      "loss": 2.2153,
      "step": 47630
    },
    {
      "epoch": 0.2382,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022968844221105526,
      "loss": 2.2237,
      "step": 47640
    },
    {
      "epoch": 0.23825,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022967336683417082,
      "loss": 2.3171,
      "step": 47650
    },
    {
      "epoch": 0.2383,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022965829145728644,
      "loss": 2.1879,
      "step": 47660
    },
    {
      "epoch": 0.23835,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000229643216080402,
      "loss": 2.2097,
      "step": 47670
    },
    {
      "epoch": 0.2384,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00022962814070351755,
      "loss": 2.2329,
      "step": 47680
    },
    {
      "epoch": 0.23845,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022961306532663317,
      "loss": 2.2493,
      "step": 47690
    },
    {
      "epoch": 0.2385,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022959798994974873,
      "loss": 2.249,
      "step": 47700
    },
    {
      "epoch": 0.23855,
      "grad_norm": 1.671875,
      "learning_rate": 0.00022958291457286428,
      "loss": 2.2439,
      "step": 47710
    },
    {
      "epoch": 0.2386,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022956783919597987,
      "loss": 2.2516,
      "step": 47720
    },
    {
      "epoch": 0.23865,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022955276381909546,
      "loss": 2.2238,
      "step": 47730
    },
    {
      "epoch": 0.2387,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022953768844221104,
      "loss": 2.2366,
      "step": 47740
    },
    {
      "epoch": 0.23875,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002295226130653266,
      "loss": 2.3115,
      "step": 47750
    },
    {
      "epoch": 0.2388,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002295075376884422,
      "loss": 2.2455,
      "step": 47760
    },
    {
      "epoch": 0.23885,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022949246231155777,
      "loss": 2.212,
      "step": 47770
    },
    {
      "epoch": 0.2389,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022947738693467333,
      "loss": 2.2375,
      "step": 47780
    },
    {
      "epoch": 0.23895,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022946231155778895,
      "loss": 2.2795,
      "step": 47790
    },
    {
      "epoch": 0.239,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002294472361809045,
      "loss": 2.2255,
      "step": 47800
    },
    {
      "epoch": 0.23905,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022943216080402006,
      "loss": 2.261,
      "step": 47810
    },
    {
      "epoch": 0.2391,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022941708542713568,
      "loss": 2.2482,
      "step": 47820
    },
    {
      "epoch": 0.23915,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022940201005025124,
      "loss": 2.2695,
      "step": 47830
    },
    {
      "epoch": 0.2392,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002293869346733668,
      "loss": 2.2014,
      "step": 47840
    },
    {
      "epoch": 0.23925,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002293718592964824,
      "loss": 2.2052,
      "step": 47850
    },
    {
      "epoch": 0.2393,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022935678391959797,
      "loss": 2.2518,
      "step": 47860
    },
    {
      "epoch": 0.23935,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022934170854271355,
      "loss": 2.2435,
      "step": 47870
    },
    {
      "epoch": 0.2394,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002293266331658291,
      "loss": 2.256,
      "step": 47880
    },
    {
      "epoch": 0.23945,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002293115577889447,
      "loss": 2.2144,
      "step": 47890
    },
    {
      "epoch": 0.2395,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022929648241206029,
      "loss": 2.2413,
      "step": 47900
    },
    {
      "epoch": 0.23955,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00022928140703517584,
      "loss": 2.2056,
      "step": 47910
    },
    {
      "epoch": 0.2396,
      "grad_norm": 1.640625,
      "learning_rate": 0.00022926633165829146,
      "loss": 2.2835,
      "step": 47920
    },
    {
      "epoch": 0.23965,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022925125628140702,
      "loss": 2.2335,
      "step": 47930
    },
    {
      "epoch": 0.2397,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022923618090452258,
      "loss": 2.2539,
      "step": 47940
    },
    {
      "epoch": 0.23975,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002292211055276382,
      "loss": 2.2588,
      "step": 47950
    },
    {
      "epoch": 0.2398,
      "grad_norm": 1.890625,
      "learning_rate": 0.00022920603015075375,
      "loss": 2.2595,
      "step": 47960
    },
    {
      "epoch": 0.23985,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002291909547738693,
      "loss": 2.2378,
      "step": 47970
    },
    {
      "epoch": 0.2399,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022917587939698492,
      "loss": 2.2289,
      "step": 47980
    },
    {
      "epoch": 0.23995,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022916080402010048,
      "loss": 2.1631,
      "step": 47990
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00022914572864321606,
      "loss": 2.2647,
      "step": 48000
    },
    {
      "epoch": 0.24,
      "eval_loss": 2.225808620452881,
      "eval_runtime": 89.4513,
      "eval_samples_per_second": 27.948,
      "eval_steps_per_second": 0.447,
      "step": 48000
    },
    {
      "epoch": 0.24005,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022913065326633165,
      "loss": 2.2411,
      "step": 48010
    },
    {
      "epoch": 0.2401,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002291155778894472,
      "loss": 2.2539,
      "step": 48020
    },
    {
      "epoch": 0.24015,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002291005025125628,
      "loss": 2.2699,
      "step": 48030
    },
    {
      "epoch": 0.2402,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022908542713567836,
      "loss": 2.2366,
      "step": 48040
    },
    {
      "epoch": 0.24025,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022907035175879397,
      "loss": 2.2089,
      "step": 48050
    },
    {
      "epoch": 0.2403,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00022905527638190953,
      "loss": 2.2879,
      "step": 48060
    },
    {
      "epoch": 0.24035,
      "grad_norm": 1.671875,
      "learning_rate": 0.00022904020100502509,
      "loss": 2.2287,
      "step": 48070
    },
    {
      "epoch": 0.2404,
      "grad_norm": 1.5,
      "learning_rate": 0.0002290251256281407,
      "loss": 2.2576,
      "step": 48080
    },
    {
      "epoch": 0.24045,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022901005025125626,
      "loss": 2.3223,
      "step": 48090
    },
    {
      "epoch": 0.2405,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022899497487437182,
      "loss": 2.2557,
      "step": 48100
    },
    {
      "epoch": 0.24055,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00022897989949748743,
      "loss": 2.3294,
      "step": 48110
    },
    {
      "epoch": 0.2406,
      "grad_norm": 1.90625,
      "learning_rate": 0.000228964824120603,
      "loss": 2.258,
      "step": 48120
    },
    {
      "epoch": 0.24065,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00022894974874371858,
      "loss": 2.2821,
      "step": 48130
    },
    {
      "epoch": 0.2407,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022893467336683416,
      "loss": 2.2568,
      "step": 48140
    },
    {
      "epoch": 0.24075,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022891959798994972,
      "loss": 2.2754,
      "step": 48150
    },
    {
      "epoch": 0.2408,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002289045226130653,
      "loss": 2.2169,
      "step": 48160
    },
    {
      "epoch": 0.24085,
      "grad_norm": 1.5078125,
      "learning_rate": 0.0002288894472361809,
      "loss": 2.2174,
      "step": 48170
    },
    {
      "epoch": 0.2409,
      "grad_norm": 1.875,
      "learning_rate": 0.00022887437185929648,
      "loss": 2.2406,
      "step": 48180
    },
    {
      "epoch": 0.24095,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022885929648241204,
      "loss": 2.2096,
      "step": 48190
    },
    {
      "epoch": 0.241,
      "grad_norm": 1.75,
      "learning_rate": 0.0002288442211055276,
      "loss": 2.1988,
      "step": 48200
    },
    {
      "epoch": 0.24105,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002288291457286432,
      "loss": 2.2233,
      "step": 48210
    },
    {
      "epoch": 0.2411,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022881407035175877,
      "loss": 2.2446,
      "step": 48220
    },
    {
      "epoch": 0.24115,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022879899497487433,
      "loss": 2.2251,
      "step": 48230
    },
    {
      "epoch": 0.2412,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022878391959798994,
      "loss": 2.2696,
      "step": 48240
    },
    {
      "epoch": 0.24125,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002287688442211055,
      "loss": 2.2196,
      "step": 48250
    },
    {
      "epoch": 0.2413,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002287537688442211,
      "loss": 2.2387,
      "step": 48260
    },
    {
      "epoch": 0.24135,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00022873869346733667,
      "loss": 2.2561,
      "step": 48270
    },
    {
      "epoch": 0.2414,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022872361809045223,
      "loss": 2.2427,
      "step": 48280
    },
    {
      "epoch": 0.24145,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022870854271356782,
      "loss": 2.241,
      "step": 48290
    },
    {
      "epoch": 0.2415,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002286934673366834,
      "loss": 2.2059,
      "step": 48300
    },
    {
      "epoch": 0.24155,
      "grad_norm": 1.703125,
      "learning_rate": 0.000228678391959799,
      "loss": 2.2107,
      "step": 48310
    },
    {
      "epoch": 0.2416,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022866331658291455,
      "loss": 2.2693,
      "step": 48320
    },
    {
      "epoch": 0.24165,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022864824120603014,
      "loss": 2.2319,
      "step": 48330
    },
    {
      "epoch": 0.2417,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022863316582914572,
      "loss": 2.2324,
      "step": 48340
    },
    {
      "epoch": 0.24175,
      "grad_norm": 1.640625,
      "learning_rate": 0.00022861809045226128,
      "loss": 2.2374,
      "step": 48350
    },
    {
      "epoch": 0.2418,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022860301507537684,
      "loss": 2.2371,
      "step": 48360
    },
    {
      "epoch": 0.24185,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022858793969849245,
      "loss": 2.2213,
      "step": 48370
    },
    {
      "epoch": 0.2419,
      "grad_norm": 1.671875,
      "learning_rate": 0.000228572864321608,
      "loss": 2.2364,
      "step": 48380
    },
    {
      "epoch": 0.24195,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002285577889447236,
      "loss": 2.2497,
      "step": 48390
    },
    {
      "epoch": 0.242,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022854271356783918,
      "loss": 2.2468,
      "step": 48400
    },
    {
      "epoch": 0.24205,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00022852763819095474,
      "loss": 2.1986,
      "step": 48410
    },
    {
      "epoch": 0.2421,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022851256281407033,
      "loss": 2.2114,
      "step": 48420
    },
    {
      "epoch": 0.24215,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022849748743718592,
      "loss": 2.2262,
      "step": 48430
    },
    {
      "epoch": 0.2422,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002284824120603015,
      "loss": 2.2293,
      "step": 48440
    },
    {
      "epoch": 0.24225,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022846733668341706,
      "loss": 2.2161,
      "step": 48450
    },
    {
      "epoch": 0.2423,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022845226130653265,
      "loss": 2.2545,
      "step": 48460
    },
    {
      "epoch": 0.24235,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022843718592964823,
      "loss": 2.254,
      "step": 48470
    },
    {
      "epoch": 0.2424,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002284221105527638,
      "loss": 2.2852,
      "step": 48480
    },
    {
      "epoch": 0.24245,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022840703517587935,
      "loss": 2.2197,
      "step": 48490
    },
    {
      "epoch": 0.2425,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022839195979899496,
      "loss": 2.2443,
      "step": 48500
    },
    {
      "epoch": 0.24255,
      "grad_norm": 1.609375,
      "learning_rate": 0.00022837688442211052,
      "loss": 2.1885,
      "step": 48510
    },
    {
      "epoch": 0.2426,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002283618090452261,
      "loss": 2.2201,
      "step": 48520
    },
    {
      "epoch": 0.24265,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002283467336683417,
      "loss": 2.2008,
      "step": 48530
    },
    {
      "epoch": 0.2427,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022833165829145725,
      "loss": 2.222,
      "step": 48540
    },
    {
      "epoch": 0.24275,
      "grad_norm": 1.609375,
      "learning_rate": 0.00022831658291457284,
      "loss": 2.2266,
      "step": 48550
    },
    {
      "epoch": 0.2428,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022830150753768843,
      "loss": 2.2337,
      "step": 48560
    },
    {
      "epoch": 0.24285,
      "grad_norm": 1.8828125,
      "learning_rate": 0.000228286432160804,
      "loss": 2.2188,
      "step": 48570
    },
    {
      "epoch": 0.2429,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022827135678391957,
      "loss": 2.299,
      "step": 48580
    },
    {
      "epoch": 0.24295,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022825628140703516,
      "loss": 2.2655,
      "step": 48590
    },
    {
      "epoch": 0.243,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00022824120603015074,
      "loss": 2.201,
      "step": 48600
    },
    {
      "epoch": 0.24305,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002282261306532663,
      "loss": 2.217,
      "step": 48610
    },
    {
      "epoch": 0.2431,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022821105527638192,
      "loss": 2.235,
      "step": 48620
    },
    {
      "epoch": 0.24315,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022819597989949747,
      "loss": 2.2734,
      "step": 48630
    },
    {
      "epoch": 0.2432,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022818090452261303,
      "loss": 2.2128,
      "step": 48640
    },
    {
      "epoch": 0.24325,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022816582914572862,
      "loss": 2.2899,
      "step": 48650
    },
    {
      "epoch": 0.2433,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002281507537688442,
      "loss": 2.2324,
      "step": 48660
    },
    {
      "epoch": 0.24335,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022813567839195976,
      "loss": 2.2087,
      "step": 48670
    },
    {
      "epoch": 0.2434,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022812060301507535,
      "loss": 2.3024,
      "step": 48680
    },
    {
      "epoch": 0.24345,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022810552763819094,
      "loss": 2.258,
      "step": 48690
    },
    {
      "epoch": 0.2435,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022809045226130652,
      "loss": 2.2297,
      "step": 48700
    },
    {
      "epoch": 0.24355,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022807537688442208,
      "loss": 2.2393,
      "step": 48710
    },
    {
      "epoch": 0.2436,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022806030150753767,
      "loss": 2.2234,
      "step": 48720
    },
    {
      "epoch": 0.24365,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022804522613065325,
      "loss": 2.2098,
      "step": 48730
    },
    {
      "epoch": 0.2437,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002280301507537688,
      "loss": 2.1986,
      "step": 48740
    },
    {
      "epoch": 0.24375,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022801507537688443,
      "loss": 2.1659,
      "step": 48750
    },
    {
      "epoch": 0.2438,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022799999999999999,
      "loss": 2.1852,
      "step": 48760
    },
    {
      "epoch": 0.24385,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022798492462311554,
      "loss": 2.2368,
      "step": 48770
    },
    {
      "epoch": 0.2439,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022796984924623116,
      "loss": 2.2732,
      "step": 48780
    },
    {
      "epoch": 0.24395,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022795477386934672,
      "loss": 2.1992,
      "step": 48790
    },
    {
      "epoch": 0.244,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022793969849246228,
      "loss": 2.2561,
      "step": 48800
    },
    {
      "epoch": 0.24405,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022792462311557786,
      "loss": 2.2789,
      "step": 48810
    },
    {
      "epoch": 0.2441,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022790954773869345,
      "loss": 2.2279,
      "step": 48820
    },
    {
      "epoch": 0.24415,
      "grad_norm": 2.0625,
      "learning_rate": 0.00022789447236180903,
      "loss": 2.243,
      "step": 48830
    },
    {
      "epoch": 0.2442,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002278793969849246,
      "loss": 2.3235,
      "step": 48840
    },
    {
      "epoch": 0.24425,
      "grad_norm": 1.890625,
      "learning_rate": 0.00022786432160804018,
      "loss": 2.2652,
      "step": 48850
    },
    {
      "epoch": 0.2443,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00022784924623115577,
      "loss": 2.2297,
      "step": 48860
    },
    {
      "epoch": 0.24435,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00022783417085427132,
      "loss": 2.1637,
      "step": 48870
    },
    {
      "epoch": 0.2444,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00022781909547738694,
      "loss": 2.2425,
      "step": 48880
    },
    {
      "epoch": 0.24445,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002278040201005025,
      "loss": 2.2681,
      "step": 48890
    },
    {
      "epoch": 0.2445,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022778894472361806,
      "loss": 2.2525,
      "step": 48900
    },
    {
      "epoch": 0.24455,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022777386934673367,
      "loss": 2.1969,
      "step": 48910
    },
    {
      "epoch": 0.2446,
      "grad_norm": 2.28125,
      "learning_rate": 0.00022775879396984923,
      "loss": 2.2424,
      "step": 48920
    },
    {
      "epoch": 0.24465,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002277437185929648,
      "loss": 2.2763,
      "step": 48930
    },
    {
      "epoch": 0.2447,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002277286432160804,
      "loss": 2.2181,
      "step": 48940
    },
    {
      "epoch": 0.24475,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022771356783919596,
      "loss": 2.2638,
      "step": 48950
    },
    {
      "epoch": 0.2448,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022769849246231154,
      "loss": 2.2222,
      "step": 48960
    },
    {
      "epoch": 0.24485,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002276834170854271,
      "loss": 2.2821,
      "step": 48970
    },
    {
      "epoch": 0.2449,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002276683417085427,
      "loss": 2.2143,
      "step": 48980
    },
    {
      "epoch": 0.24495,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00022765326633165828,
      "loss": 2.2575,
      "step": 48990
    },
    {
      "epoch": 0.245,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022763819095477384,
      "loss": 2.2165,
      "step": 49000
    },
    {
      "epoch": 0.24505,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00022762311557788945,
      "loss": 2.2353,
      "step": 49010
    },
    {
      "epoch": 0.2451,
      "grad_norm": 1.8359375,
      "learning_rate": 0.000227608040201005,
      "loss": 2.2167,
      "step": 49020
    },
    {
      "epoch": 0.24515,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022759296482412057,
      "loss": 2.247,
      "step": 49030
    },
    {
      "epoch": 0.2452,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022757788944723618,
      "loss": 2.2199,
      "step": 49040
    },
    {
      "epoch": 0.24525,
      "grad_norm": 1.578125,
      "learning_rate": 0.00022756281407035174,
      "loss": 2.237,
      "step": 49050
    },
    {
      "epoch": 0.2453,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002275477386934673,
      "loss": 2.2601,
      "step": 49060
    },
    {
      "epoch": 0.24535,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002275326633165829,
      "loss": 2.2464,
      "step": 49070
    },
    {
      "epoch": 0.2454,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022751758793969847,
      "loss": 2.2769,
      "step": 49080
    },
    {
      "epoch": 0.24545,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022750251256281406,
      "loss": 2.2051,
      "step": 49090
    },
    {
      "epoch": 0.2455,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022748743718592964,
      "loss": 2.236,
      "step": 49100
    },
    {
      "epoch": 0.24555,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002274723618090452,
      "loss": 2.2254,
      "step": 49110
    },
    {
      "epoch": 0.2456,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002274572864321608,
      "loss": 2.2751,
      "step": 49120
    },
    {
      "epoch": 0.24565,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00022744221105527635,
      "loss": 2.2207,
      "step": 49130
    },
    {
      "epoch": 0.2457,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022742713567839196,
      "loss": 2.2093,
      "step": 49140
    },
    {
      "epoch": 0.24575,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022741206030150752,
      "loss": 2.3092,
      "step": 49150
    },
    {
      "epoch": 0.2458,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022739698492462308,
      "loss": 2.2519,
      "step": 49160
    },
    {
      "epoch": 0.24585,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002273819095477387,
      "loss": 2.2753,
      "step": 49170
    },
    {
      "epoch": 0.2459,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022736683417085425,
      "loss": 2.2741,
      "step": 49180
    },
    {
      "epoch": 0.24595,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002273517587939698,
      "loss": 2.2381,
      "step": 49190
    },
    {
      "epoch": 0.246,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022733668341708542,
      "loss": 2.2389,
      "step": 49200
    },
    {
      "epoch": 0.24605,
      "grad_norm": 1.578125,
      "learning_rate": 0.00022732160804020098,
      "loss": 2.2362,
      "step": 49210
    },
    {
      "epoch": 0.2461,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022730653266331657,
      "loss": 2.2353,
      "step": 49220
    },
    {
      "epoch": 0.24615,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022729145728643215,
      "loss": 2.2368,
      "step": 49230
    },
    {
      "epoch": 0.2462,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002272763819095477,
      "loss": 2.2152,
      "step": 49240
    },
    {
      "epoch": 0.24625,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002272613065326633,
      "loss": 2.1979,
      "step": 49250
    },
    {
      "epoch": 0.2463,
      "grad_norm": 1.875,
      "learning_rate": 0.00022724623115577888,
      "loss": 2.2047,
      "step": 49260
    },
    {
      "epoch": 0.24635,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022723115577889447,
      "loss": 2.2432,
      "step": 49270
    },
    {
      "epoch": 0.2464,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022721608040201003,
      "loss": 2.2503,
      "step": 49280
    },
    {
      "epoch": 0.24645,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002272010050251256,
      "loss": 2.2523,
      "step": 49290
    },
    {
      "epoch": 0.2465,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002271859296482412,
      "loss": 2.1936,
      "step": 49300
    },
    {
      "epoch": 0.24655,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022717085427135676,
      "loss": 2.2165,
      "step": 49310
    },
    {
      "epoch": 0.2466,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022715577889447232,
      "loss": 2.2361,
      "step": 49320
    },
    {
      "epoch": 0.24665,
      "grad_norm": 1.671875,
      "learning_rate": 0.00022714070351758793,
      "loss": 2.2388,
      "step": 49330
    },
    {
      "epoch": 0.2467,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002271256281407035,
      "loss": 2.2696,
      "step": 49340
    },
    {
      "epoch": 0.24675,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00022711055276381908,
      "loss": 2.2357,
      "step": 49350
    },
    {
      "epoch": 0.2468,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022709547738693466,
      "loss": 2.2037,
      "step": 49360
    },
    {
      "epoch": 0.24685,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022708040201005022,
      "loss": 2.2731,
      "step": 49370
    },
    {
      "epoch": 0.2469,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002270653266331658,
      "loss": 2.2592,
      "step": 49380
    },
    {
      "epoch": 0.24695,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002270502512562814,
      "loss": 2.1697,
      "step": 49390
    },
    {
      "epoch": 0.247,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022703517587939698,
      "loss": 2.2167,
      "step": 49400
    },
    {
      "epoch": 0.24705,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022702010050251254,
      "loss": 2.197,
      "step": 49410
    },
    {
      "epoch": 0.2471,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022700502512562813,
      "loss": 2.2577,
      "step": 49420
    },
    {
      "epoch": 0.24715,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002269899497487437,
      "loss": 2.1823,
      "step": 49430
    },
    {
      "epoch": 0.2472,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022697487437185927,
      "loss": 2.2488,
      "step": 49440
    },
    {
      "epoch": 0.24725,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022695979899497483,
      "loss": 2.2358,
      "step": 49450
    },
    {
      "epoch": 0.2473,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022694472361809044,
      "loss": 2.2104,
      "step": 49460
    },
    {
      "epoch": 0.24735,
      "grad_norm": 1.9453125,
      "learning_rate": 0.000226929648241206,
      "loss": 2.2369,
      "step": 49470
    },
    {
      "epoch": 0.2474,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002269145728643216,
      "loss": 2.2014,
      "step": 49480
    },
    {
      "epoch": 0.24745,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022689949748743717,
      "loss": 2.2265,
      "step": 49490
    },
    {
      "epoch": 0.2475,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022688442211055273,
      "loss": 2.255,
      "step": 49500
    },
    {
      "epoch": 0.24755,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00022686934673366832,
      "loss": 2.2361,
      "step": 49510
    },
    {
      "epoch": 0.2476,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002268542713567839,
      "loss": 2.2213,
      "step": 49520
    },
    {
      "epoch": 0.24765,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002268391959798995,
      "loss": 2.2782,
      "step": 49530
    },
    {
      "epoch": 0.2477,
      "grad_norm": 1.953125,
      "learning_rate": 0.00022682412060301505,
      "loss": 2.2164,
      "step": 49540
    },
    {
      "epoch": 0.24775,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022680904522613064,
      "loss": 2.2354,
      "step": 49550
    },
    {
      "epoch": 0.2478,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022679396984924622,
      "loss": 2.1576,
      "step": 49560
    },
    {
      "epoch": 0.24785,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022677889447236178,
      "loss": 2.2305,
      "step": 49570
    },
    {
      "epoch": 0.2479,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002267638190954774,
      "loss": 2.1917,
      "step": 49580
    },
    {
      "epoch": 0.24795,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022674874371859295,
      "loss": 2.2186,
      "step": 49590
    },
    {
      "epoch": 0.248,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002267336683417085,
      "loss": 2.2307,
      "step": 49600
    },
    {
      "epoch": 0.24805,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002267185929648241,
      "loss": 2.3061,
      "step": 49610
    },
    {
      "epoch": 0.2481,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022670351758793969,
      "loss": 2.2243,
      "step": 49620
    },
    {
      "epoch": 0.24815,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022668844221105524,
      "loss": 2.1983,
      "step": 49630
    },
    {
      "epoch": 0.2482,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022667336683417083,
      "loss": 2.2748,
      "step": 49640
    },
    {
      "epoch": 0.24825,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022665829145728642,
      "loss": 2.2162,
      "step": 49650
    },
    {
      "epoch": 0.2483,
      "grad_norm": 1.8046875,
      "learning_rate": 0.000226643216080402,
      "loss": 2.2488,
      "step": 49660
    },
    {
      "epoch": 0.24835,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022662814070351756,
      "loss": 2.2302,
      "step": 49670
    },
    {
      "epoch": 0.2484,
      "grad_norm": 1.9375,
      "learning_rate": 0.00022661306532663315,
      "loss": 2.2644,
      "step": 49680
    },
    {
      "epoch": 0.24845,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022659798994974873,
      "loss": 2.2178,
      "step": 49690
    },
    {
      "epoch": 0.2485,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002265829145728643,
      "loss": 2.2202,
      "step": 49700
    },
    {
      "epoch": 0.24855,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002265678391959799,
      "loss": 2.2232,
      "step": 49710
    },
    {
      "epoch": 0.2486,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022655276381909547,
      "loss": 2.2355,
      "step": 49720
    },
    {
      "epoch": 0.24865,
      "grad_norm": 1.640625,
      "learning_rate": 0.00022653768844221102,
      "loss": 2.2506,
      "step": 49730
    },
    {
      "epoch": 0.2487,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022652261306532658,
      "loss": 2.2279,
      "step": 49740
    },
    {
      "epoch": 0.24875,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002265075376884422,
      "loss": 2.2339,
      "step": 49750
    },
    {
      "epoch": 0.2488,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022649246231155776,
      "loss": 2.1715,
      "step": 49760
    },
    {
      "epoch": 0.24885,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022647738693467334,
      "loss": 2.2495,
      "step": 49770
    },
    {
      "epoch": 0.2489,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022646231155778893,
      "loss": 2.1894,
      "step": 49780
    },
    {
      "epoch": 0.24895,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00022644723618090451,
      "loss": 2.26,
      "step": 49790
    },
    {
      "epoch": 0.249,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022643216080402007,
      "loss": 2.2336,
      "step": 49800
    },
    {
      "epoch": 0.24905,
      "grad_norm": 1.609375,
      "learning_rate": 0.00022641708542713566,
      "loss": 2.2083,
      "step": 49810
    },
    {
      "epoch": 0.2491,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022640201005025125,
      "loss": 2.2296,
      "step": 49820
    },
    {
      "epoch": 0.24915,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002263869346733668,
      "loss": 2.2283,
      "step": 49830
    },
    {
      "epoch": 0.2492,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022637185929648242,
      "loss": 2.2093,
      "step": 49840
    },
    {
      "epoch": 0.24925,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022635678391959798,
      "loss": 2.1945,
      "step": 49850
    },
    {
      "epoch": 0.2493,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022634170854271354,
      "loss": 2.263,
      "step": 49860
    },
    {
      "epoch": 0.24935,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022632663316582915,
      "loss": 2.2382,
      "step": 49870
    },
    {
      "epoch": 0.2494,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002263115577889447,
      "loss": 2.2498,
      "step": 49880
    },
    {
      "epoch": 0.24945,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022629648241206027,
      "loss": 2.1949,
      "step": 49890
    },
    {
      "epoch": 0.2495,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022628140703517585,
      "loss": 2.2788,
      "step": 49900
    },
    {
      "epoch": 0.24955,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022626633165829144,
      "loss": 2.2618,
      "step": 49910
    },
    {
      "epoch": 0.2496,
      "grad_norm": 1.75,
      "learning_rate": 0.00022625125628140702,
      "loss": 2.225,
      "step": 49920
    },
    {
      "epoch": 0.24965,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022623618090452258,
      "loss": 2.2115,
      "step": 49930
    },
    {
      "epoch": 0.2497,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022622110552763817,
      "loss": 2.2268,
      "step": 49940
    },
    {
      "epoch": 0.24975,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00022620603015075376,
      "loss": 2.2582,
      "step": 49950
    },
    {
      "epoch": 0.2498,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022619095477386932,
      "loss": 2.2564,
      "step": 49960
    },
    {
      "epoch": 0.24985,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022617587939698493,
      "loss": 2.2625,
      "step": 49970
    },
    {
      "epoch": 0.2499,
      "grad_norm": 2.015625,
      "learning_rate": 0.0002261608040201005,
      "loss": 2.2775,
      "step": 49980
    },
    {
      "epoch": 0.24995,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022614572864321605,
      "loss": 2.1935,
      "step": 49990
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022613065326633166,
      "loss": 2.1818,
      "step": 50000
    },
    {
      "epoch": 0.25,
      "eval_loss": 2.2049944400787354,
      "eval_runtime": 90.8067,
      "eval_samples_per_second": 27.531,
      "eval_steps_per_second": 0.44,
      "step": 50000
    },
    {
      "epoch": 0.25005,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022611557788944722,
      "loss": 2.3254,
      "step": 50010
    },
    {
      "epoch": 0.2501,
      "grad_norm": 1.875,
      "learning_rate": 0.00022610050251256278,
      "loss": 2.2476,
      "step": 50020
    },
    {
      "epoch": 0.25015,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002260854271356784,
      "loss": 2.1879,
      "step": 50030
    },
    {
      "epoch": 0.2502,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022607035175879395,
      "loss": 2.1846,
      "step": 50040
    },
    {
      "epoch": 0.25025,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00022605527638190954,
      "loss": 2.2584,
      "step": 50050
    },
    {
      "epoch": 0.2503,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002260402010050251,
      "loss": 2.2139,
      "step": 50060
    },
    {
      "epoch": 0.25035,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022602512562814068,
      "loss": 2.2088,
      "step": 50070
    },
    {
      "epoch": 0.2504,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022601005025125627,
      "loss": 2.2648,
      "step": 50080
    },
    {
      "epoch": 0.25045,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022599497487437183,
      "loss": 2.1604,
      "step": 50090
    },
    {
      "epoch": 0.2505,
      "grad_norm": 1.890625,
      "learning_rate": 0.00022597989949748744,
      "loss": 2.2398,
      "step": 50100
    },
    {
      "epoch": 0.25055,
      "grad_norm": 1.8515625,
      "learning_rate": 0.000225964824120603,
      "loss": 2.2607,
      "step": 50110
    },
    {
      "epoch": 0.2506,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022594974874371856,
      "loss": 2.2261,
      "step": 50120
    },
    {
      "epoch": 0.25065,
      "grad_norm": 2.09375,
      "learning_rate": 0.00022593467336683417,
      "loss": 2.2657,
      "step": 50130
    },
    {
      "epoch": 0.2507,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022591959798994973,
      "loss": 2.2244,
      "step": 50140
    },
    {
      "epoch": 0.25075,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002259045226130653,
      "loss": 2.2232,
      "step": 50150
    },
    {
      "epoch": 0.2508,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002258894472361809,
      "loss": 2.2373,
      "step": 50160
    },
    {
      "epoch": 0.25085,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022587437185929646,
      "loss": 2.1844,
      "step": 50170
    },
    {
      "epoch": 0.2509,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022585929648241205,
      "loss": 2.2155,
      "step": 50180
    },
    {
      "epoch": 0.25095,
      "grad_norm": 1.671875,
      "learning_rate": 0.00022584422110552763,
      "loss": 2.1992,
      "step": 50190
    },
    {
      "epoch": 0.251,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002258291457286432,
      "loss": 2.2173,
      "step": 50200
    },
    {
      "epoch": 0.25105,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00022581407035175878,
      "loss": 2.2362,
      "step": 50210
    },
    {
      "epoch": 0.2511,
      "grad_norm": 2.015625,
      "learning_rate": 0.00022579899497487434,
      "loss": 2.2429,
      "step": 50220
    },
    {
      "epoch": 0.25115,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022578391959798995,
      "loss": 2.246,
      "step": 50230
    },
    {
      "epoch": 0.2512,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002257688442211055,
      "loss": 2.2149,
      "step": 50240
    },
    {
      "epoch": 0.25125,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022575376884422107,
      "loss": 2.2211,
      "step": 50250
    },
    {
      "epoch": 0.2513,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022573869346733668,
      "loss": 2.2297,
      "step": 50260
    },
    {
      "epoch": 0.25135,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022572361809045224,
      "loss": 2.2215,
      "step": 50270
    },
    {
      "epoch": 0.2514,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002257085427135678,
      "loss": 2.2062,
      "step": 50280
    },
    {
      "epoch": 0.25145,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002256934673366834,
      "loss": 2.2181,
      "step": 50290
    },
    {
      "epoch": 0.2515,
      "grad_norm": 1.921875,
      "learning_rate": 0.00022567839195979897,
      "loss": 2.2174,
      "step": 50300
    },
    {
      "epoch": 0.25155,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022566331658291453,
      "loss": 2.2171,
      "step": 50310
    },
    {
      "epoch": 0.2516,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022564824120603014,
      "loss": 2.267,
      "step": 50320
    },
    {
      "epoch": 0.25165,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002256331658291457,
      "loss": 2.1835,
      "step": 50330
    },
    {
      "epoch": 0.2517,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002256180904522613,
      "loss": 2.2808,
      "step": 50340
    },
    {
      "epoch": 0.25175,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022560301507537687,
      "loss": 2.2123,
      "step": 50350
    },
    {
      "epoch": 0.2518,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022558793969849246,
      "loss": 2.1989,
      "step": 50360
    },
    {
      "epoch": 0.25185,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00022557286432160802,
      "loss": 2.2203,
      "step": 50370
    },
    {
      "epoch": 0.2519,
      "grad_norm": 1.625,
      "learning_rate": 0.00022555778894472358,
      "loss": 2.2542,
      "step": 50380
    },
    {
      "epoch": 0.25195,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002255427135678392,
      "loss": 2.2466,
      "step": 50390
    },
    {
      "epoch": 0.252,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022552763819095475,
      "loss": 2.2082,
      "step": 50400
    },
    {
      "epoch": 0.25205,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002255125628140703,
      "loss": 2.2406,
      "step": 50410
    },
    {
      "epoch": 0.2521,
      "grad_norm": 1.59375,
      "learning_rate": 0.00022549748743718592,
      "loss": 2.2445,
      "step": 50420
    },
    {
      "epoch": 0.25215,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022548241206030148,
      "loss": 2.2724,
      "step": 50430
    },
    {
      "epoch": 0.2522,
      "grad_norm": 2.046875,
      "learning_rate": 0.00022546733668341704,
      "loss": 2.2733,
      "step": 50440
    },
    {
      "epoch": 0.25225,
      "grad_norm": 1.96875,
      "learning_rate": 0.00022545226130653265,
      "loss": 2.2475,
      "step": 50450
    },
    {
      "epoch": 0.2523,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022543718592964821,
      "loss": 2.1695,
      "step": 50460
    },
    {
      "epoch": 0.25235,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002254221105527638,
      "loss": 2.2099,
      "step": 50470
    },
    {
      "epoch": 0.2524,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022540703517587939,
      "loss": 2.2196,
      "step": 50480
    },
    {
      "epoch": 0.25245,
      "grad_norm": 1.609375,
      "learning_rate": 0.00022539195979899497,
      "loss": 2.1784,
      "step": 50490
    },
    {
      "epoch": 0.2525,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022537688442211053,
      "loss": 2.2612,
      "step": 50500
    },
    {
      "epoch": 0.25255,
      "grad_norm": 1.875,
      "learning_rate": 0.00022536180904522612,
      "loss": 2.1859,
      "step": 50510
    },
    {
      "epoch": 0.2526,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002253467336683417,
      "loss": 2.2372,
      "step": 50520
    },
    {
      "epoch": 0.25265,
      "grad_norm": 1.75,
      "learning_rate": 0.00022533165829145726,
      "loss": 2.2402,
      "step": 50530
    },
    {
      "epoch": 0.2527,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022531658291457282,
      "loss": 2.2732,
      "step": 50540
    },
    {
      "epoch": 0.25275,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022530150753768843,
      "loss": 2.2199,
      "step": 50550
    },
    {
      "epoch": 0.2528,
      "grad_norm": 1.8203125,
      "learning_rate": 0.000225286432160804,
      "loss": 2.2062,
      "step": 50560
    },
    {
      "epoch": 0.25285,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022527135678391955,
      "loss": 2.2339,
      "step": 50570
    },
    {
      "epoch": 0.2529,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00022525628140703517,
      "loss": 2.1939,
      "step": 50580
    },
    {
      "epoch": 0.25295,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00022524120603015072,
      "loss": 2.2263,
      "step": 50590
    },
    {
      "epoch": 0.253,
      "grad_norm": 2.015625,
      "learning_rate": 0.0002252261306532663,
      "loss": 2.1912,
      "step": 50600
    },
    {
      "epoch": 0.25305,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002252110552763819,
      "loss": 2.314,
      "step": 50610
    },
    {
      "epoch": 0.2531,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022519597989949748,
      "loss": 2.2324,
      "step": 50620
    },
    {
      "epoch": 0.25315,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022518090452261304,
      "loss": 2.2179,
      "step": 50630
    },
    {
      "epoch": 0.2532,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022516582914572863,
      "loss": 2.2534,
      "step": 50640
    },
    {
      "epoch": 0.25325,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022515075376884421,
      "loss": 2.2202,
      "step": 50650
    },
    {
      "epoch": 0.2533,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00022513567839195977,
      "loss": 2.2223,
      "step": 50660
    },
    {
      "epoch": 0.25335,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022512060301507539,
      "loss": 2.2005,
      "step": 50670
    },
    {
      "epoch": 0.2534,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00022510552763819095,
      "loss": 2.1477,
      "step": 50680
    },
    {
      "epoch": 0.25345,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002250904522613065,
      "loss": 2.2111,
      "step": 50690
    },
    {
      "epoch": 0.2535,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022507537688442206,
      "loss": 2.2326,
      "step": 50700
    },
    {
      "epoch": 0.25355,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00022506030150753768,
      "loss": 2.2044,
      "step": 50710
    },
    {
      "epoch": 0.2536,
      "grad_norm": 1.59375,
      "learning_rate": 0.00022504522613065324,
      "loss": 2.238,
      "step": 50720
    },
    {
      "epoch": 0.25365,
      "grad_norm": 1.640625,
      "learning_rate": 0.00022503015075376882,
      "loss": 2.2162,
      "step": 50730
    },
    {
      "epoch": 0.2537,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002250150753768844,
      "loss": 2.1892,
      "step": 50740
    },
    {
      "epoch": 0.25375,
      "grad_norm": 1.640625,
      "learning_rate": 0.000225,
      "loss": 2.2372,
      "step": 50750
    },
    {
      "epoch": 0.2538,
      "grad_norm": 1.96875,
      "learning_rate": 0.00022498492462311555,
      "loss": 2.2669,
      "step": 50760
    },
    {
      "epoch": 0.25385,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022496984924623114,
      "loss": 2.1775,
      "step": 50770
    },
    {
      "epoch": 0.2539,
      "grad_norm": 1.875,
      "learning_rate": 0.00022495477386934673,
      "loss": 2.2946,
      "step": 50780
    },
    {
      "epoch": 0.25395,
      "grad_norm": 1.875,
      "learning_rate": 0.00022493969849246228,
      "loss": 2.2655,
      "step": 50790
    },
    {
      "epoch": 0.254,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002249246231155779,
      "loss": 2.2434,
      "step": 50800
    },
    {
      "epoch": 0.25405,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00022490954773869346,
      "loss": 2.2783,
      "step": 50810
    },
    {
      "epoch": 0.2541,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022489447236180902,
      "loss": 2.2406,
      "step": 50820
    },
    {
      "epoch": 0.25415,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022487939698492457,
      "loss": 2.2663,
      "step": 50830
    },
    {
      "epoch": 0.2542,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002248643216080402,
      "loss": 2.2124,
      "step": 50840
    },
    {
      "epoch": 0.25425,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022484924623115575,
      "loss": 2.2772,
      "step": 50850
    },
    {
      "epoch": 0.2543,
      "grad_norm": 2.015625,
      "learning_rate": 0.00022483417085427133,
      "loss": 2.1724,
      "step": 50860
    },
    {
      "epoch": 0.25435,
      "grad_norm": 1.9375,
      "learning_rate": 0.00022481909547738692,
      "loss": 2.298,
      "step": 50870
    },
    {
      "epoch": 0.2544,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022480402010050248,
      "loss": 2.2212,
      "step": 50880
    },
    {
      "epoch": 0.25445,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022478894472361806,
      "loss": 2.1869,
      "step": 50890
    },
    {
      "epoch": 0.2545,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022477386934673365,
      "loss": 2.2269,
      "step": 50900
    },
    {
      "epoch": 0.25455,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00022475879396984924,
      "loss": 2.208,
      "step": 50910
    },
    {
      "epoch": 0.2546,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002247437185929648,
      "loss": 2.2025,
      "step": 50920
    },
    {
      "epoch": 0.25465,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002247286432160804,
      "loss": 2.2286,
      "step": 50930
    },
    {
      "epoch": 0.2547,
      "grad_norm": 1.75,
      "learning_rate": 0.00022471356783919597,
      "loss": 2.2133,
      "step": 50940
    },
    {
      "epoch": 0.25475,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022469849246231153,
      "loss": 2.203,
      "step": 50950
    },
    {
      "epoch": 0.2548,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022468341708542714,
      "loss": 2.2209,
      "step": 50960
    },
    {
      "epoch": 0.25485,
      "grad_norm": 1.5703125,
      "learning_rate": 0.0002246683417085427,
      "loss": 2.1588,
      "step": 50970
    },
    {
      "epoch": 0.2549,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00022465326633165826,
      "loss": 2.2007,
      "step": 50980
    },
    {
      "epoch": 0.25495,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022463819095477384,
      "loss": 2.1844,
      "step": 50990
    },
    {
      "epoch": 0.255,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022462311557788943,
      "loss": 2.2156,
      "step": 51000
    },
    {
      "epoch": 0.25505,
      "grad_norm": 1.6875,
      "learning_rate": 0.000224608040201005,
      "loss": 2.2866,
      "step": 51010
    },
    {
      "epoch": 0.2551,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00022459296482412057,
      "loss": 2.1638,
      "step": 51020
    },
    {
      "epoch": 0.25515,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022457788944723616,
      "loss": 2.2432,
      "step": 51030
    },
    {
      "epoch": 0.2552,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022456281407035175,
      "loss": 2.2203,
      "step": 51040
    },
    {
      "epoch": 0.25525,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002245477386934673,
      "loss": 2.2379,
      "step": 51050
    },
    {
      "epoch": 0.2553,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022453266331658292,
      "loss": 2.217,
      "step": 51060
    },
    {
      "epoch": 0.25535,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022451758793969848,
      "loss": 2.2307,
      "step": 51070
    },
    {
      "epoch": 0.2554,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022450251256281404,
      "loss": 2.1972,
      "step": 51080
    },
    {
      "epoch": 0.25545,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022448743718592965,
      "loss": 2.311,
      "step": 51090
    },
    {
      "epoch": 0.2555,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002244723618090452,
      "loss": 2.271,
      "step": 51100
    },
    {
      "epoch": 0.25555,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022445728643216077,
      "loss": 2.2292,
      "step": 51110
    },
    {
      "epoch": 0.2556,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022444221105527638,
      "loss": 2.242,
      "step": 51120
    },
    {
      "epoch": 0.25565,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022442713567839194,
      "loss": 2.1467,
      "step": 51130
    },
    {
      "epoch": 0.2557,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002244120603015075,
      "loss": 2.2509,
      "step": 51140
    },
    {
      "epoch": 0.25575,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022439698492462309,
      "loss": 2.2166,
      "step": 51150
    },
    {
      "epoch": 0.2558,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022438190954773867,
      "loss": 2.2964,
      "step": 51160
    },
    {
      "epoch": 0.25585,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022436683417085426,
      "loss": 2.2291,
      "step": 51170
    },
    {
      "epoch": 0.2559,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022435175879396982,
      "loss": 2.2147,
      "step": 51180
    },
    {
      "epoch": 0.25595,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022433668341708543,
      "loss": 2.2287,
      "step": 51190
    },
    {
      "epoch": 0.256,
      "grad_norm": 1.796875,
      "learning_rate": 0.000224321608040201,
      "loss": 2.1586,
      "step": 51200
    },
    {
      "epoch": 0.25605,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022430653266331655,
      "loss": 2.2452,
      "step": 51210
    },
    {
      "epoch": 0.2561,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022429145728643216,
      "loss": 2.1874,
      "step": 51220
    },
    {
      "epoch": 0.25615,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00022427638190954772,
      "loss": 2.2475,
      "step": 51230
    },
    {
      "epoch": 0.2562,
      "grad_norm": 1.640625,
      "learning_rate": 0.00022426130653266328,
      "loss": 2.2232,
      "step": 51240
    },
    {
      "epoch": 0.25625,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002242462311557789,
      "loss": 2.2319,
      "step": 51250
    },
    {
      "epoch": 0.2563,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022423115577889445,
      "loss": 2.167,
      "step": 51260
    },
    {
      "epoch": 0.25635,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022421608040201,
      "loss": 2.1948,
      "step": 51270
    },
    {
      "epoch": 0.2564,
      "grad_norm": 1.75,
      "learning_rate": 0.00022420100502512562,
      "loss": 2.2192,
      "step": 51280
    },
    {
      "epoch": 0.25645,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00022418592964824118,
      "loss": 2.2996,
      "step": 51290
    },
    {
      "epoch": 0.2565,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022417085427135677,
      "loss": 2.2079,
      "step": 51300
    },
    {
      "epoch": 0.25655,
      "grad_norm": 2.03125,
      "learning_rate": 0.00022415577889447233,
      "loss": 2.2028,
      "step": 51310
    },
    {
      "epoch": 0.2566,
      "grad_norm": 1.75,
      "learning_rate": 0.00022414070351758791,
      "loss": 2.2336,
      "step": 51320
    },
    {
      "epoch": 0.25665,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002241256281407035,
      "loss": 2.1762,
      "step": 51330
    },
    {
      "epoch": 0.2567,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022411055276381906,
      "loss": 2.1968,
      "step": 51340
    },
    {
      "epoch": 0.25675,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022409547738693467,
      "loss": 2.2345,
      "step": 51350
    },
    {
      "epoch": 0.2568,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022408040201005023,
      "loss": 2.2173,
      "step": 51360
    },
    {
      "epoch": 0.25685,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0002240653266331658,
      "loss": 2.1931,
      "step": 51370
    },
    {
      "epoch": 0.2569,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002240502512562814,
      "loss": 2.2448,
      "step": 51380
    },
    {
      "epoch": 0.25695,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022403517587939696,
      "loss": 2.1921,
      "step": 51390
    },
    {
      "epoch": 0.257,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00022402010050251252,
      "loss": 2.1786,
      "step": 51400
    },
    {
      "epoch": 0.25705,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022400502512562813,
      "loss": 2.2178,
      "step": 51410
    },
    {
      "epoch": 0.2571,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002239899497487437,
      "loss": 2.2633,
      "step": 51420
    },
    {
      "epoch": 0.25715,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022397487437185928,
      "loss": 2.2199,
      "step": 51430
    },
    {
      "epoch": 0.2572,
      "grad_norm": 1.875,
      "learning_rate": 0.00022395979899497487,
      "loss": 2.2266,
      "step": 51440
    },
    {
      "epoch": 0.25725,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022394472361809042,
      "loss": 2.2076,
      "step": 51450
    },
    {
      "epoch": 0.2573,
      "grad_norm": 1.90625,
      "learning_rate": 0.000223929648241206,
      "loss": 2.2069,
      "step": 51460
    },
    {
      "epoch": 0.25735,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00022391457286432157,
      "loss": 2.2157,
      "step": 51470
    },
    {
      "epoch": 0.2574,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022389949748743718,
      "loss": 2.2222,
      "step": 51480
    },
    {
      "epoch": 0.25745,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022388442211055274,
      "loss": 2.1719,
      "step": 51490
    },
    {
      "epoch": 0.2575,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002238693467336683,
      "loss": 2.276,
      "step": 51500
    },
    {
      "epoch": 0.25755,
      "grad_norm": 1.953125,
      "learning_rate": 0.00022385427135678391,
      "loss": 2.2221,
      "step": 51510
    },
    {
      "epoch": 0.2576,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022383919597989947,
      "loss": 2.2435,
      "step": 51520
    },
    {
      "epoch": 0.25765,
      "grad_norm": 1.890625,
      "learning_rate": 0.00022382412060301503,
      "loss": 2.1847,
      "step": 51530
    },
    {
      "epoch": 0.2577,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022380904522613065,
      "loss": 2.2692,
      "step": 51540
    },
    {
      "epoch": 0.25775,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002237939698492462,
      "loss": 2.2333,
      "step": 51550
    },
    {
      "epoch": 0.2578,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002237788944723618,
      "loss": 2.2507,
      "step": 51560
    },
    {
      "epoch": 0.25785,
      "grad_norm": 1.578125,
      "learning_rate": 0.00022376381909547738,
      "loss": 2.1913,
      "step": 51570
    },
    {
      "epoch": 0.2579,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022374874371859294,
      "loss": 2.1907,
      "step": 51580
    },
    {
      "epoch": 0.25795,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022373366834170852,
      "loss": 2.2623,
      "step": 51590
    },
    {
      "epoch": 0.258,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002237185929648241,
      "loss": 2.1976,
      "step": 51600
    },
    {
      "epoch": 0.25805,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002237035175879397,
      "loss": 2.2303,
      "step": 51610
    },
    {
      "epoch": 0.2581,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022368844221105525,
      "loss": 2.205,
      "step": 51620
    },
    {
      "epoch": 0.25815,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002236733668341708,
      "loss": 2.1386,
      "step": 51630
    },
    {
      "epoch": 0.2582,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022365829145728643,
      "loss": 2.2203,
      "step": 51640
    },
    {
      "epoch": 0.25825,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022364321608040198,
      "loss": 2.2333,
      "step": 51650
    },
    {
      "epoch": 0.2583,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022362814070351754,
      "loss": 2.2156,
      "step": 51660
    },
    {
      "epoch": 0.25835,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022361306532663316,
      "loss": 2.1952,
      "step": 51670
    },
    {
      "epoch": 0.2584,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00022359798994974872,
      "loss": 2.2681,
      "step": 51680
    },
    {
      "epoch": 0.25845,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002235829145728643,
      "loss": 2.1813,
      "step": 51690
    },
    {
      "epoch": 0.2585,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002235678391959799,
      "loss": 2.26,
      "step": 51700
    },
    {
      "epoch": 0.25855,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00022355276381909545,
      "loss": 2.204,
      "step": 51710
    },
    {
      "epoch": 0.2586,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022353768844221103,
      "loss": 2.2045,
      "step": 51720
    },
    {
      "epoch": 0.25865,
      "grad_norm": 1.59375,
      "learning_rate": 0.00022352261306532662,
      "loss": 2.2083,
      "step": 51730
    },
    {
      "epoch": 0.2587,
      "grad_norm": 1.875,
      "learning_rate": 0.0002235075376884422,
      "loss": 2.17,
      "step": 51740
    },
    {
      "epoch": 0.25875,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022349246231155776,
      "loss": 2.259,
      "step": 51750
    },
    {
      "epoch": 0.2588,
      "grad_norm": 1.671875,
      "learning_rate": 0.00022347738693467338,
      "loss": 2.2186,
      "step": 51760
    },
    {
      "epoch": 0.25885,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022346231155778894,
      "loss": 2.2439,
      "step": 51770
    },
    {
      "epoch": 0.2589,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002234472361809045,
      "loss": 2.193,
      "step": 51780
    },
    {
      "epoch": 0.25895,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022343216080402005,
      "loss": 2.1813,
      "step": 51790
    },
    {
      "epoch": 0.259,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022341708542713567,
      "loss": 2.2341,
      "step": 51800
    },
    {
      "epoch": 0.25905,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00022340201005025123,
      "loss": 2.2476,
      "step": 51810
    },
    {
      "epoch": 0.2591,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002233869346733668,
      "loss": 2.2527,
      "step": 51820
    },
    {
      "epoch": 0.25915,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002233718592964824,
      "loss": 2.194,
      "step": 51830
    },
    {
      "epoch": 0.2592,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022335678391959796,
      "loss": 2.2087,
      "step": 51840
    },
    {
      "epoch": 0.25925,
      "grad_norm": 2.015625,
      "learning_rate": 0.00022334170854271354,
      "loss": 2.2381,
      "step": 51850
    },
    {
      "epoch": 0.2593,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022332663316582913,
      "loss": 2.239,
      "step": 51860
    },
    {
      "epoch": 0.25935,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022331155778894472,
      "loss": 2.2162,
      "step": 51870
    },
    {
      "epoch": 0.2594,
      "grad_norm": 1.578125,
      "learning_rate": 0.00022329648241206027,
      "loss": 2.2303,
      "step": 51880
    },
    {
      "epoch": 0.25945,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00022328140703517586,
      "loss": 2.1317,
      "step": 51890
    },
    {
      "epoch": 0.2595,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00022326633165829145,
      "loss": 2.2192,
      "step": 51900
    },
    {
      "epoch": 0.25955,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000223251256281407,
      "loss": 2.2713,
      "step": 51910
    },
    {
      "epoch": 0.2596,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022323618090452257,
      "loss": 2.1785,
      "step": 51920
    },
    {
      "epoch": 0.25965,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022322110552763818,
      "loss": 2.2954,
      "step": 51930
    },
    {
      "epoch": 0.2597,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022320603015075374,
      "loss": 2.184,
      "step": 51940
    },
    {
      "epoch": 0.25975,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022319095477386932,
      "loss": 2.2442,
      "step": 51950
    },
    {
      "epoch": 0.2598,
      "grad_norm": 2.0,
      "learning_rate": 0.0002231758793969849,
      "loss": 2.174,
      "step": 51960
    },
    {
      "epoch": 0.25985,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022316080402010047,
      "loss": 2.2454,
      "step": 51970
    },
    {
      "epoch": 0.2599,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022314572864321605,
      "loss": 2.2355,
      "step": 51980
    },
    {
      "epoch": 0.25995,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022313065326633164,
      "loss": 2.192,
      "step": 51990
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022311557788944723,
      "loss": 2.2114,
      "step": 52000
    },
    {
      "epoch": 0.26,
      "eval_loss": 2.190157651901245,
      "eval_runtime": 90.7322,
      "eval_samples_per_second": 27.554,
      "eval_steps_per_second": 0.441,
      "step": 52000
    },
    {
      "epoch": 0.26005,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022310050251256279,
      "loss": 2.1839,
      "step": 52010
    },
    {
      "epoch": 0.2601,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022308542713567837,
      "loss": 2.2151,
      "step": 52020
    },
    {
      "epoch": 0.26015,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022307035175879396,
      "loss": 2.2315,
      "step": 52030
    },
    {
      "epoch": 0.2602,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022305527638190952,
      "loss": 2.2483,
      "step": 52040
    },
    {
      "epoch": 0.26025,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00022304020100502513,
      "loss": 2.1763,
      "step": 52050
    },
    {
      "epoch": 0.2603,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002230251256281407,
      "loss": 2.2182,
      "step": 52060
    },
    {
      "epoch": 0.26035,
      "grad_norm": 1.75,
      "learning_rate": 0.00022301005025125625,
      "loss": 2.2546,
      "step": 52070
    },
    {
      "epoch": 0.2604,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022299497487437183,
      "loss": 2.1544,
      "step": 52080
    },
    {
      "epoch": 0.26045,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022297989949748742,
      "loss": 2.2154,
      "step": 52090
    },
    {
      "epoch": 0.2605,
      "grad_norm": 1.640625,
      "learning_rate": 0.00022296482412060298,
      "loss": 2.1599,
      "step": 52100
    },
    {
      "epoch": 0.26055,
      "grad_norm": 1.5625,
      "learning_rate": 0.00022294974874371857,
      "loss": 2.2264,
      "step": 52110
    },
    {
      "epoch": 0.2606,
      "grad_norm": 1.953125,
      "learning_rate": 0.00022293467336683415,
      "loss": 2.2206,
      "step": 52120
    },
    {
      "epoch": 0.26065,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022291959798994974,
      "loss": 2.2183,
      "step": 52130
    },
    {
      "epoch": 0.2607,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002229045226130653,
      "loss": 2.1888,
      "step": 52140
    },
    {
      "epoch": 0.26075,
      "grad_norm": 2.015625,
      "learning_rate": 0.00022288944723618088,
      "loss": 2.2468,
      "step": 52150
    },
    {
      "epoch": 0.2608,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022287437185929647,
      "loss": 2.2777,
      "step": 52160
    },
    {
      "epoch": 0.26085,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022285929648241203,
      "loss": 2.164,
      "step": 52170
    },
    {
      "epoch": 0.2609,
      "grad_norm": 1.671875,
      "learning_rate": 0.00022284422110552764,
      "loss": 2.208,
      "step": 52180
    },
    {
      "epoch": 0.26095,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002228291457286432,
      "loss": 2.2087,
      "step": 52190
    },
    {
      "epoch": 0.261,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022281407035175876,
      "loss": 2.2341,
      "step": 52200
    },
    {
      "epoch": 0.26105,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00022279899497487437,
      "loss": 2.1926,
      "step": 52210
    },
    {
      "epoch": 0.2611,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022278391959798993,
      "loss": 2.2649,
      "step": 52220
    },
    {
      "epoch": 0.26115,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002227688442211055,
      "loss": 2.2443,
      "step": 52230
    },
    {
      "epoch": 0.2612,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022275376884422108,
      "loss": 2.2149,
      "step": 52240
    },
    {
      "epoch": 0.26125,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022273869346733666,
      "loss": 2.2297,
      "step": 52250
    },
    {
      "epoch": 0.2613,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022272361809045225,
      "loss": 2.2021,
      "step": 52260
    },
    {
      "epoch": 0.26135,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002227085427135678,
      "loss": 2.2141,
      "step": 52270
    },
    {
      "epoch": 0.2614,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002226934673366834,
      "loss": 2.227,
      "step": 52280
    },
    {
      "epoch": 0.26145,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00022267839195979898,
      "loss": 2.2486,
      "step": 52290
    },
    {
      "epoch": 0.2615,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022266331658291454,
      "loss": 2.2409,
      "step": 52300
    },
    {
      "epoch": 0.26155,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022264824120603015,
      "loss": 2.2387,
      "step": 52310
    },
    {
      "epoch": 0.2616,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002226331658291457,
      "loss": 2.2034,
      "step": 52320
    },
    {
      "epoch": 0.26165,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022261809045226127,
      "loss": 2.2589,
      "step": 52330
    },
    {
      "epoch": 0.2617,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022260301507537688,
      "loss": 2.2504,
      "step": 52340
    },
    {
      "epoch": 0.26175,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022258793969849244,
      "loss": 2.1806,
      "step": 52350
    },
    {
      "epoch": 0.2618,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000222572864321608,
      "loss": 2.2103,
      "step": 52360
    },
    {
      "epoch": 0.26185,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022255778894472361,
      "loss": 2.2089,
      "step": 52370
    },
    {
      "epoch": 0.2619,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022254271356783917,
      "loss": 2.2356,
      "step": 52380
    },
    {
      "epoch": 0.26195,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022252763819095476,
      "loss": 2.2105,
      "step": 52390
    },
    {
      "epoch": 0.262,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022251256281407032,
      "loss": 2.2025,
      "step": 52400
    },
    {
      "epoch": 0.26205,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002224974874371859,
      "loss": 2.2332,
      "step": 52410
    },
    {
      "epoch": 0.2621,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002224824120603015,
      "loss": 2.1863,
      "step": 52420
    },
    {
      "epoch": 0.26215,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022246733668341705,
      "loss": 2.2332,
      "step": 52430
    },
    {
      "epoch": 0.2622,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022245226130653266,
      "loss": 2.2344,
      "step": 52440
    },
    {
      "epoch": 0.26225,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022243718592964822,
      "loss": 2.2381,
      "step": 52450
    },
    {
      "epoch": 0.2623,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022242211055276378,
      "loss": 2.2505,
      "step": 52460
    },
    {
      "epoch": 0.26235,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002224070351758794,
      "loss": 2.1779,
      "step": 52470
    },
    {
      "epoch": 0.2624,
      "grad_norm": 1.640625,
      "learning_rate": 0.00022239195979899495,
      "loss": 2.2771,
      "step": 52480
    },
    {
      "epoch": 0.26245,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002223768844221105,
      "loss": 2.2338,
      "step": 52490
    },
    {
      "epoch": 0.2625,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00022236180904522613,
      "loss": 2.1989,
      "step": 52500
    },
    {
      "epoch": 0.26255,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022234673366834168,
      "loss": 2.2291,
      "step": 52510
    },
    {
      "epoch": 0.2626,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022233165829145727,
      "loss": 2.2012,
      "step": 52520
    },
    {
      "epoch": 0.26265,
      "grad_norm": 2.234375,
      "learning_rate": 0.00022231658291457286,
      "loss": 2.2093,
      "step": 52530
    },
    {
      "epoch": 0.2627,
      "grad_norm": 1.953125,
      "learning_rate": 0.00022230150753768842,
      "loss": 2.2223,
      "step": 52540
    },
    {
      "epoch": 0.26275,
      "grad_norm": 2.03125,
      "learning_rate": 0.000222286432160804,
      "loss": 2.2217,
      "step": 52550
    },
    {
      "epoch": 0.2628,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022227135678391956,
      "loss": 2.2071,
      "step": 52560
    },
    {
      "epoch": 0.26285,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022225628140703517,
      "loss": 2.2724,
      "step": 52570
    },
    {
      "epoch": 0.2629,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022224120603015073,
      "loss": 2.1907,
      "step": 52580
    },
    {
      "epoch": 0.26295,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002222261306532663,
      "loss": 2.2046,
      "step": 52590
    },
    {
      "epoch": 0.263,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002222110552763819,
      "loss": 2.1852,
      "step": 52600
    },
    {
      "epoch": 0.26305,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00022219597989949746,
      "loss": 2.2423,
      "step": 52610
    },
    {
      "epoch": 0.2631,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022218090452261302,
      "loss": 2.221,
      "step": 52620
    },
    {
      "epoch": 0.26315,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022216582914572864,
      "loss": 2.1677,
      "step": 52630
    },
    {
      "epoch": 0.2632,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002221507537688442,
      "loss": 2.2044,
      "step": 52640
    },
    {
      "epoch": 0.26325,
      "grad_norm": 1.765625,
      "learning_rate": 0.00022213567839195978,
      "loss": 2.2258,
      "step": 52650
    },
    {
      "epoch": 0.2633,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022212060301507537,
      "loss": 2.2314,
      "step": 52660
    },
    {
      "epoch": 0.26335,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00022210552763819093,
      "loss": 2.1924,
      "step": 52670
    },
    {
      "epoch": 0.2634,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002220904522613065,
      "loss": 2.2162,
      "step": 52680
    },
    {
      "epoch": 0.26345,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0002220753768844221,
      "loss": 2.2189,
      "step": 52690
    },
    {
      "epoch": 0.2635,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00022206030150753768,
      "loss": 2.1685,
      "step": 52700
    },
    {
      "epoch": 0.26355,
      "grad_norm": 1.75,
      "learning_rate": 0.00022204522613065324,
      "loss": 2.2423,
      "step": 52710
    },
    {
      "epoch": 0.2636,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002220301507537688,
      "loss": 2.1979,
      "step": 52720
    },
    {
      "epoch": 0.26365,
      "grad_norm": 1.578125,
      "learning_rate": 0.00022201507537688442,
      "loss": 2.2343,
      "step": 52730
    },
    {
      "epoch": 0.2637,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022199999999999998,
      "loss": 2.2005,
      "step": 52740
    },
    {
      "epoch": 0.26375,
      "grad_norm": 2.0,
      "learning_rate": 0.00022198492462311553,
      "loss": 2.2195,
      "step": 52750
    },
    {
      "epoch": 0.2638,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022196984924623115,
      "loss": 2.1904,
      "step": 52760
    },
    {
      "epoch": 0.26385,
      "grad_norm": 1.9375,
      "learning_rate": 0.0002219547738693467,
      "loss": 2.1724,
      "step": 52770
    },
    {
      "epoch": 0.2639,
      "grad_norm": 1.75,
      "learning_rate": 0.0002219396984924623,
      "loss": 2.2311,
      "step": 52780
    },
    {
      "epoch": 0.26395,
      "grad_norm": 1.75,
      "learning_rate": 0.00022192462311557788,
      "loss": 2.2456,
      "step": 52790
    },
    {
      "epoch": 0.264,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00022190954773869344,
      "loss": 2.1686,
      "step": 52800
    },
    {
      "epoch": 0.26405,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00022189447236180902,
      "loss": 2.1697,
      "step": 52810
    },
    {
      "epoch": 0.2641,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002218793969849246,
      "loss": 2.2347,
      "step": 52820
    },
    {
      "epoch": 0.26415,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002218643216080402,
      "loss": 2.2188,
      "step": 52830
    },
    {
      "epoch": 0.2642,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022184924623115575,
      "loss": 2.2086,
      "step": 52840
    },
    {
      "epoch": 0.26425,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022183417085427134,
      "loss": 2.2117,
      "step": 52850
    },
    {
      "epoch": 0.2643,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022181909547738693,
      "loss": 2.1829,
      "step": 52860
    },
    {
      "epoch": 0.26435,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022180402010050249,
      "loss": 2.2343,
      "step": 52870
    },
    {
      "epoch": 0.2644,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00022178894472361805,
      "loss": 2.2514,
      "step": 52880
    },
    {
      "epoch": 0.26445,
      "grad_norm": 1.609375,
      "learning_rate": 0.00022177386934673366,
      "loss": 2.2273,
      "step": 52890
    },
    {
      "epoch": 0.2645,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022175879396984922,
      "loss": 2.2848,
      "step": 52900
    },
    {
      "epoch": 0.26455,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002217437185929648,
      "loss": 2.2271,
      "step": 52910
    },
    {
      "epoch": 0.2646,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002217286432160804,
      "loss": 2.2715,
      "step": 52920
    },
    {
      "epoch": 0.26465,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022171356783919595,
      "loss": 2.1928,
      "step": 52930
    },
    {
      "epoch": 0.2647,
      "grad_norm": 1.828125,
      "learning_rate": 0.00022169849246231153,
      "loss": 2.1986,
      "step": 52940
    },
    {
      "epoch": 0.26475,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00022168341708542712,
      "loss": 2.2174,
      "step": 52950
    },
    {
      "epoch": 0.2648,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002216683417085427,
      "loss": 2.2196,
      "step": 52960
    },
    {
      "epoch": 0.26485,
      "grad_norm": 1.671875,
      "learning_rate": 0.00022165326633165827,
      "loss": 2.2056,
      "step": 52970
    },
    {
      "epoch": 0.2649,
      "grad_norm": 2.015625,
      "learning_rate": 0.00022163819095477385,
      "loss": 2.1304,
      "step": 52980
    },
    {
      "epoch": 0.26495,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00022162311557788944,
      "loss": 2.2259,
      "step": 52990
    },
    {
      "epoch": 0.265,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000221608040201005,
      "loss": 2.2394,
      "step": 53000
    },
    {
      "epoch": 0.26505,
      "grad_norm": 2.03125,
      "learning_rate": 0.0002215929648241206,
      "loss": 2.1724,
      "step": 53010
    },
    {
      "epoch": 0.2651,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022157788944723617,
      "loss": 2.2689,
      "step": 53020
    },
    {
      "epoch": 0.26515,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00022156281407035173,
      "loss": 2.2183,
      "step": 53030
    },
    {
      "epoch": 0.2652,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022154773869346731,
      "loss": 2.2152,
      "step": 53040
    },
    {
      "epoch": 0.26525,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002215326633165829,
      "loss": 2.1666,
      "step": 53050
    },
    {
      "epoch": 0.2653,
      "grad_norm": 1.671875,
      "learning_rate": 0.00022151758793969846,
      "loss": 2.2215,
      "step": 53060
    },
    {
      "epoch": 0.26535,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022150251256281405,
      "loss": 2.1736,
      "step": 53070
    },
    {
      "epoch": 0.2654,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00022148743718592963,
      "loss": 2.253,
      "step": 53080
    },
    {
      "epoch": 0.26545,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022147236180904522,
      "loss": 2.2047,
      "step": 53090
    },
    {
      "epoch": 0.2655,
      "grad_norm": 1.796875,
      "learning_rate": 0.00022145728643216078,
      "loss": 2.246,
      "step": 53100
    },
    {
      "epoch": 0.26555,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00022144221105527636,
      "loss": 2.183,
      "step": 53110
    },
    {
      "epoch": 0.2656,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022142713567839195,
      "loss": 2.1643,
      "step": 53120
    },
    {
      "epoch": 0.26565,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002214120603015075,
      "loss": 2.2234,
      "step": 53130
    },
    {
      "epoch": 0.2657,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022139698492462312,
      "loss": 2.1763,
      "step": 53140
    },
    {
      "epoch": 0.26575,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022138190954773868,
      "loss": 2.24,
      "step": 53150
    },
    {
      "epoch": 0.2658,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00022136683417085424,
      "loss": 2.1847,
      "step": 53160
    },
    {
      "epoch": 0.26585,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00022135175879396983,
      "loss": 2.1942,
      "step": 53170
    },
    {
      "epoch": 0.2659,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002213366834170854,
      "loss": 2.2115,
      "step": 53180
    },
    {
      "epoch": 0.26595,
      "grad_norm": 1.578125,
      "learning_rate": 0.00022132160804020097,
      "loss": 2.2174,
      "step": 53190
    },
    {
      "epoch": 0.266,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022130653266331656,
      "loss": 2.228,
      "step": 53200
    },
    {
      "epoch": 0.26605,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022129145728643214,
      "loss": 2.2144,
      "step": 53210
    },
    {
      "epoch": 0.2661,
      "grad_norm": 1.78125,
      "learning_rate": 0.00022127638190954773,
      "loss": 2.2043,
      "step": 53220
    },
    {
      "epoch": 0.26615,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002212613065326633,
      "loss": 2.1612,
      "step": 53230
    },
    {
      "epoch": 0.2662,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022124623115577887,
      "loss": 2.2394,
      "step": 53240
    },
    {
      "epoch": 0.26625,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022123115577889446,
      "loss": 2.1833,
      "step": 53250
    },
    {
      "epoch": 0.2663,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022121608040201002,
      "loss": 2.1651,
      "step": 53260
    },
    {
      "epoch": 0.26635,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022120100502512563,
      "loss": 2.229,
      "step": 53270
    },
    {
      "epoch": 0.2664,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002211859296482412,
      "loss": 2.2254,
      "step": 53280
    },
    {
      "epoch": 0.26645,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022117085427135675,
      "loss": 2.1928,
      "step": 53290
    },
    {
      "epoch": 0.2665,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00022115577889447236,
      "loss": 2.22,
      "step": 53300
    },
    {
      "epoch": 0.26655,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022114070351758792,
      "loss": 2.1817,
      "step": 53310
    },
    {
      "epoch": 0.2666,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00022112562814070348,
      "loss": 2.2086,
      "step": 53320
    },
    {
      "epoch": 0.26665,
      "grad_norm": 1.75,
      "learning_rate": 0.00022111055276381907,
      "loss": 2.1803,
      "step": 53330
    },
    {
      "epoch": 0.2667,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022109547738693465,
      "loss": 2.2279,
      "step": 53340
    },
    {
      "epoch": 0.26675,
      "grad_norm": 1.90625,
      "learning_rate": 0.00022108040201005024,
      "loss": 2.1383,
      "step": 53350
    },
    {
      "epoch": 0.2668,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002210653266331658,
      "loss": 2.2088,
      "step": 53360
    },
    {
      "epoch": 0.26685,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022105025125628138,
      "loss": 2.2555,
      "step": 53370
    },
    {
      "epoch": 0.2669,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022103517587939697,
      "loss": 2.186,
      "step": 53380
    },
    {
      "epoch": 0.26695,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00022102010050251253,
      "loss": 2.2305,
      "step": 53390
    },
    {
      "epoch": 0.267,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022100502512562814,
      "loss": 2.2387,
      "step": 53400
    },
    {
      "epoch": 0.26705,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002209899497487437,
      "loss": 2.2055,
      "step": 53410
    },
    {
      "epoch": 0.2671,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022097487437185926,
      "loss": 2.2039,
      "step": 53420
    },
    {
      "epoch": 0.26715,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022095979899497487,
      "loss": 2.2427,
      "step": 53430
    },
    {
      "epoch": 0.2672,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00022094472361809043,
      "loss": 2.2409,
      "step": 53440
    },
    {
      "epoch": 0.26725,
      "grad_norm": 2.0,
      "learning_rate": 0.000220929648241206,
      "loss": 2.2173,
      "step": 53450
    },
    {
      "epoch": 0.2673,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002209145728643216,
      "loss": 2.2361,
      "step": 53460
    },
    {
      "epoch": 0.26735,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022089949748743716,
      "loss": 2.1808,
      "step": 53470
    },
    {
      "epoch": 0.2674,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022088442211055275,
      "loss": 2.2012,
      "step": 53480
    },
    {
      "epoch": 0.26745,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002208693467336683,
      "loss": 2.2273,
      "step": 53490
    },
    {
      "epoch": 0.2675,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002208542713567839,
      "loss": 2.2364,
      "step": 53500
    },
    {
      "epoch": 0.26755,
      "grad_norm": 1.6875,
      "learning_rate": 0.00022083919597989948,
      "loss": 2.262,
      "step": 53510
    },
    {
      "epoch": 0.2676,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00022082412060301504,
      "loss": 2.1752,
      "step": 53520
    },
    {
      "epoch": 0.26765,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022080904522613065,
      "loss": 2.1704,
      "step": 53530
    },
    {
      "epoch": 0.2677,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002207939698492462,
      "loss": 2.2102,
      "step": 53540
    },
    {
      "epoch": 0.26775,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022077889447236177,
      "loss": 2.2252,
      "step": 53550
    },
    {
      "epoch": 0.2678,
      "grad_norm": 1.75,
      "learning_rate": 0.00022076381909547739,
      "loss": 2.1983,
      "step": 53560
    },
    {
      "epoch": 0.26785,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022074874371859294,
      "loss": 2.2346,
      "step": 53570
    },
    {
      "epoch": 0.2679,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002207336683417085,
      "loss": 2.2479,
      "step": 53580
    },
    {
      "epoch": 0.26795,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00022071859296482412,
      "loss": 2.199,
      "step": 53590
    },
    {
      "epoch": 0.268,
      "grad_norm": 1.75,
      "learning_rate": 0.00022070351758793968,
      "loss": 2.2323,
      "step": 53600
    },
    {
      "epoch": 0.26805,
      "grad_norm": 2.015625,
      "learning_rate": 0.00022068844221105526,
      "loss": 2.2172,
      "step": 53610
    },
    {
      "epoch": 0.2681,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00022067336683417085,
      "loss": 2.2402,
      "step": 53620
    },
    {
      "epoch": 0.26815,
      "grad_norm": 1.875,
      "learning_rate": 0.0002206582914572864,
      "loss": 2.2365,
      "step": 53630
    },
    {
      "epoch": 0.2682,
      "grad_norm": 1.609375,
      "learning_rate": 0.000220643216080402,
      "loss": 2.1857,
      "step": 53640
    },
    {
      "epoch": 0.26825,
      "grad_norm": 1.75,
      "learning_rate": 0.00022062814070351755,
      "loss": 2.2105,
      "step": 53650
    },
    {
      "epoch": 0.2683,
      "grad_norm": 2.109375,
      "learning_rate": 0.00022061306532663316,
      "loss": 2.2689,
      "step": 53660
    },
    {
      "epoch": 0.26835,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00022059798994974872,
      "loss": 2.214,
      "step": 53670
    },
    {
      "epoch": 0.2684,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00022058291457286428,
      "loss": 2.1426,
      "step": 53680
    },
    {
      "epoch": 0.26845,
      "grad_norm": 1.75,
      "learning_rate": 0.0002205678391959799,
      "loss": 2.2311,
      "step": 53690
    },
    {
      "epoch": 0.2685,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022055276381909546,
      "loss": 2.2293,
      "step": 53700
    },
    {
      "epoch": 0.26855,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00022053768844221101,
      "loss": 2.201,
      "step": 53710
    },
    {
      "epoch": 0.2686,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022052261306532663,
      "loss": 2.2121,
      "step": 53720
    },
    {
      "epoch": 0.26865,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022050753768844219,
      "loss": 2.2134,
      "step": 53730
    },
    {
      "epoch": 0.2687,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00022049246231155777,
      "loss": 2.1914,
      "step": 53740
    },
    {
      "epoch": 0.26875,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00022047738693467336,
      "loss": 2.1543,
      "step": 53750
    },
    {
      "epoch": 0.2688,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022046231155778892,
      "loss": 2.2261,
      "step": 53760
    },
    {
      "epoch": 0.26885,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002204472361809045,
      "loss": 2.2407,
      "step": 53770
    },
    {
      "epoch": 0.2689,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002204321608040201,
      "loss": 2.2119,
      "step": 53780
    },
    {
      "epoch": 0.26895,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022041708542713568,
      "loss": 2.2349,
      "step": 53790
    },
    {
      "epoch": 0.269,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00022040201005025123,
      "loss": 2.1948,
      "step": 53800
    },
    {
      "epoch": 0.26905,
      "grad_norm": 1.75,
      "learning_rate": 0.0002203869346733668,
      "loss": 2.257,
      "step": 53810
    },
    {
      "epoch": 0.2691,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002203718592964824,
      "loss": 2.2031,
      "step": 53820
    },
    {
      "epoch": 0.26915,
      "grad_norm": 1.609375,
      "learning_rate": 0.00022035678391959797,
      "loss": 2.205,
      "step": 53830
    },
    {
      "epoch": 0.2692,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00022034170854271353,
      "loss": 2.2256,
      "step": 53840
    },
    {
      "epoch": 0.26925,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022032663316582914,
      "loss": 2.2898,
      "step": 53850
    },
    {
      "epoch": 0.2693,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0002203115577889447,
      "loss": 2.2881,
      "step": 53860
    },
    {
      "epoch": 0.26935,
      "grad_norm": 1.8125,
      "learning_rate": 0.00022029648241206028,
      "loss": 2.2188,
      "step": 53870
    },
    {
      "epoch": 0.2694,
      "grad_norm": 1.71875,
      "learning_rate": 0.00022028140703517587,
      "loss": 2.2295,
      "step": 53880
    },
    {
      "epoch": 0.26945,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00022026633165829143,
      "loss": 2.2042,
      "step": 53890
    },
    {
      "epoch": 0.2695,
      "grad_norm": 2.0,
      "learning_rate": 0.00022025125628140701,
      "loss": 2.1863,
      "step": 53900
    },
    {
      "epoch": 0.26955,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002202361809045226,
      "loss": 2.1946,
      "step": 53910
    },
    {
      "epoch": 0.2696,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002202211055276382,
      "loss": 2.1434,
      "step": 53920
    },
    {
      "epoch": 0.26965,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00022020603015075375,
      "loss": 2.2648,
      "step": 53930
    },
    {
      "epoch": 0.2697,
      "grad_norm": 1.921875,
      "learning_rate": 0.00022019095477386933,
      "loss": 2.2078,
      "step": 53940
    },
    {
      "epoch": 0.26975,
      "grad_norm": 1.703125,
      "learning_rate": 0.00022017587939698492,
      "loss": 2.209,
      "step": 53950
    },
    {
      "epoch": 0.2698,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022016080402010048,
      "loss": 2.2024,
      "step": 53960
    },
    {
      "epoch": 0.26985,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022014572864321604,
      "loss": 2.2182,
      "step": 53970
    },
    {
      "epoch": 0.2699,
      "grad_norm": 1.65625,
      "learning_rate": 0.00022013065326633165,
      "loss": 2.2561,
      "step": 53980
    },
    {
      "epoch": 0.26995,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002201155778894472,
      "loss": 2.2153,
      "step": 53990
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002201005025125628,
      "loss": 2.2182,
      "step": 54000
    },
    {
      "epoch": 0.27,
      "eval_loss": 2.186044692993164,
      "eval_runtime": 90.7676,
      "eval_samples_per_second": 27.543,
      "eval_steps_per_second": 0.441,
      "step": 54000
    },
    {
      "epoch": 0.27005,
      "grad_norm": 1.734375,
      "learning_rate": 0.00022008542713567838,
      "loss": 2.2143,
      "step": 54010
    },
    {
      "epoch": 0.2701,
      "grad_norm": 1.84375,
      "learning_rate": 0.00022007035175879394,
      "loss": 2.2219,
      "step": 54020
    },
    {
      "epoch": 0.27015,
      "grad_norm": 1.859375,
      "learning_rate": 0.00022005527638190953,
      "loss": 2.2216,
      "step": 54030
    },
    {
      "epoch": 0.2702,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0002200402010050251,
      "loss": 2.1895,
      "step": 54040
    },
    {
      "epoch": 0.27025,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002200251256281407,
      "loss": 2.254,
      "step": 54050
    },
    {
      "epoch": 0.2703,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00022001005025125626,
      "loss": 2.2301,
      "step": 54060
    },
    {
      "epoch": 0.27035,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021999497487437184,
      "loss": 2.1886,
      "step": 54070
    },
    {
      "epoch": 0.2704,
      "grad_norm": 1.5390625,
      "learning_rate": 0.00021997989949748743,
      "loss": 2.2275,
      "step": 54080
    },
    {
      "epoch": 0.27045,
      "grad_norm": 1.8671875,
      "learning_rate": 0.000219964824120603,
      "loss": 2.2015,
      "step": 54090
    },
    {
      "epoch": 0.2705,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002199497487437186,
      "loss": 2.1973,
      "step": 54100
    },
    {
      "epoch": 0.27055,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021993467336683416,
      "loss": 2.1897,
      "step": 54110
    },
    {
      "epoch": 0.2706,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00021991959798994972,
      "loss": 2.236,
      "step": 54120
    },
    {
      "epoch": 0.27065,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002199045226130653,
      "loss": 2.2877,
      "step": 54130
    },
    {
      "epoch": 0.2707,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002198894472361809,
      "loss": 2.1851,
      "step": 54140
    },
    {
      "epoch": 0.27075,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021987437185929645,
      "loss": 2.2171,
      "step": 54150
    },
    {
      "epoch": 0.2708,
      "grad_norm": 2.03125,
      "learning_rate": 0.00021985929648241204,
      "loss": 2.192,
      "step": 54160
    },
    {
      "epoch": 0.27085,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021984422110552762,
      "loss": 2.1995,
      "step": 54170
    },
    {
      "epoch": 0.2709,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002198291457286432,
      "loss": 2.1544,
      "step": 54180
    },
    {
      "epoch": 0.27095,
      "grad_norm": 1.640625,
      "learning_rate": 0.00021981407035175877,
      "loss": 2.2231,
      "step": 54190
    },
    {
      "epoch": 0.271,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021979899497487435,
      "loss": 2.21,
      "step": 54200
    },
    {
      "epoch": 0.27105,
      "grad_norm": 1.875,
      "learning_rate": 0.00021978391959798994,
      "loss": 2.2719,
      "step": 54210
    },
    {
      "epoch": 0.2711,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002197688442211055,
      "loss": 2.1686,
      "step": 54220
    },
    {
      "epoch": 0.27115,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002197537688442211,
      "loss": 2.2197,
      "step": 54230
    },
    {
      "epoch": 0.2712,
      "grad_norm": 1.75,
      "learning_rate": 0.00021973869346733667,
      "loss": 2.175,
      "step": 54240
    },
    {
      "epoch": 0.27125,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021972361809045223,
      "loss": 2.1463,
      "step": 54250
    },
    {
      "epoch": 0.2713,
      "grad_norm": 1.90625,
      "learning_rate": 0.00021970854271356782,
      "loss": 2.1878,
      "step": 54260
    },
    {
      "epoch": 0.27135,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002196934673366834,
      "loss": 2.2212,
      "step": 54270
    },
    {
      "epoch": 0.2714,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021967839195979896,
      "loss": 2.1753,
      "step": 54280
    },
    {
      "epoch": 0.27145,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00021966331658291455,
      "loss": 2.2114,
      "step": 54290
    },
    {
      "epoch": 0.2715,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021964824120603013,
      "loss": 2.1469,
      "step": 54300
    },
    {
      "epoch": 0.27155,
      "grad_norm": 1.75,
      "learning_rate": 0.00021963316582914572,
      "loss": 2.2186,
      "step": 54310
    },
    {
      "epoch": 0.2716,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00021961809045226128,
      "loss": 2.2121,
      "step": 54320
    },
    {
      "epoch": 0.27165,
      "grad_norm": 2.234375,
      "learning_rate": 0.00021960301507537686,
      "loss": 2.2263,
      "step": 54330
    },
    {
      "epoch": 0.2717,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021958793969849245,
      "loss": 2.221,
      "step": 54340
    },
    {
      "epoch": 0.27175,
      "grad_norm": 1.78125,
      "learning_rate": 0.000219572864321608,
      "loss": 2.2151,
      "step": 54350
    },
    {
      "epoch": 0.2718,
      "grad_norm": 1.890625,
      "learning_rate": 0.00021955778894472362,
      "loss": 2.2799,
      "step": 54360
    },
    {
      "epoch": 0.27185,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021954271356783918,
      "loss": 2.2003,
      "step": 54370
    },
    {
      "epoch": 0.2719,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021952763819095474,
      "loss": 2.1951,
      "step": 54380
    },
    {
      "epoch": 0.27195,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021951256281407035,
      "loss": 2.2684,
      "step": 54390
    },
    {
      "epoch": 0.272,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0002194974874371859,
      "loss": 2.1651,
      "step": 54400
    },
    {
      "epoch": 0.27205,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00021948241206030147,
      "loss": 2.2322,
      "step": 54410
    },
    {
      "epoch": 0.2721,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021946733668341706,
      "loss": 2.2164,
      "step": 54420
    },
    {
      "epoch": 0.27215,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021945226130653264,
      "loss": 2.2083,
      "step": 54430
    },
    {
      "epoch": 0.2722,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021943718592964823,
      "loss": 2.1986,
      "step": 54440
    },
    {
      "epoch": 0.27225,
      "grad_norm": 2.046875,
      "learning_rate": 0.0002194221105527638,
      "loss": 2.2359,
      "step": 54450
    },
    {
      "epoch": 0.2723,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021940703517587938,
      "loss": 2.1829,
      "step": 54460
    },
    {
      "epoch": 0.27235,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021939195979899496,
      "loss": 2.2128,
      "step": 54470
    },
    {
      "epoch": 0.2724,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021937688442211052,
      "loss": 2.2161,
      "step": 54480
    },
    {
      "epoch": 0.27245,
      "grad_norm": 1.875,
      "learning_rate": 0.00021936180904522613,
      "loss": 2.2632,
      "step": 54490
    },
    {
      "epoch": 0.2725,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002193467336683417,
      "loss": 2.1907,
      "step": 54500
    },
    {
      "epoch": 0.27255,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021933165829145725,
      "loss": 2.2408,
      "step": 54510
    },
    {
      "epoch": 0.2726,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00021931658291457287,
      "loss": 2.23,
      "step": 54520
    },
    {
      "epoch": 0.27265,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021930150753768842,
      "loss": 2.1926,
      "step": 54530
    },
    {
      "epoch": 0.2727,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021928643216080398,
      "loss": 2.2028,
      "step": 54540
    },
    {
      "epoch": 0.27275,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002192713567839196,
      "loss": 2.1536,
      "step": 54550
    },
    {
      "epoch": 0.2728,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021925628140703516,
      "loss": 2.208,
      "step": 54560
    },
    {
      "epoch": 0.27285,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021924120603015074,
      "loss": 2.2503,
      "step": 54570
    },
    {
      "epoch": 0.2729,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002192261306532663,
      "loss": 2.199,
      "step": 54580
    },
    {
      "epoch": 0.27295,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002192110552763819,
      "loss": 2.2471,
      "step": 54590
    },
    {
      "epoch": 0.273,
      "grad_norm": 1.96875,
      "learning_rate": 0.00021919597989949747,
      "loss": 2.2407,
      "step": 54600
    },
    {
      "epoch": 0.27305,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021918090452261303,
      "loss": 2.2745,
      "step": 54610
    },
    {
      "epoch": 0.2731,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021916582914572864,
      "loss": 2.2263,
      "step": 54620
    },
    {
      "epoch": 0.27315,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002191507537688442,
      "loss": 2.2212,
      "step": 54630
    },
    {
      "epoch": 0.2732,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021913567839195976,
      "loss": 2.1751,
      "step": 54640
    },
    {
      "epoch": 0.27325,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021912060301507538,
      "loss": 2.2388,
      "step": 54650
    },
    {
      "epoch": 0.2733,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021910552763819094,
      "loss": 2.2539,
      "step": 54660
    },
    {
      "epoch": 0.27335,
      "grad_norm": 1.75,
      "learning_rate": 0.0002190904522613065,
      "loss": 2.2388,
      "step": 54670
    },
    {
      "epoch": 0.2734,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002190753768844221,
      "loss": 2.212,
      "step": 54680
    },
    {
      "epoch": 0.27345,
      "grad_norm": 1.640625,
      "learning_rate": 0.00021906030150753767,
      "loss": 2.2084,
      "step": 54690
    },
    {
      "epoch": 0.2735,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021904522613065325,
      "loss": 2.2818,
      "step": 54700
    },
    {
      "epoch": 0.27355,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021903015075376884,
      "loss": 2.2168,
      "step": 54710
    },
    {
      "epoch": 0.2736,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002190150753768844,
      "loss": 2.2313,
      "step": 54720
    },
    {
      "epoch": 0.27365,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021899999999999998,
      "loss": 2.1931,
      "step": 54730
    },
    {
      "epoch": 0.2737,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021898492462311554,
      "loss": 2.1934,
      "step": 54740
    },
    {
      "epoch": 0.27375,
      "grad_norm": 2.265625,
      "learning_rate": 0.00021896984924623116,
      "loss": 2.2514,
      "step": 54750
    },
    {
      "epoch": 0.2738,
      "grad_norm": 1.984375,
      "learning_rate": 0.00021895477386934671,
      "loss": 2.1561,
      "step": 54760
    },
    {
      "epoch": 0.27385,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021893969849246227,
      "loss": 2.1853,
      "step": 54770
    },
    {
      "epoch": 0.2739,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002189246231155779,
      "loss": 2.1699,
      "step": 54780
    },
    {
      "epoch": 0.27395,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00021890954773869345,
      "loss": 2.1553,
      "step": 54790
    },
    {
      "epoch": 0.274,
      "grad_norm": 1.7734375,
      "learning_rate": 0.000218894472361809,
      "loss": 2.22,
      "step": 54800
    },
    {
      "epoch": 0.27405,
      "grad_norm": 1.875,
      "learning_rate": 0.00021887939698492462,
      "loss": 2.1693,
      "step": 54810
    },
    {
      "epoch": 0.2741,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021886432160804018,
      "loss": 2.2094,
      "step": 54820
    },
    {
      "epoch": 0.27415,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021884924623115576,
      "loss": 2.2308,
      "step": 54830
    },
    {
      "epoch": 0.2742,
      "grad_norm": 1.921875,
      "learning_rate": 0.00021883417085427135,
      "loss": 2.2024,
      "step": 54840
    },
    {
      "epoch": 0.27425,
      "grad_norm": 2.0,
      "learning_rate": 0.0002188190954773869,
      "loss": 2.2822,
      "step": 54850
    },
    {
      "epoch": 0.2743,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002188040201005025,
      "loss": 2.1321,
      "step": 54860
    },
    {
      "epoch": 0.27435,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021878894472361808,
      "loss": 2.2255,
      "step": 54870
    },
    {
      "epoch": 0.2744,
      "grad_norm": 1.625,
      "learning_rate": 0.00021877386934673367,
      "loss": 2.2305,
      "step": 54880
    },
    {
      "epoch": 0.27445,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021875879396984923,
      "loss": 2.2702,
      "step": 54890
    },
    {
      "epoch": 0.2745,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021874371859296478,
      "loss": 2.1973,
      "step": 54900
    },
    {
      "epoch": 0.27455,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002187286432160804,
      "loss": 2.1611,
      "step": 54910
    },
    {
      "epoch": 0.2746,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021871356783919596,
      "loss": 2.2537,
      "step": 54920
    },
    {
      "epoch": 0.27465,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00021869849246231152,
      "loss": 2.1803,
      "step": 54930
    },
    {
      "epoch": 0.2747,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021868341708542713,
      "loss": 2.198,
      "step": 54940
    },
    {
      "epoch": 0.27475,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002186683417085427,
      "loss": 2.1714,
      "step": 54950
    },
    {
      "epoch": 0.2748,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021865326633165827,
      "loss": 2.1708,
      "step": 54960
    },
    {
      "epoch": 0.27485,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021863819095477386,
      "loss": 2.1649,
      "step": 54970
    },
    {
      "epoch": 0.2749,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021862311557788942,
      "loss": 2.214,
      "step": 54980
    },
    {
      "epoch": 0.27495,
      "grad_norm": 1.8828125,
      "learning_rate": 0.000218608040201005,
      "loss": 2.1992,
      "step": 54990
    },
    {
      "epoch": 0.275,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002185929648241206,
      "loss": 2.2212,
      "step": 55000
    },
    {
      "epoch": 0.27505,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00021857788944723618,
      "loss": 2.1889,
      "step": 55010
    },
    {
      "epoch": 0.2751,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00021856281407035174,
      "loss": 2.2764,
      "step": 55020
    },
    {
      "epoch": 0.27515,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021854773869346732,
      "loss": 2.1948,
      "step": 55030
    },
    {
      "epoch": 0.2752,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002185326633165829,
      "loss": 2.2012,
      "step": 55040
    },
    {
      "epoch": 0.27525,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00021851758793969847,
      "loss": 2.2131,
      "step": 55050
    },
    {
      "epoch": 0.2753,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00021850251256281403,
      "loss": 2.1531,
      "step": 55060
    },
    {
      "epoch": 0.27535,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021848743718592964,
      "loss": 2.2064,
      "step": 55070
    },
    {
      "epoch": 0.2754,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002184723618090452,
      "loss": 2.2158,
      "step": 55080
    },
    {
      "epoch": 0.27545,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00021845728643216079,
      "loss": 2.1983,
      "step": 55090
    },
    {
      "epoch": 0.2755,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021844221105527637,
      "loss": 2.1692,
      "step": 55100
    },
    {
      "epoch": 0.27555,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021842713567839193,
      "loss": 2.2037,
      "step": 55110
    },
    {
      "epoch": 0.2756,
      "grad_norm": 1.75,
      "learning_rate": 0.00021841206030150752,
      "loss": 2.1994,
      "step": 55120
    },
    {
      "epoch": 0.27565,
      "grad_norm": 1.75,
      "learning_rate": 0.0002183969849246231,
      "loss": 2.1752,
      "step": 55130
    },
    {
      "epoch": 0.2757,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002183819095477387,
      "loss": 2.2298,
      "step": 55140
    },
    {
      "epoch": 0.27575,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021836683417085425,
      "loss": 2.2089,
      "step": 55150
    },
    {
      "epoch": 0.2758,
      "grad_norm": 2.0,
      "learning_rate": 0.00021835175879396983,
      "loss": 2.2291,
      "step": 55160
    },
    {
      "epoch": 0.27585,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021833668341708542,
      "loss": 2.2047,
      "step": 55170
    },
    {
      "epoch": 0.2759,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021832160804020098,
      "loss": 2.2187,
      "step": 55180
    },
    {
      "epoch": 0.27595,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002183065326633166,
      "loss": 2.2538,
      "step": 55190
    },
    {
      "epoch": 0.276,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021829145728643215,
      "loss": 2.191,
      "step": 55200
    },
    {
      "epoch": 0.27605,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0002182763819095477,
      "loss": 2.2158,
      "step": 55210
    },
    {
      "epoch": 0.2761,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002182613065326633,
      "loss": 2.2271,
      "step": 55220
    },
    {
      "epoch": 0.27615,
      "grad_norm": 1.9375,
      "learning_rate": 0.00021824623115577888,
      "loss": 2.1569,
      "step": 55230
    },
    {
      "epoch": 0.2762,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00021823115577889444,
      "loss": 2.1878,
      "step": 55240
    },
    {
      "epoch": 0.27625,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021821608040201003,
      "loss": 2.1709,
      "step": 55250
    },
    {
      "epoch": 0.2763,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002182010050251256,
      "loss": 2.1693,
      "step": 55260
    },
    {
      "epoch": 0.27635,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002181859296482412,
      "loss": 2.2136,
      "step": 55270
    },
    {
      "epoch": 0.2764,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021817085427135676,
      "loss": 2.1751,
      "step": 55280
    },
    {
      "epoch": 0.27645,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021815577889447234,
      "loss": 2.1984,
      "step": 55290
    },
    {
      "epoch": 0.2765,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021814070351758793,
      "loss": 2.1605,
      "step": 55300
    },
    {
      "epoch": 0.27655,
      "grad_norm": 1.875,
      "learning_rate": 0.0002181256281407035,
      "loss": 2.2505,
      "step": 55310
    },
    {
      "epoch": 0.2766,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002181105527638191,
      "loss": 2.1997,
      "step": 55320
    },
    {
      "epoch": 0.27665,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021809547738693466,
      "loss": 2.1958,
      "step": 55330
    },
    {
      "epoch": 0.2767,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00021808040201005022,
      "loss": 2.2389,
      "step": 55340
    },
    {
      "epoch": 0.27675,
      "grad_norm": 1.890625,
      "learning_rate": 0.00021806532663316583,
      "loss": 2.1768,
      "step": 55350
    },
    {
      "epoch": 0.2768,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0002180502512562814,
      "loss": 2.2349,
      "step": 55360
    },
    {
      "epoch": 0.27685,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021803517587939695,
      "loss": 2.2149,
      "step": 55370
    },
    {
      "epoch": 0.2769,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021802010050251254,
      "loss": 2.2275,
      "step": 55380
    },
    {
      "epoch": 0.27695,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00021800502512562812,
      "loss": 2.1923,
      "step": 55390
    },
    {
      "epoch": 0.277,
      "grad_norm": 1.875,
      "learning_rate": 0.0002179899497487437,
      "loss": 2.1559,
      "step": 55400
    },
    {
      "epoch": 0.27705,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021797487437185927,
      "loss": 2.2422,
      "step": 55410
    },
    {
      "epoch": 0.2771,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021795979899497486,
      "loss": 2.2518,
      "step": 55420
    },
    {
      "epoch": 0.27715,
      "grad_norm": 2.328125,
      "learning_rate": 0.00021794472361809044,
      "loss": 2.2,
      "step": 55430
    },
    {
      "epoch": 0.2772,
      "grad_norm": 1.9296875,
      "learning_rate": 0.000217929648241206,
      "loss": 2.2,
      "step": 55440
    },
    {
      "epoch": 0.27725,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00021791457286432161,
      "loss": 2.1903,
      "step": 55450
    },
    {
      "epoch": 0.2773,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00021789949748743717,
      "loss": 2.1742,
      "step": 55460
    },
    {
      "epoch": 0.27735,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021788442211055273,
      "loss": 2.209,
      "step": 55470
    },
    {
      "epoch": 0.2774,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021786934673366835,
      "loss": 2.2001,
      "step": 55480
    },
    {
      "epoch": 0.27745,
      "grad_norm": 1.578125,
      "learning_rate": 0.0002178542713567839,
      "loss": 2.2209,
      "step": 55490
    },
    {
      "epoch": 0.2775,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021783919597989946,
      "loss": 2.2211,
      "step": 55500
    },
    {
      "epoch": 0.27755,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021782412060301505,
      "loss": 2.228,
      "step": 55510
    },
    {
      "epoch": 0.2776,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021780904522613064,
      "loss": 2.2005,
      "step": 55520
    },
    {
      "epoch": 0.27765,
      "grad_norm": 1.59375,
      "learning_rate": 0.00021779396984924622,
      "loss": 2.2231,
      "step": 55530
    },
    {
      "epoch": 0.2777,
      "grad_norm": 1.625,
      "learning_rate": 0.00021777889447236178,
      "loss": 2.1614,
      "step": 55540
    },
    {
      "epoch": 0.27775,
      "grad_norm": 1.640625,
      "learning_rate": 0.00021776381909547737,
      "loss": 2.1491,
      "step": 55550
    },
    {
      "epoch": 0.2778,
      "grad_norm": 2.03125,
      "learning_rate": 0.00021774874371859295,
      "loss": 2.2336,
      "step": 55560
    },
    {
      "epoch": 0.27785,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002177336683417085,
      "loss": 2.2536,
      "step": 55570
    },
    {
      "epoch": 0.2779,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021771859296482412,
      "loss": 2.1996,
      "step": 55580
    },
    {
      "epoch": 0.27795,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021770351758793968,
      "loss": 2.1889,
      "step": 55590
    },
    {
      "epoch": 0.278,
      "grad_norm": 1.875,
      "learning_rate": 0.00021768844221105524,
      "loss": 2.1597,
      "step": 55600
    },
    {
      "epoch": 0.27805,
      "grad_norm": 2.046875,
      "learning_rate": 0.00021767336683417086,
      "loss": 2.1937,
      "step": 55610
    },
    {
      "epoch": 0.2781,
      "grad_norm": 1.953125,
      "learning_rate": 0.00021765829145728641,
      "loss": 2.2106,
      "step": 55620
    },
    {
      "epoch": 0.27815,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00021764321608040197,
      "loss": 2.1475,
      "step": 55630
    },
    {
      "epoch": 0.2782,
      "grad_norm": 1.5625,
      "learning_rate": 0.0002176281407035176,
      "loss": 2.2182,
      "step": 55640
    },
    {
      "epoch": 0.27825,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021761306532663315,
      "loss": 2.1731,
      "step": 55650
    },
    {
      "epoch": 0.2783,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021759798994974873,
      "loss": 2.2091,
      "step": 55660
    },
    {
      "epoch": 0.27835,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002175829145728643,
      "loss": 2.2172,
      "step": 55670
    },
    {
      "epoch": 0.2784,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00021756783919597988,
      "loss": 2.1867,
      "step": 55680
    },
    {
      "epoch": 0.27845,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021755276381909546,
      "loss": 2.2117,
      "step": 55690
    },
    {
      "epoch": 0.2785,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021753768844221102,
      "loss": 2.1853,
      "step": 55700
    },
    {
      "epoch": 0.27855,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021752261306532664,
      "loss": 2.1949,
      "step": 55710
    },
    {
      "epoch": 0.2786,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002175075376884422,
      "loss": 2.235,
      "step": 55720
    },
    {
      "epoch": 0.27865,
      "grad_norm": 1.75,
      "learning_rate": 0.00021749246231155775,
      "loss": 2.2503,
      "step": 55730
    },
    {
      "epoch": 0.2787,
      "grad_norm": 1.984375,
      "learning_rate": 0.00021747738693467337,
      "loss": 2.2075,
      "step": 55740
    },
    {
      "epoch": 0.27875,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00021746231155778893,
      "loss": 2.1777,
      "step": 55750
    },
    {
      "epoch": 0.2788,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021744723618090448,
      "loss": 2.2406,
      "step": 55760
    },
    {
      "epoch": 0.27885,
      "grad_norm": 1.75,
      "learning_rate": 0.0002174321608040201,
      "loss": 2.1969,
      "step": 55770
    },
    {
      "epoch": 0.2789,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00021741708542713566,
      "loss": 2.1891,
      "step": 55780
    },
    {
      "epoch": 0.27895,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021740201005025124,
      "loss": 2.1168,
      "step": 55790
    },
    {
      "epoch": 0.279,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00021738693467336683,
      "loss": 2.1933,
      "step": 55800
    },
    {
      "epoch": 0.27905,
      "grad_norm": 1.875,
      "learning_rate": 0.0002173718592964824,
      "loss": 2.2904,
      "step": 55810
    },
    {
      "epoch": 0.2791,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021735678391959797,
      "loss": 2.1432,
      "step": 55820
    },
    {
      "epoch": 0.27915,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021734170854271353,
      "loss": 2.2702,
      "step": 55830
    },
    {
      "epoch": 0.2792,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00021732663316582915,
      "loss": 2.1937,
      "step": 55840
    },
    {
      "epoch": 0.27925,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002173115577889447,
      "loss": 2.1896,
      "step": 55850
    },
    {
      "epoch": 0.2793,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021729648241206026,
      "loss": 2.2229,
      "step": 55860
    },
    {
      "epoch": 0.27935,
      "grad_norm": 1.890625,
      "learning_rate": 0.00021728140703517588,
      "loss": 2.2204,
      "step": 55870
    },
    {
      "epoch": 0.2794,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021726633165829144,
      "loss": 2.1876,
      "step": 55880
    },
    {
      "epoch": 0.27945,
      "grad_norm": 1.8515625,
      "learning_rate": 0.000217251256281407,
      "loss": 2.2478,
      "step": 55890
    },
    {
      "epoch": 0.2795,
      "grad_norm": 1.75,
      "learning_rate": 0.0002172361809045226,
      "loss": 2.1842,
      "step": 55900
    },
    {
      "epoch": 0.27955,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021722110552763817,
      "loss": 2.2266,
      "step": 55910
    },
    {
      "epoch": 0.2796,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00021720603015075373,
      "loss": 2.1541,
      "step": 55920
    },
    {
      "epoch": 0.27965,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021719095477386934,
      "loss": 2.2379,
      "step": 55930
    },
    {
      "epoch": 0.2797,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002171758793969849,
      "loss": 2.2187,
      "step": 55940
    },
    {
      "epoch": 0.27975,
      "grad_norm": 1.75,
      "learning_rate": 0.00021716080402010049,
      "loss": 2.1972,
      "step": 55950
    },
    {
      "epoch": 0.2798,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021714572864321607,
      "loss": 2.2055,
      "step": 55960
    },
    {
      "epoch": 0.27985,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021713065326633166,
      "loss": 2.2087,
      "step": 55970
    },
    {
      "epoch": 0.2799,
      "grad_norm": 1.59375,
      "learning_rate": 0.00021711557788944722,
      "loss": 2.1721,
      "step": 55980
    },
    {
      "epoch": 0.27995,
      "grad_norm": 1.890625,
      "learning_rate": 0.00021710050251256278,
      "loss": 2.1734,
      "step": 55990
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.75,
      "learning_rate": 0.0002170854271356784,
      "loss": 2.167,
      "step": 56000
    },
    {
      "epoch": 0.28,
      "eval_loss": 2.1756248474121094,
      "eval_runtime": 89.646,
      "eval_samples_per_second": 27.887,
      "eval_steps_per_second": 0.446,
      "step": 56000
    },
    {
      "epoch": 0.28005,
      "grad_norm": 1.90625,
      "learning_rate": 0.00021707035175879395,
      "loss": 2.2523,
      "step": 56010
    },
    {
      "epoch": 0.2801,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002170552763819095,
      "loss": 2.1981,
      "step": 56020
    },
    {
      "epoch": 0.28015,
      "grad_norm": 1.984375,
      "learning_rate": 0.00021704020100502512,
      "loss": 2.1848,
      "step": 56030
    },
    {
      "epoch": 0.2802,
      "grad_norm": 1.609375,
      "learning_rate": 0.00021702512562814068,
      "loss": 2.2265,
      "step": 56040
    },
    {
      "epoch": 0.28025,
      "grad_norm": 1.671875,
      "learning_rate": 0.00021701005025125624,
      "loss": 2.1961,
      "step": 56050
    },
    {
      "epoch": 0.2803,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021699497487437185,
      "loss": 2.1733,
      "step": 56060
    },
    {
      "epoch": 0.28035,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002169798994974874,
      "loss": 2.1995,
      "step": 56070
    },
    {
      "epoch": 0.2804,
      "grad_norm": 1.984375,
      "learning_rate": 0.000216964824120603,
      "loss": 2.1873,
      "step": 56080
    },
    {
      "epoch": 0.28045,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021694974874371858,
      "loss": 2.1932,
      "step": 56090
    },
    {
      "epoch": 0.2805,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021693467336683417,
      "loss": 2.1376,
      "step": 56100
    },
    {
      "epoch": 0.28055,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021691959798994973,
      "loss": 2.2903,
      "step": 56110
    },
    {
      "epoch": 0.2806,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00021690452261306531,
      "loss": 2.1617,
      "step": 56120
    },
    {
      "epoch": 0.28065,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002168894472361809,
      "loss": 2.2045,
      "step": 56130
    },
    {
      "epoch": 0.2807,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021687437185929646,
      "loss": 2.1992,
      "step": 56140
    },
    {
      "epoch": 0.28075,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021685929648241202,
      "loss": 2.1816,
      "step": 56150
    },
    {
      "epoch": 0.2808,
      "grad_norm": 1.90625,
      "learning_rate": 0.00021684422110552763,
      "loss": 2.2483,
      "step": 56160
    },
    {
      "epoch": 0.28085,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002168291457286432,
      "loss": 2.1783,
      "step": 56170
    },
    {
      "epoch": 0.2809,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00021681407035175875,
      "loss": 2.1912,
      "step": 56180
    },
    {
      "epoch": 0.28095,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00021679899497487436,
      "loss": 2.2148,
      "step": 56190
    },
    {
      "epoch": 0.281,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021678391959798992,
      "loss": 2.1869,
      "step": 56200
    },
    {
      "epoch": 0.28105,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002167688442211055,
      "loss": 2.1691,
      "step": 56210
    },
    {
      "epoch": 0.2811,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002167537688442211,
      "loss": 2.1998,
      "step": 56220
    },
    {
      "epoch": 0.28115,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021673869346733668,
      "loss": 2.1781,
      "step": 56230
    },
    {
      "epoch": 0.2812,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021672361809045224,
      "loss": 2.2006,
      "step": 56240
    },
    {
      "epoch": 0.28125,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021670854271356782,
      "loss": 2.1827,
      "step": 56250
    },
    {
      "epoch": 0.2813,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002166934673366834,
      "loss": 2.1355,
      "step": 56260
    },
    {
      "epoch": 0.28135,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021667839195979897,
      "loss": 2.1724,
      "step": 56270
    },
    {
      "epoch": 0.2814,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021666331658291458,
      "loss": 2.156,
      "step": 56280
    },
    {
      "epoch": 0.28145,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021664824120603014,
      "loss": 2.2019,
      "step": 56290
    },
    {
      "epoch": 0.2815,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002166331658291457,
      "loss": 2.1572,
      "step": 56300
    },
    {
      "epoch": 0.28155,
      "grad_norm": 1.5625,
      "learning_rate": 0.00021661809045226126,
      "loss": 2.1291,
      "step": 56310
    },
    {
      "epoch": 0.2816,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021660301507537687,
      "loss": 2.1928,
      "step": 56320
    },
    {
      "epoch": 0.28165,
      "grad_norm": 1.875,
      "learning_rate": 0.00021658793969849243,
      "loss": 2.2017,
      "step": 56330
    },
    {
      "epoch": 0.2817,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021657286432160802,
      "loss": 2.2068,
      "step": 56340
    },
    {
      "epoch": 0.28175,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002165577889447236,
      "loss": 2.1949,
      "step": 56350
    },
    {
      "epoch": 0.2818,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021654271356783916,
      "loss": 2.2088,
      "step": 56360
    },
    {
      "epoch": 0.28185,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021652763819095475,
      "loss": 2.2166,
      "step": 56370
    },
    {
      "epoch": 0.2819,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021651256281407034,
      "loss": 2.1248,
      "step": 56380
    },
    {
      "epoch": 0.28195,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021649748743718592,
      "loss": 2.2426,
      "step": 56390
    },
    {
      "epoch": 0.282,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00021648241206030148,
      "loss": 2.2062,
      "step": 56400
    },
    {
      "epoch": 0.28205,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0002164673366834171,
      "loss": 2.1903,
      "step": 56410
    },
    {
      "epoch": 0.2821,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021645226130653265,
      "loss": 2.2298,
      "step": 56420
    },
    {
      "epoch": 0.28215,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002164371859296482,
      "loss": 2.1759,
      "step": 56430
    },
    {
      "epoch": 0.2822,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021642211055276382,
      "loss": 2.1805,
      "step": 56440
    },
    {
      "epoch": 0.28225,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021640703517587938,
      "loss": 2.1803,
      "step": 56450
    },
    {
      "epoch": 0.2823,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021639195979899494,
      "loss": 2.23,
      "step": 56460
    },
    {
      "epoch": 0.28235,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021637688442211053,
      "loss": 2.2661,
      "step": 56470
    },
    {
      "epoch": 0.2824,
      "grad_norm": 1.96875,
      "learning_rate": 0.00021636180904522612,
      "loss": 2.1779,
      "step": 56480
    },
    {
      "epoch": 0.28245,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021634673366834167,
      "loss": 2.2066,
      "step": 56490
    },
    {
      "epoch": 0.2825,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021633165829145726,
      "loss": 2.197,
      "step": 56500
    },
    {
      "epoch": 0.28255,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021631658291457285,
      "loss": 2.1484,
      "step": 56510
    },
    {
      "epoch": 0.2826,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00021630150753768843,
      "loss": 2.2279,
      "step": 56520
    },
    {
      "epoch": 0.28265,
      "grad_norm": 1.6328125,
      "learning_rate": 0.000216286432160804,
      "loss": 2.1702,
      "step": 56530
    },
    {
      "epoch": 0.2827,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002162713567839196,
      "loss": 2.2261,
      "step": 56540
    },
    {
      "epoch": 0.28275,
      "grad_norm": 2.0625,
      "learning_rate": 0.00021625628140703516,
      "loss": 2.228,
      "step": 56550
    },
    {
      "epoch": 0.2828,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021624120603015072,
      "loss": 2.1868,
      "step": 56560
    },
    {
      "epoch": 0.28285,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021622613065326634,
      "loss": 2.2545,
      "step": 56570
    },
    {
      "epoch": 0.2829,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002162110552763819,
      "loss": 2.1445,
      "step": 56580
    },
    {
      "epoch": 0.28295,
      "grad_norm": 1.96875,
      "learning_rate": 0.00021619597989949745,
      "loss": 2.2619,
      "step": 56590
    },
    {
      "epoch": 0.283,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021618090452261304,
      "loss": 2.1683,
      "step": 56600
    },
    {
      "epoch": 0.28305,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021616582914572863,
      "loss": 2.1696,
      "step": 56610
    },
    {
      "epoch": 0.2831,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021615075376884419,
      "loss": 2.1558,
      "step": 56620
    },
    {
      "epoch": 0.28315,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021613567839195977,
      "loss": 2.1807,
      "step": 56630
    },
    {
      "epoch": 0.2832,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021612060301507536,
      "loss": 2.1872,
      "step": 56640
    },
    {
      "epoch": 0.28325,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00021610552763819094,
      "loss": 2.1898,
      "step": 56650
    },
    {
      "epoch": 0.2833,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002160904522613065,
      "loss": 2.1665,
      "step": 56660
    },
    {
      "epoch": 0.28335,
      "grad_norm": 1.828125,
      "learning_rate": 0.00021607537688442212,
      "loss": 2.1934,
      "step": 56670
    },
    {
      "epoch": 0.2834,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021606030150753767,
      "loss": 2.1199,
      "step": 56680
    },
    {
      "epoch": 0.28345,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00021604522613065323,
      "loss": 2.2011,
      "step": 56690
    },
    {
      "epoch": 0.2835,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021603015075376885,
      "loss": 2.2135,
      "step": 56700
    },
    {
      "epoch": 0.28355,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002160150753768844,
      "loss": 2.1719,
      "step": 56710
    },
    {
      "epoch": 0.2836,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021599999999999996,
      "loss": 2.1658,
      "step": 56720
    },
    {
      "epoch": 0.28365,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021598492462311558,
      "loss": 2.2146,
      "step": 56730
    },
    {
      "epoch": 0.2837,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021596984924623114,
      "loss": 2.1856,
      "step": 56740
    },
    {
      "epoch": 0.28375,
      "grad_norm": 1.625,
      "learning_rate": 0.0002159547738693467,
      "loss": 2.2623,
      "step": 56750
    },
    {
      "epoch": 0.2838,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021593969849246228,
      "loss": 2.2107,
      "step": 56760
    },
    {
      "epoch": 0.28385,
      "grad_norm": 2.03125,
      "learning_rate": 0.00021592462311557787,
      "loss": 2.2164,
      "step": 56770
    },
    {
      "epoch": 0.2839,
      "grad_norm": 1.875,
      "learning_rate": 0.00021590954773869345,
      "loss": 2.2552,
      "step": 56780
    },
    {
      "epoch": 0.28395,
      "grad_norm": 2.015625,
      "learning_rate": 0.000215894472361809,
      "loss": 2.2062,
      "step": 56790
    },
    {
      "epoch": 0.284,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021587939698492463,
      "loss": 2.2084,
      "step": 56800
    },
    {
      "epoch": 0.28405,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021586432160804019,
      "loss": 2.1607,
      "step": 56810
    },
    {
      "epoch": 0.2841,
      "grad_norm": 1.875,
      "learning_rate": 0.00021584924623115574,
      "loss": 2.1918,
      "step": 56820
    },
    {
      "epoch": 0.28415,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021583417085427136,
      "loss": 2.2155,
      "step": 56830
    },
    {
      "epoch": 0.2842,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00021581909547738692,
      "loss": 2.2323,
      "step": 56840
    },
    {
      "epoch": 0.28425,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00021580402010050248,
      "loss": 2.2304,
      "step": 56850
    },
    {
      "epoch": 0.2843,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002157889447236181,
      "loss": 2.2338,
      "step": 56860
    },
    {
      "epoch": 0.28435,
      "grad_norm": 1.703125,
      "learning_rate": 0.00021577386934673365,
      "loss": 2.1935,
      "step": 56870
    },
    {
      "epoch": 0.2844,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002157587939698492,
      "loss": 2.2082,
      "step": 56880
    },
    {
      "epoch": 0.28445,
      "grad_norm": 2.140625,
      "learning_rate": 0.00021574371859296482,
      "loss": 2.1619,
      "step": 56890
    },
    {
      "epoch": 0.2845,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021572864321608038,
      "loss": 2.2197,
      "step": 56900
    },
    {
      "epoch": 0.28455,
      "grad_norm": 1.703125,
      "learning_rate": 0.00021571356783919597,
      "loss": 2.1803,
      "step": 56910
    },
    {
      "epoch": 0.2846,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021569849246231152,
      "loss": 2.2357,
      "step": 56920
    },
    {
      "epoch": 0.28465,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002156834170854271,
      "loss": 2.192,
      "step": 56930
    },
    {
      "epoch": 0.2847,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002156683417085427,
      "loss": 2.1555,
      "step": 56940
    },
    {
      "epoch": 0.28475,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021565326633165826,
      "loss": 2.1605,
      "step": 56950
    },
    {
      "epoch": 0.2848,
      "grad_norm": 1.828125,
      "learning_rate": 0.00021563819095477387,
      "loss": 2.2022,
      "step": 56960
    },
    {
      "epoch": 0.28485,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021562311557788943,
      "loss": 2.2043,
      "step": 56970
    },
    {
      "epoch": 0.2849,
      "grad_norm": 1.9609375,
      "learning_rate": 0.000215608040201005,
      "loss": 2.1567,
      "step": 56980
    },
    {
      "epoch": 0.28495,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002155929648241206,
      "loss": 2.142,
      "step": 56990
    },
    {
      "epoch": 0.285,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00021557788944723616,
      "loss": 2.1906,
      "step": 57000
    },
    {
      "epoch": 0.28505,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021556281407035172,
      "loss": 2.1811,
      "step": 57010
    },
    {
      "epoch": 0.2851,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021554773869346733,
      "loss": 2.1771,
      "step": 57020
    },
    {
      "epoch": 0.28515,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002155326633165829,
      "loss": 2.2153,
      "step": 57030
    },
    {
      "epoch": 0.2852,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00021551758793969848,
      "loss": 2.2041,
      "step": 57040
    },
    {
      "epoch": 0.28525,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021550251256281406,
      "loss": 2.1706,
      "step": 57050
    },
    {
      "epoch": 0.2853,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021548743718592962,
      "loss": 2.2011,
      "step": 57060
    },
    {
      "epoch": 0.28535,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002154723618090452,
      "loss": 2.1499,
      "step": 57070
    },
    {
      "epoch": 0.2854,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021545728643216077,
      "loss": 2.2117,
      "step": 57080
    },
    {
      "epoch": 0.28545,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021544221105527638,
      "loss": 2.1748,
      "step": 57090
    },
    {
      "epoch": 0.2855,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021542713567839194,
      "loss": 2.1552,
      "step": 57100
    },
    {
      "epoch": 0.28555,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002154120603015075,
      "loss": 2.2846,
      "step": 57110
    },
    {
      "epoch": 0.2856,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002153969849246231,
      "loss": 2.1488,
      "step": 57120
    },
    {
      "epoch": 0.28565,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021538190954773867,
      "loss": 2.1827,
      "step": 57130
    },
    {
      "epoch": 0.2857,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021536683417085423,
      "loss": 2.2133,
      "step": 57140
    },
    {
      "epoch": 0.28575,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00021535175879396984,
      "loss": 2.191,
      "step": 57150
    },
    {
      "epoch": 0.2858,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002153366834170854,
      "loss": 2.2325,
      "step": 57160
    },
    {
      "epoch": 0.28585,
      "grad_norm": 1.578125,
      "learning_rate": 0.000215321608040201,
      "loss": 2.1743,
      "step": 57170
    },
    {
      "epoch": 0.2859,
      "grad_norm": 1.921875,
      "learning_rate": 0.00021530653266331657,
      "loss": 2.2139,
      "step": 57180
    },
    {
      "epoch": 0.28595,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021529145728643213,
      "loss": 2.2652,
      "step": 57190
    },
    {
      "epoch": 0.286,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021527638190954772,
      "loss": 2.1593,
      "step": 57200
    },
    {
      "epoch": 0.28605,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002152613065326633,
      "loss": 2.2222,
      "step": 57210
    },
    {
      "epoch": 0.2861,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002152462311557789,
      "loss": 2.2044,
      "step": 57220
    },
    {
      "epoch": 0.28615,
      "grad_norm": 1.609375,
      "learning_rate": 0.00021523115577889445,
      "loss": 2.1826,
      "step": 57230
    },
    {
      "epoch": 0.2862,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021521608040201,
      "loss": 2.1757,
      "step": 57240
    },
    {
      "epoch": 0.28625,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021520100502512562,
      "loss": 2.1123,
      "step": 57250
    },
    {
      "epoch": 0.2863,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00021518592964824118,
      "loss": 2.252,
      "step": 57260
    },
    {
      "epoch": 0.28635,
      "grad_norm": 1.75,
      "learning_rate": 0.00021517085427135674,
      "loss": 2.1981,
      "step": 57270
    },
    {
      "epoch": 0.2864,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021515577889447235,
      "loss": 2.1772,
      "step": 57280
    },
    {
      "epoch": 0.28645,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002151407035175879,
      "loss": 2.1904,
      "step": 57290
    },
    {
      "epoch": 0.2865,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002151256281407035,
      "loss": 2.1544,
      "step": 57300
    },
    {
      "epoch": 0.28655,
      "grad_norm": 1.984375,
      "learning_rate": 0.00021511055276381908,
      "loss": 2.1306,
      "step": 57310
    },
    {
      "epoch": 0.2866,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00021509547738693464,
      "loss": 2.1914,
      "step": 57320
    },
    {
      "epoch": 0.28665,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021508040201005023,
      "loss": 2.0924,
      "step": 57330
    },
    {
      "epoch": 0.2867,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021506532663316582,
      "loss": 2.1604,
      "step": 57340
    },
    {
      "epoch": 0.28675,
      "grad_norm": 1.625,
      "learning_rate": 0.0002150502512562814,
      "loss": 2.1517,
      "step": 57350
    },
    {
      "epoch": 0.2868,
      "grad_norm": 1.953125,
      "learning_rate": 0.00021503517587939696,
      "loss": 2.1497,
      "step": 57360
    },
    {
      "epoch": 0.28685,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021502010050251255,
      "loss": 2.1619,
      "step": 57370
    },
    {
      "epoch": 0.2869,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00021500502512562813,
      "loss": 2.1721,
      "step": 57380
    },
    {
      "epoch": 0.28695,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002149899497487437,
      "loss": 2.1428,
      "step": 57390
    },
    {
      "epoch": 0.287,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021497487437185925,
      "loss": 2.1699,
      "step": 57400
    },
    {
      "epoch": 0.28705,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021495979899497486,
      "loss": 2.1857,
      "step": 57410
    },
    {
      "epoch": 0.2871,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00021494472361809042,
      "loss": 2.1347,
      "step": 57420
    },
    {
      "epoch": 0.28715,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000214929648241206,
      "loss": 2.1885,
      "step": 57430
    },
    {
      "epoch": 0.2872,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002149145728643216,
      "loss": 2.1819,
      "step": 57440
    },
    {
      "epoch": 0.28725,
      "grad_norm": 1.9375,
      "learning_rate": 0.00021489949748743715,
      "loss": 2.1457,
      "step": 57450
    },
    {
      "epoch": 0.2873,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021488442211055274,
      "loss": 2.2056,
      "step": 57460
    },
    {
      "epoch": 0.28735,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021486934673366833,
      "loss": 2.1513,
      "step": 57470
    },
    {
      "epoch": 0.2874,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002148542713567839,
      "loss": 2.099,
      "step": 57480
    },
    {
      "epoch": 0.28745,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021483919597989947,
      "loss": 2.2255,
      "step": 57490
    },
    {
      "epoch": 0.2875,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021482412060301506,
      "loss": 2.149,
      "step": 57500
    },
    {
      "epoch": 0.28755,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021480904522613064,
      "loss": 2.1862,
      "step": 57510
    },
    {
      "epoch": 0.2876,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002147939698492462,
      "loss": 2.2014,
      "step": 57520
    },
    {
      "epoch": 0.28765,
      "grad_norm": 1.984375,
      "learning_rate": 0.00021477889447236182,
      "loss": 2.1748,
      "step": 57530
    },
    {
      "epoch": 0.2877,
      "grad_norm": 1.640625,
      "learning_rate": 0.00021476381909547737,
      "loss": 2.1426,
      "step": 57540
    },
    {
      "epoch": 0.28775,
      "grad_norm": 1.75,
      "learning_rate": 0.00021474874371859293,
      "loss": 2.1835,
      "step": 57550
    },
    {
      "epoch": 0.2878,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021473366834170852,
      "loss": 2.0863,
      "step": 57560
    },
    {
      "epoch": 0.28785,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002147185929648241,
      "loss": 2.1848,
      "step": 57570
    },
    {
      "epoch": 0.2879,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00021470351758793967,
      "loss": 2.1982,
      "step": 57580
    },
    {
      "epoch": 0.28795,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021468844221105525,
      "loss": 2.123,
      "step": 57590
    },
    {
      "epoch": 0.288,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021467336683417084,
      "loss": 2.2094,
      "step": 57600
    },
    {
      "epoch": 0.28805,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021465829145728642,
      "loss": 2.2022,
      "step": 57610
    },
    {
      "epoch": 0.2881,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021464321608040198,
      "loss": 2.1742,
      "step": 57620
    },
    {
      "epoch": 0.28815,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021462814070351757,
      "loss": 2.2348,
      "step": 57630
    },
    {
      "epoch": 0.2882,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00021461306532663315,
      "loss": 2.1669,
      "step": 57640
    },
    {
      "epoch": 0.28825,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002145979899497487,
      "loss": 2.1346,
      "step": 57650
    },
    {
      "epoch": 0.2883,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021458291457286433,
      "loss": 2.2078,
      "step": 57660
    },
    {
      "epoch": 0.28835,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021456783919597989,
      "loss": 2.1076,
      "step": 57670
    },
    {
      "epoch": 0.2884,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00021455276381909544,
      "loss": 2.1645,
      "step": 57680
    },
    {
      "epoch": 0.28845,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021453768844221106,
      "loss": 2.1948,
      "step": 57690
    },
    {
      "epoch": 0.2885,
      "grad_norm": 2.0625,
      "learning_rate": 0.00021452261306532662,
      "loss": 2.1686,
      "step": 57700
    },
    {
      "epoch": 0.28855,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021450753768844218,
      "loss": 2.2044,
      "step": 57710
    },
    {
      "epoch": 0.2886,
      "grad_norm": 1.59375,
      "learning_rate": 0.00021449246231155776,
      "loss": 2.1519,
      "step": 57720
    },
    {
      "epoch": 0.28865,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021447738693467335,
      "loss": 2.1782,
      "step": 57730
    },
    {
      "epoch": 0.2887,
      "grad_norm": 1.953125,
      "learning_rate": 0.00021446231155778893,
      "loss": 2.1633,
      "step": 57740
    },
    {
      "epoch": 0.28875,
      "grad_norm": 1.75,
      "learning_rate": 0.0002144472361809045,
      "loss": 2.17,
      "step": 57750
    },
    {
      "epoch": 0.2888,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021443216080402008,
      "loss": 2.0849,
      "step": 57760
    },
    {
      "epoch": 0.28885,
      "grad_norm": 1.875,
      "learning_rate": 0.00021441708542713567,
      "loss": 2.2102,
      "step": 57770
    },
    {
      "epoch": 0.2889,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021440201005025122,
      "loss": 2.1814,
      "step": 57780
    },
    {
      "epoch": 0.28895,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00021438693467336684,
      "loss": 2.1182,
      "step": 57790
    },
    {
      "epoch": 0.289,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002143718592964824,
      "loss": 2.1975,
      "step": 57800
    },
    {
      "epoch": 0.28905,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021435678391959796,
      "loss": 2.1183,
      "step": 57810
    },
    {
      "epoch": 0.2891,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021434170854271357,
      "loss": 2.1472,
      "step": 57820
    },
    {
      "epoch": 0.28915,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021432663316582913,
      "loss": 2.1845,
      "step": 57830
    },
    {
      "epoch": 0.2892,
      "grad_norm": 1.9375,
      "learning_rate": 0.0002143115577889447,
      "loss": 2.1715,
      "step": 57840
    },
    {
      "epoch": 0.28925,
      "grad_norm": 1.96875,
      "learning_rate": 0.00021429648241206027,
      "loss": 2.1577,
      "step": 57850
    },
    {
      "epoch": 0.2893,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00021428140703517586,
      "loss": 2.1337,
      "step": 57860
    },
    {
      "epoch": 0.28935,
      "grad_norm": 1.875,
      "learning_rate": 0.00021426633165829145,
      "loss": 2.1373,
      "step": 57870
    },
    {
      "epoch": 0.2894,
      "grad_norm": 1.75,
      "learning_rate": 0.000214251256281407,
      "loss": 2.2291,
      "step": 57880
    },
    {
      "epoch": 0.28945,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002142361809045226,
      "loss": 2.157,
      "step": 57890
    },
    {
      "epoch": 0.2895,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021422110552763818,
      "loss": 2.1794,
      "step": 57900
    },
    {
      "epoch": 0.28955,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021420603015075374,
      "loss": 2.1771,
      "step": 57910
    },
    {
      "epoch": 0.2896,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021419095477386935,
      "loss": 2.1333,
      "step": 57920
    },
    {
      "epoch": 0.28965,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0002141758793969849,
      "loss": 2.1468,
      "step": 57930
    },
    {
      "epoch": 0.2897,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021416080402010047,
      "loss": 2.1388,
      "step": 57940
    },
    {
      "epoch": 0.28975,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021414572864321608,
      "loss": 2.1417,
      "step": 57950
    },
    {
      "epoch": 0.2898,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021413065326633164,
      "loss": 2.2016,
      "step": 57960
    },
    {
      "epoch": 0.28985,
      "grad_norm": 1.609375,
      "learning_rate": 0.0002141155778894472,
      "loss": 2.0964,
      "step": 57970
    },
    {
      "epoch": 0.2899,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002141005025125628,
      "loss": 2.1563,
      "step": 57980
    },
    {
      "epoch": 0.28995,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021408542713567837,
      "loss": 2.1206,
      "step": 57990
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021407035175879396,
      "loss": 2.1315,
      "step": 58000
    },
    {
      "epoch": 0.29,
      "eval_loss": 2.163810968399048,
      "eval_runtime": 91.9464,
      "eval_samples_per_second": 27.19,
      "eval_steps_per_second": 0.435,
      "step": 58000
    },
    {
      "epoch": 0.29005,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00021405527638190952,
      "loss": 2.1907,
      "step": 58010
    },
    {
      "epoch": 0.2901,
      "grad_norm": 1.765625,
      "learning_rate": 0.0002140402010050251,
      "loss": 2.1938,
      "step": 58020
    },
    {
      "epoch": 0.29015,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002140251256281407,
      "loss": 2.1346,
      "step": 58030
    },
    {
      "epoch": 0.2902,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021401005025125625,
      "loss": 2.192,
      "step": 58040
    },
    {
      "epoch": 0.29025,
      "grad_norm": 1.875,
      "learning_rate": 0.00021399497487437186,
      "loss": 2.1272,
      "step": 58050
    },
    {
      "epoch": 0.2903,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021397989949748742,
      "loss": 2.2083,
      "step": 58060
    },
    {
      "epoch": 0.29035,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021396482412060298,
      "loss": 2.1781,
      "step": 58070
    },
    {
      "epoch": 0.2904,
      "grad_norm": 2.078125,
      "learning_rate": 0.0002139497487437186,
      "loss": 2.1329,
      "step": 58080
    },
    {
      "epoch": 0.29045,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021393467336683415,
      "loss": 2.1973,
      "step": 58090
    },
    {
      "epoch": 0.2905,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002139195979899497,
      "loss": 2.1693,
      "step": 58100
    },
    {
      "epoch": 0.29055,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021390452261306532,
      "loss": 2.1772,
      "step": 58110
    },
    {
      "epoch": 0.2906,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00021388944723618088,
      "loss": 2.1856,
      "step": 58120
    },
    {
      "epoch": 0.29065,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021387437185929647,
      "loss": 2.1425,
      "step": 58130
    },
    {
      "epoch": 0.2907,
      "grad_norm": 1.671875,
      "learning_rate": 0.00021385929648241205,
      "loss": 2.2532,
      "step": 58140
    },
    {
      "epoch": 0.29075,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002138442211055276,
      "loss": 2.1589,
      "step": 58150
    },
    {
      "epoch": 0.2908,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002138291457286432,
      "loss": 2.1657,
      "step": 58160
    },
    {
      "epoch": 0.29085,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021381407035175876,
      "loss": 2.17,
      "step": 58170
    },
    {
      "epoch": 0.2909,
      "grad_norm": 1.59375,
      "learning_rate": 0.00021379899497487437,
      "loss": 2.1456,
      "step": 58180
    },
    {
      "epoch": 0.29095,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021378391959798993,
      "loss": 2.1873,
      "step": 58190
    },
    {
      "epoch": 0.291,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002137688442211055,
      "loss": 2.1725,
      "step": 58200
    },
    {
      "epoch": 0.29105,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002137537688442211,
      "loss": 2.1334,
      "step": 58210
    },
    {
      "epoch": 0.2911,
      "grad_norm": 2.015625,
      "learning_rate": 0.00021373869346733666,
      "loss": 2.1514,
      "step": 58220
    },
    {
      "epoch": 0.29115,
      "grad_norm": 1.953125,
      "learning_rate": 0.00021372361809045222,
      "loss": 2.1588,
      "step": 58230
    },
    {
      "epoch": 0.2912,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021370854271356783,
      "loss": 2.172,
      "step": 58240
    },
    {
      "epoch": 0.29125,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002136934673366834,
      "loss": 2.2265,
      "step": 58250
    },
    {
      "epoch": 0.2913,
      "grad_norm": 2.078125,
      "learning_rate": 0.00021367839195979898,
      "loss": 2.1663,
      "step": 58260
    },
    {
      "epoch": 0.29135,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00021366331658291456,
      "loss": 2.1435,
      "step": 58270
    },
    {
      "epoch": 0.2914,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00021364824120603012,
      "loss": 2.1565,
      "step": 58280
    },
    {
      "epoch": 0.29145,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002136331658291457,
      "loss": 2.1619,
      "step": 58290
    },
    {
      "epoch": 0.2915,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002136180904522613,
      "loss": 2.1879,
      "step": 58300
    },
    {
      "epoch": 0.29155,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021360301507537688,
      "loss": 2.2275,
      "step": 58310
    },
    {
      "epoch": 0.2916,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021358793969849244,
      "loss": 2.1552,
      "step": 58320
    },
    {
      "epoch": 0.29165,
      "grad_norm": 1.6484375,
      "learning_rate": 0.000213572864321608,
      "loss": 2.176,
      "step": 58330
    },
    {
      "epoch": 0.2917,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0002135577889447236,
      "loss": 2.1785,
      "step": 58340
    },
    {
      "epoch": 0.29175,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00021354271356783917,
      "loss": 2.1963,
      "step": 58350
    },
    {
      "epoch": 0.2918,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021352763819095473,
      "loss": 2.1696,
      "step": 58360
    },
    {
      "epoch": 0.29185,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021351256281407034,
      "loss": 2.1587,
      "step": 58370
    },
    {
      "epoch": 0.2919,
      "grad_norm": 1.75,
      "learning_rate": 0.0002134974874371859,
      "loss": 2.1408,
      "step": 58380
    },
    {
      "epoch": 0.29195,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002134824120603015,
      "loss": 2.1702,
      "step": 58390
    },
    {
      "epoch": 0.292,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021346733668341708,
      "loss": 2.1442,
      "step": 58400
    },
    {
      "epoch": 0.29205,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00021345226130653263,
      "loss": 2.1209,
      "step": 58410
    },
    {
      "epoch": 0.2921,
      "grad_norm": 1.90625,
      "learning_rate": 0.00021343718592964822,
      "loss": 2.159,
      "step": 58420
    },
    {
      "epoch": 0.29215,
      "grad_norm": 2.0,
      "learning_rate": 0.0002134221105527638,
      "loss": 2.1636,
      "step": 58430
    },
    {
      "epoch": 0.2922,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002134070351758794,
      "loss": 2.1318,
      "step": 58440
    },
    {
      "epoch": 0.29225,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00021339195979899495,
      "loss": 2.1511,
      "step": 58450
    },
    {
      "epoch": 0.2923,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021337688442211054,
      "loss": 2.162,
      "step": 58460
    },
    {
      "epoch": 0.29235,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00021336180904522612,
      "loss": 2.117,
      "step": 58470
    },
    {
      "epoch": 0.2924,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00021334673366834168,
      "loss": 2.1812,
      "step": 58480
    },
    {
      "epoch": 0.29245,
      "grad_norm": 2.0,
      "learning_rate": 0.00021333165829145724,
      "loss": 2.1824,
      "step": 58490
    },
    {
      "epoch": 0.2925,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021331658291457285,
      "loss": 2.1892,
      "step": 58500
    },
    {
      "epoch": 0.29255,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021330150753768841,
      "loss": 2.1611,
      "step": 58510
    },
    {
      "epoch": 0.2926,
      "grad_norm": 2.0625,
      "learning_rate": 0.000213286432160804,
      "loss": 2.1826,
      "step": 58520
    },
    {
      "epoch": 0.29265,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021327135678391959,
      "loss": 2.1597,
      "step": 58530
    },
    {
      "epoch": 0.2927,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00021325628140703514,
      "loss": 2.1256,
      "step": 58540
    },
    {
      "epoch": 0.29275,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021324120603015073,
      "loss": 2.1696,
      "step": 58550
    },
    {
      "epoch": 0.2928,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021322613065326632,
      "loss": 2.1767,
      "step": 58560
    },
    {
      "epoch": 0.29285,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002132110552763819,
      "loss": 2.1272,
      "step": 58570
    },
    {
      "epoch": 0.2929,
      "grad_norm": 1.921875,
      "learning_rate": 0.00021319597989949746,
      "loss": 2.1287,
      "step": 58580
    },
    {
      "epoch": 0.29295,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00021318090452261305,
      "loss": 2.1771,
      "step": 58590
    },
    {
      "epoch": 0.293,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021316582914572863,
      "loss": 2.1245,
      "step": 58600
    },
    {
      "epoch": 0.29305,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002131507537688442,
      "loss": 2.2255,
      "step": 58610
    },
    {
      "epoch": 0.2931,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002131356783919598,
      "loss": 2.1756,
      "step": 58620
    },
    {
      "epoch": 0.29315,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021312060301507537,
      "loss": 2.1675,
      "step": 58630
    },
    {
      "epoch": 0.2932,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021310552763819092,
      "loss": 2.1472,
      "step": 58640
    },
    {
      "epoch": 0.29325,
      "grad_norm": 1.75,
      "learning_rate": 0.0002130904522613065,
      "loss": 2.1222,
      "step": 58650
    },
    {
      "epoch": 0.2933,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002130753768844221,
      "loss": 2.1142,
      "step": 58660
    },
    {
      "epoch": 0.29335,
      "grad_norm": 2.03125,
      "learning_rate": 0.00021306030150753766,
      "loss": 2.1375,
      "step": 58670
    },
    {
      "epoch": 0.2934,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00021304522613065324,
      "loss": 2.1316,
      "step": 58680
    },
    {
      "epoch": 0.29345,
      "grad_norm": 1.828125,
      "learning_rate": 0.00021303015075376883,
      "loss": 2.218,
      "step": 58690
    },
    {
      "epoch": 0.2935,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00021301507537688441,
      "loss": 2.2099,
      "step": 58700
    },
    {
      "epoch": 0.29355,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021299999999999997,
      "loss": 2.1154,
      "step": 58710
    },
    {
      "epoch": 0.2936,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00021298492462311556,
      "loss": 2.1784,
      "step": 58720
    },
    {
      "epoch": 0.29365,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00021296984924623115,
      "loss": 2.1784,
      "step": 58730
    },
    {
      "epoch": 0.2937,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002129547738693467,
      "loss": 2.1763,
      "step": 58740
    },
    {
      "epoch": 0.29375,
      "grad_norm": 2.015625,
      "learning_rate": 0.00021293969849246232,
      "loss": 2.116,
      "step": 58750
    },
    {
      "epoch": 0.2938,
      "grad_norm": 1.9375,
      "learning_rate": 0.00021292462311557788,
      "loss": 2.1603,
      "step": 58760
    },
    {
      "epoch": 0.29385,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021290954773869344,
      "loss": 2.1383,
      "step": 58770
    },
    {
      "epoch": 0.2939,
      "grad_norm": 1.75,
      "learning_rate": 0.00021289447236180905,
      "loss": 2.2101,
      "step": 58780
    },
    {
      "epoch": 0.29395,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002128793969849246,
      "loss": 2.1699,
      "step": 58790
    },
    {
      "epoch": 0.294,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00021286432160804017,
      "loss": 2.179,
      "step": 58800
    },
    {
      "epoch": 0.29405,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021284924623115575,
      "loss": 2.1951,
      "step": 58810
    },
    {
      "epoch": 0.2941,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021283417085427134,
      "loss": 2.1246,
      "step": 58820
    },
    {
      "epoch": 0.29415,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021281909547738693,
      "loss": 2.1799,
      "step": 58830
    },
    {
      "epoch": 0.2942,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021280402010050248,
      "loss": 2.1621,
      "step": 58840
    },
    {
      "epoch": 0.29425,
      "grad_norm": 1.828125,
      "learning_rate": 0.00021278894472361807,
      "loss": 2.1567,
      "step": 58850
    },
    {
      "epoch": 0.2943,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00021277386934673366,
      "loss": 2.1928,
      "step": 58860
    },
    {
      "epoch": 0.29435,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00021275879396984922,
      "loss": 2.1607,
      "step": 58870
    },
    {
      "epoch": 0.2944,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00021274371859296483,
      "loss": 2.1685,
      "step": 58880
    },
    {
      "epoch": 0.29445,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002127286432160804,
      "loss": 2.2097,
      "step": 58890
    },
    {
      "epoch": 0.2945,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021271356783919595,
      "loss": 2.1169,
      "step": 58900
    },
    {
      "epoch": 0.29455,
      "grad_norm": 1.984375,
      "learning_rate": 0.00021269849246231156,
      "loss": 2.1442,
      "step": 58910
    },
    {
      "epoch": 0.2946,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00021268341708542712,
      "loss": 2.1456,
      "step": 58920
    },
    {
      "epoch": 0.29465,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021266834170854268,
      "loss": 2.1818,
      "step": 58930
    },
    {
      "epoch": 0.2947,
      "grad_norm": 1.9375,
      "learning_rate": 0.00021265326633165826,
      "loss": 2.1791,
      "step": 58940
    },
    {
      "epoch": 0.29475,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021263819095477385,
      "loss": 2.1342,
      "step": 58950
    },
    {
      "epoch": 0.2948,
      "grad_norm": 2.046875,
      "learning_rate": 0.00021262311557788944,
      "loss": 2.1677,
      "step": 58960
    },
    {
      "epoch": 0.29485,
      "grad_norm": 1.828125,
      "learning_rate": 0.000212608040201005,
      "loss": 2.1488,
      "step": 58970
    },
    {
      "epoch": 0.2949,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021259296482412058,
      "loss": 2.1614,
      "step": 58980
    },
    {
      "epoch": 0.29495,
      "grad_norm": 1.640625,
      "learning_rate": 0.00021257788944723617,
      "loss": 2.1724,
      "step": 58990
    },
    {
      "epoch": 0.295,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021256281407035173,
      "loss": 2.1085,
      "step": 59000
    },
    {
      "epoch": 0.29505,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021254773869346734,
      "loss": 2.2004,
      "step": 59010
    },
    {
      "epoch": 0.2951,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002125326633165829,
      "loss": 2.1603,
      "step": 59020
    },
    {
      "epoch": 0.29515,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021251758793969846,
      "loss": 2.1444,
      "step": 59030
    },
    {
      "epoch": 0.2952,
      "grad_norm": 1.625,
      "learning_rate": 0.00021250251256281407,
      "loss": 2.1718,
      "step": 59040
    },
    {
      "epoch": 0.29525,
      "grad_norm": 1.90625,
      "learning_rate": 0.00021248743718592963,
      "loss": 2.1282,
      "step": 59050
    },
    {
      "epoch": 0.2953,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002124723618090452,
      "loss": 2.1943,
      "step": 59060
    },
    {
      "epoch": 0.29535,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002124572864321608,
      "loss": 2.1376,
      "step": 59070
    },
    {
      "epoch": 0.2954,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00021244221105527636,
      "loss": 2.1565,
      "step": 59080
    },
    {
      "epoch": 0.29545,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00021242713567839195,
      "loss": 2.1236,
      "step": 59090
    },
    {
      "epoch": 0.2955,
      "grad_norm": 1.9375,
      "learning_rate": 0.0002124120603015075,
      "loss": 2.1256,
      "step": 59100
    },
    {
      "epoch": 0.29555,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002123969849246231,
      "loss": 2.1862,
      "step": 59110
    },
    {
      "epoch": 0.2956,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021238190954773868,
      "loss": 2.1244,
      "step": 59120
    },
    {
      "epoch": 0.29565,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021236683417085424,
      "loss": 2.218,
      "step": 59130
    },
    {
      "epoch": 0.2957,
      "grad_norm": 1.671875,
      "learning_rate": 0.00021235175879396985,
      "loss": 2.15,
      "step": 59140
    },
    {
      "epoch": 0.29575,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002123366834170854,
      "loss": 2.1834,
      "step": 59150
    },
    {
      "epoch": 0.2958,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021232160804020097,
      "loss": 2.2195,
      "step": 59160
    },
    {
      "epoch": 0.29585,
      "grad_norm": 1.75,
      "learning_rate": 0.00021230653266331658,
      "loss": 2.1543,
      "step": 59170
    },
    {
      "epoch": 0.2959,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021229145728643214,
      "loss": 2.1578,
      "step": 59180
    },
    {
      "epoch": 0.29595,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002122763819095477,
      "loss": 2.1496,
      "step": 59190
    },
    {
      "epoch": 0.296,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002122613065326633,
      "loss": 2.1371,
      "step": 59200
    },
    {
      "epoch": 0.29605,
      "grad_norm": 1.890625,
      "learning_rate": 0.00021224623115577887,
      "loss": 2.1923,
      "step": 59210
    },
    {
      "epoch": 0.2961,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021223115577889446,
      "loss": 2.1588,
      "step": 59220
    },
    {
      "epoch": 0.29615,
      "grad_norm": 2.046875,
      "learning_rate": 0.00021221608040201004,
      "loss": 2.2345,
      "step": 59230
    },
    {
      "epoch": 0.2962,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002122010050251256,
      "loss": 2.1758,
      "step": 59240
    },
    {
      "epoch": 0.29625,
      "grad_norm": 2.109375,
      "learning_rate": 0.0002121859296482412,
      "loss": 2.1298,
      "step": 59250
    },
    {
      "epoch": 0.2963,
      "grad_norm": 1.640625,
      "learning_rate": 0.00021217085427135675,
      "loss": 2.1956,
      "step": 59260
    },
    {
      "epoch": 0.29635,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021215577889447236,
      "loss": 2.1085,
      "step": 59270
    },
    {
      "epoch": 0.2964,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021214070351758792,
      "loss": 2.1965,
      "step": 59280
    },
    {
      "epoch": 0.29645,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021212562814070348,
      "loss": 2.1358,
      "step": 59290
    },
    {
      "epoch": 0.2965,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002121105527638191,
      "loss": 2.1523,
      "step": 59300
    },
    {
      "epoch": 0.29655,
      "grad_norm": 1.90625,
      "learning_rate": 0.00021209547738693465,
      "loss": 2.1667,
      "step": 59310
    },
    {
      "epoch": 0.2966,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002120804020100502,
      "loss": 2.165,
      "step": 59320
    },
    {
      "epoch": 0.29665,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021206532663316582,
      "loss": 2.1665,
      "step": 59330
    },
    {
      "epoch": 0.2967,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021205025125628138,
      "loss": 2.1117,
      "step": 59340
    },
    {
      "epoch": 0.29675,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021203517587939697,
      "loss": 2.1138,
      "step": 59350
    },
    {
      "epoch": 0.2968,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021202010050251255,
      "loss": 2.1358,
      "step": 59360
    },
    {
      "epoch": 0.29685,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021200502512562811,
      "loss": 2.1329,
      "step": 59370
    },
    {
      "epoch": 0.2969,
      "grad_norm": 2.03125,
      "learning_rate": 0.0002119899497487437,
      "loss": 2.18,
      "step": 59380
    },
    {
      "epoch": 0.29695,
      "grad_norm": 1.875,
      "learning_rate": 0.00021197487437185929,
      "loss": 2.126,
      "step": 59390
    },
    {
      "epoch": 0.297,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021195979899497487,
      "loss": 2.1581,
      "step": 59400
    },
    {
      "epoch": 0.29705,
      "grad_norm": 1.890625,
      "learning_rate": 0.00021194472361809043,
      "loss": 2.117,
      "step": 59410
    },
    {
      "epoch": 0.2971,
      "grad_norm": 1.7578125,
      "learning_rate": 0.000211929648241206,
      "loss": 2.1177,
      "step": 59420
    },
    {
      "epoch": 0.29715,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002119145728643216,
      "loss": 2.1786,
      "step": 59430
    },
    {
      "epoch": 0.2972,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021189949748743716,
      "loss": 2.1786,
      "step": 59440
    },
    {
      "epoch": 0.29725,
      "grad_norm": 2.0625,
      "learning_rate": 0.00021188442211055272,
      "loss": 2.2099,
      "step": 59450
    },
    {
      "epoch": 0.2973,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021186934673366833,
      "loss": 2.1482,
      "step": 59460
    },
    {
      "epoch": 0.29735,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002118542713567839,
      "loss": 2.1767,
      "step": 59470
    },
    {
      "epoch": 0.2974,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021183919597989948,
      "loss": 2.2402,
      "step": 59480
    },
    {
      "epoch": 0.29745,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00021182412060301507,
      "loss": 2.1579,
      "step": 59490
    },
    {
      "epoch": 0.2975,
      "grad_norm": 2.125,
      "learning_rate": 0.00021180904522613062,
      "loss": 2.1932,
      "step": 59500
    },
    {
      "epoch": 0.29755,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002117939698492462,
      "loss": 2.1728,
      "step": 59510
    },
    {
      "epoch": 0.2976,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0002117788944723618,
      "loss": 2.2187,
      "step": 59520
    },
    {
      "epoch": 0.29765,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021176381909547738,
      "loss": 2.1529,
      "step": 59530
    },
    {
      "epoch": 0.2977,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00021174874371859294,
      "loss": 2.1546,
      "step": 59540
    },
    {
      "epoch": 0.29775,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021173366834170853,
      "loss": 2.212,
      "step": 59550
    },
    {
      "epoch": 0.2978,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00021171859296482411,
      "loss": 2.1768,
      "step": 59560
    },
    {
      "epoch": 0.29785,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021170351758793967,
      "loss": 2.1851,
      "step": 59570
    },
    {
      "epoch": 0.2979,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00021168844221105523,
      "loss": 2.143,
      "step": 59580
    },
    {
      "epoch": 0.29795,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00021167336683417085,
      "loss": 2.179,
      "step": 59590
    },
    {
      "epoch": 0.298,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002116582914572864,
      "loss": 2.1889,
      "step": 59600
    },
    {
      "epoch": 0.29805,
      "grad_norm": 2.328125,
      "learning_rate": 0.000211643216080402,
      "loss": 2.1618,
      "step": 59610
    },
    {
      "epoch": 0.2981,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00021162814070351758,
      "loss": 2.1766,
      "step": 59620
    },
    {
      "epoch": 0.29815,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021161306532663314,
      "loss": 2.16,
      "step": 59630
    },
    {
      "epoch": 0.2982,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021159798994974872,
      "loss": 2.1028,
      "step": 59640
    },
    {
      "epoch": 0.29825,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002115829145728643,
      "loss": 2.162,
      "step": 59650
    },
    {
      "epoch": 0.2983,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002115678391959799,
      "loss": 2.1709,
      "step": 59660
    },
    {
      "epoch": 0.29835,
      "grad_norm": 2.0,
      "learning_rate": 0.00021155276381909545,
      "loss": 2.1726,
      "step": 59670
    },
    {
      "epoch": 0.2984,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021153768844221104,
      "loss": 2.1324,
      "step": 59680
    },
    {
      "epoch": 0.29845,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00021152261306532663,
      "loss": 2.1559,
      "step": 59690
    },
    {
      "epoch": 0.2985,
      "grad_norm": 1.734375,
      "learning_rate": 0.00021150753768844218,
      "loss": 2.1026,
      "step": 59700
    },
    {
      "epoch": 0.29855,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002114924623115578,
      "loss": 2.1676,
      "step": 59710
    },
    {
      "epoch": 0.2986,
      "grad_norm": 1.9375,
      "learning_rate": 0.00021147738693467336,
      "loss": 2.1714,
      "step": 59720
    },
    {
      "epoch": 0.29865,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021146231155778892,
      "loss": 2.1684,
      "step": 59730
    },
    {
      "epoch": 0.2987,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002114472361809045,
      "loss": 2.1766,
      "step": 59740
    },
    {
      "epoch": 0.29875,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002114321608040201,
      "loss": 2.173,
      "step": 59750
    },
    {
      "epoch": 0.2988,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021141708542713565,
      "loss": 2.1569,
      "step": 59760
    },
    {
      "epoch": 0.29885,
      "grad_norm": 1.640625,
      "learning_rate": 0.00021140201005025123,
      "loss": 2.1511,
      "step": 59770
    },
    {
      "epoch": 0.2989,
      "grad_norm": 2.359375,
      "learning_rate": 0.00021138693467336682,
      "loss": 2.1644,
      "step": 59780
    },
    {
      "epoch": 0.29895,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002113718592964824,
      "loss": 2.1723,
      "step": 59790
    },
    {
      "epoch": 0.299,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021135678391959796,
      "loss": 2.1314,
      "step": 59800
    },
    {
      "epoch": 0.29905,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021134170854271355,
      "loss": 2.2343,
      "step": 59810
    },
    {
      "epoch": 0.2991,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021132663316582914,
      "loss": 2.1479,
      "step": 59820
    },
    {
      "epoch": 0.29915,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002113115577889447,
      "loss": 2.1705,
      "step": 59830
    },
    {
      "epoch": 0.2992,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002112964824120603,
      "loss": 2.1464,
      "step": 59840
    },
    {
      "epoch": 0.29925,
      "grad_norm": 1.796875,
      "learning_rate": 0.00021128140703517587,
      "loss": 2.2027,
      "step": 59850
    },
    {
      "epoch": 0.2993,
      "grad_norm": 1.890625,
      "learning_rate": 0.00021126633165829143,
      "loss": 2.1653,
      "step": 59860
    },
    {
      "epoch": 0.29935,
      "grad_norm": 1.953125,
      "learning_rate": 0.00021125125628140704,
      "loss": 2.1529,
      "step": 59870
    },
    {
      "epoch": 0.2994,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002112361809045226,
      "loss": 2.1759,
      "step": 59880
    },
    {
      "epoch": 0.29945,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021122110552763816,
      "loss": 2.1473,
      "step": 59890
    },
    {
      "epoch": 0.2995,
      "grad_norm": 1.6875,
      "learning_rate": 0.00021120603015075374,
      "loss": 2.1536,
      "step": 59900
    },
    {
      "epoch": 0.29955,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021119095477386933,
      "loss": 2.1573,
      "step": 59910
    },
    {
      "epoch": 0.2996,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00021117587939698492,
      "loss": 2.1293,
      "step": 59920
    },
    {
      "epoch": 0.29965,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021116080402010048,
      "loss": 2.1654,
      "step": 59930
    },
    {
      "epoch": 0.2997,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00021114572864321606,
      "loss": 2.1498,
      "step": 59940
    },
    {
      "epoch": 0.29975,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021113065326633165,
      "loss": 2.1359,
      "step": 59950
    },
    {
      "epoch": 0.2998,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002111155778894472,
      "loss": 2.1337,
      "step": 59960
    },
    {
      "epoch": 0.29985,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021110050251256282,
      "loss": 2.0956,
      "step": 59970
    },
    {
      "epoch": 0.2999,
      "grad_norm": 1.9375,
      "learning_rate": 0.00021108542713567838,
      "loss": 2.1673,
      "step": 59980
    },
    {
      "epoch": 0.29995,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00021107035175879394,
      "loss": 2.128,
      "step": 59990
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.84375,
      "learning_rate": 0.00021105527638190955,
      "loss": 2.1447,
      "step": 60000
    },
    {
      "epoch": 0.3,
      "eval_loss": 2.15578556060791,
      "eval_runtime": 89.4764,
      "eval_samples_per_second": 27.94,
      "eval_steps_per_second": 0.447,
      "step": 60000
    },
    {
      "epoch": 0.30005,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002110402010050251,
      "loss": 2.165,
      "step": 60010
    },
    {
      "epoch": 0.3001,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021102512562814067,
      "loss": 2.1266,
      "step": 60020
    },
    {
      "epoch": 0.30015,
      "grad_norm": 1.671875,
      "learning_rate": 0.00021101005025125625,
      "loss": 2.2356,
      "step": 60030
    },
    {
      "epoch": 0.3002,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021099497487437184,
      "loss": 2.1168,
      "step": 60040
    },
    {
      "epoch": 0.30025,
      "grad_norm": 1.875,
      "learning_rate": 0.00021097989949748743,
      "loss": 2.2036,
      "step": 60050
    },
    {
      "epoch": 0.3003,
      "grad_norm": 1.828125,
      "learning_rate": 0.00021096482412060299,
      "loss": 2.1428,
      "step": 60060
    },
    {
      "epoch": 0.30035,
      "grad_norm": 1.90625,
      "learning_rate": 0.00021094974874371857,
      "loss": 2.1809,
      "step": 60070
    },
    {
      "epoch": 0.3004,
      "grad_norm": 1.984375,
      "learning_rate": 0.00021093467336683416,
      "loss": 2.2014,
      "step": 60080
    },
    {
      "epoch": 0.30045,
      "grad_norm": 1.953125,
      "learning_rate": 0.00021091959798994972,
      "loss": 2.1711,
      "step": 60090
    },
    {
      "epoch": 0.3005,
      "grad_norm": 2.15625,
      "learning_rate": 0.00021090452261306533,
      "loss": 2.2326,
      "step": 60100
    },
    {
      "epoch": 0.30055,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002108894472361809,
      "loss": 2.1466,
      "step": 60110
    },
    {
      "epoch": 0.3006,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021087437185929645,
      "loss": 2.1819,
      "step": 60120
    },
    {
      "epoch": 0.30065,
      "grad_norm": 1.875,
      "learning_rate": 0.00021085929648241206,
      "loss": 2.1508,
      "step": 60130
    },
    {
      "epoch": 0.3007,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021084422110552762,
      "loss": 2.173,
      "step": 60140
    },
    {
      "epoch": 0.30075,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021082914572864318,
      "loss": 2.1986,
      "step": 60150
    },
    {
      "epoch": 0.3008,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002108140703517588,
      "loss": 2.1197,
      "step": 60160
    },
    {
      "epoch": 0.30085,
      "grad_norm": 1.703125,
      "learning_rate": 0.00021079899497487435,
      "loss": 2.1146,
      "step": 60170
    },
    {
      "epoch": 0.3009,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00021078391959798994,
      "loss": 2.162,
      "step": 60180
    },
    {
      "epoch": 0.30095,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002107688442211055,
      "loss": 2.1899,
      "step": 60190
    },
    {
      "epoch": 0.301,
      "grad_norm": 1.90625,
      "learning_rate": 0.00021075376884422108,
      "loss": 2.1601,
      "step": 60200
    },
    {
      "epoch": 0.30105,
      "grad_norm": 1.953125,
      "learning_rate": 0.00021073869346733667,
      "loss": 2.1738,
      "step": 60210
    },
    {
      "epoch": 0.3011,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00021072361809045223,
      "loss": 2.1885,
      "step": 60220
    },
    {
      "epoch": 0.30115,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021070854271356784,
      "loss": 2.1104,
      "step": 60230
    },
    {
      "epoch": 0.3012,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002106934673366834,
      "loss": 2.1815,
      "step": 60240
    },
    {
      "epoch": 0.30125,
      "grad_norm": 1.96875,
      "learning_rate": 0.00021067839195979896,
      "loss": 2.1369,
      "step": 60250
    },
    {
      "epoch": 0.3013,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021066331658291457,
      "loss": 2.1806,
      "step": 60260
    },
    {
      "epoch": 0.30135,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00021064824120603013,
      "loss": 2.132,
      "step": 60270
    },
    {
      "epoch": 0.3014,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002106331658291457,
      "loss": 2.1349,
      "step": 60280
    },
    {
      "epoch": 0.30145,
      "grad_norm": 1.625,
      "learning_rate": 0.0002106180904522613,
      "loss": 2.151,
      "step": 60290
    },
    {
      "epoch": 0.3015,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00021060301507537686,
      "loss": 2.2007,
      "step": 60300
    },
    {
      "epoch": 0.30155,
      "grad_norm": 1.765625,
      "learning_rate": 0.00021058793969849245,
      "loss": 2.2037,
      "step": 60310
    },
    {
      "epoch": 0.3016,
      "grad_norm": 1.9375,
      "learning_rate": 0.00021057286432160803,
      "loss": 2.2056,
      "step": 60320
    },
    {
      "epoch": 0.30165,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002105577889447236,
      "loss": 2.1506,
      "step": 60330
    },
    {
      "epoch": 0.3017,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00021054271356783918,
      "loss": 2.1279,
      "step": 60340
    },
    {
      "epoch": 0.30175,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00021052763819095474,
      "loss": 2.1163,
      "step": 60350
    },
    {
      "epoch": 0.3018,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021051256281407035,
      "loss": 2.185,
      "step": 60360
    },
    {
      "epoch": 0.30185,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002104974874371859,
      "loss": 2.1103,
      "step": 60370
    },
    {
      "epoch": 0.3019,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00021048241206030147,
      "loss": 2.1964,
      "step": 60380
    },
    {
      "epoch": 0.30195,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00021046733668341708,
      "loss": 2.1737,
      "step": 60390
    },
    {
      "epoch": 0.302,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021045226130653264,
      "loss": 2.1651,
      "step": 60400
    },
    {
      "epoch": 0.30205,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002104371859296482,
      "loss": 2.1938,
      "step": 60410
    },
    {
      "epoch": 0.3021,
      "grad_norm": 1.59375,
      "learning_rate": 0.00021042211055276381,
      "loss": 2.1458,
      "step": 60420
    },
    {
      "epoch": 0.30215,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021040703517587937,
      "loss": 2.194,
      "step": 60430
    },
    {
      "epoch": 0.3022,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00021039195979899496,
      "loss": 2.1272,
      "step": 60440
    },
    {
      "epoch": 0.30225,
      "grad_norm": 2.171875,
      "learning_rate": 0.00021037688442211055,
      "loss": 2.1874,
      "step": 60450
    },
    {
      "epoch": 0.3023,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002103618090452261,
      "loss": 2.1362,
      "step": 60460
    },
    {
      "epoch": 0.30235,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002103467336683417,
      "loss": 2.1536,
      "step": 60470
    },
    {
      "epoch": 0.3024,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00021033165829145728,
      "loss": 2.1499,
      "step": 60480
    },
    {
      "epoch": 0.30245,
      "grad_norm": 1.859375,
      "learning_rate": 0.00021031658291457286,
      "loss": 2.1325,
      "step": 60490
    },
    {
      "epoch": 0.3025,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00021030150753768842,
      "loss": 2.0897,
      "step": 60500
    },
    {
      "epoch": 0.30255,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00021028643216080398,
      "loss": 2.1649,
      "step": 60510
    },
    {
      "epoch": 0.3026,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002102713567839196,
      "loss": 2.1116,
      "step": 60520
    },
    {
      "epoch": 0.30265,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00021025628140703515,
      "loss": 2.1629,
      "step": 60530
    },
    {
      "epoch": 0.3027,
      "grad_norm": 1.875,
      "learning_rate": 0.0002102412060301507,
      "loss": 2.1483,
      "step": 60540
    },
    {
      "epoch": 0.30275,
      "grad_norm": 1.8125,
      "learning_rate": 0.00021022613065326633,
      "loss": 2.1712,
      "step": 60550
    },
    {
      "epoch": 0.3028,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021021105527638188,
      "loss": 2.1373,
      "step": 60560
    },
    {
      "epoch": 0.30285,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021019597989949747,
      "loss": 2.2534,
      "step": 60570
    },
    {
      "epoch": 0.3029,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00021018090452261306,
      "loss": 2.1534,
      "step": 60580
    },
    {
      "epoch": 0.30295,
      "grad_norm": 1.875,
      "learning_rate": 0.00021016582914572862,
      "loss": 2.1695,
      "step": 60590
    },
    {
      "epoch": 0.303,
      "grad_norm": 2.015625,
      "learning_rate": 0.0002101507537688442,
      "loss": 2.139,
      "step": 60600
    },
    {
      "epoch": 0.30305,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002101356783919598,
      "loss": 2.193,
      "step": 60610
    },
    {
      "epoch": 0.3031,
      "grad_norm": 1.78125,
      "learning_rate": 0.00021012060301507537,
      "loss": 2.1216,
      "step": 60620
    },
    {
      "epoch": 0.30315,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00021010552763819093,
      "loss": 2.1276,
      "step": 60630
    },
    {
      "epoch": 0.3032,
      "grad_norm": 1.875,
      "learning_rate": 0.00021009045226130652,
      "loss": 2.1462,
      "step": 60640
    },
    {
      "epoch": 0.30325,
      "grad_norm": 2.21875,
      "learning_rate": 0.0002100753768844221,
      "loss": 2.1908,
      "step": 60650
    },
    {
      "epoch": 0.3033,
      "grad_norm": 1.65625,
      "learning_rate": 0.00021006030150753766,
      "loss": 2.1832,
      "step": 60660
    },
    {
      "epoch": 0.30335,
      "grad_norm": 1.921875,
      "learning_rate": 0.00021004522613065322,
      "loss": 2.1546,
      "step": 60670
    },
    {
      "epoch": 0.3034,
      "grad_norm": 1.71875,
      "learning_rate": 0.00021003015075376884,
      "loss": 2.1232,
      "step": 60680
    },
    {
      "epoch": 0.30345,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002100150753768844,
      "loss": 2.1841,
      "step": 60690
    },
    {
      "epoch": 0.3035,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020999999999999998,
      "loss": 2.1185,
      "step": 60700
    },
    {
      "epoch": 0.30355,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020998492462311557,
      "loss": 2.1315,
      "step": 60710
    },
    {
      "epoch": 0.3036,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020996984924623113,
      "loss": 2.1127,
      "step": 60720
    },
    {
      "epoch": 0.30365,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002099547738693467,
      "loss": 2.162,
      "step": 60730
    },
    {
      "epoch": 0.3037,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002099396984924623,
      "loss": 2.1237,
      "step": 60740
    },
    {
      "epoch": 0.30375,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020992462311557789,
      "loss": 2.1931,
      "step": 60750
    },
    {
      "epoch": 0.3038,
      "grad_norm": 1.640625,
      "learning_rate": 0.00020990954773869344,
      "loss": 2.1598,
      "step": 60760
    },
    {
      "epoch": 0.30385,
      "grad_norm": 1.5078125,
      "learning_rate": 0.00020989447236180903,
      "loss": 2.1843,
      "step": 60770
    },
    {
      "epoch": 0.3039,
      "grad_norm": 1.609375,
      "learning_rate": 0.00020987939698492462,
      "loss": 2.2175,
      "step": 60780
    },
    {
      "epoch": 0.30395,
      "grad_norm": 1.671875,
      "learning_rate": 0.00020986432160804018,
      "loss": 2.0937,
      "step": 60790
    },
    {
      "epoch": 0.304,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002098492462311558,
      "loss": 2.223,
      "step": 60800
    },
    {
      "epoch": 0.30405,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020983417085427135,
      "loss": 2.1546,
      "step": 60810
    },
    {
      "epoch": 0.3041,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002098190954773869,
      "loss": 2.189,
      "step": 60820
    },
    {
      "epoch": 0.30415,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002098040201005025,
      "loss": 2.1627,
      "step": 60830
    },
    {
      "epoch": 0.3042,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020978894472361808,
      "loss": 2.1528,
      "step": 60840
    },
    {
      "epoch": 0.30425,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020977386934673364,
      "loss": 2.1716,
      "step": 60850
    },
    {
      "epoch": 0.3043,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020975879396984922,
      "loss": 2.1552,
      "step": 60860
    },
    {
      "epoch": 0.30435,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002097437185929648,
      "loss": 2.1588,
      "step": 60870
    },
    {
      "epoch": 0.3044,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002097286432160804,
      "loss": 2.1598,
      "step": 60880
    },
    {
      "epoch": 0.30445,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020971356783919595,
      "loss": 2.206,
      "step": 60890
    },
    {
      "epoch": 0.3045,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020969849246231154,
      "loss": 2.1272,
      "step": 60900
    },
    {
      "epoch": 0.30455,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020968341708542713,
      "loss": 2.1914,
      "step": 60910
    },
    {
      "epoch": 0.3046,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020966834170854269,
      "loss": 2.1853,
      "step": 60920
    },
    {
      "epoch": 0.30465,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002096532663316583,
      "loss": 2.1477,
      "step": 60930
    },
    {
      "epoch": 0.3047,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00020963819095477386,
      "loss": 2.1384,
      "step": 60940
    },
    {
      "epoch": 0.30475,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020962311557788942,
      "loss": 2.1781,
      "step": 60950
    },
    {
      "epoch": 0.3048,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020960804020100503,
      "loss": 2.1475,
      "step": 60960
    },
    {
      "epoch": 0.30485,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002095929648241206,
      "loss": 2.1117,
      "step": 60970
    },
    {
      "epoch": 0.3049,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020957788944723615,
      "loss": 2.2062,
      "step": 60980
    },
    {
      "epoch": 0.30495,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00020956281407035173,
      "loss": 2.2008,
      "step": 60990
    },
    {
      "epoch": 0.305,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020954773869346732,
      "loss": 2.1679,
      "step": 61000
    },
    {
      "epoch": 0.30505,
      "grad_norm": 2.046875,
      "learning_rate": 0.0002095326633165829,
      "loss": 2.1751,
      "step": 61010
    },
    {
      "epoch": 0.3051,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020951758793969847,
      "loss": 2.138,
      "step": 61020
    },
    {
      "epoch": 0.30515,
      "grad_norm": 1.75,
      "learning_rate": 0.00020950251256281405,
      "loss": 2.1962,
      "step": 61030
    },
    {
      "epoch": 0.3052,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020948743718592964,
      "loss": 2.1084,
      "step": 61040
    },
    {
      "epoch": 0.30525,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002094723618090452,
      "loss": 2.1476,
      "step": 61050
    },
    {
      "epoch": 0.3053,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002094572864321608,
      "loss": 2.0914,
      "step": 61060
    },
    {
      "epoch": 0.30535,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020944221105527637,
      "loss": 2.1328,
      "step": 61070
    },
    {
      "epoch": 0.3054,
      "grad_norm": 2.078125,
      "learning_rate": 0.00020942713567839193,
      "loss": 2.1771,
      "step": 61080
    },
    {
      "epoch": 0.30545,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020941206030150754,
      "loss": 2.1336,
      "step": 61090
    },
    {
      "epoch": 0.3055,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002093969849246231,
      "loss": 2.1849,
      "step": 61100
    },
    {
      "epoch": 0.30555,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020938190954773866,
      "loss": 2.1535,
      "step": 61110
    },
    {
      "epoch": 0.3056,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020936683417085427,
      "loss": 2.1899,
      "step": 61120
    },
    {
      "epoch": 0.30565,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020935175879396983,
      "loss": 2.1521,
      "step": 61130
    },
    {
      "epoch": 0.3057,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020933668341708542,
      "loss": 2.1447,
      "step": 61140
    },
    {
      "epoch": 0.30575,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00020932160804020098,
      "loss": 2.1387,
      "step": 61150
    },
    {
      "epoch": 0.3058,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020930653266331656,
      "loss": 2.1438,
      "step": 61160
    },
    {
      "epoch": 0.30585,
      "grad_norm": 1.546875,
      "learning_rate": 0.00020929145728643215,
      "loss": 2.1649,
      "step": 61170
    },
    {
      "epoch": 0.3059,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002092763819095477,
      "loss": 2.1223,
      "step": 61180
    },
    {
      "epoch": 0.30595,
      "grad_norm": 2.0625,
      "learning_rate": 0.00020926130653266332,
      "loss": 2.1357,
      "step": 61190
    },
    {
      "epoch": 0.306,
      "grad_norm": 1.9375,
      "learning_rate": 0.00020924623115577888,
      "loss": 2.142,
      "step": 61200
    },
    {
      "epoch": 0.30605,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020923115577889444,
      "loss": 2.1829,
      "step": 61210
    },
    {
      "epoch": 0.3061,
      "grad_norm": 1.75,
      "learning_rate": 0.00020921608040201005,
      "loss": 2.0763,
      "step": 61220
    },
    {
      "epoch": 0.30615,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002092010050251256,
      "loss": 2.1781,
      "step": 61230
    },
    {
      "epoch": 0.3062,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020918592964824117,
      "loss": 2.1144,
      "step": 61240
    },
    {
      "epoch": 0.30625,
      "grad_norm": 1.75,
      "learning_rate": 0.00020917085427135678,
      "loss": 2.1464,
      "step": 61250
    },
    {
      "epoch": 0.3063,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020915577889447234,
      "loss": 2.1515,
      "step": 61260
    },
    {
      "epoch": 0.30635,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020914070351758793,
      "loss": 2.118,
      "step": 61270
    },
    {
      "epoch": 0.3064,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002091256281407035,
      "loss": 2.1642,
      "step": 61280
    },
    {
      "epoch": 0.30645,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00020911055276381907,
      "loss": 2.1205,
      "step": 61290
    },
    {
      "epoch": 0.3065,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020909547738693466,
      "loss": 2.2039,
      "step": 61300
    },
    {
      "epoch": 0.30655,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020908040201005022,
      "loss": 2.1336,
      "step": 61310
    },
    {
      "epoch": 0.3066,
      "grad_norm": 1.65625,
      "learning_rate": 0.00020906532663316583,
      "loss": 2.2325,
      "step": 61320
    },
    {
      "epoch": 0.30665,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002090502512562814,
      "loss": 2.1483,
      "step": 61330
    },
    {
      "epoch": 0.3067,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00020903517587939695,
      "loss": 2.1165,
      "step": 61340
    },
    {
      "epoch": 0.30675,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020902010050251256,
      "loss": 2.1814,
      "step": 61350
    },
    {
      "epoch": 0.3068,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00020900502512562812,
      "loss": 2.1334,
      "step": 61360
    },
    {
      "epoch": 0.30685,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020898994974874368,
      "loss": 2.1677,
      "step": 61370
    },
    {
      "epoch": 0.3069,
      "grad_norm": 2.046875,
      "learning_rate": 0.0002089748743718593,
      "loss": 2.132,
      "step": 61380
    },
    {
      "epoch": 0.30695,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020895979899497485,
      "loss": 2.2022,
      "step": 61390
    },
    {
      "epoch": 0.307,
      "grad_norm": 1.875,
      "learning_rate": 0.0002089447236180904,
      "loss": 2.1292,
      "step": 61400
    },
    {
      "epoch": 0.30705,
      "grad_norm": 2.03125,
      "learning_rate": 0.00020892964824120603,
      "loss": 2.2024,
      "step": 61410
    },
    {
      "epoch": 0.3071,
      "grad_norm": 1.671875,
      "learning_rate": 0.00020891457286432158,
      "loss": 2.1438,
      "step": 61420
    },
    {
      "epoch": 0.30715,
      "grad_norm": 2.03125,
      "learning_rate": 0.00020889949748743717,
      "loss": 2.2147,
      "step": 61430
    },
    {
      "epoch": 0.3072,
      "grad_norm": 1.65625,
      "learning_rate": 0.00020888442211055273,
      "loss": 2.1576,
      "step": 61440
    },
    {
      "epoch": 0.30725,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020886934673366834,
      "loss": 2.14,
      "step": 61450
    },
    {
      "epoch": 0.3073,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002088542713567839,
      "loss": 2.1445,
      "step": 61460
    },
    {
      "epoch": 0.30735,
      "grad_norm": 1.875,
      "learning_rate": 0.00020883919597989946,
      "loss": 2.1555,
      "step": 61470
    },
    {
      "epoch": 0.3074,
      "grad_norm": 2.078125,
      "learning_rate": 0.00020882412060301507,
      "loss": 2.1813,
      "step": 61480
    },
    {
      "epoch": 0.30745,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020880904522613063,
      "loss": 2.1131,
      "step": 61490
    },
    {
      "epoch": 0.3075,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002087939698492462,
      "loss": 2.1524,
      "step": 61500
    },
    {
      "epoch": 0.30755,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002087788944723618,
      "loss": 2.135,
      "step": 61510
    },
    {
      "epoch": 0.3076,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020876381909547736,
      "loss": 2.1545,
      "step": 61520
    },
    {
      "epoch": 0.30765,
      "grad_norm": 2.1875,
      "learning_rate": 0.00020874874371859292,
      "loss": 2.1648,
      "step": 61530
    },
    {
      "epoch": 0.3077,
      "grad_norm": 2.03125,
      "learning_rate": 0.00020873366834170854,
      "loss": 2.1281,
      "step": 61540
    },
    {
      "epoch": 0.30775,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002087185929648241,
      "loss": 2.1176,
      "step": 61550
    },
    {
      "epoch": 0.3078,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020870351758793968,
      "loss": 2.1185,
      "step": 61560
    },
    {
      "epoch": 0.30785,
      "grad_norm": 2.046875,
      "learning_rate": 0.00020868844221105527,
      "loss": 2.1115,
      "step": 61570
    },
    {
      "epoch": 0.3079,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020867336683417085,
      "loss": 2.2177,
      "step": 61580
    },
    {
      "epoch": 0.30795,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002086582914572864,
      "loss": 2.1987,
      "step": 61590
    },
    {
      "epoch": 0.308,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020864321608040197,
      "loss": 2.1224,
      "step": 61600
    },
    {
      "epoch": 0.30805,
      "grad_norm": 1.75,
      "learning_rate": 0.00020862814070351759,
      "loss": 2.2014,
      "step": 61610
    },
    {
      "epoch": 0.3081,
      "grad_norm": 1.75,
      "learning_rate": 0.00020861306532663314,
      "loss": 2.1203,
      "step": 61620
    },
    {
      "epoch": 0.30815,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002085979899497487,
      "loss": 2.2172,
      "step": 61630
    },
    {
      "epoch": 0.3082,
      "grad_norm": 1.609375,
      "learning_rate": 0.00020858291457286432,
      "loss": 2.1121,
      "step": 61640
    },
    {
      "epoch": 0.30825,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020856783919597988,
      "loss": 2.1287,
      "step": 61650
    },
    {
      "epoch": 0.3083,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020855276381909543,
      "loss": 2.1862,
      "step": 61660
    },
    {
      "epoch": 0.30835,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020853768844221105,
      "loss": 2.1271,
      "step": 61670
    },
    {
      "epoch": 0.3084,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002085226130653266,
      "loss": 2.2128,
      "step": 61680
    },
    {
      "epoch": 0.30845,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002085075376884422,
      "loss": 2.113,
      "step": 61690
    },
    {
      "epoch": 0.3085,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00020849246231155778,
      "loss": 2.1783,
      "step": 61700
    },
    {
      "epoch": 0.30855,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020847738693467336,
      "loss": 2.1133,
      "step": 61710
    },
    {
      "epoch": 0.3086,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020846231155778892,
      "loss": 2.1289,
      "step": 61720
    },
    {
      "epoch": 0.30865,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002084472361809045,
      "loss": 2.183,
      "step": 61730
    },
    {
      "epoch": 0.3087,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002084321608040201,
      "loss": 2.1085,
      "step": 61740
    },
    {
      "epoch": 0.30875,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00020841708542713566,
      "loss": 2.2197,
      "step": 61750
    },
    {
      "epoch": 0.3088,
      "grad_norm": 1.703125,
      "learning_rate": 0.00020840201005025121,
      "loss": 2.0668,
      "step": 61760
    },
    {
      "epoch": 0.30885,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020838693467336683,
      "loss": 2.1535,
      "step": 61770
    },
    {
      "epoch": 0.3089,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020837185929648239,
      "loss": 2.1609,
      "step": 61780
    },
    {
      "epoch": 0.30895,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020835678391959795,
      "loss": 2.156,
      "step": 61790
    },
    {
      "epoch": 0.309,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020834170854271356,
      "loss": 2.1923,
      "step": 61800
    },
    {
      "epoch": 0.30905,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020832663316582912,
      "loss": 2.1571,
      "step": 61810
    },
    {
      "epoch": 0.3091,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002083115577889447,
      "loss": 2.1219,
      "step": 61820
    },
    {
      "epoch": 0.30915,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002082964824120603,
      "loss": 2.1517,
      "step": 61830
    },
    {
      "epoch": 0.3092,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020828140703517588,
      "loss": 2.1611,
      "step": 61840
    },
    {
      "epoch": 0.30925,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020826633165829143,
      "loss": 2.1261,
      "step": 61850
    },
    {
      "epoch": 0.3093,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020825125628140702,
      "loss": 2.1238,
      "step": 61860
    },
    {
      "epoch": 0.30935,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002082361809045226,
      "loss": 2.1263,
      "step": 61870
    },
    {
      "epoch": 0.3094,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020822110552763817,
      "loss": 2.2047,
      "step": 61880
    },
    {
      "epoch": 0.30945,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00020820603015075378,
      "loss": 2.1193,
      "step": 61890
    },
    {
      "epoch": 0.3095,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020819095477386934,
      "loss": 2.164,
      "step": 61900
    },
    {
      "epoch": 0.30955,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0002081758793969849,
      "loss": 2.1179,
      "step": 61910
    },
    {
      "epoch": 0.3096,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020816080402010046,
      "loss": 2.1815,
      "step": 61920
    },
    {
      "epoch": 0.30965,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020814572864321607,
      "loss": 2.1214,
      "step": 61930
    },
    {
      "epoch": 0.3097,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020813065326633163,
      "loss": 2.1813,
      "step": 61940
    },
    {
      "epoch": 0.30975,
      "grad_norm": 2.140625,
      "learning_rate": 0.00020811557788944721,
      "loss": 2.0875,
      "step": 61950
    },
    {
      "epoch": 0.3098,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002081005025125628,
      "loss": 2.1515,
      "step": 61960
    },
    {
      "epoch": 0.30985,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020808542713567836,
      "loss": 2.1248,
      "step": 61970
    },
    {
      "epoch": 0.3099,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020807035175879395,
      "loss": 2.1217,
      "step": 61980
    },
    {
      "epoch": 0.30995,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00020805527638190953,
      "loss": 2.0928,
      "step": 61990
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.015625,
      "learning_rate": 0.00020804020100502512,
      "loss": 2.2033,
      "step": 62000
    },
    {
      "epoch": 0.31,
      "eval_loss": 2.1390066146850586,
      "eval_runtime": 91.6146,
      "eval_samples_per_second": 27.288,
      "eval_steps_per_second": 0.437,
      "step": 62000
    },
    {
      "epoch": 0.31005,
      "grad_norm": 2.046875,
      "learning_rate": 0.00020802512562814068,
      "loss": 2.2217,
      "step": 62010
    },
    {
      "epoch": 0.3101,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002080100502512563,
      "loss": 2.1383,
      "step": 62020
    },
    {
      "epoch": 0.31015,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020799497487437185,
      "loss": 2.1615,
      "step": 62030
    },
    {
      "epoch": 0.3102,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002079798994974874,
      "loss": 2.1369,
      "step": 62040
    },
    {
      "epoch": 0.31025,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020796482412060302,
      "loss": 2.1339,
      "step": 62050
    },
    {
      "epoch": 0.3103,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020794974874371858,
      "loss": 2.1103,
      "step": 62060
    },
    {
      "epoch": 0.31035,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020793467336683414,
      "loss": 2.1202,
      "step": 62070
    },
    {
      "epoch": 0.3104,
      "grad_norm": 1.875,
      "learning_rate": 0.00020791959798994973,
      "loss": 2.1716,
      "step": 62080
    },
    {
      "epoch": 0.31045,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002079045226130653,
      "loss": 2.1669,
      "step": 62090
    },
    {
      "epoch": 0.3105,
      "grad_norm": 1.671875,
      "learning_rate": 0.00020788944723618087,
      "loss": 2.132,
      "step": 62100
    },
    {
      "epoch": 0.31055,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020787437185929646,
      "loss": 2.1634,
      "step": 62110
    },
    {
      "epoch": 0.3106,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020785929648241204,
      "loss": 2.1727,
      "step": 62120
    },
    {
      "epoch": 0.31065,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020784422110552763,
      "loss": 2.1139,
      "step": 62130
    },
    {
      "epoch": 0.3107,
      "grad_norm": 2.125,
      "learning_rate": 0.0002078291457286432,
      "loss": 2.2672,
      "step": 62140
    },
    {
      "epoch": 0.31075,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002078140703517588,
      "loss": 2.1567,
      "step": 62150
    },
    {
      "epoch": 0.3108,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020779899497487436,
      "loss": 2.1553,
      "step": 62160
    },
    {
      "epoch": 0.31085,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020778391959798992,
      "loss": 2.1017,
      "step": 62170
    },
    {
      "epoch": 0.3109,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020776884422110553,
      "loss": 2.1656,
      "step": 62180
    },
    {
      "epoch": 0.31095,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002077537688442211,
      "loss": 2.1847,
      "step": 62190
    },
    {
      "epoch": 0.311,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020773869346733665,
      "loss": 2.1514,
      "step": 62200
    },
    {
      "epoch": 0.31105,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00020772361809045226,
      "loss": 2.1444,
      "step": 62210
    },
    {
      "epoch": 0.3111,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020770854271356782,
      "loss": 2.2353,
      "step": 62220
    },
    {
      "epoch": 0.31115,
      "grad_norm": 2.28125,
      "learning_rate": 0.00020769346733668338,
      "loss": 2.1445,
      "step": 62230
    },
    {
      "epoch": 0.3112,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020767839195979897,
      "loss": 2.1492,
      "step": 62240
    },
    {
      "epoch": 0.31125,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020766331658291455,
      "loss": 2.2233,
      "step": 62250
    },
    {
      "epoch": 0.3113,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020764824120603014,
      "loss": 2.1124,
      "step": 62260
    },
    {
      "epoch": 0.31135,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002076331658291457,
      "loss": 2.2048,
      "step": 62270
    },
    {
      "epoch": 0.3114,
      "grad_norm": 2.15625,
      "learning_rate": 0.0002076180904522613,
      "loss": 2.1918,
      "step": 62280
    },
    {
      "epoch": 0.31145,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020760301507537687,
      "loss": 2.1544,
      "step": 62290
    },
    {
      "epoch": 0.3115,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020758793969849243,
      "loss": 2.1054,
      "step": 62300
    },
    {
      "epoch": 0.31155,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00020757286432160804,
      "loss": 2.1465,
      "step": 62310
    },
    {
      "epoch": 0.3116,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002075577889447236,
      "loss": 2.1335,
      "step": 62320
    },
    {
      "epoch": 0.31165,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00020754271356783916,
      "loss": 2.1488,
      "step": 62330
    },
    {
      "epoch": 0.3117,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020752763819095477,
      "loss": 2.12,
      "step": 62340
    },
    {
      "epoch": 0.31175,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020751256281407033,
      "loss": 2.1165,
      "step": 62350
    },
    {
      "epoch": 0.3118,
      "grad_norm": 1.828125,
      "learning_rate": 0.0002074974874371859,
      "loss": 2.171,
      "step": 62360
    },
    {
      "epoch": 0.31185,
      "grad_norm": 1.609375,
      "learning_rate": 0.00020748241206030148,
      "loss": 2.178,
      "step": 62370
    },
    {
      "epoch": 0.3119,
      "grad_norm": 1.75,
      "learning_rate": 0.00020746733668341706,
      "loss": 2.1388,
      "step": 62380
    },
    {
      "epoch": 0.31195,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00020745226130653265,
      "loss": 2.1078,
      "step": 62390
    },
    {
      "epoch": 0.312,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002074371859296482,
      "loss": 2.1927,
      "step": 62400
    },
    {
      "epoch": 0.31205,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002074221105527638,
      "loss": 2.1352,
      "step": 62410
    },
    {
      "epoch": 0.3121,
      "grad_norm": 1.65625,
      "learning_rate": 0.00020740703517587938,
      "loss": 2.1694,
      "step": 62420
    },
    {
      "epoch": 0.31215,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00020739195979899494,
      "loss": 2.1148,
      "step": 62430
    },
    {
      "epoch": 0.3122,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020737688442211055,
      "loss": 2.1482,
      "step": 62440
    },
    {
      "epoch": 0.31225,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002073618090452261,
      "loss": 2.2052,
      "step": 62450
    },
    {
      "epoch": 0.3123,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020734673366834167,
      "loss": 2.0908,
      "step": 62460
    },
    {
      "epoch": 0.31235,
      "grad_norm": 2.0,
      "learning_rate": 0.00020733165829145729,
      "loss": 2.1836,
      "step": 62470
    },
    {
      "epoch": 0.3124,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00020731658291457284,
      "loss": 2.1718,
      "step": 62480
    },
    {
      "epoch": 0.31245,
      "grad_norm": 2.0625,
      "learning_rate": 0.0002073015075376884,
      "loss": 2.1776,
      "step": 62490
    },
    {
      "epoch": 0.3125,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020728643216080402,
      "loss": 2.1671,
      "step": 62500
    },
    {
      "epoch": 0.31255,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020727135678391958,
      "loss": 2.1921,
      "step": 62510
    },
    {
      "epoch": 0.3126,
      "grad_norm": 1.921875,
      "learning_rate": 0.00020725628140703516,
      "loss": 2.1483,
      "step": 62520
    },
    {
      "epoch": 0.31265,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020724120603015072,
      "loss": 2.1867,
      "step": 62530
    },
    {
      "epoch": 0.3127,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002072261306532663,
      "loss": 2.1037,
      "step": 62540
    },
    {
      "epoch": 0.31275,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002072110552763819,
      "loss": 2.1666,
      "step": 62550
    },
    {
      "epoch": 0.3128,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020719597989949745,
      "loss": 2.1122,
      "step": 62560
    },
    {
      "epoch": 0.31285,
      "grad_norm": 2.078125,
      "learning_rate": 0.00020718090452261307,
      "loss": 2.1719,
      "step": 62570
    },
    {
      "epoch": 0.3129,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020716582914572862,
      "loss": 2.1451,
      "step": 62580
    },
    {
      "epoch": 0.31295,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00020715075376884418,
      "loss": 2.1351,
      "step": 62590
    },
    {
      "epoch": 0.313,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002071356783919598,
      "loss": 2.1162,
      "step": 62600
    },
    {
      "epoch": 0.31305,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020712060301507536,
      "loss": 2.1903,
      "step": 62610
    },
    {
      "epoch": 0.3131,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020710552763819091,
      "loss": 2.1531,
      "step": 62620
    },
    {
      "epoch": 0.31315,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020709045226130653,
      "loss": 2.1344,
      "step": 62630
    },
    {
      "epoch": 0.3132,
      "grad_norm": 1.640625,
      "learning_rate": 0.0002070753768844221,
      "loss": 2.1665,
      "step": 62640
    },
    {
      "epoch": 0.31325,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020706030150753767,
      "loss": 2.19,
      "step": 62650
    },
    {
      "epoch": 0.3133,
      "grad_norm": 1.65625,
      "learning_rate": 0.00020704522613065326,
      "loss": 2.1676,
      "step": 62660
    },
    {
      "epoch": 0.31335,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020703015075376882,
      "loss": 2.1126,
      "step": 62670
    },
    {
      "epoch": 0.3134,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002070150753768844,
      "loss": 2.1682,
      "step": 62680
    },
    {
      "epoch": 0.31345,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00020699999999999996,
      "loss": 2.1388,
      "step": 62690
    },
    {
      "epoch": 0.3135,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020698492462311558,
      "loss": 2.1597,
      "step": 62700
    },
    {
      "epoch": 0.31355,
      "grad_norm": 2.09375,
      "learning_rate": 0.00020696984924623114,
      "loss": 2.1036,
      "step": 62710
    },
    {
      "epoch": 0.3136,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0002069547738693467,
      "loss": 2.1595,
      "step": 62720
    },
    {
      "epoch": 0.31365,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002069396984924623,
      "loss": 2.131,
      "step": 62730
    },
    {
      "epoch": 0.3137,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020692462311557787,
      "loss": 2.124,
      "step": 62740
    },
    {
      "epoch": 0.31375,
      "grad_norm": 2.015625,
      "learning_rate": 0.00020690954773869343,
      "loss": 2.1332,
      "step": 62750
    },
    {
      "epoch": 0.3138,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020689447236180904,
      "loss": 2.1815,
      "step": 62760
    },
    {
      "epoch": 0.31385,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002068793969849246,
      "loss": 2.1372,
      "step": 62770
    },
    {
      "epoch": 0.3139,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020686432160804018,
      "loss": 2.134,
      "step": 62780
    },
    {
      "epoch": 0.31395,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020684924623115577,
      "loss": 2.1269,
      "step": 62790
    },
    {
      "epoch": 0.314,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020683417085427133,
      "loss": 2.1351,
      "step": 62800
    },
    {
      "epoch": 0.31405,
      "grad_norm": 2.140625,
      "learning_rate": 0.00020681909547738691,
      "loss": 2.1577,
      "step": 62810
    },
    {
      "epoch": 0.3141,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002068040201005025,
      "loss": 2.1521,
      "step": 62820
    },
    {
      "epoch": 0.31415,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002067889447236181,
      "loss": 2.1393,
      "step": 62830
    },
    {
      "epoch": 0.3142,
      "grad_norm": 1.921875,
      "learning_rate": 0.00020677386934673365,
      "loss": 2.0885,
      "step": 62840
    },
    {
      "epoch": 0.31425,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002067587939698492,
      "loss": 2.2181,
      "step": 62850
    },
    {
      "epoch": 0.3143,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020674371859296482,
      "loss": 2.0969,
      "step": 62860
    },
    {
      "epoch": 0.31435,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020672864321608038,
      "loss": 2.088,
      "step": 62870
    },
    {
      "epoch": 0.3144,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020671356783919594,
      "loss": 2.169,
      "step": 62880
    },
    {
      "epoch": 0.31445,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020669849246231155,
      "loss": 2.1451,
      "step": 62890
    },
    {
      "epoch": 0.3145,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002066834170854271,
      "loss": 2.1589,
      "step": 62900
    },
    {
      "epoch": 0.31455,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002066683417085427,
      "loss": 2.1171,
      "step": 62910
    },
    {
      "epoch": 0.3146,
      "grad_norm": 1.9375,
      "learning_rate": 0.00020665326633165828,
      "loss": 2.1293,
      "step": 62920
    },
    {
      "epoch": 0.31465,
      "grad_norm": 1.9375,
      "learning_rate": 0.00020663819095477384,
      "loss": 2.1465,
      "step": 62930
    },
    {
      "epoch": 0.3147,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020662311557788943,
      "loss": 2.0706,
      "step": 62940
    },
    {
      "epoch": 0.31475,
      "grad_norm": 1.890625,
      "learning_rate": 0.000206608040201005,
      "loss": 2.1625,
      "step": 62950
    },
    {
      "epoch": 0.3148,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002065929648241206,
      "loss": 2.1531,
      "step": 62960
    },
    {
      "epoch": 0.31485,
      "grad_norm": 2.0,
      "learning_rate": 0.00020657788944723616,
      "loss": 2.1463,
      "step": 62970
    },
    {
      "epoch": 0.3149,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00020656281407035174,
      "loss": 2.2035,
      "step": 62980
    },
    {
      "epoch": 0.31495,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020654773869346733,
      "loss": 2.1068,
      "step": 62990
    },
    {
      "epoch": 0.315,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002065326633165829,
      "loss": 2.1543,
      "step": 63000
    },
    {
      "epoch": 0.31505,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020651758793969845,
      "loss": 2.1027,
      "step": 63010
    },
    {
      "epoch": 0.3151,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020650251256281406,
      "loss": 2.1715,
      "step": 63020
    },
    {
      "epoch": 0.31515,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00020648743718592962,
      "loss": 2.1371,
      "step": 63030
    },
    {
      "epoch": 0.3152,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002064723618090452,
      "loss": 2.2252,
      "step": 63040
    },
    {
      "epoch": 0.31525,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002064572864321608,
      "loss": 2.1834,
      "step": 63050
    },
    {
      "epoch": 0.3153,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00020644221105527635,
      "loss": 2.1602,
      "step": 63060
    },
    {
      "epoch": 0.31535,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020642713567839194,
      "loss": 2.1304,
      "step": 63070
    },
    {
      "epoch": 0.3154,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020641206030150752,
      "loss": 2.1647,
      "step": 63080
    },
    {
      "epoch": 0.31545,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002063969849246231,
      "loss": 2.1937,
      "step": 63090
    },
    {
      "epoch": 0.3155,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020638190954773867,
      "loss": 2.1461,
      "step": 63100
    },
    {
      "epoch": 0.31555,
      "grad_norm": 2.046875,
      "learning_rate": 0.00020636683417085425,
      "loss": 2.0608,
      "step": 63110
    },
    {
      "epoch": 0.3156,
      "grad_norm": 1.875,
      "learning_rate": 0.00020635175879396984,
      "loss": 2.1818,
      "step": 63120
    },
    {
      "epoch": 0.31565,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002063366834170854,
      "loss": 2.1679,
      "step": 63130
    },
    {
      "epoch": 0.3157,
      "grad_norm": 1.96875,
      "learning_rate": 0.000206321608040201,
      "loss": 2.1128,
      "step": 63140
    },
    {
      "epoch": 0.31575,
      "grad_norm": 2.15625,
      "learning_rate": 0.00020630653266331657,
      "loss": 2.1789,
      "step": 63150
    },
    {
      "epoch": 0.3158,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020629145728643213,
      "loss": 2.1322,
      "step": 63160
    },
    {
      "epoch": 0.31585,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020627638190954772,
      "loss": 2.1972,
      "step": 63170
    },
    {
      "epoch": 0.3159,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002062613065326633,
      "loss": 2.1353,
      "step": 63180
    },
    {
      "epoch": 0.31595,
      "grad_norm": 1.546875,
      "learning_rate": 0.00020624623115577886,
      "loss": 2.1727,
      "step": 63190
    },
    {
      "epoch": 0.316,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020623115577889445,
      "loss": 2.1108,
      "step": 63200
    },
    {
      "epoch": 0.31605,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020621608040201003,
      "loss": 2.1105,
      "step": 63210
    },
    {
      "epoch": 0.3161,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020620100502512562,
      "loss": 2.1343,
      "step": 63220
    },
    {
      "epoch": 0.31615,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020618592964824118,
      "loss": 2.1439,
      "step": 63230
    },
    {
      "epoch": 0.3162,
      "grad_norm": 1.921875,
      "learning_rate": 0.00020617085427135676,
      "loss": 2.138,
      "step": 63240
    },
    {
      "epoch": 0.31625,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020615577889447235,
      "loss": 2.1333,
      "step": 63250
    },
    {
      "epoch": 0.3163,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002061407035175879,
      "loss": 2.1268,
      "step": 63260
    },
    {
      "epoch": 0.31635,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020612562814070352,
      "loss": 2.1074,
      "step": 63270
    },
    {
      "epoch": 0.3164,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020611055276381908,
      "loss": 2.1519,
      "step": 63280
    },
    {
      "epoch": 0.31645,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020609547738693464,
      "loss": 2.1019,
      "step": 63290
    },
    {
      "epoch": 0.3165,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020608040201005025,
      "loss": 2.1951,
      "step": 63300
    },
    {
      "epoch": 0.31655,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002060653266331658,
      "loss": 2.2247,
      "step": 63310
    },
    {
      "epoch": 0.3166,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020605025125628137,
      "loss": 2.1055,
      "step": 63320
    },
    {
      "epoch": 0.31665,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020603517587939696,
      "loss": 2.108,
      "step": 63330
    },
    {
      "epoch": 0.3167,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020602010050251254,
      "loss": 2.1337,
      "step": 63340
    },
    {
      "epoch": 0.31675,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020600502512562813,
      "loss": 2.1674,
      "step": 63350
    },
    {
      "epoch": 0.3168,
      "grad_norm": 1.9375,
      "learning_rate": 0.0002059899497487437,
      "loss": 2.1773,
      "step": 63360
    },
    {
      "epoch": 0.31685,
      "grad_norm": 2.125,
      "learning_rate": 0.00020597487437185928,
      "loss": 2.1439,
      "step": 63370
    },
    {
      "epoch": 0.3169,
      "grad_norm": 2.0625,
      "learning_rate": 0.00020595979899497486,
      "loss": 2.1644,
      "step": 63380
    },
    {
      "epoch": 0.31695,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020594472361809042,
      "loss": 2.1602,
      "step": 63390
    },
    {
      "epoch": 0.317,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020592964824120603,
      "loss": 2.1926,
      "step": 63400
    },
    {
      "epoch": 0.31705,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002059145728643216,
      "loss": 2.1546,
      "step": 63410
    },
    {
      "epoch": 0.3171,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020589949748743715,
      "loss": 2.1805,
      "step": 63420
    },
    {
      "epoch": 0.31715,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00020588442211055277,
      "loss": 2.1485,
      "step": 63430
    },
    {
      "epoch": 0.3172,
      "grad_norm": 2.046875,
      "learning_rate": 0.00020586934673366832,
      "loss": 2.1955,
      "step": 63440
    },
    {
      "epoch": 0.31725,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020585427135678388,
      "loss": 2.1806,
      "step": 63450
    },
    {
      "epoch": 0.3173,
      "grad_norm": 2.0625,
      "learning_rate": 0.0002058391959798995,
      "loss": 2.1183,
      "step": 63460
    },
    {
      "epoch": 0.31735,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020582412060301506,
      "loss": 2.134,
      "step": 63470
    },
    {
      "epoch": 0.3174,
      "grad_norm": 2.0,
      "learning_rate": 0.00020580904522613064,
      "loss": 2.1422,
      "step": 63480
    },
    {
      "epoch": 0.31745,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002057939698492462,
      "loss": 2.0976,
      "step": 63490
    },
    {
      "epoch": 0.3175,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002057788944723618,
      "loss": 2.1356,
      "step": 63500
    },
    {
      "epoch": 0.31755,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020576381909547737,
      "loss": 2.1785,
      "step": 63510
    },
    {
      "epoch": 0.3176,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020574874371859293,
      "loss": 2.099,
      "step": 63520
    },
    {
      "epoch": 0.31765,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00020573366834170855,
      "loss": 2.1187,
      "step": 63530
    },
    {
      "epoch": 0.3177,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002057185929648241,
      "loss": 2.1566,
      "step": 63540
    },
    {
      "epoch": 0.31775,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020570351758793966,
      "loss": 2.1307,
      "step": 63550
    },
    {
      "epoch": 0.3178,
      "grad_norm": 2.0625,
      "learning_rate": 0.00020568844221105528,
      "loss": 2.1667,
      "step": 63560
    },
    {
      "epoch": 0.31785,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020567336683417084,
      "loss": 2.1752,
      "step": 63570
    },
    {
      "epoch": 0.3179,
      "grad_norm": 2.0,
      "learning_rate": 0.0002056582914572864,
      "loss": 2.1207,
      "step": 63580
    },
    {
      "epoch": 0.31795,
      "grad_norm": 1.8125,
      "learning_rate": 0.000205643216080402,
      "loss": 2.0816,
      "step": 63590
    },
    {
      "epoch": 0.318,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00020562814070351757,
      "loss": 2.1608,
      "step": 63600
    },
    {
      "epoch": 0.31805,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020561306532663315,
      "loss": 2.18,
      "step": 63610
    },
    {
      "epoch": 0.3181,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002055979899497487,
      "loss": 2.163,
      "step": 63620
    },
    {
      "epoch": 0.31815,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002055829145728643,
      "loss": 2.1541,
      "step": 63630
    },
    {
      "epoch": 0.3182,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020556783919597988,
      "loss": 2.103,
      "step": 63640
    },
    {
      "epoch": 0.31825,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020555276381909544,
      "loss": 2.2091,
      "step": 63650
    },
    {
      "epoch": 0.3183,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020553768844221106,
      "loss": 2.1055,
      "step": 63660
    },
    {
      "epoch": 0.31835,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020552261306532662,
      "loss": 2.1907,
      "step": 63670
    },
    {
      "epoch": 0.3184,
      "grad_norm": 2.203125,
      "learning_rate": 0.00020550753768844217,
      "loss": 2.1557,
      "step": 63680
    },
    {
      "epoch": 0.31845,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002054924623115578,
      "loss": 2.1366,
      "step": 63690
    },
    {
      "epoch": 0.3185,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020547738693467335,
      "loss": 2.1188,
      "step": 63700
    },
    {
      "epoch": 0.31855,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002054623115577889,
      "loss": 2.1271,
      "step": 63710
    },
    {
      "epoch": 0.3186,
      "grad_norm": 1.875,
      "learning_rate": 0.00020544723618090452,
      "loss": 2.1095,
      "step": 63720
    },
    {
      "epoch": 0.31865,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020543216080402008,
      "loss": 2.1446,
      "step": 63730
    },
    {
      "epoch": 0.3187,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020541708542713566,
      "loss": 2.1014,
      "step": 63740
    },
    {
      "epoch": 0.31875,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020540201005025125,
      "loss": 2.1739,
      "step": 63750
    },
    {
      "epoch": 0.3188,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002053869346733668,
      "loss": 2.1979,
      "step": 63760
    },
    {
      "epoch": 0.31885,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002053718592964824,
      "loss": 2.1609,
      "step": 63770
    },
    {
      "epoch": 0.3189,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020535678391959795,
      "loss": 2.1348,
      "step": 63780
    },
    {
      "epoch": 0.31895,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00020534170854271357,
      "loss": 2.1386,
      "step": 63790
    },
    {
      "epoch": 0.319,
      "grad_norm": 1.640625,
      "learning_rate": 0.00020532663316582913,
      "loss": 2.1759,
      "step": 63800
    },
    {
      "epoch": 0.31905,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020531155778894468,
      "loss": 2.1605,
      "step": 63810
    },
    {
      "epoch": 0.3191,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002052964824120603,
      "loss": 2.2141,
      "step": 63820
    },
    {
      "epoch": 0.31915,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020528140703517586,
      "loss": 2.0936,
      "step": 63830
    },
    {
      "epoch": 0.3192,
      "grad_norm": 1.671875,
      "learning_rate": 0.00020526633165829142,
      "loss": 2.2214,
      "step": 63840
    },
    {
      "epoch": 0.31925,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020525125628140703,
      "loss": 2.1149,
      "step": 63850
    },
    {
      "epoch": 0.3193,
      "grad_norm": 1.875,
      "learning_rate": 0.0002052361809045226,
      "loss": 2.1302,
      "step": 63860
    },
    {
      "epoch": 0.31935,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020522110552763817,
      "loss": 2.0947,
      "step": 63870
    },
    {
      "epoch": 0.3194,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020520603015075376,
      "loss": 2.1669,
      "step": 63880
    },
    {
      "epoch": 0.31945,
      "grad_norm": 1.609375,
      "learning_rate": 0.00020519095477386932,
      "loss": 2.1039,
      "step": 63890
    },
    {
      "epoch": 0.3195,
      "grad_norm": 1.890625,
      "learning_rate": 0.0002051758793969849,
      "loss": 2.2612,
      "step": 63900
    },
    {
      "epoch": 0.31955,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0002051608040201005,
      "loss": 2.1314,
      "step": 63910
    },
    {
      "epoch": 0.3196,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00020514572864321608,
      "loss": 2.2167,
      "step": 63920
    },
    {
      "epoch": 0.31965,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020513065326633164,
      "loss": 2.2084,
      "step": 63930
    },
    {
      "epoch": 0.3197,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0002051155778894472,
      "loss": 2.1621,
      "step": 63940
    },
    {
      "epoch": 0.31975,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002051005025125628,
      "loss": 2.1471,
      "step": 63950
    },
    {
      "epoch": 0.3198,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020508542713567837,
      "loss": 2.186,
      "step": 63960
    },
    {
      "epoch": 0.31985,
      "grad_norm": 1.875,
      "learning_rate": 0.00020507035175879393,
      "loss": 2.0691,
      "step": 63970
    },
    {
      "epoch": 0.3199,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020505527638190954,
      "loss": 2.1738,
      "step": 63980
    },
    {
      "epoch": 0.31995,
      "grad_norm": 2.125,
      "learning_rate": 0.0002050402010050251,
      "loss": 2.1397,
      "step": 63990
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.671875,
      "learning_rate": 0.00020502512562814069,
      "loss": 2.1581,
      "step": 64000
    },
    {
      "epoch": 0.32,
      "eval_loss": 2.1361911296844482,
      "eval_runtime": 91.6734,
      "eval_samples_per_second": 27.271,
      "eval_steps_per_second": 0.436,
      "step": 64000
    },
    {
      "epoch": 0.32005,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020501005025125627,
      "loss": 2.1134,
      "step": 64010
    },
    {
      "epoch": 0.3201,
      "grad_norm": 1.703125,
      "learning_rate": 0.00020499497487437183,
      "loss": 2.1342,
      "step": 64020
    },
    {
      "epoch": 0.32015,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00020497989949748742,
      "loss": 2.1476,
      "step": 64030
    },
    {
      "epoch": 0.3202,
      "grad_norm": 1.8125,
      "learning_rate": 0.000204964824120603,
      "loss": 2.1425,
      "step": 64040
    },
    {
      "epoch": 0.32025,
      "grad_norm": 1.65625,
      "learning_rate": 0.0002049497487437186,
      "loss": 2.1787,
      "step": 64050
    },
    {
      "epoch": 0.3203,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020493467336683415,
      "loss": 2.1575,
      "step": 64060
    },
    {
      "epoch": 0.32035,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020491959798994973,
      "loss": 2.1526,
      "step": 64070
    },
    {
      "epoch": 0.3204,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020490452261306532,
      "loss": 2.1664,
      "step": 64080
    },
    {
      "epoch": 0.32045,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020488944723618088,
      "loss": 2.1567,
      "step": 64090
    },
    {
      "epoch": 0.3205,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020487437185929644,
      "loss": 2.1168,
      "step": 64100
    },
    {
      "epoch": 0.32055,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020485929648241205,
      "loss": 2.1435,
      "step": 64110
    },
    {
      "epoch": 0.3206,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002048442211055276,
      "loss": 2.1461,
      "step": 64120
    },
    {
      "epoch": 0.32065,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002048291457286432,
      "loss": 2.1523,
      "step": 64130
    },
    {
      "epoch": 0.3207,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020481407035175878,
      "loss": 2.1058,
      "step": 64140
    },
    {
      "epoch": 0.32075,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020479899497487434,
      "loss": 2.1701,
      "step": 64150
    },
    {
      "epoch": 0.3208,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020478391959798993,
      "loss": 2.1192,
      "step": 64160
    },
    {
      "epoch": 0.32085,
      "grad_norm": 2.0,
      "learning_rate": 0.00020476884422110551,
      "loss": 2.181,
      "step": 64170
    },
    {
      "epoch": 0.3209,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0002047537688442211,
      "loss": 2.1119,
      "step": 64180
    },
    {
      "epoch": 0.32095,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020473869346733666,
      "loss": 2.1177,
      "step": 64190
    },
    {
      "epoch": 0.321,
      "grad_norm": 2.03125,
      "learning_rate": 0.00020472361809045224,
      "loss": 2.1312,
      "step": 64200
    },
    {
      "epoch": 0.32105,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020470854271356783,
      "loss": 2.1521,
      "step": 64210
    },
    {
      "epoch": 0.3211,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0002046934673366834,
      "loss": 2.1255,
      "step": 64220
    },
    {
      "epoch": 0.32115,
      "grad_norm": 1.921875,
      "learning_rate": 0.000204678391959799,
      "loss": 2.1597,
      "step": 64230
    },
    {
      "epoch": 0.3212,
      "grad_norm": 2.0625,
      "learning_rate": 0.00020466331658291456,
      "loss": 2.1727,
      "step": 64240
    },
    {
      "epoch": 0.32125,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020464824120603012,
      "loss": 2.1689,
      "step": 64250
    },
    {
      "epoch": 0.3213,
      "grad_norm": 2.140625,
      "learning_rate": 0.0002046331658291457,
      "loss": 2.1762,
      "step": 64260
    },
    {
      "epoch": 0.32135,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0002046180904522613,
      "loss": 2.1795,
      "step": 64270
    },
    {
      "epoch": 0.3214,
      "grad_norm": 2.03125,
      "learning_rate": 0.00020460301507537685,
      "loss": 2.1364,
      "step": 64280
    },
    {
      "epoch": 0.32145,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020458793969849244,
      "loss": 2.12,
      "step": 64290
    },
    {
      "epoch": 0.3215,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020457286432160802,
      "loss": 2.096,
      "step": 64300
    },
    {
      "epoch": 0.32155,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0002045577889447236,
      "loss": 2.127,
      "step": 64310
    },
    {
      "epoch": 0.3216,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020454271356783917,
      "loss": 2.1545,
      "step": 64320
    },
    {
      "epoch": 0.32165,
      "grad_norm": 1.75,
      "learning_rate": 0.00020452763819095476,
      "loss": 2.16,
      "step": 64330
    },
    {
      "epoch": 0.3217,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020451256281407034,
      "loss": 2.1084,
      "step": 64340
    },
    {
      "epoch": 0.32175,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002044974874371859,
      "loss": 2.1385,
      "step": 64350
    },
    {
      "epoch": 0.3218,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020448241206030151,
      "loss": 2.0935,
      "step": 64360
    },
    {
      "epoch": 0.32185,
      "grad_norm": 1.53125,
      "learning_rate": 0.00020446733668341707,
      "loss": 2.1119,
      "step": 64370
    },
    {
      "epoch": 0.3219,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020445226130653263,
      "loss": 2.1534,
      "step": 64380
    },
    {
      "epoch": 0.32195,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020443718592964825,
      "loss": 2.2241,
      "step": 64390
    },
    {
      "epoch": 0.322,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002044221105527638,
      "loss": 2.1807,
      "step": 64400
    },
    {
      "epoch": 0.32205,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020440703517587936,
      "loss": 2.1956,
      "step": 64410
    },
    {
      "epoch": 0.3221,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00020439195979899495,
      "loss": 2.148,
      "step": 64420
    },
    {
      "epoch": 0.32215,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00020437688442211054,
      "loss": 2.1386,
      "step": 64430
    },
    {
      "epoch": 0.3222,
      "grad_norm": 1.921875,
      "learning_rate": 0.00020436180904522612,
      "loss": 2.142,
      "step": 64440
    },
    {
      "epoch": 0.32225,
      "grad_norm": 2.078125,
      "learning_rate": 0.00020434673366834168,
      "loss": 2.1488,
      "step": 64450
    },
    {
      "epoch": 0.3223,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020433165829145727,
      "loss": 2.1368,
      "step": 64460
    },
    {
      "epoch": 0.32235,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00020431658291457285,
      "loss": 2.1253,
      "step": 64470
    },
    {
      "epoch": 0.3224,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0002043015075376884,
      "loss": 2.0993,
      "step": 64480
    },
    {
      "epoch": 0.32245,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020428643216080403,
      "loss": 2.1416,
      "step": 64490
    },
    {
      "epoch": 0.3225,
      "grad_norm": 1.640625,
      "learning_rate": 0.00020427135678391958,
      "loss": 2.0929,
      "step": 64500
    },
    {
      "epoch": 0.32255,
      "grad_norm": 1.875,
      "learning_rate": 0.00020425628140703514,
      "loss": 2.1752,
      "step": 64510
    },
    {
      "epoch": 0.3226,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020424120603015076,
      "loss": 2.107,
      "step": 64520
    },
    {
      "epoch": 0.32265,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020422613065326632,
      "loss": 2.1403,
      "step": 64530
    },
    {
      "epoch": 0.3227,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020421105527638187,
      "loss": 2.1624,
      "step": 64540
    },
    {
      "epoch": 0.32275,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002041959798994975,
      "loss": 2.178,
      "step": 64550
    },
    {
      "epoch": 0.3228,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020418090452261305,
      "loss": 2.0954,
      "step": 64560
    },
    {
      "epoch": 0.32285,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020416582914572863,
      "loss": 2.1274,
      "step": 64570
    },
    {
      "epoch": 0.3229,
      "grad_norm": 2.1875,
      "learning_rate": 0.0002041507537688442,
      "loss": 2.1171,
      "step": 64580
    },
    {
      "epoch": 0.32295,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020413567839195978,
      "loss": 2.1415,
      "step": 64590
    },
    {
      "epoch": 0.323,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020412060301507536,
      "loss": 2.1408,
      "step": 64600
    },
    {
      "epoch": 0.32305,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020410552763819092,
      "loss": 2.1402,
      "step": 64610
    },
    {
      "epoch": 0.3231,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020409045226130654,
      "loss": 2.1687,
      "step": 64620
    },
    {
      "epoch": 0.32315,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002040753768844221,
      "loss": 2.1899,
      "step": 64630
    },
    {
      "epoch": 0.3232,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020406030150753765,
      "loss": 2.0958,
      "step": 64640
    },
    {
      "epoch": 0.32325,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020404522613065327,
      "loss": 2.1158,
      "step": 64650
    },
    {
      "epoch": 0.3233,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020403015075376883,
      "loss": 2.1524,
      "step": 64660
    },
    {
      "epoch": 0.32335,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020401507537688439,
      "loss": 2.1361,
      "step": 64670
    },
    {
      "epoch": 0.3234,
      "grad_norm": 1.9609375,
      "learning_rate": 0.000204,
      "loss": 2.1368,
      "step": 64680
    },
    {
      "epoch": 0.32345,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020398492462311556,
      "loss": 2.1123,
      "step": 64690
    },
    {
      "epoch": 0.3235,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020396984924623114,
      "loss": 2.1439,
      "step": 64700
    },
    {
      "epoch": 0.32355,
      "grad_norm": 2.28125,
      "learning_rate": 0.0002039547738693467,
      "loss": 2.1726,
      "step": 64710
    },
    {
      "epoch": 0.3236,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002039396984924623,
      "loss": 2.1285,
      "step": 64720
    },
    {
      "epoch": 0.32365,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020392462311557787,
      "loss": 2.1453,
      "step": 64730
    },
    {
      "epoch": 0.3237,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020390954773869343,
      "loss": 2.0947,
      "step": 64740
    },
    {
      "epoch": 0.32375,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020389447236180905,
      "loss": 2.1269,
      "step": 64750
    },
    {
      "epoch": 0.3238,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002038793969849246,
      "loss": 2.1355,
      "step": 64760
    },
    {
      "epoch": 0.32385,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020386432160804016,
      "loss": 2.1313,
      "step": 64770
    },
    {
      "epoch": 0.3239,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020384924623115578,
      "loss": 2.1611,
      "step": 64780
    },
    {
      "epoch": 0.32395,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020383417085427134,
      "loss": 2.0874,
      "step": 64790
    },
    {
      "epoch": 0.324,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002038190954773869,
      "loss": 2.1789,
      "step": 64800
    },
    {
      "epoch": 0.32405,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002038040201005025,
      "loss": 2.1487,
      "step": 64810
    },
    {
      "epoch": 0.3241,
      "grad_norm": 1.75,
      "learning_rate": 0.00020378894472361807,
      "loss": 2.1621,
      "step": 64820
    },
    {
      "epoch": 0.32415,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020377386934673365,
      "loss": 2.143,
      "step": 64830
    },
    {
      "epoch": 0.3242,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00020375879396984924,
      "loss": 2.1516,
      "step": 64840
    },
    {
      "epoch": 0.32425,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0002037437185929648,
      "loss": 2.1332,
      "step": 64850
    },
    {
      "epoch": 0.3243,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00020372864321608039,
      "loss": 2.136,
      "step": 64860
    },
    {
      "epoch": 0.32435,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020371356783919594,
      "loss": 2.1551,
      "step": 64870
    },
    {
      "epoch": 0.3244,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020369849246231156,
      "loss": 2.1677,
      "step": 64880
    },
    {
      "epoch": 0.32445,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020368341708542712,
      "loss": 2.1499,
      "step": 64890
    },
    {
      "epoch": 0.3245,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020366834170854268,
      "loss": 2.1541,
      "step": 64900
    },
    {
      "epoch": 0.32455,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002036532663316583,
      "loss": 2.1555,
      "step": 64910
    },
    {
      "epoch": 0.3246,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020363819095477385,
      "loss": 2.1216,
      "step": 64920
    },
    {
      "epoch": 0.32465,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002036231155778894,
      "loss": 2.096,
      "step": 64930
    },
    {
      "epoch": 0.3247,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020360804020100502,
      "loss": 2.1389,
      "step": 64940
    },
    {
      "epoch": 0.32475,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00020359296482412058,
      "loss": 2.1722,
      "step": 64950
    },
    {
      "epoch": 0.3248,
      "grad_norm": 1.640625,
      "learning_rate": 0.00020357788944723617,
      "loss": 2.1231,
      "step": 64960
    },
    {
      "epoch": 0.32485,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020356281407035175,
      "loss": 2.1053,
      "step": 64970
    },
    {
      "epoch": 0.3249,
      "grad_norm": 1.75,
      "learning_rate": 0.0002035477386934673,
      "loss": 2.189,
      "step": 64980
    },
    {
      "epoch": 0.32495,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0002035326633165829,
      "loss": 2.1958,
      "step": 64990
    },
    {
      "epoch": 0.325,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020351758793969848,
      "loss": 2.1023,
      "step": 65000
    },
    {
      "epoch": 0.32505,
      "grad_norm": 1.75,
      "learning_rate": 0.00020350251256281407,
      "loss": 2.1217,
      "step": 65010
    },
    {
      "epoch": 0.3251,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020348743718592963,
      "loss": 2.1208,
      "step": 65020
    },
    {
      "epoch": 0.32515,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002034723618090452,
      "loss": 2.1706,
      "step": 65030
    },
    {
      "epoch": 0.3252,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002034572864321608,
      "loss": 2.146,
      "step": 65040
    },
    {
      "epoch": 0.32525,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020344221105527636,
      "loss": 2.1569,
      "step": 65050
    },
    {
      "epoch": 0.3253,
      "grad_norm": 1.65625,
      "learning_rate": 0.00020342713567839192,
      "loss": 2.1819,
      "step": 65060
    },
    {
      "epoch": 0.32535,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020341206030150753,
      "loss": 2.1735,
      "step": 65070
    },
    {
      "epoch": 0.3254,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0002033969849246231,
      "loss": 2.0915,
      "step": 65080
    },
    {
      "epoch": 0.32545,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020338190954773868,
      "loss": 2.1644,
      "step": 65090
    },
    {
      "epoch": 0.3255,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020336683417085426,
      "loss": 2.1312,
      "step": 65100
    },
    {
      "epoch": 0.32555,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020335175879396982,
      "loss": 2.14,
      "step": 65110
    },
    {
      "epoch": 0.3256,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002033366834170854,
      "loss": 2.1648,
      "step": 65120
    },
    {
      "epoch": 0.32565,
      "grad_norm": 1.984375,
      "learning_rate": 0.000203321608040201,
      "loss": 2.135,
      "step": 65130
    },
    {
      "epoch": 0.3257,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020330653266331658,
      "loss": 2.1199,
      "step": 65140
    },
    {
      "epoch": 0.32575,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020329145728643214,
      "loss": 2.1191,
      "step": 65150
    },
    {
      "epoch": 0.3258,
      "grad_norm": 1.9375,
      "learning_rate": 0.00020327638190954772,
      "loss": 2.1026,
      "step": 65160
    },
    {
      "epoch": 0.32585,
      "grad_norm": 1.9375,
      "learning_rate": 0.0002032613065326633,
      "loss": 2.1854,
      "step": 65170
    },
    {
      "epoch": 0.3259,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020324623115577887,
      "loss": 2.1437,
      "step": 65180
    },
    {
      "epoch": 0.32595,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020323115577889443,
      "loss": 2.1613,
      "step": 65190
    },
    {
      "epoch": 0.326,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020321608040201004,
      "loss": 2.1536,
      "step": 65200
    },
    {
      "epoch": 0.32605,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002032010050251256,
      "loss": 2.0975,
      "step": 65210
    },
    {
      "epoch": 0.3261,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0002031859296482412,
      "loss": 2.0931,
      "step": 65220
    },
    {
      "epoch": 0.32615,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020317085427135677,
      "loss": 2.1227,
      "step": 65230
    },
    {
      "epoch": 0.3262,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020315577889447233,
      "loss": 2.1223,
      "step": 65240
    },
    {
      "epoch": 0.32625,
      "grad_norm": 1.9375,
      "learning_rate": 0.00020314070351758792,
      "loss": 2.1034,
      "step": 65250
    },
    {
      "epoch": 0.3263,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002031256281407035,
      "loss": 2.1592,
      "step": 65260
    },
    {
      "epoch": 0.32635,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002031105527638191,
      "loss": 2.1554,
      "step": 65270
    },
    {
      "epoch": 0.3264,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00020309547738693465,
      "loss": 2.0774,
      "step": 65280
    },
    {
      "epoch": 0.32645,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020308040201005024,
      "loss": 2.1355,
      "step": 65290
    },
    {
      "epoch": 0.3265,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020306532663316582,
      "loss": 2.1354,
      "step": 65300
    },
    {
      "epoch": 0.32655,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00020305025125628138,
      "loss": 2.0909,
      "step": 65310
    },
    {
      "epoch": 0.3266,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000203035175879397,
      "loss": 2.1811,
      "step": 65320
    },
    {
      "epoch": 0.32665,
      "grad_norm": 1.625,
      "learning_rate": 0.00020302010050251255,
      "loss": 2.1348,
      "step": 65330
    },
    {
      "epoch": 0.3267,
      "grad_norm": 1.90625,
      "learning_rate": 0.0002030050251256281,
      "loss": 2.1007,
      "step": 65340
    },
    {
      "epoch": 0.32675,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002029899497487437,
      "loss": 2.1054,
      "step": 65350
    },
    {
      "epoch": 0.3268,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020297487437185928,
      "loss": 2.1631,
      "step": 65360
    },
    {
      "epoch": 0.32685,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020295979899497484,
      "loss": 2.0965,
      "step": 65370
    },
    {
      "epoch": 0.3269,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020294472361809043,
      "loss": 2.1294,
      "step": 65380
    },
    {
      "epoch": 0.32695,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020292964824120602,
      "loss": 2.1222,
      "step": 65390
    },
    {
      "epoch": 0.327,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002029145728643216,
      "loss": 2.1167,
      "step": 65400
    },
    {
      "epoch": 0.32705,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020289949748743716,
      "loss": 2.091,
      "step": 65410
    },
    {
      "epoch": 0.3271,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020288442211055275,
      "loss": 2.13,
      "step": 65420
    },
    {
      "epoch": 0.32715,
      "grad_norm": 2.046875,
      "learning_rate": 0.00020286934673366833,
      "loss": 2.1514,
      "step": 65430
    },
    {
      "epoch": 0.3272,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002028542713567839,
      "loss": 2.0775,
      "step": 65440
    },
    {
      "epoch": 0.32725,
      "grad_norm": 1.78125,
      "learning_rate": 0.0002028391959798995,
      "loss": 2.1048,
      "step": 65450
    },
    {
      "epoch": 0.3273,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020282412060301506,
      "loss": 2.1686,
      "step": 65460
    },
    {
      "epoch": 0.32735,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020280904522613062,
      "loss": 2.1523,
      "step": 65470
    },
    {
      "epoch": 0.3274,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020279396984924624,
      "loss": 2.1317,
      "step": 65480
    },
    {
      "epoch": 0.32745,
      "grad_norm": 1.734375,
      "learning_rate": 0.0002027788944723618,
      "loss": 2.1283,
      "step": 65490
    },
    {
      "epoch": 0.3275,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020276381909547735,
      "loss": 2.1667,
      "step": 65500
    },
    {
      "epoch": 0.32755,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020274874371859294,
      "loss": 2.1435,
      "step": 65510
    },
    {
      "epoch": 0.3276,
      "grad_norm": 2.109375,
      "learning_rate": 0.00020273366834170853,
      "loss": 2.0887,
      "step": 65520
    },
    {
      "epoch": 0.32765,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002027185929648241,
      "loss": 2.1964,
      "step": 65530
    },
    {
      "epoch": 0.3277,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00020270351758793967,
      "loss": 2.1447,
      "step": 65540
    },
    {
      "epoch": 0.32775,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020268844221105526,
      "loss": 2.1161,
      "step": 65550
    },
    {
      "epoch": 0.3278,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020267336683417084,
      "loss": 2.1254,
      "step": 65560
    },
    {
      "epoch": 0.32785,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0002026582914572864,
      "loss": 2.1663,
      "step": 65570
    },
    {
      "epoch": 0.3279,
      "grad_norm": 1.75,
      "learning_rate": 0.00020264321608040202,
      "loss": 2.1406,
      "step": 65580
    },
    {
      "epoch": 0.32795,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020262814070351757,
      "loss": 2.2001,
      "step": 65590
    },
    {
      "epoch": 0.328,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020261306532663313,
      "loss": 2.129,
      "step": 65600
    },
    {
      "epoch": 0.32805,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00020259798994974875,
      "loss": 2.1778,
      "step": 65610
    },
    {
      "epoch": 0.3281,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0002025829145728643,
      "loss": 2.1289,
      "step": 65620
    },
    {
      "epoch": 0.32815,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020256783919597987,
      "loss": 2.0945,
      "step": 65630
    },
    {
      "epoch": 0.3282,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020255276381909548,
      "loss": 2.1332,
      "step": 65640
    },
    {
      "epoch": 0.32825,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020253768844221104,
      "loss": 2.1749,
      "step": 65650
    },
    {
      "epoch": 0.3283,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020252261306532662,
      "loss": 2.1201,
      "step": 65660
    },
    {
      "epoch": 0.32835,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020250753768844218,
      "loss": 2.1598,
      "step": 65670
    },
    {
      "epoch": 0.3284,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020249246231155777,
      "loss": 2.1602,
      "step": 65680
    },
    {
      "epoch": 0.32845,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020247738693467335,
      "loss": 2.1054,
      "step": 65690
    },
    {
      "epoch": 0.3285,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00020246231155778891,
      "loss": 2.1744,
      "step": 65700
    },
    {
      "epoch": 0.32855,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020244723618090453,
      "loss": 2.1406,
      "step": 65710
    },
    {
      "epoch": 0.3286,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020243216080402009,
      "loss": 2.0934,
      "step": 65720
    },
    {
      "epoch": 0.32865,
      "grad_norm": 1.875,
      "learning_rate": 0.00020241708542713564,
      "loss": 2.1924,
      "step": 65730
    },
    {
      "epoch": 0.3287,
      "grad_norm": 2.0625,
      "learning_rate": 0.00020240201005025126,
      "loss": 2.1408,
      "step": 65740
    },
    {
      "epoch": 0.32875,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020238693467336682,
      "loss": 2.1798,
      "step": 65750
    },
    {
      "epoch": 0.3288,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020237185929648238,
      "loss": 2.1063,
      "step": 65760
    },
    {
      "epoch": 0.32885,
      "grad_norm": 1.765625,
      "learning_rate": 0.000202356783919598,
      "loss": 2.1707,
      "step": 65770
    },
    {
      "epoch": 0.3289,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020234170854271355,
      "loss": 2.1209,
      "step": 65780
    },
    {
      "epoch": 0.32895,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020232663316582913,
      "loss": 2.2091,
      "step": 65790
    },
    {
      "epoch": 0.329,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002023115577889447,
      "loss": 2.1273,
      "step": 65800
    },
    {
      "epoch": 0.32905,
      "grad_norm": 2.1875,
      "learning_rate": 0.00020229648241206028,
      "loss": 2.1257,
      "step": 65810
    },
    {
      "epoch": 0.3291,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020228140703517587,
      "loss": 2.1145,
      "step": 65820
    },
    {
      "epoch": 0.32915,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020226633165829142,
      "loss": 2.216,
      "step": 65830
    },
    {
      "epoch": 0.3292,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020225125628140704,
      "loss": 2.2154,
      "step": 65840
    },
    {
      "epoch": 0.32925,
      "grad_norm": 2.0,
      "learning_rate": 0.0002022361809045226,
      "loss": 2.1806,
      "step": 65850
    },
    {
      "epoch": 0.3293,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020222110552763816,
      "loss": 2.1448,
      "step": 65860
    },
    {
      "epoch": 0.32935,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020220603015075377,
      "loss": 2.1605,
      "step": 65870
    },
    {
      "epoch": 0.3294,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020219095477386933,
      "loss": 2.1343,
      "step": 65880
    },
    {
      "epoch": 0.32945,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002021758793969849,
      "loss": 2.1132,
      "step": 65890
    },
    {
      "epoch": 0.3295,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002021608040201005,
      "loss": 2.1427,
      "step": 65900
    },
    {
      "epoch": 0.32955,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020214572864321606,
      "loss": 2.1419,
      "step": 65910
    },
    {
      "epoch": 0.3296,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020213065326633165,
      "loss": 2.1484,
      "step": 65920
    },
    {
      "epoch": 0.32965,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020211557788944723,
      "loss": 2.1588,
      "step": 65930
    },
    {
      "epoch": 0.3297,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0002021005025125628,
      "loss": 2.1469,
      "step": 65940
    },
    {
      "epoch": 0.32975,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020208542713567838,
      "loss": 2.17,
      "step": 65950
    },
    {
      "epoch": 0.3298,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020207035175879394,
      "loss": 2.1145,
      "step": 65960
    },
    {
      "epoch": 0.32985,
      "grad_norm": 2.171875,
      "learning_rate": 0.00020205527638190955,
      "loss": 2.1951,
      "step": 65970
    },
    {
      "epoch": 0.3299,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002020402010050251,
      "loss": 2.1195,
      "step": 65980
    },
    {
      "epoch": 0.32995,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020202512562814067,
      "loss": 2.1784,
      "step": 65990
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020201005025125628,
      "loss": 2.1128,
      "step": 66000
    },
    {
      "epoch": 0.33,
      "eval_loss": 2.130138874053955,
      "eval_runtime": 92.0421,
      "eval_samples_per_second": 27.161,
      "eval_steps_per_second": 0.435,
      "step": 66000
    },
    {
      "epoch": 0.33005,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020199497487437184,
      "loss": 2.094,
      "step": 66010
    },
    {
      "epoch": 0.3301,
      "grad_norm": 1.84375,
      "learning_rate": 0.0002019798994974874,
      "loss": 2.1312,
      "step": 66020
    },
    {
      "epoch": 0.33015,
      "grad_norm": 1.953125,
      "learning_rate": 0.000201964824120603,
      "loss": 2.0853,
      "step": 66030
    },
    {
      "epoch": 0.3302,
      "grad_norm": 1.890625,
      "learning_rate": 0.00020194974874371857,
      "loss": 2.161,
      "step": 66040
    },
    {
      "epoch": 0.33025,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020193467336683416,
      "loss": 2.1571,
      "step": 66050
    },
    {
      "epoch": 0.3303,
      "grad_norm": 1.796875,
      "learning_rate": 0.00020191959798994974,
      "loss": 2.1938,
      "step": 66060
    },
    {
      "epoch": 0.33035,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0002019045226130653,
      "loss": 2.169,
      "step": 66070
    },
    {
      "epoch": 0.3304,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002018894472361809,
      "loss": 2.1427,
      "step": 66080
    },
    {
      "epoch": 0.33045,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020187437185929647,
      "loss": 2.1202,
      "step": 66090
    },
    {
      "epoch": 0.3305,
      "grad_norm": 1.859375,
      "learning_rate": 0.00020185929648241206,
      "loss": 2.1444,
      "step": 66100
    },
    {
      "epoch": 0.33055,
      "grad_norm": 1.921875,
      "learning_rate": 0.00020184422110552762,
      "loss": 2.1914,
      "step": 66110
    },
    {
      "epoch": 0.3306,
      "grad_norm": 1.671875,
      "learning_rate": 0.00020182914572864318,
      "loss": 2.1802,
      "step": 66120
    },
    {
      "epoch": 0.33065,
      "grad_norm": 1.921875,
      "learning_rate": 0.0002018140703517588,
      "loss": 2.1228,
      "step": 66130
    },
    {
      "epoch": 0.3307,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020179899497487435,
      "loss": 2.1655,
      "step": 66140
    },
    {
      "epoch": 0.33075,
      "grad_norm": 1.96875,
      "learning_rate": 0.0002017839195979899,
      "loss": 2.1327,
      "step": 66150
    },
    {
      "epoch": 0.3308,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00020176884422110552,
      "loss": 2.17,
      "step": 66160
    },
    {
      "epoch": 0.33085,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020175376884422108,
      "loss": 2.142,
      "step": 66170
    },
    {
      "epoch": 0.3309,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00020173869346733667,
      "loss": 2.116,
      "step": 66180
    },
    {
      "epoch": 0.33095,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020172361809045225,
      "loss": 2.1526,
      "step": 66190
    },
    {
      "epoch": 0.331,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002017085427135678,
      "loss": 2.1471,
      "step": 66200
    },
    {
      "epoch": 0.33105,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002016934673366834,
      "loss": 2.1167,
      "step": 66210
    },
    {
      "epoch": 0.3311,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020167839195979898,
      "loss": 2.0918,
      "step": 66220
    },
    {
      "epoch": 0.33115,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020166331658291457,
      "loss": 2.115,
      "step": 66230
    },
    {
      "epoch": 0.3312,
      "grad_norm": 1.9375,
      "learning_rate": 0.00020164824120603013,
      "loss": 2.1078,
      "step": 66240
    },
    {
      "epoch": 0.33125,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020163316582914572,
      "loss": 2.117,
      "step": 66250
    },
    {
      "epoch": 0.3313,
      "grad_norm": 1.75,
      "learning_rate": 0.0002016180904522613,
      "loss": 2.0908,
      "step": 66260
    },
    {
      "epoch": 0.33135,
      "grad_norm": 1.65625,
      "learning_rate": 0.00020160301507537686,
      "loss": 2.119,
      "step": 66270
    },
    {
      "epoch": 0.3314,
      "grad_norm": 2.0,
      "learning_rate": 0.00020158793969849242,
      "loss": 2.1879,
      "step": 66280
    },
    {
      "epoch": 0.33145,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020157286432160803,
      "loss": 2.1167,
      "step": 66290
    },
    {
      "epoch": 0.3315,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0002015577889447236,
      "loss": 2.1563,
      "step": 66300
    },
    {
      "epoch": 0.33155,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020154271356783918,
      "loss": 2.1142,
      "step": 66310
    },
    {
      "epoch": 0.3316,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00020152763819095476,
      "loss": 2.1367,
      "step": 66320
    },
    {
      "epoch": 0.33165,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020151256281407032,
      "loss": 2.1333,
      "step": 66330
    },
    {
      "epoch": 0.3317,
      "grad_norm": 1.859375,
      "learning_rate": 0.0002014974874371859,
      "loss": 2.1801,
      "step": 66340
    },
    {
      "epoch": 0.33175,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0002014824120603015,
      "loss": 2.1459,
      "step": 66350
    },
    {
      "epoch": 0.3318,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020146733668341708,
      "loss": 2.1409,
      "step": 66360
    },
    {
      "epoch": 0.33185,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020145226130653264,
      "loss": 2.1361,
      "step": 66370
    },
    {
      "epoch": 0.3319,
      "grad_norm": 1.71875,
      "learning_rate": 0.00020143718592964823,
      "loss": 2.1009,
      "step": 66380
    },
    {
      "epoch": 0.33195,
      "grad_norm": 1.6875,
      "learning_rate": 0.0002014221105527638,
      "loss": 2.1384,
      "step": 66390
    },
    {
      "epoch": 0.332,
      "grad_norm": 1.875,
      "learning_rate": 0.00020140703517587937,
      "loss": 2.1091,
      "step": 66400
    },
    {
      "epoch": 0.33205,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020139195979899498,
      "loss": 2.1519,
      "step": 66410
    },
    {
      "epoch": 0.3321,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020137688442211054,
      "loss": 2.1073,
      "step": 66420
    },
    {
      "epoch": 0.33215,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002013618090452261,
      "loss": 2.2347,
      "step": 66430
    },
    {
      "epoch": 0.3322,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020134673366834166,
      "loss": 2.0867,
      "step": 66440
    },
    {
      "epoch": 0.33225,
      "grad_norm": 2.015625,
      "learning_rate": 0.00020133165829145728,
      "loss": 2.1735,
      "step": 66450
    },
    {
      "epoch": 0.3323,
      "grad_norm": 1.703125,
      "learning_rate": 0.00020131658291457283,
      "loss": 2.0966,
      "step": 66460
    },
    {
      "epoch": 0.33235,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00020130150753768842,
      "loss": 2.1456,
      "step": 66470
    },
    {
      "epoch": 0.3324,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000201286432160804,
      "loss": 2.1121,
      "step": 66480
    },
    {
      "epoch": 0.33245,
      "grad_norm": 1.671875,
      "learning_rate": 0.0002012713567839196,
      "loss": 2.1262,
      "step": 66490
    },
    {
      "epoch": 0.3325,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020125628140703515,
      "loss": 2.0765,
      "step": 66500
    },
    {
      "epoch": 0.33255,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020124120603015074,
      "loss": 2.1592,
      "step": 66510
    },
    {
      "epoch": 0.3326,
      "grad_norm": 1.984375,
      "learning_rate": 0.00020122613065326632,
      "loss": 2.1232,
      "step": 66520
    },
    {
      "epoch": 0.33265,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00020121105527638188,
      "loss": 2.1554,
      "step": 66530
    },
    {
      "epoch": 0.3327,
      "grad_norm": 1.875,
      "learning_rate": 0.0002011959798994975,
      "loss": 2.1598,
      "step": 66540
    },
    {
      "epoch": 0.33275,
      "grad_norm": 2.078125,
      "learning_rate": 0.00020118090452261305,
      "loss": 2.1421,
      "step": 66550
    },
    {
      "epoch": 0.3328,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00020116582914572861,
      "loss": 2.0703,
      "step": 66560
    },
    {
      "epoch": 0.33285,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020115075376884423,
      "loss": 2.1608,
      "step": 66570
    },
    {
      "epoch": 0.3329,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020113567839195979,
      "loss": 2.0749,
      "step": 66580
    },
    {
      "epoch": 0.33295,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020112060301507535,
      "loss": 2.1464,
      "step": 66590
    },
    {
      "epoch": 0.333,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020110552763819093,
      "loss": 2.0862,
      "step": 66600
    },
    {
      "epoch": 0.33305,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00020109045226130652,
      "loss": 2.1557,
      "step": 66610
    },
    {
      "epoch": 0.3331,
      "grad_norm": 2.015625,
      "learning_rate": 0.0002010753768844221,
      "loss": 2.1214,
      "step": 66620
    },
    {
      "epoch": 0.33315,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00020106030150753766,
      "loss": 2.1932,
      "step": 66630
    },
    {
      "epoch": 0.3332,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020104522613065325,
      "loss": 2.191,
      "step": 66640
    },
    {
      "epoch": 0.33325,
      "grad_norm": 1.65625,
      "learning_rate": 0.00020103015075376883,
      "loss": 2.0912,
      "step": 66650
    },
    {
      "epoch": 0.3333,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002010150753768844,
      "loss": 2.114,
      "step": 66660
    },
    {
      "epoch": 0.33335,
      "grad_norm": 1.9140625,
      "learning_rate": 0.000201,
      "loss": 2.181,
      "step": 66670
    },
    {
      "epoch": 0.3334,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020098492462311557,
      "loss": 2.1319,
      "step": 66680
    },
    {
      "epoch": 0.33345,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020096984924623112,
      "loss": 2.1449,
      "step": 66690
    },
    {
      "epoch": 0.3335,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00020095477386934674,
      "loss": 2.1647,
      "step": 66700
    },
    {
      "epoch": 0.33355,
      "grad_norm": 2.015625,
      "learning_rate": 0.0002009396984924623,
      "loss": 2.1233,
      "step": 66710
    },
    {
      "epoch": 0.3336,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020092462311557786,
      "loss": 2.1569,
      "step": 66720
    },
    {
      "epoch": 0.33365,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00020090954773869347,
      "loss": 2.1191,
      "step": 66730
    },
    {
      "epoch": 0.3337,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020089447236180903,
      "loss": 2.1515,
      "step": 66740
    },
    {
      "epoch": 0.33375,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00020087939698492461,
      "loss": 2.0733,
      "step": 66750
    },
    {
      "epoch": 0.3338,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020086432160804017,
      "loss": 2.1582,
      "step": 66760
    },
    {
      "epoch": 0.33385,
      "grad_norm": 1.921875,
      "learning_rate": 0.00020084924623115576,
      "loss": 2.0989,
      "step": 66770
    },
    {
      "epoch": 0.3339,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00020083417085427135,
      "loss": 2.1455,
      "step": 66780
    },
    {
      "epoch": 0.33395,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0002008190954773869,
      "loss": 2.0823,
      "step": 66790
    },
    {
      "epoch": 0.334,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020080402010050252,
      "loss": 2.1918,
      "step": 66800
    },
    {
      "epoch": 0.33405,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020078894472361808,
      "loss": 2.1359,
      "step": 66810
    },
    {
      "epoch": 0.3341,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00020077386934673364,
      "loss": 2.1712,
      "step": 66820
    },
    {
      "epoch": 0.33415,
      "grad_norm": 2.09375,
      "learning_rate": 0.00020075879396984925,
      "loss": 2.1497,
      "step": 66830
    },
    {
      "epoch": 0.3342,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0002007437185929648,
      "loss": 2.1497,
      "step": 66840
    },
    {
      "epoch": 0.33425,
      "grad_norm": 1.875,
      "learning_rate": 0.00020072864321608037,
      "loss": 2.1183,
      "step": 66850
    },
    {
      "epoch": 0.3343,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020071356783919598,
      "loss": 2.1987,
      "step": 66860
    },
    {
      "epoch": 0.33435,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020069849246231154,
      "loss": 2.1252,
      "step": 66870
    },
    {
      "epoch": 0.3344,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00020068341708542713,
      "loss": 2.1274,
      "step": 66880
    },
    {
      "epoch": 0.33445,
      "grad_norm": 2.03125,
      "learning_rate": 0.0002006683417085427,
      "loss": 2.1193,
      "step": 66890
    },
    {
      "epoch": 0.3345,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020065326633165827,
      "loss": 2.065,
      "step": 66900
    },
    {
      "epoch": 0.33455,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00020063819095477386,
      "loss": 2.1482,
      "step": 66910
    },
    {
      "epoch": 0.3346,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00020062311557788942,
      "loss": 2.1551,
      "step": 66920
    },
    {
      "epoch": 0.33465,
      "grad_norm": 1.90625,
      "learning_rate": 0.00020060804020100503,
      "loss": 2.1597,
      "step": 66930
    },
    {
      "epoch": 0.3347,
      "grad_norm": 2.09375,
      "learning_rate": 0.0002005929648241206,
      "loss": 2.172,
      "step": 66940
    },
    {
      "epoch": 0.33475,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00020057788944723615,
      "loss": 2.1476,
      "step": 66950
    },
    {
      "epoch": 0.3348,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020056281407035176,
      "loss": 2.1414,
      "step": 66960
    },
    {
      "epoch": 0.33485,
      "grad_norm": 1.6875,
      "learning_rate": 0.00020054773869346732,
      "loss": 2.168,
      "step": 66970
    },
    {
      "epoch": 0.3349,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020053266331658288,
      "loss": 2.1184,
      "step": 66980
    },
    {
      "epoch": 0.33495,
      "grad_norm": 1.8125,
      "learning_rate": 0.0002005175879396985,
      "loss": 2.177,
      "step": 66990
    },
    {
      "epoch": 0.335,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020050251256281405,
      "loss": 2.1057,
      "step": 67000
    },
    {
      "epoch": 0.33505,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0002004874371859296,
      "loss": 2.1453,
      "step": 67010
    },
    {
      "epoch": 0.3351,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020047236180904522,
      "loss": 2.087,
      "step": 67020
    },
    {
      "epoch": 0.33515,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020045728643216078,
      "loss": 2.1121,
      "step": 67030
    },
    {
      "epoch": 0.3352,
      "grad_norm": 1.8125,
      "learning_rate": 0.00020044221105527637,
      "loss": 2.1354,
      "step": 67040
    },
    {
      "epoch": 0.33525,
      "grad_norm": 1.75,
      "learning_rate": 0.00020042713567839193,
      "loss": 2.202,
      "step": 67050
    },
    {
      "epoch": 0.3353,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020041206030150754,
      "loss": 2.166,
      "step": 67060
    },
    {
      "epoch": 0.33535,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0002003969849246231,
      "loss": 2.1415,
      "step": 67070
    },
    {
      "epoch": 0.3354,
      "grad_norm": 2.0625,
      "learning_rate": 0.00020038190954773866,
      "loss": 2.1399,
      "step": 67080
    },
    {
      "epoch": 0.33545,
      "grad_norm": 1.84375,
      "learning_rate": 0.00020036683417085427,
      "loss": 2.1613,
      "step": 67090
    },
    {
      "epoch": 0.3355,
      "grad_norm": 2.171875,
      "learning_rate": 0.00020035175879396983,
      "loss": 2.0958,
      "step": 67100
    },
    {
      "epoch": 0.33555,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0002003366834170854,
      "loss": 2.1584,
      "step": 67110
    },
    {
      "epoch": 0.3356,
      "grad_norm": 2.0625,
      "learning_rate": 0.000200321608040201,
      "loss": 2.1462,
      "step": 67120
    },
    {
      "epoch": 0.33565,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020030653266331656,
      "loss": 2.184,
      "step": 67130
    },
    {
      "epoch": 0.3357,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020029145728643212,
      "loss": 2.1487,
      "step": 67140
    },
    {
      "epoch": 0.33575,
      "grad_norm": 1.96875,
      "learning_rate": 0.00020027638190954773,
      "loss": 2.1793,
      "step": 67150
    },
    {
      "epoch": 0.3358,
      "grad_norm": 1.984375,
      "learning_rate": 0.0002002613065326633,
      "loss": 2.1709,
      "step": 67160
    },
    {
      "epoch": 0.33585,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00020024623115577888,
      "loss": 2.1611,
      "step": 67170
    },
    {
      "epoch": 0.3359,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00020023115577889446,
      "loss": 2.1675,
      "step": 67180
    },
    {
      "epoch": 0.33595,
      "grad_norm": 1.9375,
      "learning_rate": 0.00020021608040201005,
      "loss": 2.1695,
      "step": 67190
    },
    {
      "epoch": 0.336,
      "grad_norm": 1.796875,
      "learning_rate": 0.0002002010050251256,
      "loss": 2.1131,
      "step": 67200
    },
    {
      "epoch": 0.33605,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00020018592964824117,
      "loss": 2.141,
      "step": 67210
    },
    {
      "epoch": 0.3361,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00020017085427135678,
      "loss": 2.157,
      "step": 67220
    },
    {
      "epoch": 0.33615,
      "grad_norm": 1.828125,
      "learning_rate": 0.00020015577889447234,
      "loss": 2.1885,
      "step": 67230
    },
    {
      "epoch": 0.3362,
      "grad_norm": 1.953125,
      "learning_rate": 0.0002001407035175879,
      "loss": 2.2,
      "step": 67240
    },
    {
      "epoch": 0.33625,
      "grad_norm": 1.71875,
      "learning_rate": 0.0002001256281407035,
      "loss": 2.1278,
      "step": 67250
    },
    {
      "epoch": 0.3363,
      "grad_norm": 1.953125,
      "learning_rate": 0.00020011055276381907,
      "loss": 2.1862,
      "step": 67260
    },
    {
      "epoch": 0.33635,
      "grad_norm": 1.765625,
      "learning_rate": 0.00020009547738693463,
      "loss": 2.1091,
      "step": 67270
    },
    {
      "epoch": 0.3364,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00020008040201005024,
      "loss": 2.1622,
      "step": 67280
    },
    {
      "epoch": 0.33645,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0002000653266331658,
      "loss": 2.1182,
      "step": 67290
    },
    {
      "epoch": 0.3365,
      "grad_norm": 1.703125,
      "learning_rate": 0.0002000502512562814,
      "loss": 2.1263,
      "step": 67300
    },
    {
      "epoch": 0.33655,
      "grad_norm": 2.140625,
      "learning_rate": 0.00020003517587939698,
      "loss": 2.1087,
      "step": 67310
    },
    {
      "epoch": 0.3366,
      "grad_norm": 1.734375,
      "learning_rate": 0.00020002010050251256,
      "loss": 2.2008,
      "step": 67320
    },
    {
      "epoch": 0.33665,
      "grad_norm": 1.78125,
      "learning_rate": 0.00020000502512562812,
      "loss": 2.1321,
      "step": 67330
    },
    {
      "epoch": 0.3367,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0001999899497487437,
      "loss": 2.1426,
      "step": 67340
    },
    {
      "epoch": 0.33675,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001999748743718593,
      "loss": 2.1463,
      "step": 67350
    },
    {
      "epoch": 0.3368,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019995979899497485,
      "loss": 2.1201,
      "step": 67360
    },
    {
      "epoch": 0.33685,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001999447236180904,
      "loss": 2.1546,
      "step": 67370
    },
    {
      "epoch": 0.3369,
      "grad_norm": 1.75,
      "learning_rate": 0.00019992964824120602,
      "loss": 2.1631,
      "step": 67380
    },
    {
      "epoch": 0.33695,
      "grad_norm": 1.71875,
      "learning_rate": 0.00019991457286432158,
      "loss": 2.1428,
      "step": 67390
    },
    {
      "epoch": 0.337,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019989949748743714,
      "loss": 2.1099,
      "step": 67400
    },
    {
      "epoch": 0.33705,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00019988442211055276,
      "loss": 2.0865,
      "step": 67410
    },
    {
      "epoch": 0.3371,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019986934673366831,
      "loss": 2.1362,
      "step": 67420
    },
    {
      "epoch": 0.33715,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001998542713567839,
      "loss": 2.1596,
      "step": 67430
    },
    {
      "epoch": 0.3372,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019983919597989949,
      "loss": 2.1339,
      "step": 67440
    },
    {
      "epoch": 0.33725,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00019982412060301505,
      "loss": 2.1215,
      "step": 67450
    },
    {
      "epoch": 0.3373,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019980904522613063,
      "loss": 2.0818,
      "step": 67460
    },
    {
      "epoch": 0.33735,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019979396984924622,
      "loss": 2.1959,
      "step": 67470
    },
    {
      "epoch": 0.3374,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001997788944723618,
      "loss": 2.0978,
      "step": 67480
    },
    {
      "epoch": 0.33745,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019976381909547736,
      "loss": 2.1182,
      "step": 67490
    },
    {
      "epoch": 0.3375,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019974874371859298,
      "loss": 2.0811,
      "step": 67500
    },
    {
      "epoch": 0.33755,
      "grad_norm": 1.984375,
      "learning_rate": 0.00019973366834170853,
      "loss": 2.1419,
      "step": 67510
    },
    {
      "epoch": 0.3376,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001997185929648241,
      "loss": 2.0668,
      "step": 67520
    },
    {
      "epoch": 0.33765,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00019970351758793965,
      "loss": 2.176,
      "step": 67530
    },
    {
      "epoch": 0.3377,
      "grad_norm": 1.6875,
      "learning_rate": 0.00019968844221105527,
      "loss": 2.1346,
      "step": 67540
    },
    {
      "epoch": 0.33775,
      "grad_norm": 1.890625,
      "learning_rate": 0.00019967336683417082,
      "loss": 2.1111,
      "step": 67550
    },
    {
      "epoch": 0.3378,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001996582914572864,
      "loss": 2.1349,
      "step": 67560
    },
    {
      "epoch": 0.33785,
      "grad_norm": 1.9140625,
      "learning_rate": 0.000199643216080402,
      "loss": 2.0764,
      "step": 67570
    },
    {
      "epoch": 0.3379,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019962814070351756,
      "loss": 2.1647,
      "step": 67580
    },
    {
      "epoch": 0.33795,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019961306532663314,
      "loss": 2.0981,
      "step": 67590
    },
    {
      "epoch": 0.338,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00019959798994974873,
      "loss": 2.154,
      "step": 67600
    },
    {
      "epoch": 0.33805,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019958291457286431,
      "loss": 2.0667,
      "step": 67610
    },
    {
      "epoch": 0.3381,
      "grad_norm": 1.875,
      "learning_rate": 0.00019956783919597987,
      "loss": 2.1621,
      "step": 67620
    },
    {
      "epoch": 0.33815,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001995527638190955,
      "loss": 2.1481,
      "step": 67630
    },
    {
      "epoch": 0.3382,
      "grad_norm": 1.984375,
      "learning_rate": 0.00019953768844221105,
      "loss": 2.2048,
      "step": 67640
    },
    {
      "epoch": 0.33825,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001995226130653266,
      "loss": 2.1063,
      "step": 67650
    },
    {
      "epoch": 0.3383,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019950753768844222,
      "loss": 2.1169,
      "step": 67660
    },
    {
      "epoch": 0.33835,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019949246231155778,
      "loss": 2.0539,
      "step": 67670
    },
    {
      "epoch": 0.3384,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019947738693467334,
      "loss": 2.149,
      "step": 67680
    },
    {
      "epoch": 0.33845,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019946231155778892,
      "loss": 2.1513,
      "step": 67690
    },
    {
      "epoch": 0.3385,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001994472361809045,
      "loss": 2.165,
      "step": 67700
    },
    {
      "epoch": 0.33855,
      "grad_norm": 2.0,
      "learning_rate": 0.00019943216080402007,
      "loss": 2.1132,
      "step": 67710
    },
    {
      "epoch": 0.3386,
      "grad_norm": 1.671875,
      "learning_rate": 0.00019941708542713565,
      "loss": 2.1461,
      "step": 67720
    },
    {
      "epoch": 0.33865,
      "grad_norm": 2.046875,
      "learning_rate": 0.00019940201005025124,
      "loss": 2.1495,
      "step": 67730
    },
    {
      "epoch": 0.3387,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019938693467336683,
      "loss": 2.1227,
      "step": 67740
    },
    {
      "epoch": 0.33875,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019937185929648238,
      "loss": 2.2037,
      "step": 67750
    },
    {
      "epoch": 0.3388,
      "grad_norm": 1.703125,
      "learning_rate": 0.000199356783919598,
      "loss": 2.1062,
      "step": 67760
    },
    {
      "epoch": 0.33885,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019934170854271356,
      "loss": 2.1594,
      "step": 67770
    },
    {
      "epoch": 0.3389,
      "grad_norm": 2.296875,
      "learning_rate": 0.00019932663316582912,
      "loss": 2.1187,
      "step": 67780
    },
    {
      "epoch": 0.33895,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00019931155778894473,
      "loss": 2.0697,
      "step": 67790
    },
    {
      "epoch": 0.339,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001992964824120603,
      "loss": 2.1509,
      "step": 67800
    },
    {
      "epoch": 0.33905,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019928140703517585,
      "loss": 2.1341,
      "step": 67810
    },
    {
      "epoch": 0.3391,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019926633165829146,
      "loss": 2.1209,
      "step": 67820
    },
    {
      "epoch": 0.33915,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00019925125628140702,
      "loss": 2.1237,
      "step": 67830
    },
    {
      "epoch": 0.3392,
      "grad_norm": 2.046875,
      "learning_rate": 0.00019923618090452258,
      "loss": 2.1554,
      "step": 67840
    },
    {
      "epoch": 0.33925,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00019922110552763816,
      "loss": 2.1538,
      "step": 67850
    },
    {
      "epoch": 0.3393,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019920603015075375,
      "loss": 2.1503,
      "step": 67860
    },
    {
      "epoch": 0.33935,
      "grad_norm": 1.625,
      "learning_rate": 0.00019919095477386934,
      "loss": 2.1053,
      "step": 67870
    },
    {
      "epoch": 0.3394,
      "grad_norm": 1.875,
      "learning_rate": 0.0001991758793969849,
      "loss": 2.138,
      "step": 67880
    },
    {
      "epoch": 0.33945,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001991608040201005,
      "loss": 2.1035,
      "step": 67890
    },
    {
      "epoch": 0.3395,
      "grad_norm": 1.71875,
      "learning_rate": 0.00019914572864321607,
      "loss": 2.1132,
      "step": 67900
    },
    {
      "epoch": 0.33955,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019913065326633163,
      "loss": 2.078,
      "step": 67910
    },
    {
      "epoch": 0.3396,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019911557788944724,
      "loss": 2.1004,
      "step": 67920
    },
    {
      "epoch": 0.33965,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001991005025125628,
      "loss": 2.1179,
      "step": 67930
    },
    {
      "epoch": 0.3397,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00019908542713567836,
      "loss": 2.1444,
      "step": 67940
    },
    {
      "epoch": 0.33975,
      "grad_norm": 1.75,
      "learning_rate": 0.00019907035175879397,
      "loss": 2.1128,
      "step": 67950
    },
    {
      "epoch": 0.3398,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019905527638190953,
      "loss": 2.1824,
      "step": 67960
    },
    {
      "epoch": 0.33985,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001990402010050251,
      "loss": 2.1714,
      "step": 67970
    },
    {
      "epoch": 0.3399,
      "grad_norm": 1.875,
      "learning_rate": 0.0001990251256281407,
      "loss": 2.1371,
      "step": 67980
    },
    {
      "epoch": 0.33995,
      "grad_norm": 2.1875,
      "learning_rate": 0.00019901005025125626,
      "loss": 2.1436,
      "step": 67990
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019899497487437185,
      "loss": 2.1422,
      "step": 68000
    },
    {
      "epoch": 0.34,
      "eval_loss": 2.11164927482605,
      "eval_runtime": 89.7369,
      "eval_samples_per_second": 27.859,
      "eval_steps_per_second": 0.446,
      "step": 68000
    },
    {
      "epoch": 0.34005,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001989798994974874,
      "loss": 2.1283,
      "step": 68010
    },
    {
      "epoch": 0.3401,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000198964824120603,
      "loss": 2.0987,
      "step": 68020
    },
    {
      "epoch": 0.34015,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019894974874371858,
      "loss": 2.1641,
      "step": 68030
    },
    {
      "epoch": 0.3402,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019893467336683414,
      "loss": 2.165,
      "step": 68040
    },
    {
      "epoch": 0.34025,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019891959798994975,
      "loss": 2.1499,
      "step": 68050
    },
    {
      "epoch": 0.3403,
      "grad_norm": 1.640625,
      "learning_rate": 0.0001989045226130653,
      "loss": 2.1528,
      "step": 68060
    },
    {
      "epoch": 0.34035,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019888944723618087,
      "loss": 2.1592,
      "step": 68070
    },
    {
      "epoch": 0.3404,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019887437185929648,
      "loss": 2.1725,
      "step": 68080
    },
    {
      "epoch": 0.34045,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019885929648241204,
      "loss": 2.1501,
      "step": 68090
    },
    {
      "epoch": 0.3405,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001988442211055276,
      "loss": 2.0964,
      "step": 68100
    },
    {
      "epoch": 0.34055,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001988291457286432,
      "loss": 2.1708,
      "step": 68110
    },
    {
      "epoch": 0.3406,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019881407035175877,
      "loss": 2.0876,
      "step": 68120
    },
    {
      "epoch": 0.34065,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019879899497487436,
      "loss": 2.137,
      "step": 68130
    },
    {
      "epoch": 0.3407,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019878391959798992,
      "loss": 2.1676,
      "step": 68140
    },
    {
      "epoch": 0.34075,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001987688442211055,
      "loss": 2.1266,
      "step": 68150
    },
    {
      "epoch": 0.3408,
      "grad_norm": 1.6875,
      "learning_rate": 0.0001987537688442211,
      "loss": 2.1165,
      "step": 68160
    },
    {
      "epoch": 0.34085,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019873869346733665,
      "loss": 2.1011,
      "step": 68170
    },
    {
      "epoch": 0.3409,
      "grad_norm": 2.015625,
      "learning_rate": 0.00019872361809045226,
      "loss": 2.1622,
      "step": 68180
    },
    {
      "epoch": 0.34095,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019870854271356782,
      "loss": 2.1143,
      "step": 68190
    },
    {
      "epoch": 0.341,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019869346733668338,
      "loss": 2.1119,
      "step": 68200
    },
    {
      "epoch": 0.34105,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000198678391959799,
      "loss": 2.1885,
      "step": 68210
    },
    {
      "epoch": 0.3411,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019866331658291455,
      "loss": 2.1378,
      "step": 68220
    },
    {
      "epoch": 0.34115,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001986482412060301,
      "loss": 2.104,
      "step": 68230
    },
    {
      "epoch": 0.3412,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019863316582914572,
      "loss": 2.1411,
      "step": 68240
    },
    {
      "epoch": 0.34125,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019861809045226128,
      "loss": 2.152,
      "step": 68250
    },
    {
      "epoch": 0.3413,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019860301507537687,
      "loss": 2.1015,
      "step": 68260
    },
    {
      "epoch": 0.34135,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019858793969849246,
      "loss": 2.1023,
      "step": 68270
    },
    {
      "epoch": 0.3414,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019857286432160801,
      "loss": 2.1408,
      "step": 68280
    },
    {
      "epoch": 0.34145,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001985577889447236,
      "loss": 2.1633,
      "step": 68290
    },
    {
      "epoch": 0.3415,
      "grad_norm": 1.859375,
      "learning_rate": 0.00019854271356783916,
      "loss": 2.1252,
      "step": 68300
    },
    {
      "epoch": 0.34155,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019852763819095477,
      "loss": 2.1722,
      "step": 68310
    },
    {
      "epoch": 0.3416,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019851256281407033,
      "loss": 2.0932,
      "step": 68320
    },
    {
      "epoch": 0.34165,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0001984974874371859,
      "loss": 2.1737,
      "step": 68330
    },
    {
      "epoch": 0.3417,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001984824120603015,
      "loss": 2.1372,
      "step": 68340
    },
    {
      "epoch": 0.34175,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019846733668341706,
      "loss": 2.1463,
      "step": 68350
    },
    {
      "epoch": 0.3418,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019845226130653262,
      "loss": 2.1481,
      "step": 68360
    },
    {
      "epoch": 0.34185,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019843718592964824,
      "loss": 2.1171,
      "step": 68370
    },
    {
      "epoch": 0.3419,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001984221105527638,
      "loss": 2.1542,
      "step": 68380
    },
    {
      "epoch": 0.34195,
      "grad_norm": 2.140625,
      "learning_rate": 0.00019840703517587938,
      "loss": 2.1309,
      "step": 68390
    },
    {
      "epoch": 0.342,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019839195979899497,
      "loss": 2.1615,
      "step": 68400
    },
    {
      "epoch": 0.34205,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019837688442211053,
      "loss": 2.1353,
      "step": 68410
    },
    {
      "epoch": 0.3421,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001983618090452261,
      "loss": 2.1365,
      "step": 68420
    },
    {
      "epoch": 0.34215,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001983467336683417,
      "loss": 2.0955,
      "step": 68430
    },
    {
      "epoch": 0.3422,
      "grad_norm": 2.0625,
      "learning_rate": 0.00019833165829145728,
      "loss": 2.1456,
      "step": 68440
    },
    {
      "epoch": 0.34225,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00019831658291457284,
      "loss": 2.1661,
      "step": 68450
    },
    {
      "epoch": 0.3423,
      "grad_norm": 1.671875,
      "learning_rate": 0.0001983015075376884,
      "loss": 2.1193,
      "step": 68460
    },
    {
      "epoch": 0.34235,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019828643216080401,
      "loss": 2.1569,
      "step": 68470
    },
    {
      "epoch": 0.3424,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00019827135678391957,
      "loss": 2.1454,
      "step": 68480
    },
    {
      "epoch": 0.34245,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019825628140703513,
      "loss": 2.1063,
      "step": 68490
    },
    {
      "epoch": 0.3425,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019824120603015075,
      "loss": 2.1461,
      "step": 68500
    },
    {
      "epoch": 0.34255,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001982261306532663,
      "loss": 2.1587,
      "step": 68510
    },
    {
      "epoch": 0.3426,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001982110552763819,
      "loss": 2.0693,
      "step": 68520
    },
    {
      "epoch": 0.34265,
      "grad_norm": 1.984375,
      "learning_rate": 0.00019819597989949748,
      "loss": 2.1869,
      "step": 68530
    },
    {
      "epoch": 0.3427,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019818090452261304,
      "loss": 2.0608,
      "step": 68540
    },
    {
      "epoch": 0.34275,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019816582914572862,
      "loss": 2.135,
      "step": 68550
    },
    {
      "epoch": 0.3428,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001981507537688442,
      "loss": 2.1227,
      "step": 68560
    },
    {
      "epoch": 0.34285,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001981356783919598,
      "loss": 2.1436,
      "step": 68570
    },
    {
      "epoch": 0.3429,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019812060301507535,
      "loss": 2.0994,
      "step": 68580
    },
    {
      "epoch": 0.34295,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019810552763819094,
      "loss": 2.1064,
      "step": 68590
    },
    {
      "epoch": 0.343,
      "grad_norm": 1.875,
      "learning_rate": 0.00019809045226130653,
      "loss": 2.1269,
      "step": 68600
    },
    {
      "epoch": 0.34305,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019807537688442208,
      "loss": 2.1594,
      "step": 68610
    },
    {
      "epoch": 0.3431,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019806030150753764,
      "loss": 2.1482,
      "step": 68620
    },
    {
      "epoch": 0.34315,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019804522613065326,
      "loss": 2.1155,
      "step": 68630
    },
    {
      "epoch": 0.3432,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019803015075376882,
      "loss": 2.1037,
      "step": 68640
    },
    {
      "epoch": 0.34325,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001980150753768844,
      "loss": 2.0891,
      "step": 68650
    },
    {
      "epoch": 0.3433,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000198,
      "loss": 2.1622,
      "step": 68660
    },
    {
      "epoch": 0.34335,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019798492462311555,
      "loss": 2.1801,
      "step": 68670
    },
    {
      "epoch": 0.3434,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019796984924623113,
      "loss": 2.1056,
      "step": 68680
    },
    {
      "epoch": 0.34345,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00019795477386934672,
      "loss": 2.1264,
      "step": 68690
    },
    {
      "epoch": 0.3435,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001979396984924623,
      "loss": 2.0995,
      "step": 68700
    },
    {
      "epoch": 0.34355,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00019792462311557786,
      "loss": 2.0823,
      "step": 68710
    },
    {
      "epoch": 0.3436,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019790954773869345,
      "loss": 2.1143,
      "step": 68720
    },
    {
      "epoch": 0.34365,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019789447236180904,
      "loss": 2.156,
      "step": 68730
    },
    {
      "epoch": 0.3437,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001978793969849246,
      "loss": 2.0987,
      "step": 68740
    },
    {
      "epoch": 0.34375,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001978643216080402,
      "loss": 2.2155,
      "step": 68750
    },
    {
      "epoch": 0.3438,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019784924623115577,
      "loss": 2.1414,
      "step": 68760
    },
    {
      "epoch": 0.34385,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019783417085427133,
      "loss": 2.1404,
      "step": 68770
    },
    {
      "epoch": 0.3439,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001978190954773869,
      "loss": 2.0783,
      "step": 68780
    },
    {
      "epoch": 0.34395,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001978040201005025,
      "loss": 2.1078,
      "step": 68790
    },
    {
      "epoch": 0.344,
      "grad_norm": 1.71875,
      "learning_rate": 0.00019778894472361806,
      "loss": 2.1036,
      "step": 68800
    },
    {
      "epoch": 0.34405,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019777386934673364,
      "loss": 2.0917,
      "step": 68810
    },
    {
      "epoch": 0.3441,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019775879396984923,
      "loss": 2.1278,
      "step": 68820
    },
    {
      "epoch": 0.34415,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019774371859296482,
      "loss": 2.0964,
      "step": 68830
    },
    {
      "epoch": 0.3442,
      "grad_norm": 2.15625,
      "learning_rate": 0.00019772864321608038,
      "loss": 2.1539,
      "step": 68840
    },
    {
      "epoch": 0.34425,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019771356783919596,
      "loss": 2.1537,
      "step": 68850
    },
    {
      "epoch": 0.3443,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019769849246231155,
      "loss": 2.1415,
      "step": 68860
    },
    {
      "epoch": 0.34435,
      "grad_norm": 1.734375,
      "learning_rate": 0.0001976834170854271,
      "loss": 2.082,
      "step": 68870
    },
    {
      "epoch": 0.3444,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00019766834170854272,
      "loss": 2.1327,
      "step": 68880
    },
    {
      "epoch": 0.34445,
      "grad_norm": 2.046875,
      "learning_rate": 0.00019765326633165828,
      "loss": 2.1841,
      "step": 68890
    },
    {
      "epoch": 0.3445,
      "grad_norm": 2.171875,
      "learning_rate": 0.00019763819095477384,
      "loss": 2.1114,
      "step": 68900
    },
    {
      "epoch": 0.34455,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019762311557788945,
      "loss": 2.1414,
      "step": 68910
    },
    {
      "epoch": 0.3446,
      "grad_norm": 1.984375,
      "learning_rate": 0.000197608040201005,
      "loss": 2.1344,
      "step": 68920
    },
    {
      "epoch": 0.34465,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019759296482412057,
      "loss": 2.0853,
      "step": 68930
    },
    {
      "epoch": 0.3447,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019757788944723616,
      "loss": 2.1632,
      "step": 68940
    },
    {
      "epoch": 0.34475,
      "grad_norm": 1.671875,
      "learning_rate": 0.00019756281407035174,
      "loss": 2.1221,
      "step": 68950
    },
    {
      "epoch": 0.3448,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019754773869346733,
      "loss": 2.115,
      "step": 68960
    },
    {
      "epoch": 0.34485,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019753266331658289,
      "loss": 2.0717,
      "step": 68970
    },
    {
      "epoch": 0.3449,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019751758793969847,
      "loss": 2.1191,
      "step": 68980
    },
    {
      "epoch": 0.34495,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019750251256281406,
      "loss": 2.0784,
      "step": 68990
    },
    {
      "epoch": 0.345,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019748743718592962,
      "loss": 2.2162,
      "step": 69000
    },
    {
      "epoch": 0.34505,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019747236180904523,
      "loss": 2.1643,
      "step": 69010
    },
    {
      "epoch": 0.3451,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001974572864321608,
      "loss": 2.0992,
      "step": 69020
    },
    {
      "epoch": 0.34515,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019744221105527635,
      "loss": 2.1022,
      "step": 69030
    },
    {
      "epoch": 0.3452,
      "grad_norm": 1.671875,
      "learning_rate": 0.00019742713567839196,
      "loss": 2.1368,
      "step": 69040
    },
    {
      "epoch": 0.34525,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019741206030150752,
      "loss": 2.1216,
      "step": 69050
    },
    {
      "epoch": 0.3453,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019739698492462308,
      "loss": 2.1364,
      "step": 69060
    },
    {
      "epoch": 0.34535,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001973819095477387,
      "loss": 2.1594,
      "step": 69070
    },
    {
      "epoch": 0.3454,
      "grad_norm": 2.265625,
      "learning_rate": 0.00019736683417085425,
      "loss": 2.1757,
      "step": 69080
    },
    {
      "epoch": 0.34545,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019735175879396984,
      "loss": 2.1607,
      "step": 69090
    },
    {
      "epoch": 0.3455,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001973366834170854,
      "loss": 2.0681,
      "step": 69100
    },
    {
      "epoch": 0.34555,
      "grad_norm": 2.015625,
      "learning_rate": 0.00019732160804020098,
      "loss": 2.1882,
      "step": 69110
    },
    {
      "epoch": 0.3456,
      "grad_norm": 2.078125,
      "learning_rate": 0.00019730653266331657,
      "loss": 2.1162,
      "step": 69120
    },
    {
      "epoch": 0.34565,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00019729145728643213,
      "loss": 2.1686,
      "step": 69130
    },
    {
      "epoch": 0.3457,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019727638190954774,
      "loss": 2.1371,
      "step": 69140
    },
    {
      "epoch": 0.34575,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001972613065326633,
      "loss": 2.1536,
      "step": 69150
    },
    {
      "epoch": 0.3458,
      "grad_norm": 1.75,
      "learning_rate": 0.00019724623115577886,
      "loss": 2.119,
      "step": 69160
    },
    {
      "epoch": 0.34585,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019723115577889447,
      "loss": 2.1324,
      "step": 69170
    },
    {
      "epoch": 0.3459,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019721608040201003,
      "loss": 2.0997,
      "step": 69180
    },
    {
      "epoch": 0.34595,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001972010050251256,
      "loss": 2.0756,
      "step": 69190
    },
    {
      "epoch": 0.346,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001971859296482412,
      "loss": 2.1173,
      "step": 69200
    },
    {
      "epoch": 0.34605,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019717085427135676,
      "loss": 2.1265,
      "step": 69210
    },
    {
      "epoch": 0.3461,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019715577889447235,
      "loss": 2.1697,
      "step": 69220
    },
    {
      "epoch": 0.34615,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019714070351758794,
      "loss": 2.1105,
      "step": 69230
    },
    {
      "epoch": 0.3462,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001971256281407035,
      "loss": 2.0847,
      "step": 69240
    },
    {
      "epoch": 0.34625,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019711055276381908,
      "loss": 2.1327,
      "step": 69250
    },
    {
      "epoch": 0.3463,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019709547738693464,
      "loss": 2.0916,
      "step": 69260
    },
    {
      "epoch": 0.34635,
      "grad_norm": 1.984375,
      "learning_rate": 0.00019708040201005025,
      "loss": 2.1771,
      "step": 69270
    },
    {
      "epoch": 0.3464,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001970653266331658,
      "loss": 2.0938,
      "step": 69280
    },
    {
      "epoch": 0.34645,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019705025125628137,
      "loss": 2.1188,
      "step": 69290
    },
    {
      "epoch": 0.3465,
      "grad_norm": 2.0625,
      "learning_rate": 0.00019703517587939698,
      "loss": 2.0877,
      "step": 69300
    },
    {
      "epoch": 0.34655,
      "grad_norm": 2.046875,
      "learning_rate": 0.00019702010050251254,
      "loss": 2.1195,
      "step": 69310
    },
    {
      "epoch": 0.3466,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001970050251256281,
      "loss": 2.07,
      "step": 69320
    },
    {
      "epoch": 0.34665,
      "grad_norm": 1.640625,
      "learning_rate": 0.00019698994974874371,
      "loss": 2.0891,
      "step": 69330
    },
    {
      "epoch": 0.3467,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019697487437185927,
      "loss": 2.1623,
      "step": 69340
    },
    {
      "epoch": 0.34675,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019695979899497486,
      "loss": 2.1208,
      "step": 69350
    },
    {
      "epoch": 0.3468,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019694472361809045,
      "loss": 2.1045,
      "step": 69360
    },
    {
      "epoch": 0.34685,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000196929648241206,
      "loss": 2.082,
      "step": 69370
    },
    {
      "epoch": 0.3469,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001969145728643216,
      "loss": 2.1042,
      "step": 69380
    },
    {
      "epoch": 0.34695,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00019689949748743715,
      "loss": 2.0997,
      "step": 69390
    },
    {
      "epoch": 0.347,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019688442211055276,
      "loss": 2.1033,
      "step": 69400
    },
    {
      "epoch": 0.34705,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019686934673366832,
      "loss": 2.1044,
      "step": 69410
    },
    {
      "epoch": 0.3471,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019685427135678388,
      "loss": 2.1472,
      "step": 69420
    },
    {
      "epoch": 0.34715,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001968391959798995,
      "loss": 2.1362,
      "step": 69430
    },
    {
      "epoch": 0.3472,
      "grad_norm": 1.875,
      "learning_rate": 0.00019682412060301505,
      "loss": 2.1705,
      "step": 69440
    },
    {
      "epoch": 0.34725,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001968090452261306,
      "loss": 2.1435,
      "step": 69450
    },
    {
      "epoch": 0.3473,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019679396984924623,
      "loss": 2.1067,
      "step": 69460
    },
    {
      "epoch": 0.34735,
      "grad_norm": 2.0625,
      "learning_rate": 0.00019677889447236178,
      "loss": 2.1185,
      "step": 69470
    },
    {
      "epoch": 0.3474,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019676381909547737,
      "loss": 2.1261,
      "step": 69480
    },
    {
      "epoch": 0.34745,
      "grad_norm": 1.6875,
      "learning_rate": 0.00019674874371859296,
      "loss": 2.1595,
      "step": 69490
    },
    {
      "epoch": 0.3475,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019673366834170852,
      "loss": 2.0744,
      "step": 69500
    },
    {
      "epoch": 0.34755,
      "grad_norm": 1.875,
      "learning_rate": 0.0001967185929648241,
      "loss": 2.1563,
      "step": 69510
    },
    {
      "epoch": 0.3476,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001967035175879397,
      "loss": 2.1807,
      "step": 69520
    },
    {
      "epoch": 0.34765,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019668844221105527,
      "loss": 2.1528,
      "step": 69530
    },
    {
      "epoch": 0.3477,
      "grad_norm": 2.046875,
      "learning_rate": 0.00019667336683417083,
      "loss": 2.132,
      "step": 69540
    },
    {
      "epoch": 0.34775,
      "grad_norm": 1.6875,
      "learning_rate": 0.0001966582914572864,
      "loss": 2.097,
      "step": 69550
    },
    {
      "epoch": 0.3478,
      "grad_norm": 1.9921875,
      "learning_rate": 0.000196643216080402,
      "loss": 2.1559,
      "step": 69560
    },
    {
      "epoch": 0.34785,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019662814070351756,
      "loss": 2.1155,
      "step": 69570
    },
    {
      "epoch": 0.3479,
      "grad_norm": 1.890625,
      "learning_rate": 0.00019661306532663312,
      "loss": 2.1367,
      "step": 69580
    },
    {
      "epoch": 0.34795,
      "grad_norm": 2.0,
      "learning_rate": 0.00019659798994974874,
      "loss": 2.143,
      "step": 69590
    },
    {
      "epoch": 0.348,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001965829145728643,
      "loss": 2.1091,
      "step": 69600
    },
    {
      "epoch": 0.34805,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00019656783919597988,
      "loss": 2.1391,
      "step": 69610
    },
    {
      "epoch": 0.3481,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019655276381909547,
      "loss": 2.1468,
      "step": 69620
    },
    {
      "epoch": 0.34815,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019653768844221103,
      "loss": 2.1118,
      "step": 69630
    },
    {
      "epoch": 0.3482,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001965226130653266,
      "loss": 2.1046,
      "step": 69640
    },
    {
      "epoch": 0.34825,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001965075376884422,
      "loss": 2.1153,
      "step": 69650
    },
    {
      "epoch": 0.3483,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019649246231155779,
      "loss": 2.131,
      "step": 69660
    },
    {
      "epoch": 0.34835,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019647738693467334,
      "loss": 2.1397,
      "step": 69670
    },
    {
      "epoch": 0.3484,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00019646231155778893,
      "loss": 2.13,
      "step": 69680
    },
    {
      "epoch": 0.34845,
      "grad_norm": 1.984375,
      "learning_rate": 0.00019644723618090452,
      "loss": 2.1019,
      "step": 69690
    },
    {
      "epoch": 0.3485,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019643216080402008,
      "loss": 2.1132,
      "step": 69700
    },
    {
      "epoch": 0.34855,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019641708542713563,
      "loss": 2.1238,
      "step": 69710
    },
    {
      "epoch": 0.3486,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019640201005025125,
      "loss": 2.0965,
      "step": 69720
    },
    {
      "epoch": 0.34865,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001963869346733668,
      "loss": 2.1307,
      "step": 69730
    },
    {
      "epoch": 0.3487,
      "grad_norm": 1.640625,
      "learning_rate": 0.0001963718592964824,
      "loss": 2.1399,
      "step": 69740
    },
    {
      "epoch": 0.34875,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019635678391959798,
      "loss": 2.1061,
      "step": 69750
    },
    {
      "epoch": 0.3488,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019634170854271354,
      "loss": 2.1137,
      "step": 69760
    },
    {
      "epoch": 0.34885,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019632663316582912,
      "loss": 2.1596,
      "step": 69770
    },
    {
      "epoch": 0.3489,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001963115577889447,
      "loss": 2.1439,
      "step": 69780
    },
    {
      "epoch": 0.34895,
      "grad_norm": 1.71875,
      "learning_rate": 0.0001962964824120603,
      "loss": 2.129,
      "step": 69790
    },
    {
      "epoch": 0.349,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019628140703517586,
      "loss": 2.1243,
      "step": 69800
    },
    {
      "epoch": 0.34905,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019626633165829144,
      "loss": 2.13,
      "step": 69810
    },
    {
      "epoch": 0.3491,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019625125628140703,
      "loss": 2.0983,
      "step": 69820
    },
    {
      "epoch": 0.34915,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0001962361809045226,
      "loss": 2.1612,
      "step": 69830
    },
    {
      "epoch": 0.3492,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001962211055276382,
      "loss": 2.1305,
      "step": 69840
    },
    {
      "epoch": 0.34925,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019620603015075376,
      "loss": 2.1292,
      "step": 69850
    },
    {
      "epoch": 0.3493,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019619095477386932,
      "loss": 2.1145,
      "step": 69860
    },
    {
      "epoch": 0.34935,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001961758793969849,
      "loss": 2.1505,
      "step": 69870
    },
    {
      "epoch": 0.3494,
      "grad_norm": 2.171875,
      "learning_rate": 0.0001961608040201005,
      "loss": 2.1845,
      "step": 69880
    },
    {
      "epoch": 0.34945,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019614572864321605,
      "loss": 2.1128,
      "step": 69890
    },
    {
      "epoch": 0.3495,
      "grad_norm": 1.75,
      "learning_rate": 0.00019613065326633163,
      "loss": 2.1989,
      "step": 69900
    },
    {
      "epoch": 0.34955,
      "grad_norm": 1.75,
      "learning_rate": 0.00019611557788944722,
      "loss": 2.0707,
      "step": 69910
    },
    {
      "epoch": 0.3496,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001961005025125628,
      "loss": 2.1283,
      "step": 69920
    },
    {
      "epoch": 0.34965,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019608542713567837,
      "loss": 2.1427,
      "step": 69930
    },
    {
      "epoch": 0.3497,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019607035175879395,
      "loss": 2.1065,
      "step": 69940
    },
    {
      "epoch": 0.34975,
      "grad_norm": 1.875,
      "learning_rate": 0.00019605527638190954,
      "loss": 2.1228,
      "step": 69950
    },
    {
      "epoch": 0.3498,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001960402010050251,
      "loss": 2.112,
      "step": 69960
    },
    {
      "epoch": 0.34985,
      "grad_norm": 1.734375,
      "learning_rate": 0.0001960251256281407,
      "loss": 2.1252,
      "step": 69970
    },
    {
      "epoch": 0.3499,
      "grad_norm": 1.875,
      "learning_rate": 0.00019601005025125627,
      "loss": 2.1388,
      "step": 69980
    },
    {
      "epoch": 0.34995,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019599497487437183,
      "loss": 2.0963,
      "step": 69990
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019597989949748744,
      "loss": 2.1457,
      "step": 70000
    },
    {
      "epoch": 0.35,
      "eval_loss": 2.1110076904296875,
      "eval_runtime": 89.487,
      "eval_samples_per_second": 27.937,
      "eval_steps_per_second": 0.447,
      "step": 70000
    },
    {
      "epoch": 0.35005,
      "grad_norm": 1.84375,
      "learning_rate": 0.000195964824120603,
      "loss": 2.1179,
      "step": 70010
    },
    {
      "epoch": 0.3501,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019594974874371856,
      "loss": 2.1573,
      "step": 70020
    },
    {
      "epoch": 0.35015,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019593467336683415,
      "loss": 2.1432,
      "step": 70030
    },
    {
      "epoch": 0.3502,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019591959798994973,
      "loss": 2.1503,
      "step": 70040
    },
    {
      "epoch": 0.35025,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019590452261306532,
      "loss": 2.0952,
      "step": 70050
    },
    {
      "epoch": 0.3503,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019588944723618088,
      "loss": 2.1647,
      "step": 70060
    },
    {
      "epoch": 0.35035,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019587437185929646,
      "loss": 2.1555,
      "step": 70070
    },
    {
      "epoch": 0.3504,
      "grad_norm": 1.9375,
      "learning_rate": 0.00019585929648241205,
      "loss": 2.1946,
      "step": 70080
    },
    {
      "epoch": 0.35045,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001958442211055276,
      "loss": 2.1338,
      "step": 70090
    },
    {
      "epoch": 0.3505,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019582914572864322,
      "loss": 2.0844,
      "step": 70100
    },
    {
      "epoch": 0.35055,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019581407035175878,
      "loss": 2.1596,
      "step": 70110
    },
    {
      "epoch": 0.3506,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019579899497487434,
      "loss": 2.1119,
      "step": 70120
    },
    {
      "epoch": 0.35065,
      "grad_norm": 2.328125,
      "learning_rate": 0.00019578391959798995,
      "loss": 2.1263,
      "step": 70130
    },
    {
      "epoch": 0.3507,
      "grad_norm": 1.6875,
      "learning_rate": 0.0001957688442211055,
      "loss": 2.0814,
      "step": 70140
    },
    {
      "epoch": 0.35075,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019575376884422107,
      "loss": 2.1717,
      "step": 70150
    },
    {
      "epoch": 0.3508,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019573869346733668,
      "loss": 2.1827,
      "step": 70160
    },
    {
      "epoch": 0.35085,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019572361809045224,
      "loss": 2.1066,
      "step": 70170
    },
    {
      "epoch": 0.3509,
      "grad_norm": 1.859375,
      "learning_rate": 0.00019570854271356783,
      "loss": 2.1489,
      "step": 70180
    },
    {
      "epoch": 0.35095,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001956934673366834,
      "loss": 2.1538,
      "step": 70190
    },
    {
      "epoch": 0.351,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019567839195979897,
      "loss": 2.1901,
      "step": 70200
    },
    {
      "epoch": 0.35105,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019566331658291456,
      "loss": 2.1175,
      "step": 70210
    },
    {
      "epoch": 0.3511,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019564824120603012,
      "loss": 2.1413,
      "step": 70220
    },
    {
      "epoch": 0.35115,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019563316582914573,
      "loss": 2.1488,
      "step": 70230
    },
    {
      "epoch": 0.3512,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001956180904522613,
      "loss": 2.1071,
      "step": 70240
    },
    {
      "epoch": 0.35125,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019560301507537685,
      "loss": 2.1449,
      "step": 70250
    },
    {
      "epoch": 0.3513,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019558793969849246,
      "loss": 2.1062,
      "step": 70260
    },
    {
      "epoch": 0.35135,
      "grad_norm": 2.078125,
      "learning_rate": 0.00019557286432160802,
      "loss": 2.1607,
      "step": 70270
    },
    {
      "epoch": 0.3514,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019555778894472358,
      "loss": 2.2026,
      "step": 70280
    },
    {
      "epoch": 0.35145,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001955427135678392,
      "loss": 2.1839,
      "step": 70290
    },
    {
      "epoch": 0.3515,
      "grad_norm": 2.140625,
      "learning_rate": 0.00019552763819095475,
      "loss": 2.0969,
      "step": 70300
    },
    {
      "epoch": 0.35155,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019551256281407034,
      "loss": 2.189,
      "step": 70310
    },
    {
      "epoch": 0.3516,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019549748743718593,
      "loss": 2.1206,
      "step": 70320
    },
    {
      "epoch": 0.35165,
      "grad_norm": 1.890625,
      "learning_rate": 0.00019548241206030149,
      "loss": 2.1045,
      "step": 70330
    },
    {
      "epoch": 0.3517,
      "grad_norm": 1.890625,
      "learning_rate": 0.00019546733668341707,
      "loss": 2.1413,
      "step": 70340
    },
    {
      "epoch": 0.35175,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019545226130653263,
      "loss": 2.1373,
      "step": 70350
    },
    {
      "epoch": 0.3518,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019543718592964824,
      "loss": 2.1379,
      "step": 70360
    },
    {
      "epoch": 0.35185,
      "grad_norm": 2.1875,
      "learning_rate": 0.0001954221105527638,
      "loss": 2.0878,
      "step": 70370
    },
    {
      "epoch": 0.3519,
      "grad_norm": 1.65625,
      "learning_rate": 0.00019540703517587936,
      "loss": 2.1503,
      "step": 70380
    },
    {
      "epoch": 0.35195,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019539195979899497,
      "loss": 2.1548,
      "step": 70390
    },
    {
      "epoch": 0.352,
      "grad_norm": 1.875,
      "learning_rate": 0.00019537688442211053,
      "loss": 2.0824,
      "step": 70400
    },
    {
      "epoch": 0.35205,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001953618090452261,
      "loss": 2.2088,
      "step": 70410
    },
    {
      "epoch": 0.3521,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001953467336683417,
      "loss": 2.1243,
      "step": 70420
    },
    {
      "epoch": 0.35215,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00019533165829145726,
      "loss": 2.1406,
      "step": 70430
    },
    {
      "epoch": 0.3522,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019531658291457285,
      "loss": 2.1221,
      "step": 70440
    },
    {
      "epoch": 0.35225,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019530150753768844,
      "loss": 2.1441,
      "step": 70450
    },
    {
      "epoch": 0.3523,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000195286432160804,
      "loss": 2.1696,
      "step": 70460
    },
    {
      "epoch": 0.35235,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019527135678391958,
      "loss": 2.1211,
      "step": 70470
    },
    {
      "epoch": 0.3524,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019525628140703514,
      "loss": 2.1625,
      "step": 70480
    },
    {
      "epoch": 0.35245,
      "grad_norm": 2.0,
      "learning_rate": 0.00019524120603015075,
      "loss": 2.1311,
      "step": 70490
    },
    {
      "epoch": 0.3525,
      "grad_norm": 1.625,
      "learning_rate": 0.0001952261306532663,
      "loss": 2.1639,
      "step": 70500
    },
    {
      "epoch": 0.35255,
      "grad_norm": 2.0625,
      "learning_rate": 0.00019521105527638187,
      "loss": 2.1719,
      "step": 70510
    },
    {
      "epoch": 0.3526,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019519597989949749,
      "loss": 2.1448,
      "step": 70520
    },
    {
      "epoch": 0.35265,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019518090452261304,
      "loss": 2.1477,
      "step": 70530
    },
    {
      "epoch": 0.3527,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001951658291457286,
      "loss": 2.1232,
      "step": 70540
    },
    {
      "epoch": 0.35275,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019515075376884422,
      "loss": 2.1071,
      "step": 70550
    },
    {
      "epoch": 0.3528,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00019513567839195978,
      "loss": 2.1045,
      "step": 70560
    },
    {
      "epoch": 0.35285,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00019512060301507536,
      "loss": 2.1553,
      "step": 70570
    },
    {
      "epoch": 0.3529,
      "grad_norm": 1.890625,
      "learning_rate": 0.00019510552763819095,
      "loss": 2.1111,
      "step": 70580
    },
    {
      "epoch": 0.35295,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001950904522613065,
      "loss": 2.1282,
      "step": 70590
    },
    {
      "epoch": 0.353,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001950753768844221,
      "loss": 2.1667,
      "step": 70600
    },
    {
      "epoch": 0.35305,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019506030150753768,
      "loss": 2.1395,
      "step": 70610
    },
    {
      "epoch": 0.3531,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019504522613065327,
      "loss": 2.1306,
      "step": 70620
    },
    {
      "epoch": 0.35315,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019503015075376882,
      "loss": 2.1137,
      "step": 70630
    },
    {
      "epoch": 0.3532,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019501507537688438,
      "loss": 2.1695,
      "step": 70640
    },
    {
      "epoch": 0.35325,
      "grad_norm": 1.90625,
      "learning_rate": 0.000195,
      "loss": 2.0996,
      "step": 70650
    },
    {
      "epoch": 0.3533,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019498492462311556,
      "loss": 2.1205,
      "step": 70660
    },
    {
      "epoch": 0.35335,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019496984924623111,
      "loss": 2.16,
      "step": 70670
    },
    {
      "epoch": 0.3534,
      "grad_norm": 1.875,
      "learning_rate": 0.00019495477386934673,
      "loss": 2.1113,
      "step": 70680
    },
    {
      "epoch": 0.35345,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001949396984924623,
      "loss": 2.1449,
      "step": 70690
    },
    {
      "epoch": 0.3535,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00019492462311557787,
      "loss": 2.143,
      "step": 70700
    },
    {
      "epoch": 0.35355,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00019490954773869346,
      "loss": 2.1194,
      "step": 70710
    },
    {
      "epoch": 0.3536,
      "grad_norm": 1.859375,
      "learning_rate": 0.00019489447236180902,
      "loss": 2.1469,
      "step": 70720
    },
    {
      "epoch": 0.35365,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001948793969849246,
      "loss": 2.099,
      "step": 70730
    },
    {
      "epoch": 0.3537,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001948643216080402,
      "loss": 2.118,
      "step": 70740
    },
    {
      "epoch": 0.35375,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019484924623115578,
      "loss": 2.1102,
      "step": 70750
    },
    {
      "epoch": 0.3538,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019483417085427134,
      "loss": 2.1267,
      "step": 70760
    },
    {
      "epoch": 0.35385,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019481909547738692,
      "loss": 2.1409,
      "step": 70770
    },
    {
      "epoch": 0.3539,
      "grad_norm": 1.875,
      "learning_rate": 0.0001948040201005025,
      "loss": 2.1344,
      "step": 70780
    },
    {
      "epoch": 0.35395,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019478894472361807,
      "loss": 2.1243,
      "step": 70790
    },
    {
      "epoch": 0.354,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019477386934673363,
      "loss": 2.1237,
      "step": 70800
    },
    {
      "epoch": 0.35405,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019475879396984924,
      "loss": 2.1376,
      "step": 70810
    },
    {
      "epoch": 0.3541,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001947437185929648,
      "loss": 2.0854,
      "step": 70820
    },
    {
      "epoch": 0.35415,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019472864321608038,
      "loss": 2.1008,
      "step": 70830
    },
    {
      "epoch": 0.3542,
      "grad_norm": 2.046875,
      "learning_rate": 0.00019471356783919597,
      "loss": 2.1164,
      "step": 70840
    },
    {
      "epoch": 0.35425,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019469849246231153,
      "loss": 2.1394,
      "step": 70850
    },
    {
      "epoch": 0.3543,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019468341708542711,
      "loss": 2.1445,
      "step": 70860
    },
    {
      "epoch": 0.35435,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001946683417085427,
      "loss": 2.1508,
      "step": 70870
    },
    {
      "epoch": 0.3544,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001946532663316583,
      "loss": 2.1209,
      "step": 70880
    },
    {
      "epoch": 0.35445,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019463819095477385,
      "loss": 2.1029,
      "step": 70890
    },
    {
      "epoch": 0.3545,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00019462311557788943,
      "loss": 2.077,
      "step": 70900
    },
    {
      "epoch": 0.35455,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019460804020100502,
      "loss": 2.0734,
      "step": 70910
    },
    {
      "epoch": 0.3546,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019459296482412058,
      "loss": 2.0898,
      "step": 70920
    },
    {
      "epoch": 0.35465,
      "grad_norm": 1.734375,
      "learning_rate": 0.0001945778894472362,
      "loss": 2.1059,
      "step": 70930
    },
    {
      "epoch": 0.3547,
      "grad_norm": 1.75,
      "learning_rate": 0.00019456281407035175,
      "loss": 2.1028,
      "step": 70940
    },
    {
      "epoch": 0.35475,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0001945477386934673,
      "loss": 2.1112,
      "step": 70950
    },
    {
      "epoch": 0.3548,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0001945326633165829,
      "loss": 2.0778,
      "step": 70960
    },
    {
      "epoch": 0.35485,
      "grad_norm": 2.015625,
      "learning_rate": 0.00019451758793969848,
      "loss": 2.1261,
      "step": 70970
    },
    {
      "epoch": 0.3549,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019450251256281404,
      "loss": 2.114,
      "step": 70980
    },
    {
      "epoch": 0.35495,
      "grad_norm": 2.046875,
      "learning_rate": 0.00019448743718592963,
      "loss": 2.1051,
      "step": 70990
    },
    {
      "epoch": 0.355,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001944723618090452,
      "loss": 2.1105,
      "step": 71000
    },
    {
      "epoch": 0.35505,
      "grad_norm": 2.203125,
      "learning_rate": 0.0001944572864321608,
      "loss": 2.1512,
      "step": 71010
    },
    {
      "epoch": 0.3551,
      "grad_norm": 1.875,
      "learning_rate": 0.00019444221105527636,
      "loss": 2.1074,
      "step": 71020
    },
    {
      "epoch": 0.35515,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019442713567839194,
      "loss": 2.1268,
      "step": 71030
    },
    {
      "epoch": 0.3552,
      "grad_norm": 1.859375,
      "learning_rate": 0.00019441206030150753,
      "loss": 2.1146,
      "step": 71040
    },
    {
      "epoch": 0.35525,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001943969849246231,
      "loss": 2.1359,
      "step": 71050
    },
    {
      "epoch": 0.3553,
      "grad_norm": 1.875,
      "learning_rate": 0.0001943819095477387,
      "loss": 2.0894,
      "step": 71060
    },
    {
      "epoch": 0.35535,
      "grad_norm": 1.640625,
      "learning_rate": 0.00019436683417085426,
      "loss": 2.1971,
      "step": 71070
    },
    {
      "epoch": 0.3554,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019435175879396982,
      "loss": 2.0655,
      "step": 71080
    },
    {
      "epoch": 0.35545,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019433668341708543,
      "loss": 2.1664,
      "step": 71090
    },
    {
      "epoch": 0.3555,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000194321608040201,
      "loss": 2.0989,
      "step": 71100
    },
    {
      "epoch": 0.35555,
      "grad_norm": 2.0,
      "learning_rate": 0.00019430653266331655,
      "loss": 2.1618,
      "step": 71110
    },
    {
      "epoch": 0.3556,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019429145728643214,
      "loss": 2.1246,
      "step": 71120
    },
    {
      "epoch": 0.35565,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00019427638190954772,
      "loss": 2.0845,
      "step": 71130
    },
    {
      "epoch": 0.3557,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001942613065326633,
      "loss": 2.1497,
      "step": 71140
    },
    {
      "epoch": 0.35575,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019424623115577887,
      "loss": 2.098,
      "step": 71150
    },
    {
      "epoch": 0.3558,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019423115577889445,
      "loss": 2.1667,
      "step": 71160
    },
    {
      "epoch": 0.35585,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019421608040201004,
      "loss": 2.1301,
      "step": 71170
    },
    {
      "epoch": 0.3559,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001942010050251256,
      "loss": 2.0924,
      "step": 71180
    },
    {
      "epoch": 0.35595,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0001941859296482412,
      "loss": 2.1267,
      "step": 71190
    },
    {
      "epoch": 0.356,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019417085427135677,
      "loss": 2.0998,
      "step": 71200
    },
    {
      "epoch": 0.35605,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00019415577889447233,
      "loss": 2.1102,
      "step": 71210
    },
    {
      "epoch": 0.3561,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019414070351758794,
      "loss": 2.1253,
      "step": 71220
    },
    {
      "epoch": 0.35615,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001941256281407035,
      "loss": 2.1047,
      "step": 71230
    },
    {
      "epoch": 0.3562,
      "grad_norm": 1.75,
      "learning_rate": 0.00019411055276381906,
      "loss": 2.1918,
      "step": 71240
    },
    {
      "epoch": 0.35625,
      "grad_norm": 1.9375,
      "learning_rate": 0.00019409547738693467,
      "loss": 2.1141,
      "step": 71250
    },
    {
      "epoch": 0.3563,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019408040201005023,
      "loss": 2.1569,
      "step": 71260
    },
    {
      "epoch": 0.35635,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019406532663316582,
      "loss": 2.1177,
      "step": 71270
    },
    {
      "epoch": 0.3564,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019405025125628138,
      "loss": 2.1032,
      "step": 71280
    },
    {
      "epoch": 0.35645,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019403517587939697,
      "loss": 2.1021,
      "step": 71290
    },
    {
      "epoch": 0.3565,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019402010050251255,
      "loss": 2.1456,
      "step": 71300
    },
    {
      "epoch": 0.35655,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001940050251256281,
      "loss": 2.1311,
      "step": 71310
    },
    {
      "epoch": 0.3566,
      "grad_norm": 1.71875,
      "learning_rate": 0.00019398994974874372,
      "loss": 2.0992,
      "step": 71320
    },
    {
      "epoch": 0.35665,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019397487437185928,
      "loss": 2.1645,
      "step": 71330
    },
    {
      "epoch": 0.3567,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019395979899497484,
      "loss": 2.1396,
      "step": 71340
    },
    {
      "epoch": 0.35675,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019394472361809045,
      "loss": 2.1781,
      "step": 71350
    },
    {
      "epoch": 0.3568,
      "grad_norm": 1.8515625,
      "learning_rate": 0.000193929648241206,
      "loss": 2.1121,
      "step": 71360
    },
    {
      "epoch": 0.35685,
      "grad_norm": 2.0625,
      "learning_rate": 0.00019391457286432157,
      "loss": 2.0829,
      "step": 71370
    },
    {
      "epoch": 0.3569,
      "grad_norm": 1.875,
      "learning_rate": 0.00019389949748743719,
      "loss": 2.1015,
      "step": 71380
    },
    {
      "epoch": 0.35695,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019388442211055274,
      "loss": 2.1429,
      "step": 71390
    },
    {
      "epoch": 0.357,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00019386934673366833,
      "loss": 2.1488,
      "step": 71400
    },
    {
      "epoch": 0.35705,
      "grad_norm": 2.21875,
      "learning_rate": 0.00019385427135678392,
      "loss": 2.1101,
      "step": 71410
    },
    {
      "epoch": 0.3571,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019383919597989948,
      "loss": 2.1202,
      "step": 71420
    },
    {
      "epoch": 0.35715,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00019382412060301506,
      "loss": 2.128,
      "step": 71430
    },
    {
      "epoch": 0.3572,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00019380904522613062,
      "loss": 2.1425,
      "step": 71440
    },
    {
      "epoch": 0.35725,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019379396984924623,
      "loss": 2.1513,
      "step": 71450
    },
    {
      "epoch": 0.3573,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001937788944723618,
      "loss": 2.1245,
      "step": 71460
    },
    {
      "epoch": 0.35735,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019376381909547735,
      "loss": 2.1232,
      "step": 71470
    },
    {
      "epoch": 0.3574,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019374874371859297,
      "loss": 2.101,
      "step": 71480
    },
    {
      "epoch": 0.35745,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019373366834170852,
      "loss": 2.1159,
      "step": 71490
    },
    {
      "epoch": 0.3575,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019371859296482408,
      "loss": 2.1763,
      "step": 71500
    },
    {
      "epoch": 0.35755,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001937035175879397,
      "loss": 2.1387,
      "step": 71510
    },
    {
      "epoch": 0.3576,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00019368844221105526,
      "loss": 2.1717,
      "step": 71520
    },
    {
      "epoch": 0.35765,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019367336683417084,
      "loss": 2.1733,
      "step": 71530
    },
    {
      "epoch": 0.3577,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00019365829145728643,
      "loss": 2.115,
      "step": 71540
    },
    {
      "epoch": 0.35775,
      "grad_norm": 1.8125,
      "learning_rate": 0.000193643216080402,
      "loss": 2.1196,
      "step": 71550
    },
    {
      "epoch": 0.3578,
      "grad_norm": 1.890625,
      "learning_rate": 0.00019362814070351757,
      "loss": 2.1335,
      "step": 71560
    },
    {
      "epoch": 0.35785,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019361306532663316,
      "loss": 2.0769,
      "step": 71570
    },
    {
      "epoch": 0.3579,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019359798994974875,
      "loss": 2.1471,
      "step": 71580
    },
    {
      "epoch": 0.35795,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001935829145728643,
      "loss": 2.0935,
      "step": 71590
    },
    {
      "epoch": 0.358,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019356783919597986,
      "loss": 2.1168,
      "step": 71600
    },
    {
      "epoch": 0.35805,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019355276381909548,
      "loss": 2.1116,
      "step": 71610
    },
    {
      "epoch": 0.3581,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019353768844221104,
      "loss": 2.1351,
      "step": 71620
    },
    {
      "epoch": 0.35815,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001935226130653266,
      "loss": 2.1432,
      "step": 71630
    },
    {
      "epoch": 0.3582,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001935075376884422,
      "loss": 2.1322,
      "step": 71640
    },
    {
      "epoch": 0.35825,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019349246231155777,
      "loss": 2.0945,
      "step": 71650
    },
    {
      "epoch": 0.3583,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019347738693467335,
      "loss": 2.1093,
      "step": 71660
    },
    {
      "epoch": 0.35835,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019346231155778894,
      "loss": 2.119,
      "step": 71670
    },
    {
      "epoch": 0.3584,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001934472361809045,
      "loss": 2.1489,
      "step": 71680
    },
    {
      "epoch": 0.35845,
      "grad_norm": 1.671875,
      "learning_rate": 0.00019343216080402008,
      "loss": 2.1039,
      "step": 71690
    },
    {
      "epoch": 0.3585,
      "grad_norm": 1.71875,
      "learning_rate": 0.00019341708542713567,
      "loss": 2.1616,
      "step": 71700
    },
    {
      "epoch": 0.35855,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019340201005025126,
      "loss": 2.086,
      "step": 71710
    },
    {
      "epoch": 0.3586,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019338693467336682,
      "loss": 2.1135,
      "step": 71720
    },
    {
      "epoch": 0.35865,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019337185929648237,
      "loss": 2.1435,
      "step": 71730
    },
    {
      "epoch": 0.3587,
      "grad_norm": 1.78125,
      "learning_rate": 0.000193356783919598,
      "loss": 2.0956,
      "step": 71740
    },
    {
      "epoch": 0.35875,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019334170854271355,
      "loss": 2.1377,
      "step": 71750
    },
    {
      "epoch": 0.3588,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001933266331658291,
      "loss": 2.1408,
      "step": 71760
    },
    {
      "epoch": 0.35885,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019331155778894472,
      "loss": 2.1987,
      "step": 71770
    },
    {
      "epoch": 0.3589,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019329648241206028,
      "loss": 2.102,
      "step": 71780
    },
    {
      "epoch": 0.35895,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00019328140703517586,
      "loss": 2.1765,
      "step": 71790
    },
    {
      "epoch": 0.359,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00019326633165829145,
      "loss": 2.1503,
      "step": 71800
    },
    {
      "epoch": 0.35905,
      "grad_norm": 1.8046875,
      "learning_rate": 0.000193251256281407,
      "loss": 2.1457,
      "step": 71810
    },
    {
      "epoch": 0.3591,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001932361809045226,
      "loss": 2.0967,
      "step": 71820
    },
    {
      "epoch": 0.35915,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00019322110552763818,
      "loss": 2.0799,
      "step": 71830
    },
    {
      "epoch": 0.3592,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019320603015075377,
      "loss": 2.1126,
      "step": 71840
    },
    {
      "epoch": 0.35925,
      "grad_norm": 1.875,
      "learning_rate": 0.00019319095477386933,
      "loss": 2.0824,
      "step": 71850
    },
    {
      "epoch": 0.3593,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001931758793969849,
      "loss": 2.0516,
      "step": 71860
    },
    {
      "epoch": 0.35935,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0001931608040201005,
      "loss": 2.1817,
      "step": 71870
    },
    {
      "epoch": 0.3594,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019314572864321606,
      "loss": 2.1386,
      "step": 71880
    },
    {
      "epoch": 0.35945,
      "grad_norm": 2.078125,
      "learning_rate": 0.00019313065326633162,
      "loss": 2.0832,
      "step": 71890
    },
    {
      "epoch": 0.3595,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019311557788944723,
      "loss": 2.1147,
      "step": 71900
    },
    {
      "epoch": 0.35955,
      "grad_norm": 1.65625,
      "learning_rate": 0.0001931005025125628,
      "loss": 2.0809,
      "step": 71910
    },
    {
      "epoch": 0.3596,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019308542713567837,
      "loss": 2.1107,
      "step": 71920
    },
    {
      "epoch": 0.35965,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019307035175879396,
      "loss": 2.0975,
      "step": 71930
    },
    {
      "epoch": 0.3597,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019305527638190952,
      "loss": 2.1086,
      "step": 71940
    },
    {
      "epoch": 0.35975,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001930402010050251,
      "loss": 2.1098,
      "step": 71950
    },
    {
      "epoch": 0.3598,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0001930251256281407,
      "loss": 2.1271,
      "step": 71960
    },
    {
      "epoch": 0.35985,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00019301005025125628,
      "loss": 2.1558,
      "step": 71970
    },
    {
      "epoch": 0.3599,
      "grad_norm": 2.046875,
      "learning_rate": 0.00019299497487437184,
      "loss": 2.0702,
      "step": 71980
    },
    {
      "epoch": 0.35995,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019297989949748742,
      "loss": 2.1251,
      "step": 71990
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8046875,
      "learning_rate": 0.000192964824120603,
      "loss": 2.1347,
      "step": 72000
    },
    {
      "epoch": 0.36,
      "eval_loss": 2.104552745819092,
      "eval_runtime": 90.2075,
      "eval_samples_per_second": 27.714,
      "eval_steps_per_second": 0.443,
      "step": 72000
    },
    {
      "epoch": 0.36005,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019294974874371857,
      "loss": 2.1643,
      "step": 72010
    },
    {
      "epoch": 0.3601,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019293467336683418,
      "loss": 2.105,
      "step": 72020
    },
    {
      "epoch": 0.36015,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019291959798994974,
      "loss": 2.0861,
      "step": 72030
    },
    {
      "epoch": 0.3602,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001929045226130653,
      "loss": 2.1302,
      "step": 72040
    },
    {
      "epoch": 0.36025,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019288944723618086,
      "loss": 2.0943,
      "step": 72050
    },
    {
      "epoch": 0.3603,
      "grad_norm": 1.890625,
      "learning_rate": 0.00019287437185929647,
      "loss": 2.1344,
      "step": 72060
    },
    {
      "epoch": 0.36035,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019285929648241203,
      "loss": 2.1308,
      "step": 72070
    },
    {
      "epoch": 0.3604,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019284422110552762,
      "loss": 2.1066,
      "step": 72080
    },
    {
      "epoch": 0.36045,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001928291457286432,
      "loss": 2.1635,
      "step": 72090
    },
    {
      "epoch": 0.3605,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001928140703517588,
      "loss": 2.0773,
      "step": 72100
    },
    {
      "epoch": 0.36055,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019279899497487435,
      "loss": 2.135,
      "step": 72110
    },
    {
      "epoch": 0.3606,
      "grad_norm": 2.03125,
      "learning_rate": 0.00019278391959798993,
      "loss": 2.1414,
      "step": 72120
    },
    {
      "epoch": 0.36065,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019276884422110552,
      "loss": 2.0995,
      "step": 72130
    },
    {
      "epoch": 0.3607,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019275376884422108,
      "loss": 2.1073,
      "step": 72140
    },
    {
      "epoch": 0.36075,
      "grad_norm": 2.0,
      "learning_rate": 0.0001927386934673367,
      "loss": 2.1128,
      "step": 72150
    },
    {
      "epoch": 0.3608,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00019272361809045225,
      "loss": 2.0694,
      "step": 72160
    },
    {
      "epoch": 0.36085,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001927085427135678,
      "loss": 2.135,
      "step": 72170
    },
    {
      "epoch": 0.3609,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019269346733668342,
      "loss": 2.0868,
      "step": 72180
    },
    {
      "epoch": 0.36095,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019267839195979898,
      "loss": 2.0815,
      "step": 72190
    },
    {
      "epoch": 0.361,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019266331658291454,
      "loss": 2.1492,
      "step": 72200
    },
    {
      "epoch": 0.36105,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019264824120603013,
      "loss": 2.1271,
      "step": 72210
    },
    {
      "epoch": 0.3611,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019263316582914571,
      "loss": 2.094,
      "step": 72220
    },
    {
      "epoch": 0.36115,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001926180904522613,
      "loss": 2.1295,
      "step": 72230
    },
    {
      "epoch": 0.3612,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019260301507537686,
      "loss": 2.1227,
      "step": 72240
    },
    {
      "epoch": 0.36125,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019258793969849244,
      "loss": 2.1266,
      "step": 72250
    },
    {
      "epoch": 0.3613,
      "grad_norm": 1.734375,
      "learning_rate": 0.00019257286432160803,
      "loss": 2.1166,
      "step": 72260
    },
    {
      "epoch": 0.36135,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001925577889447236,
      "loss": 2.1108,
      "step": 72270
    },
    {
      "epoch": 0.3614,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001925427135678392,
      "loss": 2.1022,
      "step": 72280
    },
    {
      "epoch": 0.36145,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019252763819095476,
      "loss": 2.1356,
      "step": 72290
    },
    {
      "epoch": 0.3615,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019251256281407032,
      "loss": 2.0979,
      "step": 72300
    },
    {
      "epoch": 0.36155,
      "grad_norm": 1.875,
      "learning_rate": 0.00019249748743718593,
      "loss": 2.1187,
      "step": 72310
    },
    {
      "epoch": 0.3616,
      "grad_norm": 2.140625,
      "learning_rate": 0.0001924824120603015,
      "loss": 2.1197,
      "step": 72320
    },
    {
      "epoch": 0.36165,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019246733668341705,
      "loss": 2.1066,
      "step": 72330
    },
    {
      "epoch": 0.3617,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019245226130653267,
      "loss": 2.1546,
      "step": 72340
    },
    {
      "epoch": 0.36175,
      "grad_norm": 1.984375,
      "learning_rate": 0.00019243718592964822,
      "loss": 2.0947,
      "step": 72350
    },
    {
      "epoch": 0.3618,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001924221105527638,
      "loss": 2.1316,
      "step": 72360
    },
    {
      "epoch": 0.36185,
      "grad_norm": 1.859375,
      "learning_rate": 0.00019240703517587937,
      "loss": 2.0964,
      "step": 72370
    },
    {
      "epoch": 0.3619,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00019239195979899496,
      "loss": 2.1445,
      "step": 72380
    },
    {
      "epoch": 0.36195,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019237688442211054,
      "loss": 2.0967,
      "step": 72390
    },
    {
      "epoch": 0.362,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001923618090452261,
      "loss": 2.0986,
      "step": 72400
    },
    {
      "epoch": 0.36205,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019234673366834171,
      "loss": 2.119,
      "step": 72410
    },
    {
      "epoch": 0.3621,
      "grad_norm": 2.109375,
      "learning_rate": 0.00019233165829145727,
      "loss": 2.099,
      "step": 72420
    },
    {
      "epoch": 0.36215,
      "grad_norm": 1.671875,
      "learning_rate": 0.00019231658291457283,
      "loss": 2.0957,
      "step": 72430
    },
    {
      "epoch": 0.3622,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019230150753768845,
      "loss": 2.1385,
      "step": 72440
    },
    {
      "epoch": 0.36225,
      "grad_norm": 1.8671875,
      "learning_rate": 0.000192286432160804,
      "loss": 2.0585,
      "step": 72450
    },
    {
      "epoch": 0.3623,
      "grad_norm": 2.0625,
      "learning_rate": 0.00019227135678391956,
      "loss": 2.105,
      "step": 72460
    },
    {
      "epoch": 0.36235,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019225628140703518,
      "loss": 2.1392,
      "step": 72470
    },
    {
      "epoch": 0.3624,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00019224120603015074,
      "loss": 2.1262,
      "step": 72480
    },
    {
      "epoch": 0.36245,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001922261306532663,
      "loss": 2.1612,
      "step": 72490
    },
    {
      "epoch": 0.3625,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001922110552763819,
      "loss": 2.1301,
      "step": 72500
    },
    {
      "epoch": 0.36255,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00019219597989949747,
      "loss": 2.1408,
      "step": 72510
    },
    {
      "epoch": 0.3626,
      "grad_norm": 1.9375,
      "learning_rate": 0.00019218090452261305,
      "loss": 2.1052,
      "step": 72520
    },
    {
      "epoch": 0.36265,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0001921658291457286,
      "loss": 2.1093,
      "step": 72530
    },
    {
      "epoch": 0.3627,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019215075376884423,
      "loss": 2.134,
      "step": 72540
    },
    {
      "epoch": 0.36275,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019213567839195978,
      "loss": 2.0943,
      "step": 72550
    },
    {
      "epoch": 0.3628,
      "grad_norm": 1.6875,
      "learning_rate": 0.00019212060301507534,
      "loss": 2.121,
      "step": 72560
    },
    {
      "epoch": 0.36285,
      "grad_norm": 2.015625,
      "learning_rate": 0.00019210552763819096,
      "loss": 2.1254,
      "step": 72570
    },
    {
      "epoch": 0.3629,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019209045226130652,
      "loss": 2.0858,
      "step": 72580
    },
    {
      "epoch": 0.36295,
      "grad_norm": 1.75,
      "learning_rate": 0.00019207537688442207,
      "loss": 2.1424,
      "step": 72590
    },
    {
      "epoch": 0.363,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001920603015075377,
      "loss": 2.1076,
      "step": 72600
    },
    {
      "epoch": 0.36305,
      "grad_norm": 2.140625,
      "learning_rate": 0.00019204522613065325,
      "loss": 2.0877,
      "step": 72610
    },
    {
      "epoch": 0.3631,
      "grad_norm": 1.78125,
      "learning_rate": 0.0001920301507537688,
      "loss": 2.098,
      "step": 72620
    },
    {
      "epoch": 0.36315,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019201507537688442,
      "loss": 2.1149,
      "step": 72630
    },
    {
      "epoch": 0.3632,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019199999999999998,
      "loss": 2.1421,
      "step": 72640
    },
    {
      "epoch": 0.36325,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019198492462311556,
      "loss": 2.0804,
      "step": 72650
    },
    {
      "epoch": 0.3633,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019196984924623115,
      "loss": 2.1056,
      "step": 72660
    },
    {
      "epoch": 0.36335,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019195477386934674,
      "loss": 2.1268,
      "step": 72670
    },
    {
      "epoch": 0.3634,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001919396984924623,
      "loss": 2.1389,
      "step": 72680
    },
    {
      "epoch": 0.36345,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019192462311557785,
      "loss": 2.131,
      "step": 72690
    },
    {
      "epoch": 0.3635,
      "grad_norm": 1.9375,
      "learning_rate": 0.00019190954773869347,
      "loss": 2.0829,
      "step": 72700
    },
    {
      "epoch": 0.36355,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019189447236180903,
      "loss": 2.1258,
      "step": 72710
    },
    {
      "epoch": 0.3636,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00019187939698492459,
      "loss": 2.1075,
      "step": 72720
    },
    {
      "epoch": 0.36365,
      "grad_norm": 2.25,
      "learning_rate": 0.0001918643216080402,
      "loss": 2.1248,
      "step": 72730
    },
    {
      "epoch": 0.3637,
      "grad_norm": 1.65625,
      "learning_rate": 0.00019184924623115576,
      "loss": 2.0649,
      "step": 72740
    },
    {
      "epoch": 0.36375,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019183417085427132,
      "loss": 2.1255,
      "step": 72750
    },
    {
      "epoch": 0.3638,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019181909547738693,
      "loss": 2.1064,
      "step": 72760
    },
    {
      "epoch": 0.36385,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001918040201005025,
      "loss": 2.0788,
      "step": 72770
    },
    {
      "epoch": 0.3639,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019178894472361807,
      "loss": 2.1028,
      "step": 72780
    },
    {
      "epoch": 0.36395,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019177386934673366,
      "loss": 2.1522,
      "step": 72790
    },
    {
      "epoch": 0.364,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019175879396984925,
      "loss": 2.1137,
      "step": 72800
    },
    {
      "epoch": 0.36405,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001917437185929648,
      "loss": 2.1149,
      "step": 72810
    },
    {
      "epoch": 0.3641,
      "grad_norm": 1.875,
      "learning_rate": 0.00019172864321608037,
      "loss": 2.1168,
      "step": 72820
    },
    {
      "epoch": 0.36415,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019171356783919598,
      "loss": 2.0716,
      "step": 72830
    },
    {
      "epoch": 0.3642,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00019169849246231154,
      "loss": 2.1558,
      "step": 72840
    },
    {
      "epoch": 0.36425,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001916834170854271,
      "loss": 2.0988,
      "step": 72850
    },
    {
      "epoch": 0.3643,
      "grad_norm": 2.0,
      "learning_rate": 0.0001916683417085427,
      "loss": 2.1051,
      "step": 72860
    },
    {
      "epoch": 0.36435,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00019165326633165827,
      "loss": 2.1098,
      "step": 72870
    },
    {
      "epoch": 0.3644,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00019163819095477383,
      "loss": 2.0971,
      "step": 72880
    },
    {
      "epoch": 0.36445,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019162311557788944,
      "loss": 2.1348,
      "step": 72890
    },
    {
      "epoch": 0.3645,
      "grad_norm": 1.9375,
      "learning_rate": 0.000191608040201005,
      "loss": 2.1054,
      "step": 72900
    },
    {
      "epoch": 0.36455,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019159296482412059,
      "loss": 2.1185,
      "step": 72910
    },
    {
      "epoch": 0.3646,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019157788944723617,
      "loss": 2.1455,
      "step": 72920
    },
    {
      "epoch": 0.36465,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00019156281407035176,
      "loss": 2.1306,
      "step": 72930
    },
    {
      "epoch": 0.3647,
      "grad_norm": 1.921875,
      "learning_rate": 0.00019154773869346732,
      "loss": 2.1294,
      "step": 72940
    },
    {
      "epoch": 0.36475,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001915326633165829,
      "loss": 2.0706,
      "step": 72950
    },
    {
      "epoch": 0.3648,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001915175879396985,
      "loss": 2.0988,
      "step": 72960
    },
    {
      "epoch": 0.36485,
      "grad_norm": 2.0625,
      "learning_rate": 0.00019150251256281405,
      "loss": 2.1452,
      "step": 72970
    },
    {
      "epoch": 0.3649,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001914874371859296,
      "loss": 2.031,
      "step": 72980
    },
    {
      "epoch": 0.36495,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00019147236180904522,
      "loss": 2.1499,
      "step": 72990
    },
    {
      "epoch": 0.365,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019145728643216078,
      "loss": 2.0847,
      "step": 73000
    },
    {
      "epoch": 0.36505,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00019144221105527634,
      "loss": 2.1079,
      "step": 73010
    },
    {
      "epoch": 0.3651,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019142713567839195,
      "loss": 2.1206,
      "step": 73020
    },
    {
      "epoch": 0.36515,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001914120603015075,
      "loss": 2.1293,
      "step": 73030
    },
    {
      "epoch": 0.3652,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001913969849246231,
      "loss": 2.1052,
      "step": 73040
    },
    {
      "epoch": 0.36525,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019138190954773868,
      "loss": 2.0631,
      "step": 73050
    },
    {
      "epoch": 0.3653,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019136683417085424,
      "loss": 2.1696,
      "step": 73060
    },
    {
      "epoch": 0.36535,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019135175879396983,
      "loss": 2.1026,
      "step": 73070
    },
    {
      "epoch": 0.3654,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019133668341708541,
      "loss": 2.1014,
      "step": 73080
    },
    {
      "epoch": 0.36545,
      "grad_norm": 1.875,
      "learning_rate": 0.000191321608040201,
      "loss": 2.1198,
      "step": 73090
    },
    {
      "epoch": 0.3655,
      "grad_norm": 1.703125,
      "learning_rate": 0.00019130653266331656,
      "loss": 2.1788,
      "step": 73100
    },
    {
      "epoch": 0.36555,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019129145728643217,
      "loss": 2.0843,
      "step": 73110
    },
    {
      "epoch": 0.3656,
      "grad_norm": 1.796875,
      "learning_rate": 0.00019127638190954773,
      "loss": 2.0918,
      "step": 73120
    },
    {
      "epoch": 0.36565,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001912613065326633,
      "loss": 2.0737,
      "step": 73130
    },
    {
      "epoch": 0.3657,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019124623115577885,
      "loss": 2.0879,
      "step": 73140
    },
    {
      "epoch": 0.36575,
      "grad_norm": 1.890625,
      "learning_rate": 0.00019123115577889446,
      "loss": 2.1024,
      "step": 73150
    },
    {
      "epoch": 0.3658,
      "grad_norm": 1.75,
      "learning_rate": 0.00019121608040201002,
      "loss": 2.1353,
      "step": 73160
    },
    {
      "epoch": 0.36585,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001912010050251256,
      "loss": 2.1567,
      "step": 73170
    },
    {
      "epoch": 0.3659,
      "grad_norm": 1.875,
      "learning_rate": 0.0001911859296482412,
      "loss": 2.1427,
      "step": 73180
    },
    {
      "epoch": 0.36595,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00019117085427135675,
      "loss": 2.1247,
      "step": 73190
    },
    {
      "epoch": 0.366,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00019115577889447234,
      "loss": 2.122,
      "step": 73200
    },
    {
      "epoch": 0.36605,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019114070351758792,
      "loss": 2.0073,
      "step": 73210
    },
    {
      "epoch": 0.3661,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001911256281407035,
      "loss": 2.143,
      "step": 73220
    },
    {
      "epoch": 0.36615,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019111055276381907,
      "loss": 2.0961,
      "step": 73230
    },
    {
      "epoch": 0.3662,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019109547738693468,
      "loss": 2.1057,
      "step": 73240
    },
    {
      "epoch": 0.36625,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019108040201005024,
      "loss": 2.1006,
      "step": 73250
    },
    {
      "epoch": 0.3663,
      "grad_norm": 1.671875,
      "learning_rate": 0.0001910653266331658,
      "loss": 2.0744,
      "step": 73260
    },
    {
      "epoch": 0.36635,
      "grad_norm": 1.9375,
      "learning_rate": 0.00019105025125628141,
      "loss": 2.1147,
      "step": 73270
    },
    {
      "epoch": 0.3664,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019103517587939697,
      "loss": 2.0789,
      "step": 73280
    },
    {
      "epoch": 0.36645,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019102010050251253,
      "loss": 2.1308,
      "step": 73290
    },
    {
      "epoch": 0.3665,
      "grad_norm": 1.96875,
      "learning_rate": 0.00019100502512562812,
      "loss": 2.1412,
      "step": 73300
    },
    {
      "epoch": 0.36655,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001909899497487437,
      "loss": 2.0794,
      "step": 73310
    },
    {
      "epoch": 0.3666,
      "grad_norm": 2.015625,
      "learning_rate": 0.00019097487437185926,
      "loss": 2.1044,
      "step": 73320
    },
    {
      "epoch": 0.36665,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019095979899497485,
      "loss": 2.123,
      "step": 73330
    },
    {
      "epoch": 0.3667,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00019094472361809044,
      "loss": 2.1294,
      "step": 73340
    },
    {
      "epoch": 0.36675,
      "grad_norm": 1.953125,
      "learning_rate": 0.00019092964824120602,
      "loss": 2.169,
      "step": 73350
    },
    {
      "epoch": 0.3668,
      "grad_norm": 1.9375,
      "learning_rate": 0.00019091457286432158,
      "loss": 2.127,
      "step": 73360
    },
    {
      "epoch": 0.36685,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001908994974874372,
      "loss": 2.1117,
      "step": 73370
    },
    {
      "epoch": 0.3669,
      "grad_norm": 1.5546875,
      "learning_rate": 0.00019088442211055275,
      "loss": 2.1274,
      "step": 73380
    },
    {
      "epoch": 0.36695,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001908693467336683,
      "loss": 2.0653,
      "step": 73390
    },
    {
      "epoch": 0.367,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00019085427135678393,
      "loss": 2.0932,
      "step": 73400
    },
    {
      "epoch": 0.36705,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019083919597989948,
      "loss": 2.1111,
      "step": 73410
    },
    {
      "epoch": 0.3671,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019082412060301504,
      "loss": 2.1244,
      "step": 73420
    },
    {
      "epoch": 0.36715,
      "grad_norm": 2.0,
      "learning_rate": 0.00019080904522613066,
      "loss": 2.0765,
      "step": 73430
    },
    {
      "epoch": 0.3672,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019079396984924622,
      "loss": 2.1056,
      "step": 73440
    },
    {
      "epoch": 0.36725,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00019077889447236177,
      "loss": 2.1383,
      "step": 73450
    },
    {
      "epoch": 0.3673,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00019076381909547736,
      "loss": 2.1278,
      "step": 73460
    },
    {
      "epoch": 0.36735,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019074874371859295,
      "loss": 2.1151,
      "step": 73470
    },
    {
      "epoch": 0.3674,
      "grad_norm": 1.78125,
      "learning_rate": 0.00019073366834170853,
      "loss": 2.1459,
      "step": 73480
    },
    {
      "epoch": 0.36745,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001907185929648241,
      "loss": 2.0817,
      "step": 73490
    },
    {
      "epoch": 0.3675,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00019070351758793968,
      "loss": 2.1463,
      "step": 73500
    },
    {
      "epoch": 0.36755,
      "grad_norm": 2.015625,
      "learning_rate": 0.00019068844221105526,
      "loss": 2.0888,
      "step": 73510
    },
    {
      "epoch": 0.3676,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019067336683417082,
      "loss": 2.0633,
      "step": 73520
    },
    {
      "epoch": 0.36765,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019065829145728644,
      "loss": 2.1652,
      "step": 73530
    },
    {
      "epoch": 0.3677,
      "grad_norm": 2.0625,
      "learning_rate": 0.000190643216080402,
      "loss": 2.1754,
      "step": 73540
    },
    {
      "epoch": 0.36775,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00019062814070351755,
      "loss": 2.1102,
      "step": 73550
    },
    {
      "epoch": 0.3678,
      "grad_norm": 1.765625,
      "learning_rate": 0.00019061306532663317,
      "loss": 2.1264,
      "step": 73560
    },
    {
      "epoch": 0.36785,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019059798994974873,
      "loss": 2.1015,
      "step": 73570
    },
    {
      "epoch": 0.3679,
      "grad_norm": 1.84375,
      "learning_rate": 0.00019058291457286429,
      "loss": 2.1383,
      "step": 73580
    },
    {
      "epoch": 0.36795,
      "grad_norm": 2.25,
      "learning_rate": 0.0001905678391959799,
      "loss": 2.2039,
      "step": 73590
    },
    {
      "epoch": 0.368,
      "grad_norm": 1.75,
      "learning_rate": 0.00019055276381909546,
      "loss": 2.1233,
      "step": 73600
    },
    {
      "epoch": 0.36805,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019053768844221104,
      "loss": 2.0964,
      "step": 73610
    },
    {
      "epoch": 0.3681,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001905226130653266,
      "loss": 2.1088,
      "step": 73620
    },
    {
      "epoch": 0.36815,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001905075376884422,
      "loss": 2.132,
      "step": 73630
    },
    {
      "epoch": 0.3682,
      "grad_norm": 1.90625,
      "learning_rate": 0.00019049246231155778,
      "loss": 2.0904,
      "step": 73640
    },
    {
      "epoch": 0.36825,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019047738693467333,
      "loss": 2.1467,
      "step": 73650
    },
    {
      "epoch": 0.3683,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00019046231155778895,
      "loss": 2.1954,
      "step": 73660
    },
    {
      "epoch": 0.36835,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001904472361809045,
      "loss": 2.0821,
      "step": 73670
    },
    {
      "epoch": 0.3684,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00019043216080402007,
      "loss": 2.132,
      "step": 73680
    },
    {
      "epoch": 0.36845,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00019041708542713568,
      "loss": 2.0826,
      "step": 73690
    },
    {
      "epoch": 0.3685,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00019040201005025124,
      "loss": 2.096,
      "step": 73700
    },
    {
      "epoch": 0.36855,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001903869346733668,
      "loss": 2.1176,
      "step": 73710
    },
    {
      "epoch": 0.3686,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001903718592964824,
      "loss": 2.1059,
      "step": 73720
    },
    {
      "epoch": 0.36865,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00019035678391959797,
      "loss": 2.0833,
      "step": 73730
    },
    {
      "epoch": 0.3687,
      "grad_norm": 2.140625,
      "learning_rate": 0.00019034170854271355,
      "loss": 2.1167,
      "step": 73740
    },
    {
      "epoch": 0.36875,
      "grad_norm": 1.75,
      "learning_rate": 0.00019032663316582914,
      "loss": 2.1031,
      "step": 73750
    },
    {
      "epoch": 0.3688,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001903115577889447,
      "loss": 2.1163,
      "step": 73760
    },
    {
      "epoch": 0.36885,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019029648241206029,
      "loss": 2.117,
      "step": 73770
    },
    {
      "epoch": 0.3689,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00019028140703517584,
      "loss": 2.1039,
      "step": 73780
    },
    {
      "epoch": 0.36895,
      "grad_norm": 2.015625,
      "learning_rate": 0.00019026633165829146,
      "loss": 2.1462,
      "step": 73790
    },
    {
      "epoch": 0.369,
      "grad_norm": 1.8125,
      "learning_rate": 0.00019025125628140702,
      "loss": 2.0957,
      "step": 73800
    },
    {
      "epoch": 0.36905,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00019023618090452258,
      "loss": 2.0433,
      "step": 73810
    },
    {
      "epoch": 0.3691,
      "grad_norm": 1.71875,
      "learning_rate": 0.0001902211055276382,
      "loss": 2.1318,
      "step": 73820
    },
    {
      "epoch": 0.36915,
      "grad_norm": 1.828125,
      "learning_rate": 0.00019020603015075375,
      "loss": 2.0614,
      "step": 73830
    },
    {
      "epoch": 0.3692,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001901909547738693,
      "loss": 2.1298,
      "step": 73840
    },
    {
      "epoch": 0.36925,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00019017587939698492,
      "loss": 2.0918,
      "step": 73850
    },
    {
      "epoch": 0.3693,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00019016080402010048,
      "loss": 2.1537,
      "step": 73860
    },
    {
      "epoch": 0.36935,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00019014572864321607,
      "loss": 2.1211,
      "step": 73870
    },
    {
      "epoch": 0.3694,
      "grad_norm": 2.453125,
      "learning_rate": 0.00019013065326633165,
      "loss": 2.1,
      "step": 73880
    },
    {
      "epoch": 0.36945,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001901155778894472,
      "loss": 2.1116,
      "step": 73890
    },
    {
      "epoch": 0.3695,
      "grad_norm": 2.125,
      "learning_rate": 0.0001901005025125628,
      "loss": 2.0957,
      "step": 73900
    },
    {
      "epoch": 0.36955,
      "grad_norm": 2.0625,
      "learning_rate": 0.00019008542713567836,
      "loss": 2.1483,
      "step": 73910
    },
    {
      "epoch": 0.3696,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00019007035175879397,
      "loss": 2.0895,
      "step": 73920
    },
    {
      "epoch": 0.36965,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00019005527638190953,
      "loss": 2.0293,
      "step": 73930
    },
    {
      "epoch": 0.3697,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001900402010050251,
      "loss": 2.1042,
      "step": 73940
    },
    {
      "epoch": 0.36975,
      "grad_norm": 1.6875,
      "learning_rate": 0.0001900251256281407,
      "loss": 2.0762,
      "step": 73950
    },
    {
      "epoch": 0.3698,
      "grad_norm": 2.0,
      "learning_rate": 0.00019001005025125626,
      "loss": 2.0773,
      "step": 73960
    },
    {
      "epoch": 0.36985,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018999497487437182,
      "loss": 2.1441,
      "step": 73970
    },
    {
      "epoch": 0.3699,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018997989949748743,
      "loss": 2.111,
      "step": 73980
    },
    {
      "epoch": 0.36995,
      "grad_norm": 1.828125,
      "learning_rate": 0.000189964824120603,
      "loss": 2.0439,
      "step": 73990
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.625,
      "learning_rate": 0.00018994974874371858,
      "loss": 2.0989,
      "step": 74000
    },
    {
      "epoch": 0.37,
      "eval_loss": 2.090099573135376,
      "eval_runtime": 90.648,
      "eval_samples_per_second": 27.579,
      "eval_steps_per_second": 0.441,
      "step": 74000
    },
    {
      "epoch": 0.37005,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018993467336683416,
      "loss": 2.109,
      "step": 74010
    },
    {
      "epoch": 0.3701,
      "grad_norm": 1.859375,
      "learning_rate": 0.00018991959798994972,
      "loss": 2.1078,
      "step": 74020
    },
    {
      "epoch": 0.37015,
      "grad_norm": 1.75,
      "learning_rate": 0.0001899045226130653,
      "loss": 2.112,
      "step": 74030
    },
    {
      "epoch": 0.3702,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001898894472361809,
      "loss": 2.1023,
      "step": 74040
    },
    {
      "epoch": 0.37025,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018987437185929648,
      "loss": 2.1286,
      "step": 74050
    },
    {
      "epoch": 0.3703,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018985929648241204,
      "loss": 2.1105,
      "step": 74060
    },
    {
      "epoch": 0.37035,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001898442211055276,
      "loss": 2.1629,
      "step": 74070
    },
    {
      "epoch": 0.3704,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001898291457286432,
      "loss": 2.0993,
      "step": 74080
    },
    {
      "epoch": 0.37045,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018981407035175877,
      "loss": 2.1285,
      "step": 74090
    },
    {
      "epoch": 0.3705,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018979899497487433,
      "loss": 2.1291,
      "step": 74100
    },
    {
      "epoch": 0.37055,
      "grad_norm": 2.140625,
      "learning_rate": 0.00018978391959798994,
      "loss": 2.0498,
      "step": 74110
    },
    {
      "epoch": 0.3706,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001897688442211055,
      "loss": 2.0978,
      "step": 74120
    },
    {
      "epoch": 0.37065,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001897537688442211,
      "loss": 2.1061,
      "step": 74130
    },
    {
      "epoch": 0.3707,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018973869346733667,
      "loss": 2.0839,
      "step": 74140
    },
    {
      "epoch": 0.37075,
      "grad_norm": 1.984375,
      "learning_rate": 0.00018972361809045223,
      "loss": 2.1633,
      "step": 74150
    },
    {
      "epoch": 0.3708,
      "grad_norm": 1.9375,
      "learning_rate": 0.00018970854271356782,
      "loss": 2.1304,
      "step": 74160
    },
    {
      "epoch": 0.37085,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001896934673366834,
      "loss": 2.1386,
      "step": 74170
    },
    {
      "epoch": 0.3709,
      "grad_norm": 2.015625,
      "learning_rate": 0.000189678391959799,
      "loss": 2.1024,
      "step": 74180
    },
    {
      "epoch": 0.37095,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018966331658291455,
      "loss": 2.1235,
      "step": 74190
    },
    {
      "epoch": 0.371,
      "grad_norm": 1.734375,
      "learning_rate": 0.00018964824120603014,
      "loss": 2.1341,
      "step": 74200
    },
    {
      "epoch": 0.37105,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018963316582914572,
      "loss": 2.0852,
      "step": 74210
    },
    {
      "epoch": 0.3711,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018961809045226128,
      "loss": 2.1261,
      "step": 74220
    },
    {
      "epoch": 0.37115,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018960301507537684,
      "loss": 2.1525,
      "step": 74230
    },
    {
      "epoch": 0.3712,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018958793969849245,
      "loss": 2.0785,
      "step": 74240
    },
    {
      "epoch": 0.37125,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000189572864321608,
      "loss": 2.1222,
      "step": 74250
    },
    {
      "epoch": 0.3713,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001895577889447236,
      "loss": 2.0506,
      "step": 74260
    },
    {
      "epoch": 0.37135,
      "grad_norm": 1.859375,
      "learning_rate": 0.00018954271356783918,
      "loss": 2.1312,
      "step": 74270
    },
    {
      "epoch": 0.3714,
      "grad_norm": 1.78125,
      "learning_rate": 0.00018952763819095474,
      "loss": 2.1224,
      "step": 74280
    },
    {
      "epoch": 0.37145,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018951256281407033,
      "loss": 2.0859,
      "step": 74290
    },
    {
      "epoch": 0.3715,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018949748743718592,
      "loss": 2.1328,
      "step": 74300
    },
    {
      "epoch": 0.37155,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001894824120603015,
      "loss": 2.1402,
      "step": 74310
    },
    {
      "epoch": 0.3716,
      "grad_norm": 1.75,
      "learning_rate": 0.00018946733668341706,
      "loss": 2.0964,
      "step": 74320
    },
    {
      "epoch": 0.37165,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018945226130653265,
      "loss": 2.1321,
      "step": 74330
    },
    {
      "epoch": 0.3717,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00018943718592964823,
      "loss": 2.1403,
      "step": 74340
    },
    {
      "epoch": 0.37175,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001894221105527638,
      "loss": 2.072,
      "step": 74350
    },
    {
      "epoch": 0.3718,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001894070351758794,
      "loss": 2.1616,
      "step": 74360
    },
    {
      "epoch": 0.37185,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018939195979899496,
      "loss": 2.0873,
      "step": 74370
    },
    {
      "epoch": 0.3719,
      "grad_norm": 1.703125,
      "learning_rate": 0.00018937688442211052,
      "loss": 2.0934,
      "step": 74380
    },
    {
      "epoch": 0.37195,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001893618090452261,
      "loss": 2.2023,
      "step": 74390
    },
    {
      "epoch": 0.372,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001893467336683417,
      "loss": 2.0912,
      "step": 74400
    },
    {
      "epoch": 0.37205,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018933165829145725,
      "loss": 2.1545,
      "step": 74410
    },
    {
      "epoch": 0.3721,
      "grad_norm": 1.75,
      "learning_rate": 0.00018931658291457284,
      "loss": 2.0811,
      "step": 74420
    },
    {
      "epoch": 0.37215,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018930150753768843,
      "loss": 2.0548,
      "step": 74430
    },
    {
      "epoch": 0.3722,
      "grad_norm": 2.046875,
      "learning_rate": 0.000189286432160804,
      "loss": 2.1233,
      "step": 74440
    },
    {
      "epoch": 0.37225,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018927135678391957,
      "loss": 2.0994,
      "step": 74450
    },
    {
      "epoch": 0.3723,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018925628140703516,
      "loss": 2.0556,
      "step": 74460
    },
    {
      "epoch": 0.37235,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018924120603015074,
      "loss": 2.1139,
      "step": 74470
    },
    {
      "epoch": 0.3724,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001892261306532663,
      "loss": 2.0775,
      "step": 74480
    },
    {
      "epoch": 0.37245,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00018921105527638192,
      "loss": 2.1507,
      "step": 74490
    },
    {
      "epoch": 0.3725,
      "grad_norm": 1.875,
      "learning_rate": 0.00018919597989949748,
      "loss": 2.1568,
      "step": 74500
    },
    {
      "epoch": 0.37255,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018918090452261303,
      "loss": 2.1514,
      "step": 74510
    },
    {
      "epoch": 0.3726,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018916582914572865,
      "loss": 2.1527,
      "step": 74520
    },
    {
      "epoch": 0.37265,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001891507537688442,
      "loss": 2.1664,
      "step": 74530
    },
    {
      "epoch": 0.3727,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00018913567839195977,
      "loss": 2.0949,
      "step": 74540
    },
    {
      "epoch": 0.37275,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00018912060301507535,
      "loss": 2.1784,
      "step": 74550
    },
    {
      "epoch": 0.3728,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018910552763819094,
      "loss": 2.077,
      "step": 74560
    },
    {
      "epoch": 0.37285,
      "grad_norm": 1.859375,
      "learning_rate": 0.00018909045226130652,
      "loss": 2.1199,
      "step": 74570
    },
    {
      "epoch": 0.3729,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00018907537688442208,
      "loss": 2.1203,
      "step": 74580
    },
    {
      "epoch": 0.37295,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00018906030150753767,
      "loss": 2.0744,
      "step": 74590
    },
    {
      "epoch": 0.373,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018904522613065325,
      "loss": 2.0908,
      "step": 74600
    },
    {
      "epoch": 0.37305,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018903015075376881,
      "loss": 2.1139,
      "step": 74610
    },
    {
      "epoch": 0.3731,
      "grad_norm": 2.078125,
      "learning_rate": 0.00018901507537688443,
      "loss": 2.098,
      "step": 74620
    },
    {
      "epoch": 0.37315,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018899999999999999,
      "loss": 2.1151,
      "step": 74630
    },
    {
      "epoch": 0.3732,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018898492462311555,
      "loss": 2.1072,
      "step": 74640
    },
    {
      "epoch": 0.37325,
      "grad_norm": 1.6015625,
      "learning_rate": 0.00018896984924623116,
      "loss": 2.0775,
      "step": 74650
    },
    {
      "epoch": 0.3733,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018895477386934672,
      "loss": 2.1042,
      "step": 74660
    },
    {
      "epoch": 0.37335,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018893969849246228,
      "loss": 2.1299,
      "step": 74670
    },
    {
      "epoch": 0.3734,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001889246231155779,
      "loss": 2.1263,
      "step": 74680
    },
    {
      "epoch": 0.37345,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018890954773869345,
      "loss": 2.1154,
      "step": 74690
    },
    {
      "epoch": 0.3735,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00018889447236180903,
      "loss": 2.1428,
      "step": 74700
    },
    {
      "epoch": 0.37355,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001888793969849246,
      "loss": 2.1203,
      "step": 74710
    },
    {
      "epoch": 0.3736,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00018886432160804018,
      "loss": 2.0726,
      "step": 74720
    },
    {
      "epoch": 0.37365,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018884924623115577,
      "loss": 2.0437,
      "step": 74730
    },
    {
      "epoch": 0.3737,
      "grad_norm": 1.671875,
      "learning_rate": 0.00018883417085427132,
      "loss": 2.0761,
      "step": 74740
    },
    {
      "epoch": 0.37375,
      "grad_norm": 1.6875,
      "learning_rate": 0.00018881909547738694,
      "loss": 2.1186,
      "step": 74750
    },
    {
      "epoch": 0.3738,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001888040201005025,
      "loss": 2.1111,
      "step": 74760
    },
    {
      "epoch": 0.37385,
      "grad_norm": 1.96875,
      "learning_rate": 0.00018878894472361806,
      "loss": 2.1001,
      "step": 74770
    },
    {
      "epoch": 0.3739,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00018877386934673367,
      "loss": 2.0897,
      "step": 74780
    },
    {
      "epoch": 0.37395,
      "grad_norm": 2.0,
      "learning_rate": 0.00018875879396984923,
      "loss": 2.163,
      "step": 74790
    },
    {
      "epoch": 0.374,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001887437185929648,
      "loss": 2.1152,
      "step": 74800
    },
    {
      "epoch": 0.37405,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001887286432160804,
      "loss": 2.0853,
      "step": 74810
    },
    {
      "epoch": 0.3741,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018871356783919596,
      "loss": 2.106,
      "step": 74820
    },
    {
      "epoch": 0.37415,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018869849246231155,
      "loss": 2.1417,
      "step": 74830
    },
    {
      "epoch": 0.3742,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00018868341708542713,
      "loss": 2.146,
      "step": 74840
    },
    {
      "epoch": 0.37425,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001886683417085427,
      "loss": 2.0671,
      "step": 74850
    },
    {
      "epoch": 0.3743,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018865326633165828,
      "loss": 2.1657,
      "step": 74860
    },
    {
      "epoch": 0.37435,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018863819095477384,
      "loss": 2.0479,
      "step": 74870
    },
    {
      "epoch": 0.3744,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018862311557788945,
      "loss": 2.1342,
      "step": 74880
    },
    {
      "epoch": 0.37445,
      "grad_norm": 1.734375,
      "learning_rate": 0.000188608040201005,
      "loss": 2.1238,
      "step": 74890
    },
    {
      "epoch": 0.3745,
      "grad_norm": 1.78125,
      "learning_rate": 0.00018859296482412057,
      "loss": 2.1054,
      "step": 74900
    },
    {
      "epoch": 0.37455,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00018857788944723618,
      "loss": 2.148,
      "step": 74910
    },
    {
      "epoch": 0.3746,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018856281407035174,
      "loss": 2.1727,
      "step": 74920
    },
    {
      "epoch": 0.37465,
      "grad_norm": 1.71875,
      "learning_rate": 0.0001885477386934673,
      "loss": 2.1083,
      "step": 74930
    },
    {
      "epoch": 0.3747,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001885326633165829,
      "loss": 2.0965,
      "step": 74940
    },
    {
      "epoch": 0.37475,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018851758793969847,
      "loss": 2.0728,
      "step": 74950
    },
    {
      "epoch": 0.3748,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018850251256281406,
      "loss": 2.0686,
      "step": 74960
    },
    {
      "epoch": 0.37485,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018848743718592964,
      "loss": 2.1453,
      "step": 74970
    },
    {
      "epoch": 0.3749,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001884723618090452,
      "loss": 2.0774,
      "step": 74980
    },
    {
      "epoch": 0.37495,
      "grad_norm": 1.6484375,
      "learning_rate": 0.0001884572864321608,
      "loss": 2.1224,
      "step": 74990
    },
    {
      "epoch": 0.375,
      "grad_norm": 1.765625,
      "learning_rate": 0.00018844221105527637,
      "loss": 2.0506,
      "step": 75000
    },
    {
      "epoch": 0.37505,
      "grad_norm": 2.0,
      "learning_rate": 0.00018842713567839196,
      "loss": 2.1246,
      "step": 75010
    },
    {
      "epoch": 0.3751,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018841206030150752,
      "loss": 2.1227,
      "step": 75020
    },
    {
      "epoch": 0.37515,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00018839698492462308,
      "loss": 2.0622,
      "step": 75030
    },
    {
      "epoch": 0.3752,
      "grad_norm": 1.75,
      "learning_rate": 0.0001883819095477387,
      "loss": 2.0805,
      "step": 75040
    },
    {
      "epoch": 0.37525,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018836683417085425,
      "loss": 2.1332,
      "step": 75050
    },
    {
      "epoch": 0.3753,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0001883517587939698,
      "loss": 2.0752,
      "step": 75060
    },
    {
      "epoch": 0.37535,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018833668341708542,
      "loss": 2.0816,
      "step": 75070
    },
    {
      "epoch": 0.3754,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018832160804020098,
      "loss": 2.1363,
      "step": 75080
    },
    {
      "epoch": 0.37545,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018830653266331657,
      "loss": 2.0738,
      "step": 75090
    },
    {
      "epoch": 0.3755,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018829145728643215,
      "loss": 2.0858,
      "step": 75100
    },
    {
      "epoch": 0.37555,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001882763819095477,
      "loss": 2.1065,
      "step": 75110
    },
    {
      "epoch": 0.3756,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001882613065326633,
      "loss": 2.0942,
      "step": 75120
    },
    {
      "epoch": 0.37565,
      "grad_norm": 1.984375,
      "learning_rate": 0.00018824623115577888,
      "loss": 2.1182,
      "step": 75130
    },
    {
      "epoch": 0.3757,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018823115577889447,
      "loss": 2.1333,
      "step": 75140
    },
    {
      "epoch": 0.37575,
      "grad_norm": 1.859375,
      "learning_rate": 0.00018821608040201003,
      "loss": 2.1246,
      "step": 75150
    },
    {
      "epoch": 0.3758,
      "grad_norm": 2.140625,
      "learning_rate": 0.0001882010050251256,
      "loss": 2.1832,
      "step": 75160
    },
    {
      "epoch": 0.37585,
      "grad_norm": 1.78125,
      "learning_rate": 0.0001881859296482412,
      "loss": 2.0776,
      "step": 75170
    },
    {
      "epoch": 0.3759,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018817085427135676,
      "loss": 2.1265,
      "step": 75180
    },
    {
      "epoch": 0.37595,
      "grad_norm": 1.78125,
      "learning_rate": 0.00018815577889447232,
      "loss": 2.1292,
      "step": 75190
    },
    {
      "epoch": 0.376,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018814070351758793,
      "loss": 2.1154,
      "step": 75200
    },
    {
      "epoch": 0.37605,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001881256281407035,
      "loss": 2.1282,
      "step": 75210
    },
    {
      "epoch": 0.3761,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018811055276381908,
      "loss": 2.1327,
      "step": 75220
    },
    {
      "epoch": 0.37615,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018809547738693466,
      "loss": 2.0831,
      "step": 75230
    },
    {
      "epoch": 0.3762,
      "grad_norm": 2.109375,
      "learning_rate": 0.00018808040201005022,
      "loss": 2.1191,
      "step": 75240
    },
    {
      "epoch": 0.37625,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001880653266331658,
      "loss": 2.15,
      "step": 75250
    },
    {
      "epoch": 0.3763,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001880502512562814,
      "loss": 2.1014,
      "step": 75260
    },
    {
      "epoch": 0.37635,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018803517587939698,
      "loss": 2.1414,
      "step": 75270
    },
    {
      "epoch": 0.3764,
      "grad_norm": 2.140625,
      "learning_rate": 0.00018802010050251254,
      "loss": 2.1244,
      "step": 75280
    },
    {
      "epoch": 0.37645,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018800502512562813,
      "loss": 2.1755,
      "step": 75290
    },
    {
      "epoch": 0.3765,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001879899497487437,
      "loss": 2.1564,
      "step": 75300
    },
    {
      "epoch": 0.37655,
      "grad_norm": 2.078125,
      "learning_rate": 0.00018797487437185927,
      "loss": 2.12,
      "step": 75310
    },
    {
      "epoch": 0.3766,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018795979899497483,
      "loss": 2.1259,
      "step": 75320
    },
    {
      "epoch": 0.37665,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018794472361809044,
      "loss": 2.0927,
      "step": 75330
    },
    {
      "epoch": 0.3767,
      "grad_norm": 2.015625,
      "learning_rate": 0.000187929648241206,
      "loss": 2.0889,
      "step": 75340
    },
    {
      "epoch": 0.37675,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001879145728643216,
      "loss": 2.1896,
      "step": 75350
    },
    {
      "epoch": 0.3768,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018789949748743718,
      "loss": 2.1438,
      "step": 75360
    },
    {
      "epoch": 0.37685,
      "grad_norm": 1.734375,
      "learning_rate": 0.00018788442211055273,
      "loss": 2.1372,
      "step": 75370
    },
    {
      "epoch": 0.3769,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00018786934673366832,
      "loss": 2.0684,
      "step": 75380
    },
    {
      "epoch": 0.37695,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001878542713567839,
      "loss": 2.0811,
      "step": 75390
    },
    {
      "epoch": 0.377,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001878391959798995,
      "loss": 2.1176,
      "step": 75400
    },
    {
      "epoch": 0.37705,
      "grad_norm": 1.875,
      "learning_rate": 0.00018782412060301505,
      "loss": 2.0818,
      "step": 75410
    },
    {
      "epoch": 0.3771,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018780904522613064,
      "loss": 2.1396,
      "step": 75420
    },
    {
      "epoch": 0.37715,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00018779396984924622,
      "loss": 2.0738,
      "step": 75430
    },
    {
      "epoch": 0.3772,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018777889447236178,
      "loss": 2.1242,
      "step": 75440
    },
    {
      "epoch": 0.37725,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0001877638190954774,
      "loss": 2.1279,
      "step": 75450
    },
    {
      "epoch": 0.3773,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018774874371859296,
      "loss": 2.0621,
      "step": 75460
    },
    {
      "epoch": 0.37735,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018773366834170851,
      "loss": 2.0876,
      "step": 75470
    },
    {
      "epoch": 0.3774,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001877185929648241,
      "loss": 2.1473,
      "step": 75480
    },
    {
      "epoch": 0.37745,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018770351758793969,
      "loss": 2.1095,
      "step": 75490
    },
    {
      "epoch": 0.3775,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018768844221105525,
      "loss": 2.1079,
      "step": 75500
    },
    {
      "epoch": 0.37755,
      "grad_norm": 1.75,
      "learning_rate": 0.00018767336683417083,
      "loss": 2.132,
      "step": 75510
    },
    {
      "epoch": 0.3776,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018765829145728642,
      "loss": 2.0989,
      "step": 75520
    },
    {
      "epoch": 0.37765,
      "grad_norm": 1.9921875,
      "learning_rate": 0.000187643216080402,
      "loss": 2.1011,
      "step": 75530
    },
    {
      "epoch": 0.3777,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018762814070351756,
      "loss": 2.1138,
      "step": 75540
    },
    {
      "epoch": 0.37775,
      "grad_norm": 1.96875,
      "learning_rate": 0.00018761306532663315,
      "loss": 2.0768,
      "step": 75550
    },
    {
      "epoch": 0.3778,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018759798994974873,
      "loss": 2.0765,
      "step": 75560
    },
    {
      "epoch": 0.37785,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001875829145728643,
      "loss": 2.1481,
      "step": 75570
    },
    {
      "epoch": 0.3779,
      "grad_norm": 2.125,
      "learning_rate": 0.0001875678391959799,
      "loss": 2.14,
      "step": 75580
    },
    {
      "epoch": 0.37795,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018755276381909547,
      "loss": 2.0728,
      "step": 75590
    },
    {
      "epoch": 0.378,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018753768844221103,
      "loss": 2.0556,
      "step": 75600
    },
    {
      "epoch": 0.37805,
      "grad_norm": 1.984375,
      "learning_rate": 0.00018752261306532664,
      "loss": 2.1389,
      "step": 75610
    },
    {
      "epoch": 0.3781,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001875075376884422,
      "loss": 2.0819,
      "step": 75620
    },
    {
      "epoch": 0.37815,
      "grad_norm": 2.3125,
      "learning_rate": 0.00018749246231155776,
      "loss": 2.0439,
      "step": 75630
    },
    {
      "epoch": 0.3782,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018747738693467334,
      "loss": 2.1074,
      "step": 75640
    },
    {
      "epoch": 0.37825,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00018746231155778893,
      "loss": 2.1166,
      "step": 75650
    },
    {
      "epoch": 0.3783,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00018744723618090451,
      "loss": 2.0534,
      "step": 75660
    },
    {
      "epoch": 0.37835,
      "grad_norm": 2.046875,
      "learning_rate": 0.00018743216080402007,
      "loss": 2.1279,
      "step": 75670
    },
    {
      "epoch": 0.3784,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00018741708542713566,
      "loss": 2.1167,
      "step": 75680
    },
    {
      "epoch": 0.37845,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00018740201005025125,
      "loss": 2.0744,
      "step": 75690
    },
    {
      "epoch": 0.3785,
      "grad_norm": 2.125,
      "learning_rate": 0.0001873869346733668,
      "loss": 2.1228,
      "step": 75700
    },
    {
      "epoch": 0.37855,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00018737185929648242,
      "loss": 2.1269,
      "step": 75710
    },
    {
      "epoch": 0.3786,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00018735678391959798,
      "loss": 2.0917,
      "step": 75720
    },
    {
      "epoch": 0.37865,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018734170854271354,
      "loss": 2.099,
      "step": 75730
    },
    {
      "epoch": 0.3787,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018732663316582915,
      "loss": 2.1164,
      "step": 75740
    },
    {
      "epoch": 0.37875,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0001873115577889447,
      "loss": 2.1107,
      "step": 75750
    },
    {
      "epoch": 0.3788,
      "grad_norm": 1.9375,
      "learning_rate": 0.00018729648241206027,
      "loss": 2.113,
      "step": 75760
    },
    {
      "epoch": 0.37885,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018728140703517588,
      "loss": 2.0581,
      "step": 75770
    },
    {
      "epoch": 0.3789,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00018726633165829144,
      "loss": 2.0856,
      "step": 75780
    },
    {
      "epoch": 0.37895,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00018725125628140703,
      "loss": 2.1081,
      "step": 75790
    },
    {
      "epoch": 0.379,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018723618090452258,
      "loss": 2.0966,
      "step": 75800
    },
    {
      "epoch": 0.37905,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018722110552763817,
      "loss": 2.0628,
      "step": 75810
    },
    {
      "epoch": 0.3791,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00018720603015075376,
      "loss": 2.0757,
      "step": 75820
    },
    {
      "epoch": 0.37915,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018719095477386932,
      "loss": 2.0992,
      "step": 75830
    },
    {
      "epoch": 0.3792,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018717587939698493,
      "loss": 2.1263,
      "step": 75840
    },
    {
      "epoch": 0.37925,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001871608040201005,
      "loss": 2.1126,
      "step": 75850
    },
    {
      "epoch": 0.3793,
      "grad_norm": 1.6875,
      "learning_rate": 0.00018714572864321605,
      "loss": 2.1275,
      "step": 75860
    },
    {
      "epoch": 0.37935,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018713065326633166,
      "loss": 2.1067,
      "step": 75870
    },
    {
      "epoch": 0.3794,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018711557788944722,
      "loss": 2.1327,
      "step": 75880
    },
    {
      "epoch": 0.37945,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00018710050251256278,
      "loss": 2.1189,
      "step": 75890
    },
    {
      "epoch": 0.3795,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001870854271356784,
      "loss": 2.0929,
      "step": 75900
    },
    {
      "epoch": 0.37955,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00018707035175879395,
      "loss": 2.0685,
      "step": 75910
    },
    {
      "epoch": 0.3796,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018705527638190954,
      "loss": 2.0589,
      "step": 75920
    },
    {
      "epoch": 0.37965,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018704020100502512,
      "loss": 2.0726,
      "step": 75930
    },
    {
      "epoch": 0.3797,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00018702512562814068,
      "loss": 2.0755,
      "step": 75940
    },
    {
      "epoch": 0.37975,
      "grad_norm": 1.75,
      "learning_rate": 0.00018701005025125627,
      "loss": 2.1038,
      "step": 75950
    },
    {
      "epoch": 0.3798,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018699497487437183,
      "loss": 2.1256,
      "step": 75960
    },
    {
      "epoch": 0.37985,
      "grad_norm": 1.53125,
      "learning_rate": 0.00018697989949748744,
      "loss": 2.1087,
      "step": 75970
    },
    {
      "epoch": 0.3799,
      "grad_norm": 1.6640625,
      "learning_rate": 0.000186964824120603,
      "loss": 2.1025,
      "step": 75980
    },
    {
      "epoch": 0.37995,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018694974874371856,
      "loss": 2.1281,
      "step": 75990
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.640625,
      "learning_rate": 0.00018693467336683417,
      "loss": 2.1451,
      "step": 76000
    },
    {
      "epoch": 0.38,
      "eval_loss": 2.0888147354125977,
      "eval_runtime": 91.4617,
      "eval_samples_per_second": 27.334,
      "eval_steps_per_second": 0.437,
      "step": 76000
    },
    {
      "epoch": 0.38005,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018691959798994973,
      "loss": 2.0828,
      "step": 76010
    },
    {
      "epoch": 0.3801,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001869045226130653,
      "loss": 2.0695,
      "step": 76020
    },
    {
      "epoch": 0.38015,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001868894472361809,
      "loss": 2.1178,
      "step": 76030
    },
    {
      "epoch": 0.3802,
      "grad_norm": 2.203125,
      "learning_rate": 0.00018687437185929646,
      "loss": 2.1147,
      "step": 76040
    },
    {
      "epoch": 0.38025,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018685929648241205,
      "loss": 2.0921,
      "step": 76050
    },
    {
      "epoch": 0.3803,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018684422110552763,
      "loss": 2.0388,
      "step": 76060
    },
    {
      "epoch": 0.38035,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0001868291457286432,
      "loss": 2.0907,
      "step": 76070
    },
    {
      "epoch": 0.3804,
      "grad_norm": 1.875,
      "learning_rate": 0.00018681407035175878,
      "loss": 2.0899,
      "step": 76080
    },
    {
      "epoch": 0.38045,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018679899497487436,
      "loss": 2.0802,
      "step": 76090
    },
    {
      "epoch": 0.3805,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018678391959798995,
      "loss": 2.1175,
      "step": 76100
    },
    {
      "epoch": 0.38055,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001867688442211055,
      "loss": 2.0847,
      "step": 76110
    },
    {
      "epoch": 0.3806,
      "grad_norm": 2.078125,
      "learning_rate": 0.00018675376884422107,
      "loss": 2.1552,
      "step": 76120
    },
    {
      "epoch": 0.38065,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018673869346733668,
      "loss": 2.0267,
      "step": 76130
    },
    {
      "epoch": 0.3807,
      "grad_norm": 1.734375,
      "learning_rate": 0.00018672361809045224,
      "loss": 2.1334,
      "step": 76140
    },
    {
      "epoch": 0.38075,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001867085427135678,
      "loss": 2.0829,
      "step": 76150
    },
    {
      "epoch": 0.3808,
      "grad_norm": 1.6015625,
      "learning_rate": 0.0001866934673366834,
      "loss": 2.0674,
      "step": 76160
    },
    {
      "epoch": 0.38085,
      "grad_norm": 1.859375,
      "learning_rate": 0.00018667839195979897,
      "loss": 2.1476,
      "step": 76170
    },
    {
      "epoch": 0.3809,
      "grad_norm": 2.203125,
      "learning_rate": 0.00018666331658291456,
      "loss": 2.1089,
      "step": 76180
    },
    {
      "epoch": 0.38095,
      "grad_norm": 1.875,
      "learning_rate": 0.00018664824120603014,
      "loss": 2.0551,
      "step": 76190
    },
    {
      "epoch": 0.381,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001866331658291457,
      "loss": 2.1301,
      "step": 76200
    },
    {
      "epoch": 0.38105,
      "grad_norm": 1.703125,
      "learning_rate": 0.0001866180904522613,
      "loss": 2.1297,
      "step": 76210
    },
    {
      "epoch": 0.3811,
      "grad_norm": 1.5234375,
      "learning_rate": 0.00018660301507537688,
      "loss": 2.156,
      "step": 76220
    },
    {
      "epoch": 0.38115,
      "grad_norm": 1.703125,
      "learning_rate": 0.00018658793969849246,
      "loss": 2.1682,
      "step": 76230
    },
    {
      "epoch": 0.3812,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018657286432160802,
      "loss": 2.1398,
      "step": 76240
    },
    {
      "epoch": 0.38125,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00018655778894472358,
      "loss": 2.1347,
      "step": 76250
    },
    {
      "epoch": 0.3813,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001865427135678392,
      "loss": 2.088,
      "step": 76260
    },
    {
      "epoch": 0.38135,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018652763819095475,
      "loss": 2.0882,
      "step": 76270
    },
    {
      "epoch": 0.3814,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001865125628140703,
      "loss": 2.1131,
      "step": 76280
    },
    {
      "epoch": 0.38145,
      "grad_norm": 2.28125,
      "learning_rate": 0.00018649748743718592,
      "loss": 2.1213,
      "step": 76290
    },
    {
      "epoch": 0.3815,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018648241206030148,
      "loss": 2.1383,
      "step": 76300
    },
    {
      "epoch": 0.38155,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018646733668341707,
      "loss": 2.1647,
      "step": 76310
    },
    {
      "epoch": 0.3816,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018645226130653266,
      "loss": 2.1212,
      "step": 76320
    },
    {
      "epoch": 0.38165,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018643718592964821,
      "loss": 2.1284,
      "step": 76330
    },
    {
      "epoch": 0.3817,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001864221105527638,
      "loss": 2.1063,
      "step": 76340
    },
    {
      "epoch": 0.38175,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001864070351758794,
      "loss": 2.0326,
      "step": 76350
    },
    {
      "epoch": 0.3818,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018639195979899497,
      "loss": 2.1348,
      "step": 76360
    },
    {
      "epoch": 0.38185,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018637688442211053,
      "loss": 2.1011,
      "step": 76370
    },
    {
      "epoch": 0.3819,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018636180904522612,
      "loss": 2.1166,
      "step": 76380
    },
    {
      "epoch": 0.38195,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001863467336683417,
      "loss": 2.133,
      "step": 76390
    },
    {
      "epoch": 0.382,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018633165829145726,
      "loss": 2.1109,
      "step": 76400
    },
    {
      "epoch": 0.38205,
      "grad_norm": 2.0,
      "learning_rate": 0.00018631658291457282,
      "loss": 2.1304,
      "step": 76410
    },
    {
      "epoch": 0.3821,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018630150753768844,
      "loss": 2.1593,
      "step": 76420
    },
    {
      "epoch": 0.38215,
      "grad_norm": 1.84375,
      "learning_rate": 0.000186286432160804,
      "loss": 2.1256,
      "step": 76430
    },
    {
      "epoch": 0.3822,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00018627135678391958,
      "loss": 2.1453,
      "step": 76440
    },
    {
      "epoch": 0.38225,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018625628140703517,
      "loss": 2.0878,
      "step": 76450
    },
    {
      "epoch": 0.3823,
      "grad_norm": 1.78125,
      "learning_rate": 0.00018624120603015073,
      "loss": 2.1271,
      "step": 76460
    },
    {
      "epoch": 0.38235,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001862261306532663,
      "loss": 2.0776,
      "step": 76470
    },
    {
      "epoch": 0.3824,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001862110552763819,
      "loss": 2.0646,
      "step": 76480
    },
    {
      "epoch": 0.38245,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018619597989949748,
      "loss": 2.0429,
      "step": 76490
    },
    {
      "epoch": 0.3825,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00018618090452261304,
      "loss": 2.0716,
      "step": 76500
    },
    {
      "epoch": 0.38255,
      "grad_norm": 1.640625,
      "learning_rate": 0.00018616582914572863,
      "loss": 2.118,
      "step": 76510
    },
    {
      "epoch": 0.3826,
      "grad_norm": 2.078125,
      "learning_rate": 0.00018615075376884421,
      "loss": 2.0552,
      "step": 76520
    },
    {
      "epoch": 0.38265,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018613567839195977,
      "loss": 2.1021,
      "step": 76530
    },
    {
      "epoch": 0.3827,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001861206030150754,
      "loss": 2.1195,
      "step": 76540
    },
    {
      "epoch": 0.38275,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018610552763819095,
      "loss": 2.0686,
      "step": 76550
    },
    {
      "epoch": 0.3828,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001860904522613065,
      "loss": 2.0797,
      "step": 76560
    },
    {
      "epoch": 0.38285,
      "grad_norm": 1.875,
      "learning_rate": 0.0001860753768844221,
      "loss": 2.151,
      "step": 76570
    },
    {
      "epoch": 0.3829,
      "grad_norm": 2.203125,
      "learning_rate": 0.00018606030150753768,
      "loss": 2.1011,
      "step": 76580
    },
    {
      "epoch": 0.38295,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00018604522613065324,
      "loss": 2.0512,
      "step": 76590
    },
    {
      "epoch": 0.383,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018603015075376882,
      "loss": 2.0958,
      "step": 76600
    },
    {
      "epoch": 0.38305,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001860150753768844,
      "loss": 2.0533,
      "step": 76610
    },
    {
      "epoch": 0.3831,
      "grad_norm": 2.046875,
      "learning_rate": 0.000186,
      "loss": 2.1106,
      "step": 76620
    },
    {
      "epoch": 0.38315,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018598492462311555,
      "loss": 2.0866,
      "step": 76630
    },
    {
      "epoch": 0.3832,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018596984924623114,
      "loss": 2.0845,
      "step": 76640
    },
    {
      "epoch": 0.38325,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018595477386934673,
      "loss": 2.0721,
      "step": 76650
    },
    {
      "epoch": 0.3833,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018593969849246228,
      "loss": 2.0494,
      "step": 76660
    },
    {
      "epoch": 0.38335,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001859246231155779,
      "loss": 2.1065,
      "step": 76670
    },
    {
      "epoch": 0.3834,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018590954773869346,
      "loss": 2.0847,
      "step": 76680
    },
    {
      "epoch": 0.38345,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018589447236180902,
      "loss": 2.0956,
      "step": 76690
    },
    {
      "epoch": 0.3835,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018587939698492463,
      "loss": 2.0589,
      "step": 76700
    },
    {
      "epoch": 0.38355,
      "grad_norm": 1.875,
      "learning_rate": 0.0001858643216080402,
      "loss": 2.0613,
      "step": 76710
    },
    {
      "epoch": 0.3836,
      "grad_norm": 2.078125,
      "learning_rate": 0.00018584924623115575,
      "loss": 2.1038,
      "step": 76720
    },
    {
      "epoch": 0.38365,
      "grad_norm": 1.734375,
      "learning_rate": 0.00018583417085427133,
      "loss": 2.0809,
      "step": 76730
    },
    {
      "epoch": 0.3837,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00018581909547738692,
      "loss": 2.0751,
      "step": 76740
    },
    {
      "epoch": 0.38375,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001858040201005025,
      "loss": 2.078,
      "step": 76750
    },
    {
      "epoch": 0.3838,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018578894472361806,
      "loss": 2.0648,
      "step": 76760
    },
    {
      "epoch": 0.38385,
      "grad_norm": 1.859375,
      "learning_rate": 0.00018577386934673365,
      "loss": 2.0924,
      "step": 76770
    },
    {
      "epoch": 0.3839,
      "grad_norm": 2.1875,
      "learning_rate": 0.00018575879396984924,
      "loss": 2.0818,
      "step": 76780
    },
    {
      "epoch": 0.38395,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001857437185929648,
      "loss": 2.1203,
      "step": 76790
    },
    {
      "epoch": 0.384,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001857286432160804,
      "loss": 2.0784,
      "step": 76800
    },
    {
      "epoch": 0.38405,
      "grad_norm": 2.140625,
      "learning_rate": 0.00018571356783919597,
      "loss": 2.1003,
      "step": 76810
    },
    {
      "epoch": 0.3841,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018569849246231153,
      "loss": 2.1081,
      "step": 76820
    },
    {
      "epoch": 0.38415,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018568341708542714,
      "loss": 2.1077,
      "step": 76830
    },
    {
      "epoch": 0.3842,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001856683417085427,
      "loss": 2.0761,
      "step": 76840
    },
    {
      "epoch": 0.38425,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018565326633165826,
      "loss": 2.081,
      "step": 76850
    },
    {
      "epoch": 0.3843,
      "grad_norm": 1.71875,
      "learning_rate": 0.00018563819095477387,
      "loss": 2.0754,
      "step": 76860
    },
    {
      "epoch": 0.38435,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018562311557788943,
      "loss": 2.079,
      "step": 76870
    },
    {
      "epoch": 0.3844,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018560804020100502,
      "loss": 2.0597,
      "step": 76880
    },
    {
      "epoch": 0.38445,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00018559296482412058,
      "loss": 2.0365,
      "step": 76890
    },
    {
      "epoch": 0.3845,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018557788944723616,
      "loss": 2.0749,
      "step": 76900
    },
    {
      "epoch": 0.38455,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00018556281407035175,
      "loss": 2.0691,
      "step": 76910
    },
    {
      "epoch": 0.3846,
      "grad_norm": 2.203125,
      "learning_rate": 0.0001855477386934673,
      "loss": 2.1253,
      "step": 76920
    },
    {
      "epoch": 0.38465,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018553266331658292,
      "loss": 2.1219,
      "step": 76930
    },
    {
      "epoch": 0.3847,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00018551758793969848,
      "loss": 2.1177,
      "step": 76940
    },
    {
      "epoch": 0.38475,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018550251256281404,
      "loss": 2.0512,
      "step": 76950
    },
    {
      "epoch": 0.3848,
      "grad_norm": 1.9375,
      "learning_rate": 0.00018548743718592965,
      "loss": 2.0448,
      "step": 76960
    },
    {
      "epoch": 0.38485,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001854723618090452,
      "loss": 2.1461,
      "step": 76970
    },
    {
      "epoch": 0.3849,
      "grad_norm": 1.78125,
      "learning_rate": 0.00018545728643216077,
      "loss": 1.9919,
      "step": 76980
    },
    {
      "epoch": 0.38495,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00018544221105527638,
      "loss": 2.1098,
      "step": 76990
    },
    {
      "epoch": 0.385,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018542713567839194,
      "loss": 2.1362,
      "step": 77000
    },
    {
      "epoch": 0.38505,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018541206030150753,
      "loss": 2.0457,
      "step": 77010
    },
    {
      "epoch": 0.3851,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001853969849246231,
      "loss": 2.0725,
      "step": 77020
    },
    {
      "epoch": 0.38515,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018538190954773867,
      "loss": 2.0641,
      "step": 77030
    },
    {
      "epoch": 0.3852,
      "grad_norm": 1.671875,
      "learning_rate": 0.00018536683417085426,
      "loss": 2.0639,
      "step": 77040
    },
    {
      "epoch": 0.38525,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018535175879396982,
      "loss": 2.0056,
      "step": 77050
    },
    {
      "epoch": 0.3853,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018533668341708543,
      "loss": 2.0973,
      "step": 77060
    },
    {
      "epoch": 0.38535,
      "grad_norm": 1.84375,
      "learning_rate": 0.000185321608040201,
      "loss": 2.0917,
      "step": 77070
    },
    {
      "epoch": 0.3854,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018530653266331655,
      "loss": 2.0654,
      "step": 77080
    },
    {
      "epoch": 0.38545,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018529145728643216,
      "loss": 2.107,
      "step": 77090
    },
    {
      "epoch": 0.3855,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00018527638190954772,
      "loss": 2.0544,
      "step": 77100
    },
    {
      "epoch": 0.38555,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018526130653266328,
      "loss": 2.0894,
      "step": 77110
    },
    {
      "epoch": 0.3856,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001852462311557789,
      "loss": 2.1114,
      "step": 77120
    },
    {
      "epoch": 0.38565,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018523115577889445,
      "loss": 2.0649,
      "step": 77130
    },
    {
      "epoch": 0.3857,
      "grad_norm": 2.0,
      "learning_rate": 0.00018521608040201004,
      "loss": 2.0781,
      "step": 77140
    },
    {
      "epoch": 0.38575,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00018520100502512562,
      "loss": 2.034,
      "step": 77150
    },
    {
      "epoch": 0.3858,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018518592964824118,
      "loss": 2.0173,
      "step": 77160
    },
    {
      "epoch": 0.38585,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00018517085427135677,
      "loss": 2.1053,
      "step": 77170
    },
    {
      "epoch": 0.3859,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018515577889447236,
      "loss": 2.0887,
      "step": 77180
    },
    {
      "epoch": 0.38595,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018514070351758794,
      "loss": 2.104,
      "step": 77190
    },
    {
      "epoch": 0.386,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001851256281407035,
      "loss": 2.0786,
      "step": 77200
    },
    {
      "epoch": 0.38605,
      "grad_norm": 1.78125,
      "learning_rate": 0.00018511055276381906,
      "loss": 2.1069,
      "step": 77210
    },
    {
      "epoch": 0.3861,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018509547738693467,
      "loss": 2.1007,
      "step": 77220
    },
    {
      "epoch": 0.38615,
      "grad_norm": 1.78125,
      "learning_rate": 0.00018508040201005023,
      "loss": 2.0877,
      "step": 77230
    },
    {
      "epoch": 0.3862,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001850653266331658,
      "loss": 2.1081,
      "step": 77240
    },
    {
      "epoch": 0.38625,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001850502512562814,
      "loss": 2.0669,
      "step": 77250
    },
    {
      "epoch": 0.3863,
      "grad_norm": 2.1875,
      "learning_rate": 0.00018503517587939696,
      "loss": 2.0523,
      "step": 77260
    },
    {
      "epoch": 0.38635,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018502010050251255,
      "loss": 2.0062,
      "step": 77270
    },
    {
      "epoch": 0.3864,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018500502512562814,
      "loss": 2.0816,
      "step": 77280
    },
    {
      "epoch": 0.38645,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001849899497487437,
      "loss": 2.066,
      "step": 77290
    },
    {
      "epoch": 0.3865,
      "grad_norm": 1.734375,
      "learning_rate": 0.00018497487437185928,
      "loss": 2.0941,
      "step": 77300
    },
    {
      "epoch": 0.38655,
      "grad_norm": 2.109375,
      "learning_rate": 0.00018495979899497487,
      "loss": 2.0401,
      "step": 77310
    },
    {
      "epoch": 0.3866,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018494472361809045,
      "loss": 2.0985,
      "step": 77320
    },
    {
      "epoch": 0.38665,
      "grad_norm": 1.734375,
      "learning_rate": 0.000184929648241206,
      "loss": 2.0109,
      "step": 77330
    },
    {
      "epoch": 0.3867,
      "grad_norm": 1.78125,
      "learning_rate": 0.0001849145728643216,
      "loss": 2.0798,
      "step": 77340
    },
    {
      "epoch": 0.38675,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018489949748743718,
      "loss": 2.112,
      "step": 77350
    },
    {
      "epoch": 0.3868,
      "grad_norm": 1.734375,
      "learning_rate": 0.00018488442211055274,
      "loss": 2.0415,
      "step": 77360
    },
    {
      "epoch": 0.38685,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001848693467336683,
      "loss": 2.0642,
      "step": 77370
    },
    {
      "epoch": 0.3869,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018485427135678392,
      "loss": 2.1321,
      "step": 77380
    },
    {
      "epoch": 0.38695,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018483919597989947,
      "loss": 2.0659,
      "step": 77390
    },
    {
      "epoch": 0.387,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018482412060301506,
      "loss": 2.0991,
      "step": 77400
    },
    {
      "epoch": 0.38705,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018480904522613065,
      "loss": 2.1094,
      "step": 77410
    },
    {
      "epoch": 0.3871,
      "grad_norm": 2.125,
      "learning_rate": 0.0001847939698492462,
      "loss": 2.0753,
      "step": 77420
    },
    {
      "epoch": 0.38715,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001847788944723618,
      "loss": 2.0223,
      "step": 77430
    },
    {
      "epoch": 0.3872,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00018476381909547738,
      "loss": 2.1164,
      "step": 77440
    },
    {
      "epoch": 0.38725,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018474874371859296,
      "loss": 2.0852,
      "step": 77450
    },
    {
      "epoch": 0.3873,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018473366834170852,
      "loss": 2.0469,
      "step": 77460
    },
    {
      "epoch": 0.38735,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001847185929648241,
      "loss": 2.0699,
      "step": 77470
    },
    {
      "epoch": 0.3874,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001847035175879397,
      "loss": 2.0847,
      "step": 77480
    },
    {
      "epoch": 0.38745,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018468844221105525,
      "loss": 2.0739,
      "step": 77490
    },
    {
      "epoch": 0.3875,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001846733668341708,
      "loss": 2.0791,
      "step": 77500
    },
    {
      "epoch": 0.38755,
      "grad_norm": 1.75,
      "learning_rate": 0.00018465829145728643,
      "loss": 2.0833,
      "step": 77510
    },
    {
      "epoch": 0.3876,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018464321608040198,
      "loss": 2.1046,
      "step": 77520
    },
    {
      "epoch": 0.38765,
      "grad_norm": 2.15625,
      "learning_rate": 0.00018462814070351754,
      "loss": 2.0615,
      "step": 77530
    },
    {
      "epoch": 0.3877,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00018461306532663316,
      "loss": 2.1134,
      "step": 77540
    },
    {
      "epoch": 0.38775,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018459798994974872,
      "loss": 2.0938,
      "step": 77550
    },
    {
      "epoch": 0.3878,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001845829145728643,
      "loss": 2.0507,
      "step": 77560
    },
    {
      "epoch": 0.38785,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001845678391959799,
      "loss": 2.0428,
      "step": 77570
    },
    {
      "epoch": 0.3879,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018455276381909547,
      "loss": 2.0908,
      "step": 77580
    },
    {
      "epoch": 0.38795,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018453768844221103,
      "loss": 2.0645,
      "step": 77590
    },
    {
      "epoch": 0.388,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018452261306532662,
      "loss": 2.1232,
      "step": 77600
    },
    {
      "epoch": 0.38805,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001845075376884422,
      "loss": 2.1353,
      "step": 77610
    },
    {
      "epoch": 0.3881,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018449246231155776,
      "loss": 2.1062,
      "step": 77620
    },
    {
      "epoch": 0.38815,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018447738693467338,
      "loss": 2.0753,
      "step": 77630
    },
    {
      "epoch": 0.3882,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00018446231155778894,
      "loss": 2.1171,
      "step": 77640
    },
    {
      "epoch": 0.38825,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001844472361809045,
      "loss": 2.1021,
      "step": 77650
    },
    {
      "epoch": 0.3883,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018443216080402005,
      "loss": 2.1342,
      "step": 77660
    },
    {
      "epoch": 0.38835,
      "grad_norm": 1.5859375,
      "learning_rate": 0.00018441708542713567,
      "loss": 2.0567,
      "step": 77670
    },
    {
      "epoch": 0.3884,
      "grad_norm": 1.984375,
      "learning_rate": 0.00018440201005025123,
      "loss": 2.0991,
      "step": 77680
    },
    {
      "epoch": 0.38845,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001843869346733668,
      "loss": 2.1684,
      "step": 77690
    },
    {
      "epoch": 0.3885,
      "grad_norm": 1.78125,
      "learning_rate": 0.0001843718592964824,
      "loss": 2.0823,
      "step": 77700
    },
    {
      "epoch": 0.38855,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00018435678391959799,
      "loss": 2.0294,
      "step": 77710
    },
    {
      "epoch": 0.3886,
      "grad_norm": 1.703125,
      "learning_rate": 0.00018434170854271354,
      "loss": 2.1321,
      "step": 77720
    },
    {
      "epoch": 0.38865,
      "grad_norm": 1.734375,
      "learning_rate": 0.00018432663316582913,
      "loss": 2.0101,
      "step": 77730
    },
    {
      "epoch": 0.3887,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018431155778894472,
      "loss": 2.1017,
      "step": 77740
    },
    {
      "epoch": 0.38875,
      "grad_norm": 1.71875,
      "learning_rate": 0.00018429648241206028,
      "loss": 2.0962,
      "step": 77750
    },
    {
      "epoch": 0.3888,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001842814070351759,
      "loss": 2.0913,
      "step": 77760
    },
    {
      "epoch": 0.38885,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018426633165829145,
      "loss": 2.1008,
      "step": 77770
    },
    {
      "epoch": 0.3889,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000184251256281407,
      "loss": 2.0832,
      "step": 77780
    },
    {
      "epoch": 0.38895,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018423618090452262,
      "loss": 2.0565,
      "step": 77790
    },
    {
      "epoch": 0.389,
      "grad_norm": 2.125,
      "learning_rate": 0.00018422110552763818,
      "loss": 2.0893,
      "step": 77800
    },
    {
      "epoch": 0.38905,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018420603015075374,
      "loss": 2.0717,
      "step": 77810
    },
    {
      "epoch": 0.3891,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018419095477386932,
      "loss": 2.0571,
      "step": 77820
    },
    {
      "epoch": 0.38915,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001841758793969849,
      "loss": 2.1461,
      "step": 77830
    },
    {
      "epoch": 0.3892,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001841608040201005,
      "loss": 2.0405,
      "step": 77840
    },
    {
      "epoch": 0.38925,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018414572864321606,
      "loss": 2.0872,
      "step": 77850
    },
    {
      "epoch": 0.3893,
      "grad_norm": 1.71875,
      "learning_rate": 0.00018413065326633164,
      "loss": 2.0756,
      "step": 77860
    },
    {
      "epoch": 0.38935,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018411557788944723,
      "loss": 2.0467,
      "step": 77870
    },
    {
      "epoch": 0.3894,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001841005025125628,
      "loss": 2.0383,
      "step": 77880
    },
    {
      "epoch": 0.38945,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001840854271356784,
      "loss": 2.1668,
      "step": 77890
    },
    {
      "epoch": 0.3895,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018407035175879396,
      "loss": 2.1051,
      "step": 77900
    },
    {
      "epoch": 0.38955,
      "grad_norm": 2.078125,
      "learning_rate": 0.00018405527638190952,
      "loss": 2.0964,
      "step": 77910
    },
    {
      "epoch": 0.3896,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018404020100502513,
      "loss": 2.0415,
      "step": 77920
    },
    {
      "epoch": 0.38965,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001840251256281407,
      "loss": 2.0563,
      "step": 77930
    },
    {
      "epoch": 0.3897,
      "grad_norm": 1.75,
      "learning_rate": 0.00018401005025125625,
      "loss": 2.1078,
      "step": 77940
    },
    {
      "epoch": 0.38975,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018399497487437186,
      "loss": 2.0854,
      "step": 77950
    },
    {
      "epoch": 0.3898,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018397989949748742,
      "loss": 2.1339,
      "step": 77960
    },
    {
      "epoch": 0.38985,
      "grad_norm": 1.9296875,
      "learning_rate": 0.000183964824120603,
      "loss": 2.0884,
      "step": 77970
    },
    {
      "epoch": 0.3899,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018394974874371857,
      "loss": 2.0984,
      "step": 77980
    },
    {
      "epoch": 0.38995,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018393467336683415,
      "loss": 2.1061,
      "step": 77990
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018391959798994974,
      "loss": 2.0446,
      "step": 78000
    },
    {
      "epoch": 0.39,
      "eval_loss": NaN,
      "eval_runtime": 90.2489,
      "eval_samples_per_second": 27.701,
      "eval_steps_per_second": 0.443,
      "step": 78000
    },
    {
      "epoch": 0.39005,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001839045226130653,
      "loss": 2.0365,
      "step": 78010
    },
    {
      "epoch": 0.3901,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001838894472361809,
      "loss": 2.0488,
      "step": 78020
    },
    {
      "epoch": 0.39015,
      "grad_norm": 2.078125,
      "learning_rate": 0.00018387437185929647,
      "loss": 2.1142,
      "step": 78030
    },
    {
      "epoch": 0.3902,
      "grad_norm": 1.859375,
      "learning_rate": 0.00018385929648241203,
      "loss": 2.0994,
      "step": 78040
    },
    {
      "epoch": 0.39025,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018384422110552764,
      "loss": 2.069,
      "step": 78050
    },
    {
      "epoch": 0.3903,
      "grad_norm": 1.734375,
      "learning_rate": 0.0001838291457286432,
      "loss": 2.0511,
      "step": 78060
    },
    {
      "epoch": 0.39035,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018381407035175876,
      "loss": 2.0813,
      "step": 78070
    },
    {
      "epoch": 0.3904,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018379899497487437,
      "loss": 2.0436,
      "step": 78080
    },
    {
      "epoch": 0.39045,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018378391959798993,
      "loss": 2.0637,
      "step": 78090
    },
    {
      "epoch": 0.3905,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001837688442211055,
      "loss": 2.0573,
      "step": 78100
    },
    {
      "epoch": 0.39055,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001837537688442211,
      "loss": 2.0329,
      "step": 78110
    },
    {
      "epoch": 0.3906,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018373869346733666,
      "loss": 2.1127,
      "step": 78120
    },
    {
      "epoch": 0.39065,
      "grad_norm": 2.0,
      "learning_rate": 0.00018372361809045225,
      "loss": 2.0747,
      "step": 78130
    },
    {
      "epoch": 0.3907,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001837085427135678,
      "loss": 2.0763,
      "step": 78140
    },
    {
      "epoch": 0.39075,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018369346733668342,
      "loss": 2.0339,
      "step": 78150
    },
    {
      "epoch": 0.3908,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00018367839195979898,
      "loss": 2.1035,
      "step": 78160
    },
    {
      "epoch": 0.39085,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018366331658291454,
      "loss": 2.0318,
      "step": 78170
    },
    {
      "epoch": 0.3909,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00018364824120603015,
      "loss": 2.07,
      "step": 78180
    },
    {
      "epoch": 0.39095,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001836331658291457,
      "loss": 2.0778,
      "step": 78190
    },
    {
      "epoch": 0.391,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018361809045226127,
      "loss": 2.071,
      "step": 78200
    },
    {
      "epoch": 0.39105,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018360301507537688,
      "loss": 2.0826,
      "step": 78210
    },
    {
      "epoch": 0.3911,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018358793969849244,
      "loss": 2.0103,
      "step": 78220
    },
    {
      "epoch": 0.39115,
      "grad_norm": 1.9296875,
      "learning_rate": 0.000183572864321608,
      "loss": 2.117,
      "step": 78230
    },
    {
      "epoch": 0.3912,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018355778894472362,
      "loss": 2.0941,
      "step": 78240
    },
    {
      "epoch": 0.39125,
      "grad_norm": 2.046875,
      "learning_rate": 0.00018354271356783917,
      "loss": 2.0539,
      "step": 78250
    },
    {
      "epoch": 0.3913,
      "grad_norm": 2.046875,
      "learning_rate": 0.00018352763819095476,
      "loss": 2.0465,
      "step": 78260
    },
    {
      "epoch": 0.39135,
      "grad_norm": 1.6875,
      "learning_rate": 0.00018351256281407035,
      "loss": 2.0835,
      "step": 78270
    },
    {
      "epoch": 0.3914,
      "grad_norm": 1.859375,
      "learning_rate": 0.00018349748743718593,
      "loss": 2.0047,
      "step": 78280
    },
    {
      "epoch": 0.39145,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001834824120603015,
      "loss": 2.0851,
      "step": 78290
    },
    {
      "epoch": 0.3915,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00018346733668341705,
      "loss": 2.0416,
      "step": 78300
    },
    {
      "epoch": 0.39155,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018345226130653266,
      "loss": 2.1228,
      "step": 78310
    },
    {
      "epoch": 0.3916,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018343718592964822,
      "loss": 2.0773,
      "step": 78320
    },
    {
      "epoch": 0.39165,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018342211055276378,
      "loss": 2.0414,
      "step": 78330
    },
    {
      "epoch": 0.3917,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001834070351758794,
      "loss": 2.0727,
      "step": 78340
    },
    {
      "epoch": 0.39175,
      "grad_norm": 1.75,
      "learning_rate": 0.00018339195979899495,
      "loss": 2.1009,
      "step": 78350
    },
    {
      "epoch": 0.3918,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001833768844221105,
      "loss": 2.0131,
      "step": 78360
    },
    {
      "epoch": 0.39185,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018336180904522613,
      "loss": 2.0948,
      "step": 78370
    },
    {
      "epoch": 0.3919,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018334673366834169,
      "loss": 2.1454,
      "step": 78380
    },
    {
      "epoch": 0.39195,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018333165829145727,
      "loss": 2.0852,
      "step": 78390
    },
    {
      "epoch": 0.392,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018331658291457286,
      "loss": 2.1716,
      "step": 78400
    },
    {
      "epoch": 0.39205,
      "grad_norm": 1.984375,
      "learning_rate": 0.00018330150753768844,
      "loss": 2.1043,
      "step": 78410
    },
    {
      "epoch": 0.3921,
      "grad_norm": 2.21875,
      "learning_rate": 0.000183286432160804,
      "loss": 2.0487,
      "step": 78420
    },
    {
      "epoch": 0.39215,
      "grad_norm": 1.703125,
      "learning_rate": 0.0001832713567839196,
      "loss": 2.1147,
      "step": 78430
    },
    {
      "epoch": 0.3922,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018325628140703517,
      "loss": 2.0678,
      "step": 78440
    },
    {
      "epoch": 0.39225,
      "grad_norm": 2.046875,
      "learning_rate": 0.00018324120603015073,
      "loss": 2.1262,
      "step": 78450
    },
    {
      "epoch": 0.3923,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001832261306532663,
      "loss": 2.0544,
      "step": 78460
    },
    {
      "epoch": 0.39235,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001832110552763819,
      "loss": 2.0984,
      "step": 78470
    },
    {
      "epoch": 0.3924,
      "grad_norm": 1.734375,
      "learning_rate": 0.00018319597989949746,
      "loss": 2.1215,
      "step": 78480
    },
    {
      "epoch": 0.39245,
      "grad_norm": 2.0,
      "learning_rate": 0.00018318090452261302,
      "loss": 2.0855,
      "step": 78490
    },
    {
      "epoch": 0.3925,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018316582914572864,
      "loss": 2.1008,
      "step": 78500
    },
    {
      "epoch": 0.39255,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001831507537688442,
      "loss": 2.1124,
      "step": 78510
    },
    {
      "epoch": 0.3926,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018313567839195978,
      "loss": 2.1297,
      "step": 78520
    },
    {
      "epoch": 0.39265,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00018312060301507537,
      "loss": 2.0938,
      "step": 78530
    },
    {
      "epoch": 0.3927,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018310552763819093,
      "loss": 2.0265,
      "step": 78540
    },
    {
      "epoch": 0.39275,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001830904522613065,
      "loss": 2.0678,
      "step": 78550
    },
    {
      "epoch": 0.3928,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001830753768844221,
      "loss": 2.1257,
      "step": 78560
    },
    {
      "epoch": 0.39285,
      "grad_norm": 1.90625,
      "learning_rate": 0.00018306030150753769,
      "loss": 2.0717,
      "step": 78570
    },
    {
      "epoch": 0.3929,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018304522613065324,
      "loss": 2.108,
      "step": 78580
    },
    {
      "epoch": 0.39295,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001830301507537688,
      "loss": 2.065,
      "step": 78590
    },
    {
      "epoch": 0.393,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018301507537688442,
      "loss": 2.1085,
      "step": 78600
    },
    {
      "epoch": 0.39305,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018299999999999998,
      "loss": 2.0662,
      "step": 78610
    },
    {
      "epoch": 0.3931,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018298492462311553,
      "loss": 2.0733,
      "step": 78620
    },
    {
      "epoch": 0.39315,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018296984924623115,
      "loss": 2.0972,
      "step": 78630
    },
    {
      "epoch": 0.3932,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001829547738693467,
      "loss": 2.1142,
      "step": 78640
    },
    {
      "epoch": 0.39325,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001829396984924623,
      "loss": 2.0469,
      "step": 78650
    },
    {
      "epoch": 0.3933,
      "grad_norm": 1.5625,
      "learning_rate": 0.00018292462311557788,
      "loss": 2.0913,
      "step": 78660
    },
    {
      "epoch": 0.39335,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018290954773869344,
      "loss": 2.1215,
      "step": 78670
    },
    {
      "epoch": 0.3934,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018289447236180902,
      "loss": 2.0836,
      "step": 78680
    },
    {
      "epoch": 0.39345,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001828793969849246,
      "loss": 2.0882,
      "step": 78690
    },
    {
      "epoch": 0.3935,
      "grad_norm": 1.75,
      "learning_rate": 0.0001828643216080402,
      "loss": 2.1018,
      "step": 78700
    },
    {
      "epoch": 0.39355,
      "grad_norm": 2.171875,
      "learning_rate": 0.00018284924623115576,
      "loss": 2.1128,
      "step": 78710
    },
    {
      "epoch": 0.3936,
      "grad_norm": 1.984375,
      "learning_rate": 0.00018283417085427137,
      "loss": 2.0839,
      "step": 78720
    },
    {
      "epoch": 0.39365,
      "grad_norm": 2.25,
      "learning_rate": 0.00018281909547738693,
      "loss": 2.0476,
      "step": 78730
    },
    {
      "epoch": 0.3937,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001828040201005025,
      "loss": 2.1305,
      "step": 78740
    },
    {
      "epoch": 0.39375,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018278894472361805,
      "loss": 2.0741,
      "step": 78750
    },
    {
      "epoch": 0.3938,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018277386934673366,
      "loss": 2.0744,
      "step": 78760
    },
    {
      "epoch": 0.39385,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018275879396984922,
      "loss": 2.0853,
      "step": 78770
    },
    {
      "epoch": 0.3939,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001827437185929648,
      "loss": 2.1167,
      "step": 78780
    },
    {
      "epoch": 0.39395,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001827286432160804,
      "loss": 2.1116,
      "step": 78790
    },
    {
      "epoch": 0.394,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018271356783919595,
      "loss": 2.0671,
      "step": 78800
    },
    {
      "epoch": 0.39405,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018269849246231154,
      "loss": 2.0616,
      "step": 78810
    },
    {
      "epoch": 0.3941,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018268341708542712,
      "loss": 2.0961,
      "step": 78820
    },
    {
      "epoch": 0.39415,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001826683417085427,
      "loss": 2.0698,
      "step": 78830
    },
    {
      "epoch": 0.3942,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018265326633165827,
      "loss": 2.0821,
      "step": 78840
    },
    {
      "epoch": 0.39425,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018263819095477388,
      "loss": 2.0556,
      "step": 78850
    },
    {
      "epoch": 0.3943,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018262311557788944,
      "loss": 2.0558,
      "step": 78860
    },
    {
      "epoch": 0.39435,
      "grad_norm": 1.7578125,
      "learning_rate": 0.000182608040201005,
      "loss": 2.0673,
      "step": 78870
    },
    {
      "epoch": 0.3944,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001825929648241206,
      "loss": 2.1106,
      "step": 78880
    },
    {
      "epoch": 0.39445,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018257788944723617,
      "loss": 2.0498,
      "step": 78890
    },
    {
      "epoch": 0.3945,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00018256281407035173,
      "loss": 2.0471,
      "step": 78900
    },
    {
      "epoch": 0.39455,
      "grad_norm": 2.0,
      "learning_rate": 0.00018254773869346732,
      "loss": 2.1058,
      "step": 78910
    },
    {
      "epoch": 0.3946,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001825326633165829,
      "loss": 2.1051,
      "step": 78920
    },
    {
      "epoch": 0.39465,
      "grad_norm": 2.109375,
      "learning_rate": 0.00018251758793969846,
      "loss": 2.0352,
      "step": 78930
    },
    {
      "epoch": 0.3947,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018250251256281405,
      "loss": 2.1671,
      "step": 78940
    },
    {
      "epoch": 0.39475,
      "grad_norm": 2.03125,
      "learning_rate": 0.00018248743718592963,
      "loss": 2.0849,
      "step": 78950
    },
    {
      "epoch": 0.3948,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00018247236180904522,
      "loss": 2.0733,
      "step": 78960
    },
    {
      "epoch": 0.39485,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018245728643216078,
      "loss": 2.1067,
      "step": 78970
    },
    {
      "epoch": 0.3949,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001824422110552764,
      "loss": 2.0792,
      "step": 78980
    },
    {
      "epoch": 0.39495,
      "grad_norm": 1.96875,
      "learning_rate": 0.00018242713567839195,
      "loss": 2.0155,
      "step": 78990
    },
    {
      "epoch": 0.395,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001824120603015075,
      "loss": 2.0891,
      "step": 79000
    },
    {
      "epoch": 0.39505,
      "grad_norm": 2.1875,
      "learning_rate": 0.00018239698492462312,
      "loss": 2.1342,
      "step": 79010
    },
    {
      "epoch": 0.3951,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018238190954773868,
      "loss": 2.1024,
      "step": 79020
    },
    {
      "epoch": 0.39515,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018236683417085424,
      "loss": 2.1104,
      "step": 79030
    },
    {
      "epoch": 0.3952,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018235175879396985,
      "loss": 2.1041,
      "step": 79040
    },
    {
      "epoch": 0.39525,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001823366834170854,
      "loss": 2.074,
      "step": 79050
    },
    {
      "epoch": 0.3953,
      "grad_norm": 1.984375,
      "learning_rate": 0.00018232160804020097,
      "loss": 2.0664,
      "step": 79060
    },
    {
      "epoch": 0.39535,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018230653266331656,
      "loss": 2.0544,
      "step": 79070
    },
    {
      "epoch": 0.3954,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00018229145728643214,
      "loss": 2.0499,
      "step": 79080
    },
    {
      "epoch": 0.39545,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018227638190954773,
      "loss": 2.0744,
      "step": 79090
    },
    {
      "epoch": 0.3955,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001822613065326633,
      "loss": 2.047,
      "step": 79100
    },
    {
      "epoch": 0.39555,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018224623115577887,
      "loss": 2.0807,
      "step": 79110
    },
    {
      "epoch": 0.3956,
      "grad_norm": 1.640625,
      "learning_rate": 0.00018223115577889446,
      "loss": 2.0726,
      "step": 79120
    },
    {
      "epoch": 0.39565,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018221608040201002,
      "loss": 2.1304,
      "step": 79130
    },
    {
      "epoch": 0.3957,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00018220100502512563,
      "loss": 2.0871,
      "step": 79140
    },
    {
      "epoch": 0.39575,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001821859296482412,
      "loss": 2.0836,
      "step": 79150
    },
    {
      "epoch": 0.3958,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018217085427135675,
      "loss": 2.1391,
      "step": 79160
    },
    {
      "epoch": 0.39585,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00018215577889447236,
      "loss": 2.0481,
      "step": 79170
    },
    {
      "epoch": 0.3959,
      "grad_norm": 2.0,
      "learning_rate": 0.00018214070351758792,
      "loss": 2.17,
      "step": 79180
    },
    {
      "epoch": 0.39595,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018212562814070348,
      "loss": 2.1053,
      "step": 79190
    },
    {
      "epoch": 0.396,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001821105527638191,
      "loss": 2.1223,
      "step": 79200
    },
    {
      "epoch": 0.39605,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018209547738693465,
      "loss": 2.0975,
      "step": 79210
    },
    {
      "epoch": 0.3961,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00018208040201005024,
      "loss": 2.0413,
      "step": 79220
    },
    {
      "epoch": 0.39615,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001820653266331658,
      "loss": 2.0656,
      "step": 79230
    },
    {
      "epoch": 0.3962,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018205025125628139,
      "loss": 2.0647,
      "step": 79240
    },
    {
      "epoch": 0.39625,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018203517587939697,
      "loss": 2.1174,
      "step": 79250
    },
    {
      "epoch": 0.3963,
      "grad_norm": 2.296875,
      "learning_rate": 0.00018202010050251253,
      "loss": 2.1375,
      "step": 79260
    },
    {
      "epoch": 0.39635,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018200502512562814,
      "loss": 2.124,
      "step": 79270
    },
    {
      "epoch": 0.3964,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001819899497487437,
      "loss": 2.1133,
      "step": 79280
    },
    {
      "epoch": 0.39645,
      "grad_norm": 1.875,
      "learning_rate": 0.00018197487437185926,
      "loss": 2.0602,
      "step": 79290
    },
    {
      "epoch": 0.3965,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00018195979899497487,
      "loss": 2.0514,
      "step": 79300
    },
    {
      "epoch": 0.39655,
      "grad_norm": 1.71875,
      "learning_rate": 0.00018194472361809043,
      "loss": 2.144,
      "step": 79310
    },
    {
      "epoch": 0.3966,
      "grad_norm": 1.6796875,
      "learning_rate": 0.000181929648241206,
      "loss": 2.0724,
      "step": 79320
    },
    {
      "epoch": 0.39665,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001819145728643216,
      "loss": 2.104,
      "step": 79330
    },
    {
      "epoch": 0.3967,
      "grad_norm": 1.796875,
      "learning_rate": 0.00018189949748743717,
      "loss": 2.0952,
      "step": 79340
    },
    {
      "epoch": 0.39675,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00018188442211055275,
      "loss": 2.0602,
      "step": 79350
    },
    {
      "epoch": 0.3968,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018186934673366834,
      "loss": 2.1366,
      "step": 79360
    },
    {
      "epoch": 0.39685,
      "grad_norm": 2.0,
      "learning_rate": 0.0001818542713567839,
      "loss": 2.0877,
      "step": 79370
    },
    {
      "epoch": 0.3969,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00018183919597989948,
      "loss": 2.0812,
      "step": 79380
    },
    {
      "epoch": 0.39695,
      "grad_norm": 2.046875,
      "learning_rate": 0.00018182412060301504,
      "loss": 2.1288,
      "step": 79390
    },
    {
      "epoch": 0.397,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018180904522613065,
      "loss": 2.0762,
      "step": 79400
    },
    {
      "epoch": 0.39705,
      "grad_norm": 1.765625,
      "learning_rate": 0.00018179396984924621,
      "loss": 2.0624,
      "step": 79410
    },
    {
      "epoch": 0.3971,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00018177889447236177,
      "loss": 2.0493,
      "step": 79420
    },
    {
      "epoch": 0.39715,
      "grad_norm": 2.125,
      "learning_rate": 0.00018176381909547739,
      "loss": 2.0496,
      "step": 79430
    },
    {
      "epoch": 0.3972,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018174874371859294,
      "loss": 2.0464,
      "step": 79440
    },
    {
      "epoch": 0.39725,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001817336683417085,
      "loss": 2.0292,
      "step": 79450
    },
    {
      "epoch": 0.3973,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018171859296482412,
      "loss": 2.134,
      "step": 79460
    },
    {
      "epoch": 0.39735,
      "grad_norm": 2.125,
      "learning_rate": 0.00018170351758793968,
      "loss": 2.1095,
      "step": 79470
    },
    {
      "epoch": 0.3974,
      "grad_norm": 2.171875,
      "learning_rate": 0.00018168844221105526,
      "loss": 2.1184,
      "step": 79480
    },
    {
      "epoch": 0.39745,
      "grad_norm": 1.765625,
      "learning_rate": 0.00018167336683417085,
      "loss": 2.1197,
      "step": 79490
    },
    {
      "epoch": 0.3975,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001816582914572864,
      "loss": 2.0282,
      "step": 79500
    },
    {
      "epoch": 0.39755,
      "grad_norm": 1.7109375,
      "learning_rate": 0.000181643216080402,
      "loss": 2.0991,
      "step": 79510
    },
    {
      "epoch": 0.3976,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018162814070351758,
      "loss": 2.0677,
      "step": 79520
    },
    {
      "epoch": 0.39765,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00018161306532663317,
      "loss": 2.0539,
      "step": 79530
    },
    {
      "epoch": 0.3977,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00018159798994974872,
      "loss": 2.0534,
      "step": 79540
    },
    {
      "epoch": 0.39775,
      "grad_norm": 2.234375,
      "learning_rate": 0.00018158291457286428,
      "loss": 2.0611,
      "step": 79550
    },
    {
      "epoch": 0.3978,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001815678391959799,
      "loss": 2.1129,
      "step": 79560
    },
    {
      "epoch": 0.39785,
      "grad_norm": 2.5,
      "learning_rate": 0.00018155276381909546,
      "loss": 2.09,
      "step": 79570
    },
    {
      "epoch": 0.3979,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018153768844221101,
      "loss": 2.1212,
      "step": 79580
    },
    {
      "epoch": 0.39795,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018152261306532663,
      "loss": 2.0612,
      "step": 79590
    },
    {
      "epoch": 0.398,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001815075376884422,
      "loss": 2.1118,
      "step": 79600
    },
    {
      "epoch": 0.39805,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018149246231155777,
      "loss": 2.122,
      "step": 79610
    },
    {
      "epoch": 0.3981,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018147738693467336,
      "loss": 2.057,
      "step": 79620
    },
    {
      "epoch": 0.39815,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018146231155778892,
      "loss": 2.1063,
      "step": 79630
    },
    {
      "epoch": 0.3982,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001814472361809045,
      "loss": 2.0899,
      "step": 79640
    },
    {
      "epoch": 0.39825,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001814321608040201,
      "loss": 2.0228,
      "step": 79650
    },
    {
      "epoch": 0.3983,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018141708542713568,
      "loss": 2.0734,
      "step": 79660
    },
    {
      "epoch": 0.39835,
      "grad_norm": 2.1875,
      "learning_rate": 0.00018140201005025124,
      "loss": 2.1052,
      "step": 79670
    },
    {
      "epoch": 0.3984,
      "grad_norm": 1.75,
      "learning_rate": 0.0001813869346733668,
      "loss": 2.0663,
      "step": 79680
    },
    {
      "epoch": 0.39845,
      "grad_norm": 1.78125,
      "learning_rate": 0.0001813718592964824,
      "loss": 2.0493,
      "step": 79690
    },
    {
      "epoch": 0.3985,
      "grad_norm": 2.046875,
      "learning_rate": 0.00018135678391959797,
      "loss": 2.047,
      "step": 79700
    },
    {
      "epoch": 0.39855,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00018134170854271353,
      "loss": 2.1377,
      "step": 79710
    },
    {
      "epoch": 0.3986,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018132663316582914,
      "loss": 2.0421,
      "step": 79720
    },
    {
      "epoch": 0.39865,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001813115577889447,
      "loss": 2.0928,
      "step": 79730
    },
    {
      "epoch": 0.3987,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018129648241206028,
      "loss": 2.0901,
      "step": 79740
    },
    {
      "epoch": 0.39875,
      "grad_norm": 2.140625,
      "learning_rate": 0.00018128140703517587,
      "loss": 2.0213,
      "step": 79750
    },
    {
      "epoch": 0.3988,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00018126633165829143,
      "loss": 2.128,
      "step": 79760
    },
    {
      "epoch": 0.39885,
      "grad_norm": 1.765625,
      "learning_rate": 0.00018125125628140702,
      "loss": 2.0915,
      "step": 79770
    },
    {
      "epoch": 0.3989,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001812361809045226,
      "loss": 2.054,
      "step": 79780
    },
    {
      "epoch": 0.39895,
      "grad_norm": 1.875,
      "learning_rate": 0.0001812211055276382,
      "loss": 2.0472,
      "step": 79790
    },
    {
      "epoch": 0.399,
      "grad_norm": 2.0625,
      "learning_rate": 0.00018120603015075375,
      "loss": 2.1216,
      "step": 79800
    },
    {
      "epoch": 0.39905,
      "grad_norm": 1.8125,
      "learning_rate": 0.00018119095477386933,
      "loss": 2.0621,
      "step": 79810
    },
    {
      "epoch": 0.3991,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018117587939698492,
      "loss": 2.0639,
      "step": 79820
    },
    {
      "epoch": 0.39915,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018116080402010048,
      "loss": 2.1012,
      "step": 79830
    },
    {
      "epoch": 0.3992,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00018114572864321604,
      "loss": 2.0536,
      "step": 79840
    },
    {
      "epoch": 0.39925,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00018113065326633165,
      "loss": 2.087,
      "step": 79850
    },
    {
      "epoch": 0.3993,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001811155778894472,
      "loss": 2.051,
      "step": 79860
    },
    {
      "epoch": 0.39935,
      "grad_norm": 1.71875,
      "learning_rate": 0.0001811005025125628,
      "loss": 2.0268,
      "step": 79870
    },
    {
      "epoch": 0.3994,
      "grad_norm": 1.9375,
      "learning_rate": 0.00018108542713567838,
      "loss": 2.1519,
      "step": 79880
    },
    {
      "epoch": 0.39945,
      "grad_norm": 2.046875,
      "learning_rate": 0.00018107035175879394,
      "loss": 2.0726,
      "step": 79890
    },
    {
      "epoch": 0.3995,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00018105527638190953,
      "loss": 2.1084,
      "step": 79900
    },
    {
      "epoch": 0.39955,
      "grad_norm": 2.296875,
      "learning_rate": 0.0001810402010050251,
      "loss": 2.0529,
      "step": 79910
    },
    {
      "epoch": 0.3996,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001810251256281407,
      "loss": 2.0912,
      "step": 79920
    },
    {
      "epoch": 0.39965,
      "grad_norm": 1.6875,
      "learning_rate": 0.00018101005025125626,
      "loss": 2.0882,
      "step": 79930
    },
    {
      "epoch": 0.3997,
      "grad_norm": 2.296875,
      "learning_rate": 0.00018099497487437184,
      "loss": 2.0806,
      "step": 79940
    },
    {
      "epoch": 0.39975,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018097989949748743,
      "loss": 2.0772,
      "step": 79950
    },
    {
      "epoch": 0.3998,
      "grad_norm": 1.96875,
      "learning_rate": 0.000180964824120603,
      "loss": 2.0654,
      "step": 79960
    },
    {
      "epoch": 0.39985,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001809497487437186,
      "loss": 2.0986,
      "step": 79970
    },
    {
      "epoch": 0.3999,
      "grad_norm": 2.09375,
      "learning_rate": 0.00018093467336683416,
      "loss": 2.1197,
      "step": 79980
    },
    {
      "epoch": 0.39995,
      "grad_norm": 1.96875,
      "learning_rate": 0.00018091959798994972,
      "loss": 2.0215,
      "step": 79990
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001809045226130653,
      "loss": 2.151,
      "step": 80000
    },
    {
      "epoch": 0.4,
      "eval_loss": 2.0748000144958496,
      "eval_runtime": 90.9519,
      "eval_samples_per_second": 27.487,
      "eval_steps_per_second": 0.44,
      "step": 80000
    },
    {
      "epoch": 0.40005,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001808894472361809,
      "loss": 2.0823,
      "step": 80010
    },
    {
      "epoch": 0.4001,
      "grad_norm": 1.71875,
      "learning_rate": 0.00018087437185929645,
      "loss": 2.0627,
      "step": 80020
    },
    {
      "epoch": 0.40015,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00018085929648241204,
      "loss": 2.12,
      "step": 80030
    },
    {
      "epoch": 0.4002,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018084422110552762,
      "loss": 2.0735,
      "step": 80040
    },
    {
      "epoch": 0.40025,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001808291457286432,
      "loss": 2.1161,
      "step": 80050
    },
    {
      "epoch": 0.4003,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00018081407035175877,
      "loss": 2.0757,
      "step": 80060
    },
    {
      "epoch": 0.40035,
      "grad_norm": 2.046875,
      "learning_rate": 0.00018079899497487435,
      "loss": 2.0039,
      "step": 80070
    },
    {
      "epoch": 0.4004,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00018078391959798994,
      "loss": 2.1003,
      "step": 80080
    },
    {
      "epoch": 0.40045,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001807688442211055,
      "loss": 2.054,
      "step": 80090
    },
    {
      "epoch": 0.4005,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001807537688442211,
      "loss": 2.1031,
      "step": 80100
    },
    {
      "epoch": 0.40055,
      "grad_norm": 1.671875,
      "learning_rate": 0.00018073869346733667,
      "loss": 2.0395,
      "step": 80110
    },
    {
      "epoch": 0.4006,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00018072361809045223,
      "loss": 2.1122,
      "step": 80120
    },
    {
      "epoch": 0.40065,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018070854271356784,
      "loss": 2.0619,
      "step": 80130
    },
    {
      "epoch": 0.4007,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001806934673366834,
      "loss": 2.0303,
      "step": 80140
    },
    {
      "epoch": 0.40075,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018067839195979896,
      "loss": 2.1101,
      "step": 80150
    },
    {
      "epoch": 0.4008,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00018066331658291455,
      "loss": 2.0724,
      "step": 80160
    },
    {
      "epoch": 0.40085,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00018064824120603013,
      "loss": 2.1254,
      "step": 80170
    },
    {
      "epoch": 0.4009,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00018063316582914572,
      "loss": 2.1238,
      "step": 80180
    },
    {
      "epoch": 0.40095,
      "grad_norm": 1.875,
      "learning_rate": 0.00018061809045226128,
      "loss": 2.1085,
      "step": 80190
    },
    {
      "epoch": 0.401,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018060301507537687,
      "loss": 2.1527,
      "step": 80200
    },
    {
      "epoch": 0.40105,
      "grad_norm": 2.078125,
      "learning_rate": 0.00018058793969849245,
      "loss": 2.1069,
      "step": 80210
    },
    {
      "epoch": 0.4011,
      "grad_norm": 1.7578125,
      "learning_rate": 0.000180572864321608,
      "loss": 2.1216,
      "step": 80220
    },
    {
      "epoch": 0.40115,
      "grad_norm": 2.125,
      "learning_rate": 0.00018055778894472362,
      "loss": 2.0638,
      "step": 80230
    },
    {
      "epoch": 0.4012,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00018054271356783918,
      "loss": 2.0804,
      "step": 80240
    },
    {
      "epoch": 0.40125,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00018052763819095474,
      "loss": 2.0445,
      "step": 80250
    },
    {
      "epoch": 0.4013,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018051256281407035,
      "loss": 2.0716,
      "step": 80260
    },
    {
      "epoch": 0.40135,
      "grad_norm": 1.78125,
      "learning_rate": 0.00018049748743718591,
      "loss": 2.0968,
      "step": 80270
    },
    {
      "epoch": 0.4014,
      "grad_norm": 1.890625,
      "learning_rate": 0.00018048241206030147,
      "loss": 2.084,
      "step": 80280
    },
    {
      "epoch": 0.40145,
      "grad_norm": 1.921875,
      "learning_rate": 0.00018046733668341709,
      "loss": 2.076,
      "step": 80290
    },
    {
      "epoch": 0.4015,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00018045226130653265,
      "loss": 2.0271,
      "step": 80300
    },
    {
      "epoch": 0.40155,
      "grad_norm": 1.953125,
      "learning_rate": 0.00018043718592964823,
      "loss": 2.1077,
      "step": 80310
    },
    {
      "epoch": 0.4016,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001804221105527638,
      "loss": 2.0791,
      "step": 80320
    },
    {
      "epoch": 0.40165,
      "grad_norm": 2.140625,
      "learning_rate": 0.00018040703517587938,
      "loss": 2.087,
      "step": 80330
    },
    {
      "epoch": 0.4017,
      "grad_norm": 1.703125,
      "learning_rate": 0.00018039195979899496,
      "loss": 2.0637,
      "step": 80340
    },
    {
      "epoch": 0.40175,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018037688442211052,
      "loss": 2.0322,
      "step": 80350
    },
    {
      "epoch": 0.4018,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018036180904522613,
      "loss": 2.0781,
      "step": 80360
    },
    {
      "epoch": 0.40185,
      "grad_norm": 1.5859375,
      "learning_rate": 0.0001803467336683417,
      "loss": 2.1261,
      "step": 80370
    },
    {
      "epoch": 0.4019,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018033165829145725,
      "loss": 2.0475,
      "step": 80380
    },
    {
      "epoch": 0.40195,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018031658291457287,
      "loss": 2.0834,
      "step": 80390
    },
    {
      "epoch": 0.402,
      "grad_norm": 2.0,
      "learning_rate": 0.00018030150753768842,
      "loss": 2.0685,
      "step": 80400
    },
    {
      "epoch": 0.40205,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018028643216080398,
      "loss": 2.0646,
      "step": 80410
    },
    {
      "epoch": 0.4021,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001802713567839196,
      "loss": 2.0817,
      "step": 80420
    },
    {
      "epoch": 0.40215,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018025628140703516,
      "loss": 2.1,
      "step": 80430
    },
    {
      "epoch": 0.4022,
      "grad_norm": 1.828125,
      "learning_rate": 0.00018024120603015074,
      "loss": 2.1231,
      "step": 80440
    },
    {
      "epoch": 0.40225,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00018022613065326633,
      "loss": 2.0572,
      "step": 80450
    },
    {
      "epoch": 0.4023,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0001802110552763819,
      "loss": 2.0698,
      "step": 80460
    },
    {
      "epoch": 0.40235,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018019597989949747,
      "loss": 2.0621,
      "step": 80470
    },
    {
      "epoch": 0.4024,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00018018090452261303,
      "loss": 2.109,
      "step": 80480
    },
    {
      "epoch": 0.40245,
      "grad_norm": 2.109375,
      "learning_rate": 0.00018016582914572865,
      "loss": 2.0862,
      "step": 80490
    },
    {
      "epoch": 0.4025,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001801507537688442,
      "loss": 2.0778,
      "step": 80500
    },
    {
      "epoch": 0.40255,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00018013567839195976,
      "loss": 2.1298,
      "step": 80510
    },
    {
      "epoch": 0.4026,
      "grad_norm": 2.015625,
      "learning_rate": 0.00018012060301507538,
      "loss": 2.0626,
      "step": 80520
    },
    {
      "epoch": 0.40265,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018010552763819094,
      "loss": 2.0778,
      "step": 80530
    },
    {
      "epoch": 0.4027,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001800904522613065,
      "loss": 2.1059,
      "step": 80540
    },
    {
      "epoch": 0.40275,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001800753768844221,
      "loss": 2.097,
      "step": 80550
    },
    {
      "epoch": 0.4028,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018006030150753767,
      "loss": 2.0939,
      "step": 80560
    },
    {
      "epoch": 0.40285,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00018004522613065325,
      "loss": 2.0767,
      "step": 80570
    },
    {
      "epoch": 0.4029,
      "grad_norm": 1.84375,
      "learning_rate": 0.00018003015075376884,
      "loss": 2.0772,
      "step": 80580
    },
    {
      "epoch": 0.40295,
      "grad_norm": 1.703125,
      "learning_rate": 0.0001800150753768844,
      "loss": 2.047,
      "step": 80590
    },
    {
      "epoch": 0.403,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00017999999999999998,
      "loss": 2.0544,
      "step": 80600
    },
    {
      "epoch": 0.40305,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017998492462311557,
      "loss": 2.0998,
      "step": 80610
    },
    {
      "epoch": 0.4031,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017996984924623116,
      "loss": 2.0598,
      "step": 80620
    },
    {
      "epoch": 0.40315,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017995477386934672,
      "loss": 2.0565,
      "step": 80630
    },
    {
      "epoch": 0.4032,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017993969849246227,
      "loss": 2.0777,
      "step": 80640
    },
    {
      "epoch": 0.40325,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001799246231155779,
      "loss": 2.0942,
      "step": 80650
    },
    {
      "epoch": 0.4033,
      "grad_norm": 1.796875,
      "learning_rate": 0.00017990954773869345,
      "loss": 2.0568,
      "step": 80660
    },
    {
      "epoch": 0.40335,
      "grad_norm": 1.9609375,
      "learning_rate": 0.000179894472361809,
      "loss": 2.112,
      "step": 80670
    },
    {
      "epoch": 0.4034,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00017987939698492462,
      "loss": 2.1034,
      "step": 80680
    },
    {
      "epoch": 0.40345,
      "grad_norm": 1.828125,
      "learning_rate": 0.00017986432160804018,
      "loss": 2.0485,
      "step": 80690
    },
    {
      "epoch": 0.4035,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017984924623115576,
      "loss": 2.0714,
      "step": 80700
    },
    {
      "epoch": 0.40355,
      "grad_norm": 2.0,
      "learning_rate": 0.00017983417085427135,
      "loss": 2.0963,
      "step": 80710
    },
    {
      "epoch": 0.4036,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001798190954773869,
      "loss": 2.124,
      "step": 80720
    },
    {
      "epoch": 0.40365,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001798040201005025,
      "loss": 2.0806,
      "step": 80730
    },
    {
      "epoch": 0.4037,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017978894472361808,
      "loss": 2.0556,
      "step": 80740
    },
    {
      "epoch": 0.40375,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017977386934673367,
      "loss": 2.1629,
      "step": 80750
    },
    {
      "epoch": 0.4038,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017975879396984923,
      "loss": 2.0588,
      "step": 80760
    },
    {
      "epoch": 0.40385,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001797437185929648,
      "loss": 2.1284,
      "step": 80770
    },
    {
      "epoch": 0.4039,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001797286432160804,
      "loss": 2.0776,
      "step": 80780
    },
    {
      "epoch": 0.40395,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017971356783919596,
      "loss": 2.0485,
      "step": 80790
    },
    {
      "epoch": 0.404,
      "grad_norm": 2.0,
      "learning_rate": 0.00017969849246231152,
      "loss": 2.1349,
      "step": 80800
    },
    {
      "epoch": 0.40405,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017968341708542713,
      "loss": 2.0646,
      "step": 80810
    },
    {
      "epoch": 0.4041,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001796683417085427,
      "loss": 2.0957,
      "step": 80820
    },
    {
      "epoch": 0.40415,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017965326633165827,
      "loss": 2.0347,
      "step": 80830
    },
    {
      "epoch": 0.4042,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017963819095477386,
      "loss": 2.0589,
      "step": 80840
    },
    {
      "epoch": 0.40425,
      "grad_norm": 1.765625,
      "learning_rate": 0.00017962311557788942,
      "loss": 2.0673,
      "step": 80850
    },
    {
      "epoch": 0.4043,
      "grad_norm": 2.140625,
      "learning_rate": 0.000179608040201005,
      "loss": 2.0479,
      "step": 80860
    },
    {
      "epoch": 0.40435,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001795929648241206,
      "loss": 2.0642,
      "step": 80870
    },
    {
      "epoch": 0.4044,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017957788944723618,
      "loss": 2.1175,
      "step": 80880
    },
    {
      "epoch": 0.40445,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017956281407035174,
      "loss": 2.0804,
      "step": 80890
    },
    {
      "epoch": 0.4045,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017954773869346732,
      "loss": 2.1356,
      "step": 80900
    },
    {
      "epoch": 0.40455,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001795326633165829,
      "loss": 2.0575,
      "step": 80910
    },
    {
      "epoch": 0.4046,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017951758793969847,
      "loss": 2.097,
      "step": 80920
    },
    {
      "epoch": 0.40465,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017950251256281403,
      "loss": 2.0793,
      "step": 80930
    },
    {
      "epoch": 0.4047,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017948743718592964,
      "loss": 2.0802,
      "step": 80940
    },
    {
      "epoch": 0.40475,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001794723618090452,
      "loss": 2.0861,
      "step": 80950
    },
    {
      "epoch": 0.4048,
      "grad_norm": 2.125,
      "learning_rate": 0.00017945728643216079,
      "loss": 2.0471,
      "step": 80960
    },
    {
      "epoch": 0.40485,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017944221105527637,
      "loss": 2.0827,
      "step": 80970
    },
    {
      "epoch": 0.4049,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017942713567839193,
      "loss": 2.0191,
      "step": 80980
    },
    {
      "epoch": 0.40495,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017941206030150752,
      "loss": 2.0303,
      "step": 80990
    },
    {
      "epoch": 0.405,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001793969849246231,
      "loss": 2.056,
      "step": 81000
    },
    {
      "epoch": 0.40505,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001793819095477387,
      "loss": 2.0866,
      "step": 81010
    },
    {
      "epoch": 0.4051,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00017936683417085425,
      "loss": 2.0315,
      "step": 81020
    },
    {
      "epoch": 0.40515,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00017935175879396983,
      "loss": 2.1008,
      "step": 81030
    },
    {
      "epoch": 0.4052,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017933668341708542,
      "loss": 2.0654,
      "step": 81040
    },
    {
      "epoch": 0.40525,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017932160804020098,
      "loss": 2.0976,
      "step": 81050
    },
    {
      "epoch": 0.4053,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001793065326633166,
      "loss": 2.0925,
      "step": 81060
    },
    {
      "epoch": 0.40535,
      "grad_norm": 2.171875,
      "learning_rate": 0.00017929145728643215,
      "loss": 2.0648,
      "step": 81070
    },
    {
      "epoch": 0.4054,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001792763819095477,
      "loss": 2.1077,
      "step": 81080
    },
    {
      "epoch": 0.40545,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001792613065326633,
      "loss": 2.0659,
      "step": 81090
    },
    {
      "epoch": 0.4055,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017924623115577888,
      "loss": 2.084,
      "step": 81100
    },
    {
      "epoch": 0.40555,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017923115577889444,
      "loss": 2.107,
      "step": 81110
    },
    {
      "epoch": 0.4056,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017921608040201003,
      "loss": 2.0809,
      "step": 81120
    },
    {
      "epoch": 0.40565,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017920100502512561,
      "loss": 2.0949,
      "step": 81130
    },
    {
      "epoch": 0.4057,
      "grad_norm": 2.0,
      "learning_rate": 0.0001791859296482412,
      "loss": 2.0647,
      "step": 81140
    },
    {
      "epoch": 0.40575,
      "grad_norm": 2.109375,
      "learning_rate": 0.00017917085427135676,
      "loss": 2.0897,
      "step": 81150
    },
    {
      "epoch": 0.4058,
      "grad_norm": 2.21875,
      "learning_rate": 0.00017915577889447235,
      "loss": 2.0816,
      "step": 81160
    },
    {
      "epoch": 0.40585,
      "grad_norm": 1.796875,
      "learning_rate": 0.00017914070351758793,
      "loss": 2.0493,
      "step": 81170
    },
    {
      "epoch": 0.4059,
      "grad_norm": 1.875,
      "learning_rate": 0.0001791256281407035,
      "loss": 2.0846,
      "step": 81180
    },
    {
      "epoch": 0.40595,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001791105527638191,
      "loss": 2.0563,
      "step": 81190
    },
    {
      "epoch": 0.406,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017909547738693466,
      "loss": 2.0681,
      "step": 81200
    },
    {
      "epoch": 0.40605,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017908040201005022,
      "loss": 2.0998,
      "step": 81210
    },
    {
      "epoch": 0.4061,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017906532663316583,
      "loss": 2.0701,
      "step": 81220
    },
    {
      "epoch": 0.40615,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001790502512562814,
      "loss": 2.1487,
      "step": 81230
    },
    {
      "epoch": 0.4062,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017903517587939695,
      "loss": 2.0368,
      "step": 81240
    },
    {
      "epoch": 0.40625,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017902010050251254,
      "loss": 2.1307,
      "step": 81250
    },
    {
      "epoch": 0.4063,
      "grad_norm": 2.125,
      "learning_rate": 0.00017900502512562812,
      "loss": 2.0676,
      "step": 81260
    },
    {
      "epoch": 0.40635,
      "grad_norm": 1.7109375,
      "learning_rate": 0.0001789899497487437,
      "loss": 2.0937,
      "step": 81270
    },
    {
      "epoch": 0.4064,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017897487437185927,
      "loss": 2.0654,
      "step": 81280
    },
    {
      "epoch": 0.40645,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017895979899497486,
      "loss": 2.0242,
      "step": 81290
    },
    {
      "epoch": 0.4065,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017894472361809044,
      "loss": 2.063,
      "step": 81300
    },
    {
      "epoch": 0.40655,
      "grad_norm": 1.8125,
      "learning_rate": 0.000178929648241206,
      "loss": 2.0785,
      "step": 81310
    },
    {
      "epoch": 0.4066,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017891457286432161,
      "loss": 2.059,
      "step": 81320
    },
    {
      "epoch": 0.40665,
      "grad_norm": 2.265625,
      "learning_rate": 0.00017889949748743717,
      "loss": 2.0804,
      "step": 81330
    },
    {
      "epoch": 0.4067,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017888442211055273,
      "loss": 2.0372,
      "step": 81340
    },
    {
      "epoch": 0.40675,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00017886934673366835,
      "loss": 2.1119,
      "step": 81350
    },
    {
      "epoch": 0.4068,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001788542713567839,
      "loss": 2.0761,
      "step": 81360
    },
    {
      "epoch": 0.40685,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017883919597989946,
      "loss": 2.1203,
      "step": 81370
    },
    {
      "epoch": 0.4069,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017882412060301508,
      "loss": 2.0483,
      "step": 81380
    },
    {
      "epoch": 0.40695,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017880904522613064,
      "loss": 2.1205,
      "step": 81390
    },
    {
      "epoch": 0.407,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017879396984924622,
      "loss": 2.0295,
      "step": 81400
    },
    {
      "epoch": 0.40705,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017877889447236178,
      "loss": 2.0934,
      "step": 81410
    },
    {
      "epoch": 0.4071,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017876381909547737,
      "loss": 2.0786,
      "step": 81420
    },
    {
      "epoch": 0.40715,
      "grad_norm": 2.0,
      "learning_rate": 0.00017874874371859295,
      "loss": 2.0594,
      "step": 81430
    },
    {
      "epoch": 0.4072,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001787336683417085,
      "loss": 2.06,
      "step": 81440
    },
    {
      "epoch": 0.40725,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017871859296482413,
      "loss": 2.0665,
      "step": 81450
    },
    {
      "epoch": 0.4073,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017870351758793968,
      "loss": 2.0846,
      "step": 81460
    },
    {
      "epoch": 0.40735,
      "grad_norm": 1.875,
      "learning_rate": 0.00017868844221105524,
      "loss": 2.0853,
      "step": 81470
    },
    {
      "epoch": 0.4074,
      "grad_norm": 2.125,
      "learning_rate": 0.00017867336683417086,
      "loss": 2.1342,
      "step": 81480
    },
    {
      "epoch": 0.40745,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017865829145728642,
      "loss": 2.0868,
      "step": 81490
    },
    {
      "epoch": 0.4075,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017864321608040197,
      "loss": 2.0474,
      "step": 81500
    },
    {
      "epoch": 0.40755,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001786281407035176,
      "loss": 2.0843,
      "step": 81510
    },
    {
      "epoch": 0.4076,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017861306532663315,
      "loss": 2.0632,
      "step": 81520
    },
    {
      "epoch": 0.40765,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017859798994974873,
      "loss": 2.0188,
      "step": 81530
    },
    {
      "epoch": 0.4077,
      "grad_norm": 1.765625,
      "learning_rate": 0.00017858291457286432,
      "loss": 2.0879,
      "step": 81540
    },
    {
      "epoch": 0.40775,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017856783919597988,
      "loss": 2.0607,
      "step": 81550
    },
    {
      "epoch": 0.4078,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00017855276381909546,
      "loss": 2.056,
      "step": 81560
    },
    {
      "epoch": 0.40785,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017853768844221102,
      "loss": 2.0327,
      "step": 81570
    },
    {
      "epoch": 0.4079,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017852261306532664,
      "loss": 2.1149,
      "step": 81580
    },
    {
      "epoch": 0.40795,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001785075376884422,
      "loss": 2.0585,
      "step": 81590
    },
    {
      "epoch": 0.408,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017849246231155775,
      "loss": 2.0622,
      "step": 81600
    },
    {
      "epoch": 0.40805,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017847738693467337,
      "loss": 2.111,
      "step": 81610
    },
    {
      "epoch": 0.4081,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017846231155778893,
      "loss": 2.0412,
      "step": 81620
    },
    {
      "epoch": 0.40815,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017844723618090449,
      "loss": 2.1078,
      "step": 81630
    },
    {
      "epoch": 0.4082,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001784321608040201,
      "loss": 2.0923,
      "step": 81640
    },
    {
      "epoch": 0.40825,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017841708542713566,
      "loss": 2.0973,
      "step": 81650
    },
    {
      "epoch": 0.4083,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017840201005025124,
      "loss": 2.0542,
      "step": 81660
    },
    {
      "epoch": 0.40835,
      "grad_norm": 2.109375,
      "learning_rate": 0.00017838693467336683,
      "loss": 2.0716,
      "step": 81670
    },
    {
      "epoch": 0.4084,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001783718592964824,
      "loss": 2.0947,
      "step": 81680
    },
    {
      "epoch": 0.40845,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00017835678391959798,
      "loss": 2.0805,
      "step": 81690
    },
    {
      "epoch": 0.4085,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00017834170854271356,
      "loss": 2.0448,
      "step": 81700
    },
    {
      "epoch": 0.40855,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017832663316582915,
      "loss": 2.0591,
      "step": 81710
    },
    {
      "epoch": 0.4086,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001783115577889447,
      "loss": 2.1007,
      "step": 81720
    },
    {
      "epoch": 0.40865,
      "grad_norm": 1.734375,
      "learning_rate": 0.00017829648241206027,
      "loss": 2.0422,
      "step": 81730
    },
    {
      "epoch": 0.4087,
      "grad_norm": 2.15625,
      "learning_rate": 0.00017828140703517588,
      "loss": 2.0869,
      "step": 81740
    },
    {
      "epoch": 0.40875,
      "grad_norm": 1.6875,
      "learning_rate": 0.00017826633165829144,
      "loss": 1.9963,
      "step": 81750
    },
    {
      "epoch": 0.4088,
      "grad_norm": 2.015625,
      "learning_rate": 0.000178251256281407,
      "loss": 2.0466,
      "step": 81760
    },
    {
      "epoch": 0.40885,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001782361809045226,
      "loss": 2.1123,
      "step": 81770
    },
    {
      "epoch": 0.4089,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017822110552763817,
      "loss": 2.0634,
      "step": 81780
    },
    {
      "epoch": 0.40895,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00017820603015075375,
      "loss": 2.082,
      "step": 81790
    },
    {
      "epoch": 0.409,
      "grad_norm": 2.171875,
      "learning_rate": 0.00017819095477386934,
      "loss": 2.1266,
      "step": 81800
    },
    {
      "epoch": 0.40905,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001781758793969849,
      "loss": 2.0369,
      "step": 81810
    },
    {
      "epoch": 0.4091,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017816080402010049,
      "loss": 2.0253,
      "step": 81820
    },
    {
      "epoch": 0.40915,
      "grad_norm": 2.28125,
      "learning_rate": 0.00017814572864321607,
      "loss": 2.0667,
      "step": 81830
    },
    {
      "epoch": 0.4092,
      "grad_norm": 1.765625,
      "learning_rate": 0.00017813065326633166,
      "loss": 2.1085,
      "step": 81840
    },
    {
      "epoch": 0.40925,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017811557788944722,
      "loss": 2.0511,
      "step": 81850
    },
    {
      "epoch": 0.4093,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001781005025125628,
      "loss": 2.0635,
      "step": 81860
    },
    {
      "epoch": 0.40935,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001780854271356784,
      "loss": 2.0405,
      "step": 81870
    },
    {
      "epoch": 0.4094,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017807035175879395,
      "loss": 2.0722,
      "step": 81880
    },
    {
      "epoch": 0.40945,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001780552763819095,
      "loss": 2.0624,
      "step": 81890
    },
    {
      "epoch": 0.4095,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017804020100502512,
      "loss": 2.0279,
      "step": 81900
    },
    {
      "epoch": 0.40955,
      "grad_norm": 2.0,
      "learning_rate": 0.00017802512562814068,
      "loss": 2.0925,
      "step": 81910
    },
    {
      "epoch": 0.4096,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017801005025125627,
      "loss": 2.0521,
      "step": 81920
    },
    {
      "epoch": 0.40965,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017799497487437185,
      "loss": 2.1114,
      "step": 81930
    },
    {
      "epoch": 0.4097,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001779798994974874,
      "loss": 2.0798,
      "step": 81940
    },
    {
      "epoch": 0.40975,
      "grad_norm": 1.9453125,
      "learning_rate": 0.000177964824120603,
      "loss": 2.0586,
      "step": 81950
    },
    {
      "epoch": 0.4098,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017794974874371858,
      "loss": 2.1192,
      "step": 81960
    },
    {
      "epoch": 0.40985,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017793467336683417,
      "loss": 2.0513,
      "step": 81970
    },
    {
      "epoch": 0.4099,
      "grad_norm": 1.75,
      "learning_rate": 0.00017791959798994973,
      "loss": 2.1024,
      "step": 81980
    },
    {
      "epoch": 0.40995,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017790452261306531,
      "loss": 2.0641,
      "step": 81990
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001778894472361809,
      "loss": 2.0843,
      "step": 82000
    },
    {
      "epoch": 0.41,
      "eval_loss": NaN,
      "eval_runtime": 91.5397,
      "eval_samples_per_second": 27.311,
      "eval_steps_per_second": 0.437,
      "step": 82000
    },
    {
      "epoch": 0.41005,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017787437185929646,
      "loss": 2.0897,
      "step": 82010
    },
    {
      "epoch": 0.4101,
      "grad_norm": 1.703125,
      "learning_rate": 0.00017785929648241202,
      "loss": 2.0528,
      "step": 82020
    },
    {
      "epoch": 0.41015,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017784422110552763,
      "loss": 2.0955,
      "step": 82030
    },
    {
      "epoch": 0.4102,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001778291457286432,
      "loss": 2.0825,
      "step": 82040
    },
    {
      "epoch": 0.41025,
      "grad_norm": 1.875,
      "learning_rate": 0.00017781407035175878,
      "loss": 2.1012,
      "step": 82050
    },
    {
      "epoch": 0.4103,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017779899497487436,
      "loss": 2.0475,
      "step": 82060
    },
    {
      "epoch": 0.41035,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017778391959798992,
      "loss": 2.0542,
      "step": 82070
    },
    {
      "epoch": 0.4104,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001777688442211055,
      "loss": 2.0902,
      "step": 82080
    },
    {
      "epoch": 0.41045,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001777537688442211,
      "loss": 2.084,
      "step": 82090
    },
    {
      "epoch": 0.4105,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017773869346733668,
      "loss": 1.9523,
      "step": 82100
    },
    {
      "epoch": 0.41055,
      "grad_norm": 1.71875,
      "learning_rate": 0.00017772361809045224,
      "loss": 2.0717,
      "step": 82110
    },
    {
      "epoch": 0.4106,
      "grad_norm": 1.796875,
      "learning_rate": 0.00017770854271356783,
      "loss": 2.02,
      "step": 82120
    },
    {
      "epoch": 0.41065,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001776934673366834,
      "loss": 1.9876,
      "step": 82130
    },
    {
      "epoch": 0.4107,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017767839195979897,
      "loss": 2.1069,
      "step": 82140
    },
    {
      "epoch": 0.41075,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017766331658291458,
      "loss": 2.0537,
      "step": 82150
    },
    {
      "epoch": 0.4108,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00017764824120603014,
      "loss": 2.0328,
      "step": 82160
    },
    {
      "epoch": 0.41085,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001776331658291457,
      "loss": 2.0825,
      "step": 82170
    },
    {
      "epoch": 0.4109,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001776180904522613,
      "loss": 2.0622,
      "step": 82180
    },
    {
      "epoch": 0.41095,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017760301507537687,
      "loss": 2.114,
      "step": 82190
    },
    {
      "epoch": 0.411,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017758793969849243,
      "loss": 2.0091,
      "step": 82200
    },
    {
      "epoch": 0.41105,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017757286432160802,
      "loss": 2.0948,
      "step": 82210
    },
    {
      "epoch": 0.4111,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001775577889447236,
      "loss": 2.0733,
      "step": 82220
    },
    {
      "epoch": 0.41115,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001775427135678392,
      "loss": 2.0943,
      "step": 82230
    },
    {
      "epoch": 0.4112,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017752763819095475,
      "loss": 2.0857,
      "step": 82240
    },
    {
      "epoch": 0.41125,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017751256281407034,
      "loss": 2.0965,
      "step": 82250
    },
    {
      "epoch": 0.4113,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017749748743718592,
      "loss": 2.0793,
      "step": 82260
    },
    {
      "epoch": 0.41135,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00017748241206030148,
      "loss": 2.0674,
      "step": 82270
    },
    {
      "epoch": 0.4114,
      "grad_norm": 2.0,
      "learning_rate": 0.0001774673366834171,
      "loss": 2.0841,
      "step": 82280
    },
    {
      "epoch": 0.41145,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017745226130653265,
      "loss": 2.0325,
      "step": 82290
    },
    {
      "epoch": 0.4115,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001774371859296482,
      "loss": 2.0894,
      "step": 82300
    },
    {
      "epoch": 0.41155,
      "grad_norm": 2.0,
      "learning_rate": 0.00017742211055276383,
      "loss": 2.0655,
      "step": 82310
    },
    {
      "epoch": 0.4116,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017740703517587938,
      "loss": 2.1107,
      "step": 82320
    },
    {
      "epoch": 0.41165,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017739195979899494,
      "loss": 2.0996,
      "step": 82330
    },
    {
      "epoch": 0.4117,
      "grad_norm": 1.875,
      "learning_rate": 0.00017737688442211053,
      "loss": 2.0793,
      "step": 82340
    },
    {
      "epoch": 0.41175,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017736180904522612,
      "loss": 2.0697,
      "step": 82350
    },
    {
      "epoch": 0.4118,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001773467336683417,
      "loss": 2.0842,
      "step": 82360
    },
    {
      "epoch": 0.41185,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017733165829145726,
      "loss": 2.123,
      "step": 82370
    },
    {
      "epoch": 0.4119,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017731658291457285,
      "loss": 2.0987,
      "step": 82380
    },
    {
      "epoch": 0.41195,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017730150753768843,
      "loss": 2.1325,
      "step": 82390
    },
    {
      "epoch": 0.412,
      "grad_norm": 1.96875,
      "learning_rate": 0.000177286432160804,
      "loss": 2.0457,
      "step": 82400
    },
    {
      "epoch": 0.41205,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001772713567839196,
      "loss": 2.0611,
      "step": 82410
    },
    {
      "epoch": 0.4121,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017725628140703516,
      "loss": 2.0387,
      "step": 82420
    },
    {
      "epoch": 0.41215,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017724120603015072,
      "loss": 2.0394,
      "step": 82430
    },
    {
      "epoch": 0.4122,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00017722613065326634,
      "loss": 2.0419,
      "step": 82440
    },
    {
      "epoch": 0.41225,
      "grad_norm": 2.203125,
      "learning_rate": 0.0001772110552763819,
      "loss": 2.0285,
      "step": 82450
    },
    {
      "epoch": 0.4123,
      "grad_norm": 1.796875,
      "learning_rate": 0.00017719597989949745,
      "loss": 2.0823,
      "step": 82460
    },
    {
      "epoch": 0.41235,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017718090452261307,
      "loss": 2.1076,
      "step": 82470
    },
    {
      "epoch": 0.4124,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017716582914572863,
      "loss": 2.0774,
      "step": 82480
    },
    {
      "epoch": 0.41245,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001771507537688442,
      "loss": 2.1001,
      "step": 82490
    },
    {
      "epoch": 0.4125,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017713567839195977,
      "loss": 2.1325,
      "step": 82500
    },
    {
      "epoch": 0.41255,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00017712060301507536,
      "loss": 2.1115,
      "step": 82510
    },
    {
      "epoch": 0.4126,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017710552763819094,
      "loss": 2.0553,
      "step": 82520
    },
    {
      "epoch": 0.41265,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001770904522613065,
      "loss": 2.1278,
      "step": 82530
    },
    {
      "epoch": 0.4127,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017707537688442212,
      "loss": 2.0585,
      "step": 82540
    },
    {
      "epoch": 0.41275,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00017706030150753768,
      "loss": 2.0944,
      "step": 82550
    },
    {
      "epoch": 0.4128,
      "grad_norm": 2.1875,
      "learning_rate": 0.00017704522613065323,
      "loss": 2.09,
      "step": 82560
    },
    {
      "epoch": 0.41285,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017703015075376885,
      "loss": 2.088,
      "step": 82570
    },
    {
      "epoch": 0.4129,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001770150753768844,
      "loss": 2.0358,
      "step": 82580
    },
    {
      "epoch": 0.41295,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017699999999999997,
      "loss": 2.0328,
      "step": 82590
    },
    {
      "epoch": 0.413,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017698492462311558,
      "loss": 2.122,
      "step": 82600
    },
    {
      "epoch": 0.41305,
      "grad_norm": 2.0,
      "learning_rate": 0.00017696984924623114,
      "loss": 2.0339,
      "step": 82610
    },
    {
      "epoch": 0.4131,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00017695477386934672,
      "loss": 2.0585,
      "step": 82620
    },
    {
      "epoch": 0.41315,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001769396984924623,
      "loss": 2.027,
      "step": 82630
    },
    {
      "epoch": 0.4132,
      "grad_norm": 1.71875,
      "learning_rate": 0.00017692462311557787,
      "loss": 2.0968,
      "step": 82640
    },
    {
      "epoch": 0.41325,
      "grad_norm": 2.140625,
      "learning_rate": 0.00017690954773869346,
      "loss": 2.0949,
      "step": 82650
    },
    {
      "epoch": 0.4133,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017689447236180901,
      "loss": 2.1187,
      "step": 82660
    },
    {
      "epoch": 0.41335,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017687939698492463,
      "loss": 2.0989,
      "step": 82670
    },
    {
      "epoch": 0.4134,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017686432160804019,
      "loss": 2.0841,
      "step": 82680
    },
    {
      "epoch": 0.41345,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017684924623115575,
      "loss": 2.0528,
      "step": 82690
    },
    {
      "epoch": 0.4135,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017683417085427136,
      "loss": 2.0595,
      "step": 82700
    },
    {
      "epoch": 0.41355,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017681909547738692,
      "loss": 2.059,
      "step": 82710
    },
    {
      "epoch": 0.4136,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017680402010050248,
      "loss": 2.0292,
      "step": 82720
    },
    {
      "epoch": 0.41365,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0001767889447236181,
      "loss": 2.05,
      "step": 82730
    },
    {
      "epoch": 0.4137,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017677386934673365,
      "loss": 2.0508,
      "step": 82740
    },
    {
      "epoch": 0.41375,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017675879396984923,
      "loss": 2.0919,
      "step": 82750
    },
    {
      "epoch": 0.4138,
      "grad_norm": 2.15625,
      "learning_rate": 0.00017674371859296482,
      "loss": 2.0246,
      "step": 82760
    },
    {
      "epoch": 0.41385,
      "grad_norm": 2.234375,
      "learning_rate": 0.00017672864321608038,
      "loss": 2.0735,
      "step": 82770
    },
    {
      "epoch": 0.4139,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017671356783919597,
      "loss": 2.1266,
      "step": 82780
    },
    {
      "epoch": 0.41395,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017669849246231155,
      "loss": 2.0836,
      "step": 82790
    },
    {
      "epoch": 0.414,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00017668341708542714,
      "loss": 2.082,
      "step": 82800
    },
    {
      "epoch": 0.41405,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001766683417085427,
      "loss": 2.0882,
      "step": 82810
    },
    {
      "epoch": 0.4141,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017665326633165826,
      "loss": 2.0765,
      "step": 82820
    },
    {
      "epoch": 0.41415,
      "grad_norm": 2.125,
      "learning_rate": 0.00017663819095477387,
      "loss": 2.0763,
      "step": 82830
    },
    {
      "epoch": 0.4142,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017662311557788943,
      "loss": 2.0686,
      "step": 82840
    },
    {
      "epoch": 0.41425,
      "grad_norm": 1.984375,
      "learning_rate": 0.000176608040201005,
      "loss": 2.082,
      "step": 82850
    },
    {
      "epoch": 0.4143,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001765929648241206,
      "loss": 2.071,
      "step": 82860
    },
    {
      "epoch": 0.41435,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017657788944723616,
      "loss": 2.1162,
      "step": 82870
    },
    {
      "epoch": 0.4144,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017656281407035175,
      "loss": 2.0718,
      "step": 82880
    },
    {
      "epoch": 0.41445,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00017654773869346733,
      "loss": 2.1239,
      "step": 82890
    },
    {
      "epoch": 0.4145,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001765326633165829,
      "loss": 2.0895,
      "step": 82900
    },
    {
      "epoch": 0.41455,
      "grad_norm": 1.734375,
      "learning_rate": 0.00017651758793969848,
      "loss": 2.1167,
      "step": 82910
    },
    {
      "epoch": 0.4146,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017650251256281406,
      "loss": 2.0827,
      "step": 82920
    },
    {
      "epoch": 0.41465,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017648743718592965,
      "loss": 2.0732,
      "step": 82930
    },
    {
      "epoch": 0.4147,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001764723618090452,
      "loss": 2.0627,
      "step": 82940
    },
    {
      "epoch": 0.41475,
      "grad_norm": 2.125,
      "learning_rate": 0.0001764572864321608,
      "loss": 2.0435,
      "step": 82950
    },
    {
      "epoch": 0.4148,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017644221105527638,
      "loss": 2.0475,
      "step": 82960
    },
    {
      "epoch": 0.41485,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017642713567839194,
      "loss": 2.0539,
      "step": 82970
    },
    {
      "epoch": 0.4149,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001764120603015075,
      "loss": 2.0732,
      "step": 82980
    },
    {
      "epoch": 0.41495,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001763969849246231,
      "loss": 2.074,
      "step": 82990
    },
    {
      "epoch": 0.415,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017638190954773867,
      "loss": 2.0994,
      "step": 83000
    },
    {
      "epoch": 0.41505,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017636683417085426,
      "loss": 2.037,
      "step": 83010
    },
    {
      "epoch": 0.4151,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017635175879396984,
      "loss": 2.1123,
      "step": 83020
    },
    {
      "epoch": 0.41515,
      "grad_norm": 1.78125,
      "learning_rate": 0.0001763366834170854,
      "loss": 2.0559,
      "step": 83030
    },
    {
      "epoch": 0.4152,
      "grad_norm": 1.8671875,
      "learning_rate": 0.000176321608040201,
      "loss": 2.0863,
      "step": 83040
    },
    {
      "epoch": 0.41525,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017630653266331657,
      "loss": 2.1253,
      "step": 83050
    },
    {
      "epoch": 0.4153,
      "grad_norm": 2.21875,
      "learning_rate": 0.00017629145728643216,
      "loss": 2.1014,
      "step": 83060
    },
    {
      "epoch": 0.41535,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017627638190954772,
      "loss": 2.0877,
      "step": 83070
    },
    {
      "epoch": 0.4154,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001762613065326633,
      "loss": 2.0636,
      "step": 83080
    },
    {
      "epoch": 0.41545,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001762462311557789,
      "loss": 2.0513,
      "step": 83090
    },
    {
      "epoch": 0.4155,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017623115577889445,
      "loss": 2.0011,
      "step": 83100
    },
    {
      "epoch": 0.41555,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017621608040201006,
      "loss": 2.0504,
      "step": 83110
    },
    {
      "epoch": 0.4156,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017620100502512562,
      "loss": 2.0677,
      "step": 83120
    },
    {
      "epoch": 0.41565,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017618592964824118,
      "loss": 2.0507,
      "step": 83130
    },
    {
      "epoch": 0.4157,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017617085427135674,
      "loss": 2.0688,
      "step": 83140
    },
    {
      "epoch": 0.41575,
      "grad_norm": 2.0,
      "learning_rate": 0.00017615577889447235,
      "loss": 2.1262,
      "step": 83150
    },
    {
      "epoch": 0.4158,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001761407035175879,
      "loss": 2.0857,
      "step": 83160
    },
    {
      "epoch": 0.41585,
      "grad_norm": 2.0,
      "learning_rate": 0.0001761256281407035,
      "loss": 2.0504,
      "step": 83170
    },
    {
      "epoch": 0.4159,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017611055276381908,
      "loss": 2.1368,
      "step": 83180
    },
    {
      "epoch": 0.41595,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017609547738693467,
      "loss": 2.0407,
      "step": 83190
    },
    {
      "epoch": 0.416,
      "grad_norm": 1.6328125,
      "learning_rate": 0.00017608040201005023,
      "loss": 2.0773,
      "step": 83200
    },
    {
      "epoch": 0.41605,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017606532663316582,
      "loss": 2.0017,
      "step": 83210
    },
    {
      "epoch": 0.4161,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001760502512562814,
      "loss": 2.1152,
      "step": 83220
    },
    {
      "epoch": 0.41615,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017603517587939696,
      "loss": 2.0377,
      "step": 83230
    },
    {
      "epoch": 0.4162,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00017602010050251257,
      "loss": 2.0663,
      "step": 83240
    },
    {
      "epoch": 0.41625,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017600502512562813,
      "loss": 2.0415,
      "step": 83250
    },
    {
      "epoch": 0.4163,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001759899497487437,
      "loss": 2.0426,
      "step": 83260
    },
    {
      "epoch": 0.41635,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017597487437185925,
      "loss": 2.0016,
      "step": 83270
    },
    {
      "epoch": 0.4164,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017595979899497486,
      "loss": 2.071,
      "step": 83280
    },
    {
      "epoch": 0.41645,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017594472361809042,
      "loss": 2.0872,
      "step": 83290
    },
    {
      "epoch": 0.4165,
      "grad_norm": 2.03125,
      "learning_rate": 0.000175929648241206,
      "loss": 2.0772,
      "step": 83300
    },
    {
      "epoch": 0.41655,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001759145728643216,
      "loss": 2.0668,
      "step": 83310
    },
    {
      "epoch": 0.4166,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017589949748743718,
      "loss": 2.0432,
      "step": 83320
    },
    {
      "epoch": 0.41665,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017588442211055274,
      "loss": 2.0998,
      "step": 83330
    },
    {
      "epoch": 0.4167,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017586934673366833,
      "loss": 2.0789,
      "step": 83340
    },
    {
      "epoch": 0.41675,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001758542713567839,
      "loss": 2.0562,
      "step": 83350
    },
    {
      "epoch": 0.4168,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017583919597989947,
      "loss": 2.0521,
      "step": 83360
    },
    {
      "epoch": 0.41685,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017582412060301509,
      "loss": 2.0223,
      "step": 83370
    },
    {
      "epoch": 0.4169,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017580904522613064,
      "loss": 2.0735,
      "step": 83380
    },
    {
      "epoch": 0.41695,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001757939698492462,
      "loss": 2.0918,
      "step": 83390
    },
    {
      "epoch": 0.417,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017577889447236182,
      "loss": 2.1094,
      "step": 83400
    },
    {
      "epoch": 0.41705,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017576381909547738,
      "loss": 2.1022,
      "step": 83410
    },
    {
      "epoch": 0.4171,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017574874371859293,
      "loss": 2.1085,
      "step": 83420
    },
    {
      "epoch": 0.41715,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017573366834170852,
      "loss": 2.1605,
      "step": 83430
    },
    {
      "epoch": 0.4172,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001757185929648241,
      "loss": 2.0624,
      "step": 83440
    },
    {
      "epoch": 0.41725,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001757035175879397,
      "loss": 2.0772,
      "step": 83450
    },
    {
      "epoch": 0.4173,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017568844221105525,
      "loss": 2.0475,
      "step": 83460
    },
    {
      "epoch": 0.41735,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017567336683417084,
      "loss": 2.1324,
      "step": 83470
    },
    {
      "epoch": 0.4174,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017565829145728642,
      "loss": 2.0938,
      "step": 83480
    },
    {
      "epoch": 0.41745,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00017564321608040198,
      "loss": 2.0709,
      "step": 83490
    },
    {
      "epoch": 0.4175,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001756281407035176,
      "loss": 2.0744,
      "step": 83500
    },
    {
      "epoch": 0.41755,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017561306532663316,
      "loss": 2.08,
      "step": 83510
    },
    {
      "epoch": 0.4176,
      "grad_norm": 2.0,
      "learning_rate": 0.00017559798994974871,
      "loss": 2.0759,
      "step": 83520
    },
    {
      "epoch": 0.41765,
      "grad_norm": 1.6875,
      "learning_rate": 0.00017558291457286433,
      "loss": 2.0423,
      "step": 83530
    },
    {
      "epoch": 0.4177,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001755678391959799,
      "loss": 2.038,
      "step": 83540
    },
    {
      "epoch": 0.41775,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017555276381909545,
      "loss": 2.0816,
      "step": 83550
    },
    {
      "epoch": 0.4178,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017553768844221106,
      "loss": 2.0884,
      "step": 83560
    },
    {
      "epoch": 0.41785,
      "grad_norm": 2.0,
      "learning_rate": 0.00017552261306532662,
      "loss": 2.0622,
      "step": 83570
    },
    {
      "epoch": 0.4179,
      "grad_norm": 1.828125,
      "learning_rate": 0.00017550753768844218,
      "loss": 2.0578,
      "step": 83580
    },
    {
      "epoch": 0.41795,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017549246231155776,
      "loss": 2.1128,
      "step": 83590
    },
    {
      "epoch": 0.418,
      "grad_norm": 2.0,
      "learning_rate": 0.00017547738693467335,
      "loss": 2.0655,
      "step": 83600
    },
    {
      "epoch": 0.41805,
      "grad_norm": 1.828125,
      "learning_rate": 0.00017546231155778893,
      "loss": 2.0894,
      "step": 83610
    },
    {
      "epoch": 0.4181,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0001754472361809045,
      "loss": 2.0617,
      "step": 83620
    },
    {
      "epoch": 0.41815,
      "grad_norm": 2.0,
      "learning_rate": 0.0001754321608040201,
      "loss": 2.0554,
      "step": 83630
    },
    {
      "epoch": 0.4182,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00017541708542713567,
      "loss": 2.0767,
      "step": 83640
    },
    {
      "epoch": 0.41825,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017540201005025123,
      "loss": 2.1008,
      "step": 83650
    },
    {
      "epoch": 0.4183,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017538693467336684,
      "loss": 2.113,
      "step": 83660
    },
    {
      "epoch": 0.41835,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001753718592964824,
      "loss": 2.0631,
      "step": 83670
    },
    {
      "epoch": 0.4184,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017535678391959796,
      "loss": 2.0881,
      "step": 83680
    },
    {
      "epoch": 0.41845,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017534170854271357,
      "loss": 2.0874,
      "step": 83690
    },
    {
      "epoch": 0.4185,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017532663316582913,
      "loss": 2.0533,
      "step": 83700
    },
    {
      "epoch": 0.41855,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0001753115577889447,
      "loss": 2.0615,
      "step": 83710
    },
    {
      "epoch": 0.4186,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001752964824120603,
      "loss": 2.0993,
      "step": 83720
    },
    {
      "epoch": 0.41865,
      "grad_norm": 1.765625,
      "learning_rate": 0.00017528140703517586,
      "loss": 2.089,
      "step": 83730
    },
    {
      "epoch": 0.4187,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017526633165829145,
      "loss": 2.055,
      "step": 83740
    },
    {
      "epoch": 0.41875,
      "grad_norm": 1.6953125,
      "learning_rate": 0.000175251256281407,
      "loss": 2.0364,
      "step": 83750
    },
    {
      "epoch": 0.4188,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017523618090452262,
      "loss": 2.0165,
      "step": 83760
    },
    {
      "epoch": 0.41885,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017522110552763818,
      "loss": 2.1233,
      "step": 83770
    },
    {
      "epoch": 0.4189,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017520603015075374,
      "loss": 2.0553,
      "step": 83780
    },
    {
      "epoch": 0.41895,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017519095477386935,
      "loss": 2.0283,
      "step": 83790
    },
    {
      "epoch": 0.419,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001751758793969849,
      "loss": 2.0267,
      "step": 83800
    },
    {
      "epoch": 0.41905,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017516080402010047,
      "loss": 2.0922,
      "step": 83810
    },
    {
      "epoch": 0.4191,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017514572864321608,
      "loss": 2.0203,
      "step": 83820
    },
    {
      "epoch": 0.41915,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017513065326633164,
      "loss": 2.0809,
      "step": 83830
    },
    {
      "epoch": 0.4192,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001751155778894472,
      "loss": 2.0758,
      "step": 83840
    },
    {
      "epoch": 0.41925,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001751005025125628,
      "loss": 2.0398,
      "step": 83850
    },
    {
      "epoch": 0.4193,
      "grad_norm": 1.765625,
      "learning_rate": 0.00017508542713567837,
      "loss": 2.0585,
      "step": 83860
    },
    {
      "epoch": 0.41935,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017507035175879396,
      "loss": 2.0388,
      "step": 83870
    },
    {
      "epoch": 0.4194,
      "grad_norm": 1.703125,
      "learning_rate": 0.00017505527638190954,
      "loss": 2.1211,
      "step": 83880
    },
    {
      "epoch": 0.41945,
      "grad_norm": 2.109375,
      "learning_rate": 0.00017504020100502513,
      "loss": 2.0874,
      "step": 83890
    },
    {
      "epoch": 0.4195,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001750251256281407,
      "loss": 2.1279,
      "step": 83900
    },
    {
      "epoch": 0.41955,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017501005025125625,
      "loss": 2.0791,
      "step": 83910
    },
    {
      "epoch": 0.4196,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017499497487437186,
      "loss": 2.0854,
      "step": 83920
    },
    {
      "epoch": 0.41965,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017497989949748742,
      "loss": 1.9885,
      "step": 83930
    },
    {
      "epoch": 0.4197,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017496482412060298,
      "loss": 2.053,
      "step": 83940
    },
    {
      "epoch": 0.41975,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001749497487437186,
      "loss": 2.0788,
      "step": 83950
    },
    {
      "epoch": 0.4198,
      "grad_norm": 1.828125,
      "learning_rate": 0.00017493467336683415,
      "loss": 2.1425,
      "step": 83960
    },
    {
      "epoch": 0.41985,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001749195979899497,
      "loss": 2.106,
      "step": 83970
    },
    {
      "epoch": 0.4199,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017490452261306532,
      "loss": 2.0622,
      "step": 83980
    },
    {
      "epoch": 0.41995,
      "grad_norm": 2.0,
      "learning_rate": 0.00017488944723618088,
      "loss": 2.0887,
      "step": 83990
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017487437185929647,
      "loss": 2.036,
      "step": 84000
    },
    {
      "epoch": 0.42,
      "eval_loss": 2.0637547969818115,
      "eval_runtime": 90.0858,
      "eval_samples_per_second": 27.751,
      "eval_steps_per_second": 0.444,
      "step": 84000
    },
    {
      "epoch": 0.42005,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017485929648241205,
      "loss": 2.0759,
      "step": 84010
    },
    {
      "epoch": 0.4201,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017484422110552764,
      "loss": 2.1498,
      "step": 84020
    },
    {
      "epoch": 0.42015,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001748291457286432,
      "loss": 2.0683,
      "step": 84030
    },
    {
      "epoch": 0.4202,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017481407035175879,
      "loss": 2.0645,
      "step": 84040
    },
    {
      "epoch": 0.42025,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017479899497487437,
      "loss": 2.127,
      "step": 84050
    },
    {
      "epoch": 0.4203,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017478391959798993,
      "loss": 2.0126,
      "step": 84060
    },
    {
      "epoch": 0.42035,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001747688442211055,
      "loss": 2.1441,
      "step": 84070
    },
    {
      "epoch": 0.4204,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001747537688442211,
      "loss": 2.0796,
      "step": 84080
    },
    {
      "epoch": 0.42045,
      "grad_norm": 1.671875,
      "learning_rate": 0.00017473869346733666,
      "loss": 2.0494,
      "step": 84090
    },
    {
      "epoch": 0.4205,
      "grad_norm": 1.765625,
      "learning_rate": 0.00017472361809045222,
      "loss": 2.0983,
      "step": 84100
    },
    {
      "epoch": 0.42055,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017470854271356783,
      "loss": 2.0837,
      "step": 84110
    },
    {
      "epoch": 0.4206,
      "grad_norm": 2.171875,
      "learning_rate": 0.0001746934673366834,
      "loss": 2.0773,
      "step": 84120
    },
    {
      "epoch": 0.42065,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017467839195979898,
      "loss": 2.0332,
      "step": 84130
    },
    {
      "epoch": 0.4207,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017466331658291456,
      "loss": 2.0836,
      "step": 84140
    },
    {
      "epoch": 0.42075,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017464824120603012,
      "loss": 2.0488,
      "step": 84150
    },
    {
      "epoch": 0.4208,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001746331658291457,
      "loss": 2.1304,
      "step": 84160
    },
    {
      "epoch": 0.42085,
      "grad_norm": 1.875,
      "learning_rate": 0.0001746180904522613,
      "loss": 2.0619,
      "step": 84170
    },
    {
      "epoch": 0.4209,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017460301507537688,
      "loss": 2.0692,
      "step": 84180
    },
    {
      "epoch": 0.42095,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017458793969849244,
      "loss": 2.1016,
      "step": 84190
    },
    {
      "epoch": 0.421,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017457286432160805,
      "loss": 2.102,
      "step": 84200
    },
    {
      "epoch": 0.42105,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001745577889447236,
      "loss": 2.0412,
      "step": 84210
    },
    {
      "epoch": 0.4211,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017454271356783917,
      "loss": 2.0724,
      "step": 84220
    },
    {
      "epoch": 0.42115,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017452763819095473,
      "loss": 2.0587,
      "step": 84230
    },
    {
      "epoch": 0.4212,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017451256281407034,
      "loss": 2.0769,
      "step": 84240
    },
    {
      "epoch": 0.42125,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001744974874371859,
      "loss": 2.0697,
      "step": 84250
    },
    {
      "epoch": 0.4213,
      "grad_norm": 1.875,
      "learning_rate": 0.0001744824120603015,
      "loss": 2.0404,
      "step": 84260
    },
    {
      "epoch": 0.42135,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017446733668341708,
      "loss": 2.0723,
      "step": 84270
    },
    {
      "epoch": 0.4214,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017445226130653263,
      "loss": 2.0628,
      "step": 84280
    },
    {
      "epoch": 0.42145,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017443718592964822,
      "loss": 2.0967,
      "step": 84290
    },
    {
      "epoch": 0.4215,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001744221105527638,
      "loss": 2.0672,
      "step": 84300
    },
    {
      "epoch": 0.42155,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0001744070351758794,
      "loss": 2.076,
      "step": 84310
    },
    {
      "epoch": 0.4216,
      "grad_norm": 2.28125,
      "learning_rate": 0.00017439195979899495,
      "loss": 2.0966,
      "step": 84320
    },
    {
      "epoch": 0.42165,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00017437688442211057,
      "loss": 2.0722,
      "step": 84330
    },
    {
      "epoch": 0.4217,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017436180904522612,
      "loss": 2.0921,
      "step": 84340
    },
    {
      "epoch": 0.42175,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017434673366834168,
      "loss": 2.0917,
      "step": 84350
    },
    {
      "epoch": 0.4218,
      "grad_norm": 2.0,
      "learning_rate": 0.00017433165829145724,
      "loss": 2.0277,
      "step": 84360
    },
    {
      "epoch": 0.42185,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017431658291457286,
      "loss": 2.076,
      "step": 84370
    },
    {
      "epoch": 0.4219,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017430150753768841,
      "loss": 2.0758,
      "step": 84380
    },
    {
      "epoch": 0.42195,
      "grad_norm": 1.8671875,
      "learning_rate": 0.000174286432160804,
      "loss": 2.0295,
      "step": 84390
    },
    {
      "epoch": 0.422,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001742713567839196,
      "loss": 2.071,
      "step": 84400
    },
    {
      "epoch": 0.42205,
      "grad_norm": 2.0,
      "learning_rate": 0.00017425628140703515,
      "loss": 2.0832,
      "step": 84410
    },
    {
      "epoch": 0.4221,
      "grad_norm": 2.171875,
      "learning_rate": 0.00017424120603015073,
      "loss": 2.1283,
      "step": 84420
    },
    {
      "epoch": 0.42215,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017422613065326632,
      "loss": 2.0791,
      "step": 84430
    },
    {
      "epoch": 0.4222,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001742110552763819,
      "loss": 2.1183,
      "step": 84440
    },
    {
      "epoch": 0.42225,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017419597989949746,
      "loss": 2.075,
      "step": 84450
    },
    {
      "epoch": 0.4223,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017418090452261308,
      "loss": 2.0679,
      "step": 84460
    },
    {
      "epoch": 0.42235,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017416582914572864,
      "loss": 2.0492,
      "step": 84470
    },
    {
      "epoch": 0.4224,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001741507537688442,
      "loss": 2.1397,
      "step": 84480
    },
    {
      "epoch": 0.42245,
      "grad_norm": 2.0,
      "learning_rate": 0.0001741356783919598,
      "loss": 2.0478,
      "step": 84490
    },
    {
      "epoch": 0.4225,
      "grad_norm": 1.796875,
      "learning_rate": 0.00017412060301507537,
      "loss": 2.1064,
      "step": 84500
    },
    {
      "epoch": 0.42255,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00017410552763819093,
      "loss": 2.0334,
      "step": 84510
    },
    {
      "epoch": 0.4226,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001740904522613065,
      "loss": 2.031,
      "step": 84520
    },
    {
      "epoch": 0.42265,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001740753768844221,
      "loss": 2.0676,
      "step": 84530
    },
    {
      "epoch": 0.4227,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017406030150753766,
      "loss": 2.1072,
      "step": 84540
    },
    {
      "epoch": 0.42275,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017404522613065324,
      "loss": 2.0323,
      "step": 84550
    },
    {
      "epoch": 0.4228,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017403015075376883,
      "loss": 2.0452,
      "step": 84560
    },
    {
      "epoch": 0.42285,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017401507537688441,
      "loss": 2.1028,
      "step": 84570
    },
    {
      "epoch": 0.4229,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017399999999999997,
      "loss": 2.1132,
      "step": 84580
    },
    {
      "epoch": 0.42295,
      "grad_norm": 1.6875,
      "learning_rate": 0.0001739849246231156,
      "loss": 2.0991,
      "step": 84590
    },
    {
      "epoch": 0.423,
      "grad_norm": 2.21875,
      "learning_rate": 0.00017396984924623115,
      "loss": 2.1057,
      "step": 84600
    },
    {
      "epoch": 0.42305,
      "grad_norm": 1.875,
      "learning_rate": 0.0001739547738693467,
      "loss": 2.1545,
      "step": 84610
    },
    {
      "epoch": 0.4231,
      "grad_norm": 1.875,
      "learning_rate": 0.00017393969849246232,
      "loss": 2.0376,
      "step": 84620
    },
    {
      "epoch": 0.42315,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017392462311557788,
      "loss": 2.0958,
      "step": 84630
    },
    {
      "epoch": 0.4232,
      "grad_norm": 1.75,
      "learning_rate": 0.00017390954773869344,
      "loss": 1.9903,
      "step": 84640
    },
    {
      "epoch": 0.42325,
      "grad_norm": 2.109375,
      "learning_rate": 0.00017389447236180905,
      "loss": 2.0549,
      "step": 84650
    },
    {
      "epoch": 0.4233,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001738793969849246,
      "loss": 2.0155,
      "step": 84660
    },
    {
      "epoch": 0.42335,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00017386432160804017,
      "loss": 2.1177,
      "step": 84670
    },
    {
      "epoch": 0.4234,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017384924623115575,
      "loss": 2.0402,
      "step": 84680
    },
    {
      "epoch": 0.42345,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017383417085427134,
      "loss": 2.1067,
      "step": 84690
    },
    {
      "epoch": 0.4235,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017381909547738693,
      "loss": 2.0744,
      "step": 84700
    },
    {
      "epoch": 0.42355,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017380402010050248,
      "loss": 2.1281,
      "step": 84710
    },
    {
      "epoch": 0.4236,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017378894472361807,
      "loss": 2.0532,
      "step": 84720
    },
    {
      "epoch": 0.42365,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017377386934673366,
      "loss": 2.0744,
      "step": 84730
    },
    {
      "epoch": 0.4237,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00017375879396984922,
      "loss": 2.114,
      "step": 84740
    },
    {
      "epoch": 0.42375,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017374371859296483,
      "loss": 2.0269,
      "step": 84750
    },
    {
      "epoch": 0.4238,
      "grad_norm": 2.125,
      "learning_rate": 0.0001737286432160804,
      "loss": 2.0925,
      "step": 84760
    },
    {
      "epoch": 0.42385,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017371356783919595,
      "loss": 2.0743,
      "step": 84770
    },
    {
      "epoch": 0.4239,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017369849246231156,
      "loss": 2.0798,
      "step": 84780
    },
    {
      "epoch": 0.42395,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017368341708542712,
      "loss": 2.0837,
      "step": 84790
    },
    {
      "epoch": 0.424,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017366834170854268,
      "loss": 2.068,
      "step": 84800
    },
    {
      "epoch": 0.42405,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001736532663316583,
      "loss": 1.9895,
      "step": 84810
    },
    {
      "epoch": 0.4241,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017363819095477385,
      "loss": 2.0704,
      "step": 84820
    },
    {
      "epoch": 0.42415,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017362311557788944,
      "loss": 2.0863,
      "step": 84830
    },
    {
      "epoch": 0.4242,
      "grad_norm": 1.7734375,
      "learning_rate": 0.000173608040201005,
      "loss": 1.9935,
      "step": 84840
    },
    {
      "epoch": 0.42425,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017359296482412058,
      "loss": 2.067,
      "step": 84850
    },
    {
      "epoch": 0.4243,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017357788944723617,
      "loss": 2.0724,
      "step": 84860
    },
    {
      "epoch": 0.42435,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017356281407035173,
      "loss": 2.052,
      "step": 84870
    },
    {
      "epoch": 0.4244,
      "grad_norm": 2.125,
      "learning_rate": 0.00017354773869346734,
      "loss": 2.0008,
      "step": 84880
    },
    {
      "epoch": 0.42445,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001735326633165829,
      "loss": 2.0987,
      "step": 84890
    },
    {
      "epoch": 0.4245,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017351758793969846,
      "loss": 2.0723,
      "step": 84900
    },
    {
      "epoch": 0.42455,
      "grad_norm": 1.828125,
      "learning_rate": 0.00017350251256281407,
      "loss": 2.0915,
      "step": 84910
    },
    {
      "epoch": 0.4246,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017348743718592963,
      "loss": 2.062,
      "step": 84920
    },
    {
      "epoch": 0.42465,
      "grad_norm": 1.75,
      "learning_rate": 0.0001734723618090452,
      "loss": 2.1037,
      "step": 84930
    },
    {
      "epoch": 0.4247,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001734572864321608,
      "loss": 2.0722,
      "step": 84940
    },
    {
      "epoch": 0.42475,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017344221105527636,
      "loss": 2.0345,
      "step": 84950
    },
    {
      "epoch": 0.4248,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017342713567839195,
      "loss": 2.0761,
      "step": 84960
    },
    {
      "epoch": 0.42485,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017341206030150753,
      "loss": 2.0876,
      "step": 84970
    },
    {
      "epoch": 0.4249,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001733969849246231,
      "loss": 2.08,
      "step": 84980
    },
    {
      "epoch": 0.42495,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017338190954773868,
      "loss": 2.109,
      "step": 84990
    },
    {
      "epoch": 0.425,
      "grad_norm": 1.875,
      "learning_rate": 0.00017336683417085424,
      "loss": 2.1207,
      "step": 85000
    },
    {
      "epoch": 0.42505,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017335175879396985,
      "loss": 2.0453,
      "step": 85010
    },
    {
      "epoch": 0.4251,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001733366834170854,
      "loss": 2.0845,
      "step": 85020
    },
    {
      "epoch": 0.42515,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017332160804020097,
      "loss": 2.0896,
      "step": 85030
    },
    {
      "epoch": 0.4252,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00017330653266331658,
      "loss": 1.9795,
      "step": 85040
    },
    {
      "epoch": 0.42525,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017329145728643214,
      "loss": 2.0681,
      "step": 85050
    },
    {
      "epoch": 0.4253,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001732763819095477,
      "loss": 2.1136,
      "step": 85060
    },
    {
      "epoch": 0.42535,
      "grad_norm": 1.875,
      "learning_rate": 0.0001732613065326633,
      "loss": 2.0357,
      "step": 85070
    },
    {
      "epoch": 0.4254,
      "grad_norm": 1.765625,
      "learning_rate": 0.00017324623115577887,
      "loss": 2.1138,
      "step": 85080
    },
    {
      "epoch": 0.42545,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017323115577889446,
      "loss": 2.0518,
      "step": 85090
    },
    {
      "epoch": 0.4255,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017321608040201004,
      "loss": 2.0385,
      "step": 85100
    },
    {
      "epoch": 0.42555,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001732010050251256,
      "loss": 2.0663,
      "step": 85110
    },
    {
      "epoch": 0.4256,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001731859296482412,
      "loss": 2.0623,
      "step": 85120
    },
    {
      "epoch": 0.42565,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00017317085427135678,
      "loss": 2.0265,
      "step": 85130
    },
    {
      "epoch": 0.4257,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017315577889447236,
      "loss": 2.0747,
      "step": 85140
    },
    {
      "epoch": 0.42575,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017314070351758792,
      "loss": 2.0679,
      "step": 85150
    },
    {
      "epoch": 0.4258,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017312562814070348,
      "loss": 2.091,
      "step": 85160
    },
    {
      "epoch": 0.42585,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001731105527638191,
      "loss": 2.0482,
      "step": 85170
    },
    {
      "epoch": 0.4259,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017309547738693465,
      "loss": 2.0809,
      "step": 85180
    },
    {
      "epoch": 0.42595,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001730804020100502,
      "loss": 2.0167,
      "step": 85190
    },
    {
      "epoch": 0.426,
      "grad_norm": 2.265625,
      "learning_rate": 0.00017306532663316582,
      "loss": 2.0438,
      "step": 85200
    },
    {
      "epoch": 0.42605,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00017305025125628138,
      "loss": 2.0637,
      "step": 85210
    },
    {
      "epoch": 0.4261,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00017303517587939697,
      "loss": 2.0815,
      "step": 85220
    },
    {
      "epoch": 0.42615,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017302010050251256,
      "loss": 2.068,
      "step": 85230
    },
    {
      "epoch": 0.4262,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017300502512562811,
      "loss": 2.0432,
      "step": 85240
    },
    {
      "epoch": 0.42625,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001729899497487437,
      "loss": 2.0842,
      "step": 85250
    },
    {
      "epoch": 0.4263,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001729748743718593,
      "loss": 2.046,
      "step": 85260
    },
    {
      "epoch": 0.42635,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017295979899497487,
      "loss": 2.0737,
      "step": 85270
    },
    {
      "epoch": 0.4264,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017294472361809043,
      "loss": 2.0215,
      "step": 85280
    },
    {
      "epoch": 0.42645,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017292964824120602,
      "loss": 2.0954,
      "step": 85290
    },
    {
      "epoch": 0.4265,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001729145728643216,
      "loss": 2.0076,
      "step": 85300
    },
    {
      "epoch": 0.42655,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017289949748743716,
      "loss": 2.1139,
      "step": 85310
    },
    {
      "epoch": 0.4266,
      "grad_norm": 1.875,
      "learning_rate": 0.00017288442211055272,
      "loss": 2.0616,
      "step": 85320
    },
    {
      "epoch": 0.42665,
      "grad_norm": 1.703125,
      "learning_rate": 0.00017286934673366834,
      "loss": 2.0402,
      "step": 85330
    },
    {
      "epoch": 0.4267,
      "grad_norm": 2.234375,
      "learning_rate": 0.0001728542713567839,
      "loss": 2.0294,
      "step": 85340
    },
    {
      "epoch": 0.42675,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017283919597989948,
      "loss": 2.0803,
      "step": 85350
    },
    {
      "epoch": 0.4268,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017282412060301507,
      "loss": 2.1062,
      "step": 85360
    },
    {
      "epoch": 0.42685,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017280904522613063,
      "loss": 2.087,
      "step": 85370
    },
    {
      "epoch": 0.4269,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001727939698492462,
      "loss": 2.0718,
      "step": 85380
    },
    {
      "epoch": 0.42695,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001727788944723618,
      "loss": 2.12,
      "step": 85390
    },
    {
      "epoch": 0.427,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017276381909547738,
      "loss": 2.1024,
      "step": 85400
    },
    {
      "epoch": 0.42705,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017274874371859294,
      "loss": 2.0997,
      "step": 85410
    },
    {
      "epoch": 0.4271,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017273366834170853,
      "loss": 2.0729,
      "step": 85420
    },
    {
      "epoch": 0.42715,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017271859296482412,
      "loss": 2.0551,
      "step": 85430
    },
    {
      "epoch": 0.4272,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017270351758793967,
      "loss": 2.019,
      "step": 85440
    },
    {
      "epoch": 0.42725,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001726884422110553,
      "loss": 2.074,
      "step": 85450
    },
    {
      "epoch": 0.4273,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017267336683417085,
      "loss": 2.1095,
      "step": 85460
    },
    {
      "epoch": 0.42735,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001726582914572864,
      "loss": 2.051,
      "step": 85470
    },
    {
      "epoch": 0.4274,
      "grad_norm": 1.921875,
      "learning_rate": 0.000172643216080402,
      "loss": 2.0857,
      "step": 85480
    },
    {
      "epoch": 0.42745,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017262814070351758,
      "loss": 2.1078,
      "step": 85490
    },
    {
      "epoch": 0.4275,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017261306532663314,
      "loss": 2.0938,
      "step": 85500
    },
    {
      "epoch": 0.42755,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00017259798994974872,
      "loss": 2.1001,
      "step": 85510
    },
    {
      "epoch": 0.4276,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001725829145728643,
      "loss": 2.1097,
      "step": 85520
    },
    {
      "epoch": 0.42765,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001725678391959799,
      "loss": 2.0473,
      "step": 85530
    },
    {
      "epoch": 0.4277,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017255276381909545,
      "loss": 2.0533,
      "step": 85540
    },
    {
      "epoch": 0.42775,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017253768844221104,
      "loss": 2.0646,
      "step": 85550
    },
    {
      "epoch": 0.4278,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017252261306532663,
      "loss": 2.0708,
      "step": 85560
    },
    {
      "epoch": 0.42785,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017250753768844219,
      "loss": 2.0495,
      "step": 85570
    },
    {
      "epoch": 0.4279,
      "grad_norm": 2.34375,
      "learning_rate": 0.0001724924623115578,
      "loss": 2.0843,
      "step": 85580
    },
    {
      "epoch": 0.42795,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017247738693467336,
      "loss": 1.9976,
      "step": 85590
    },
    {
      "epoch": 0.428,
      "grad_norm": 1.703125,
      "learning_rate": 0.00017246231155778892,
      "loss": 2.0819,
      "step": 85600
    },
    {
      "epoch": 0.42805,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001724472361809045,
      "loss": 2.0729,
      "step": 85610
    },
    {
      "epoch": 0.4281,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001724321608040201,
      "loss": 2.0834,
      "step": 85620
    },
    {
      "epoch": 0.42815,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017241708542713565,
      "loss": 2.0697,
      "step": 85630
    },
    {
      "epoch": 0.4282,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017240201005025123,
      "loss": 2.0483,
      "step": 85640
    },
    {
      "epoch": 0.42825,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017238693467336682,
      "loss": 2.044,
      "step": 85650
    },
    {
      "epoch": 0.4283,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001723718592964824,
      "loss": 2.0637,
      "step": 85660
    },
    {
      "epoch": 0.42835,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017235678391959796,
      "loss": 2.1141,
      "step": 85670
    },
    {
      "epoch": 0.4284,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017234170854271355,
      "loss": 2.052,
      "step": 85680
    },
    {
      "epoch": 0.42845,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017232663316582914,
      "loss": 2.0987,
      "step": 85690
    },
    {
      "epoch": 0.4285,
      "grad_norm": 2.25,
      "learning_rate": 0.0001723115577889447,
      "loss": 2.0522,
      "step": 85700
    },
    {
      "epoch": 0.42855,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001722964824120603,
      "loss": 2.0999,
      "step": 85710
    },
    {
      "epoch": 0.4286,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017228140703517587,
      "loss": 2.0106,
      "step": 85720
    },
    {
      "epoch": 0.42865,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017226633165829143,
      "loss": 2.0845,
      "step": 85730
    },
    {
      "epoch": 0.4287,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017225125628140704,
      "loss": 2.03,
      "step": 85740
    },
    {
      "epoch": 0.42875,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001722361809045226,
      "loss": 2.0639,
      "step": 85750
    },
    {
      "epoch": 0.4288,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00017222110552763816,
      "loss": 2.0645,
      "step": 85760
    },
    {
      "epoch": 0.42885,
      "grad_norm": 2.15625,
      "learning_rate": 0.00017220603015075374,
      "loss": 2.0968,
      "step": 85770
    },
    {
      "epoch": 0.4289,
      "grad_norm": 1.765625,
      "learning_rate": 0.00017219095477386933,
      "loss": 2.0643,
      "step": 85780
    },
    {
      "epoch": 0.42895,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017217587939698492,
      "loss": 2.1087,
      "step": 85790
    },
    {
      "epoch": 0.429,
      "grad_norm": 1.875,
      "learning_rate": 0.00017216080402010048,
      "loss": 2.0239,
      "step": 85800
    },
    {
      "epoch": 0.42905,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017214572864321606,
      "loss": 2.0693,
      "step": 85810
    },
    {
      "epoch": 0.4291,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017213065326633165,
      "loss": 2.0804,
      "step": 85820
    },
    {
      "epoch": 0.42915,
      "grad_norm": 1.6953125,
      "learning_rate": 0.0001721155778894472,
      "loss": 2.0821,
      "step": 85830
    },
    {
      "epoch": 0.4292,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017210050251256282,
      "loss": 2.0791,
      "step": 85840
    },
    {
      "epoch": 0.42925,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017208542713567838,
      "loss": 2.056,
      "step": 85850
    },
    {
      "epoch": 0.4293,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017207035175879394,
      "loss": 2.0178,
      "step": 85860
    },
    {
      "epoch": 0.42935,
      "grad_norm": 1.828125,
      "learning_rate": 0.00017205527638190955,
      "loss": 2.0607,
      "step": 85870
    },
    {
      "epoch": 0.4294,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001720402010050251,
      "loss": 2.0613,
      "step": 85880
    },
    {
      "epoch": 0.42945,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017202512562814067,
      "loss": 2.0559,
      "step": 85890
    },
    {
      "epoch": 0.4295,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017201005025125628,
      "loss": 2.0963,
      "step": 85900
    },
    {
      "epoch": 0.42955,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017199497487437184,
      "loss": 2.0803,
      "step": 85910
    },
    {
      "epoch": 0.4296,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017197989949748743,
      "loss": 2.0741,
      "step": 85920
    },
    {
      "epoch": 0.42965,
      "grad_norm": 2.015625,
      "learning_rate": 0.000171964824120603,
      "loss": 2.0904,
      "step": 85930
    },
    {
      "epoch": 0.4297,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00017194974874371857,
      "loss": 2.0614,
      "step": 85940
    },
    {
      "epoch": 0.42975,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00017193467336683416,
      "loss": 2.0613,
      "step": 85950
    },
    {
      "epoch": 0.4298,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017191959798994972,
      "loss": 2.0852,
      "step": 85960
    },
    {
      "epoch": 0.42985,
      "grad_norm": 2.25,
      "learning_rate": 0.00017190452261306533,
      "loss": 2.0223,
      "step": 85970
    },
    {
      "epoch": 0.4299,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001718894472361809,
      "loss": 2.0803,
      "step": 85980
    },
    {
      "epoch": 0.42995,
      "grad_norm": 1.875,
      "learning_rate": 0.00017187437185929645,
      "loss": 1.9899,
      "step": 85990
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017185929648241206,
      "loss": 2.1104,
      "step": 86000
    },
    {
      "epoch": 0.43,
      "eval_loss": NaN,
      "eval_runtime": 90.4455,
      "eval_samples_per_second": 27.641,
      "eval_steps_per_second": 0.442,
      "step": 86000
    },
    {
      "epoch": 0.43005,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017184422110552762,
      "loss": 2.0765,
      "step": 86010
    },
    {
      "epoch": 0.4301,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017182914572864318,
      "loss": 2.1095,
      "step": 86020
    },
    {
      "epoch": 0.43015,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001718140703517588,
      "loss": 2.0581,
      "step": 86030
    },
    {
      "epoch": 0.4302,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017179899497487435,
      "loss": 2.0903,
      "step": 86040
    },
    {
      "epoch": 0.43025,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017178391959798994,
      "loss": 2.0989,
      "step": 86050
    },
    {
      "epoch": 0.4303,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017176884422110552,
      "loss": 2.076,
      "step": 86060
    },
    {
      "epoch": 0.43035,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017175376884422108,
      "loss": 2.0993,
      "step": 86070
    },
    {
      "epoch": 0.4304,
      "grad_norm": 1.921875,
      "learning_rate": 0.00017173869346733667,
      "loss": 2.0395,
      "step": 86080
    },
    {
      "epoch": 0.43045,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017172361809045223,
      "loss": 2.0433,
      "step": 86090
    },
    {
      "epoch": 0.4305,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017170854271356784,
      "loss": 2.0367,
      "step": 86100
    },
    {
      "epoch": 0.43055,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001716934673366834,
      "loss": 2.0502,
      "step": 86110
    },
    {
      "epoch": 0.4306,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017167839195979896,
      "loss": 2.0457,
      "step": 86120
    },
    {
      "epoch": 0.43065,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017166331658291457,
      "loss": 2.0506,
      "step": 86130
    },
    {
      "epoch": 0.4307,
      "grad_norm": 2.125,
      "learning_rate": 0.00017164824120603013,
      "loss": 2.0909,
      "step": 86140
    },
    {
      "epoch": 0.43075,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001716331658291457,
      "loss": 2.0723,
      "step": 86150
    },
    {
      "epoch": 0.4308,
      "grad_norm": 2.140625,
      "learning_rate": 0.0001716180904522613,
      "loss": 2.015,
      "step": 86160
    },
    {
      "epoch": 0.43085,
      "grad_norm": 2.1875,
      "learning_rate": 0.00017160301507537686,
      "loss": 2.0529,
      "step": 86170
    },
    {
      "epoch": 0.4309,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017158793969849245,
      "loss": 2.1007,
      "step": 86180
    },
    {
      "epoch": 0.43095,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017157286432160804,
      "loss": 2.0096,
      "step": 86190
    },
    {
      "epoch": 0.431,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001715577889447236,
      "loss": 2.0719,
      "step": 86200
    },
    {
      "epoch": 0.43105,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017154271356783918,
      "loss": 2.0833,
      "step": 86210
    },
    {
      "epoch": 0.4311,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017152763819095477,
      "loss": 2.0814,
      "step": 86220
    },
    {
      "epoch": 0.43115,
      "grad_norm": 1.984375,
      "learning_rate": 0.00017151256281407035,
      "loss": 2.0759,
      "step": 86230
    },
    {
      "epoch": 0.4312,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001714974874371859,
      "loss": 2.1105,
      "step": 86240
    },
    {
      "epoch": 0.43125,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017148241206030147,
      "loss": 2.0562,
      "step": 86250
    },
    {
      "epoch": 0.4313,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017146733668341708,
      "loss": 2.07,
      "step": 86260
    },
    {
      "epoch": 0.43135,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00017145226130653264,
      "loss": 2.1054,
      "step": 86270
    },
    {
      "epoch": 0.4314,
      "grad_norm": 1.875,
      "learning_rate": 0.0001714371859296482,
      "loss": 2.0625,
      "step": 86280
    },
    {
      "epoch": 0.43145,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00017142211055276382,
      "loss": 2.0895,
      "step": 86290
    },
    {
      "epoch": 0.4315,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017140703517587937,
      "loss": 2.0477,
      "step": 86300
    },
    {
      "epoch": 0.43155,
      "grad_norm": 2.078125,
      "learning_rate": 0.00017139195979899496,
      "loss": 2.0759,
      "step": 86310
    },
    {
      "epoch": 0.4316,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017137688442211055,
      "loss": 2.0591,
      "step": 86320
    },
    {
      "epoch": 0.43165,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001713618090452261,
      "loss": 2.0753,
      "step": 86330
    },
    {
      "epoch": 0.4317,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001713467336683417,
      "loss": 2.0144,
      "step": 86340
    },
    {
      "epoch": 0.43175,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017133165829145728,
      "loss": 2.0616,
      "step": 86350
    },
    {
      "epoch": 0.4318,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017131658291457286,
      "loss": 2.0801,
      "step": 86360
    },
    {
      "epoch": 0.43185,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017130150753768842,
      "loss": 2.0843,
      "step": 86370
    },
    {
      "epoch": 0.4319,
      "grad_norm": 2.078125,
      "learning_rate": 0.000171286432160804,
      "loss": 2.0472,
      "step": 86380
    },
    {
      "epoch": 0.43195,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001712713567839196,
      "loss": 2.0941,
      "step": 86390
    },
    {
      "epoch": 0.432,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00017125628140703515,
      "loss": 2.0884,
      "step": 86400
    },
    {
      "epoch": 0.43205,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001712412060301507,
      "loss": 2.0744,
      "step": 86410
    },
    {
      "epoch": 0.4321,
      "grad_norm": 2.0,
      "learning_rate": 0.00017122613065326633,
      "loss": 2.0537,
      "step": 86420
    },
    {
      "epoch": 0.43215,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017121105527638189,
      "loss": 2.0525,
      "step": 86430
    },
    {
      "epoch": 0.4322,
      "grad_norm": 1.96875,
      "learning_rate": 0.00017119597989949747,
      "loss": 2.0388,
      "step": 86440
    },
    {
      "epoch": 0.43225,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017118090452261306,
      "loss": 2.1119,
      "step": 86450
    },
    {
      "epoch": 0.4323,
      "grad_norm": 2.09375,
      "learning_rate": 0.00017116582914572862,
      "loss": 2.0494,
      "step": 86460
    },
    {
      "epoch": 0.43235,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001711507537688442,
      "loss": 2.0868,
      "step": 86470
    },
    {
      "epoch": 0.4324,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001711356783919598,
      "loss": 2.0521,
      "step": 86480
    },
    {
      "epoch": 0.43245,
      "grad_norm": 1.734375,
      "learning_rate": 0.00017112060301507537,
      "loss": 2.0955,
      "step": 86490
    },
    {
      "epoch": 0.4325,
      "grad_norm": 2.046875,
      "learning_rate": 0.00017110552763819093,
      "loss": 2.0378,
      "step": 86500
    },
    {
      "epoch": 0.43255,
      "grad_norm": 2.109375,
      "learning_rate": 0.00017109045226130652,
      "loss": 2.0674,
      "step": 86510
    },
    {
      "epoch": 0.4326,
      "grad_norm": 1.875,
      "learning_rate": 0.0001710753768844221,
      "loss": 2.0296,
      "step": 86520
    },
    {
      "epoch": 0.43265,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017106030150753766,
      "loss": 2.0232,
      "step": 86530
    },
    {
      "epoch": 0.4327,
      "grad_norm": 2.21875,
      "learning_rate": 0.00017104522613065328,
      "loss": 2.0141,
      "step": 86540
    },
    {
      "epoch": 0.43275,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00017103015075376884,
      "loss": 2.028,
      "step": 86550
    },
    {
      "epoch": 0.4328,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001710150753768844,
      "loss": 2.053,
      "step": 86560
    },
    {
      "epoch": 0.43285,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017099999999999998,
      "loss": 2.0674,
      "step": 86570
    },
    {
      "epoch": 0.4329,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017098492462311557,
      "loss": 2.0457,
      "step": 86580
    },
    {
      "epoch": 0.43295,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00017096984924623113,
      "loss": 2.0924,
      "step": 86590
    },
    {
      "epoch": 0.433,
      "grad_norm": 1.734375,
      "learning_rate": 0.0001709547738693467,
      "loss": 2.0608,
      "step": 86600
    },
    {
      "epoch": 0.43305,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001709396984924623,
      "loss": 2.0573,
      "step": 86610
    },
    {
      "epoch": 0.4331,
      "grad_norm": 2.21875,
      "learning_rate": 0.00017092462311557789,
      "loss": 2.054,
      "step": 86620
    },
    {
      "epoch": 0.43315,
      "grad_norm": 1.84375,
      "learning_rate": 0.00017090954773869344,
      "loss": 2.0769,
      "step": 86630
    },
    {
      "epoch": 0.4332,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017089447236180903,
      "loss": 2.0653,
      "step": 86640
    },
    {
      "epoch": 0.43325,
      "grad_norm": 1.8125,
      "learning_rate": 0.00017087939698492462,
      "loss": 2.1165,
      "step": 86650
    },
    {
      "epoch": 0.4333,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017086432160804018,
      "loss": 2.0385,
      "step": 86660
    },
    {
      "epoch": 0.43335,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001708492462311558,
      "loss": 2.1077,
      "step": 86670
    },
    {
      "epoch": 0.4334,
      "grad_norm": 1.734375,
      "learning_rate": 0.00017083417085427135,
      "loss": 2.0839,
      "step": 86680
    },
    {
      "epoch": 0.43345,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001708190954773869,
      "loss": 2.0899,
      "step": 86690
    },
    {
      "epoch": 0.4335,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001708040201005025,
      "loss": 2.0543,
      "step": 86700
    },
    {
      "epoch": 0.43355,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017078894472361808,
      "loss": 2.0396,
      "step": 86710
    },
    {
      "epoch": 0.4336,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017077386934673364,
      "loss": 2.0739,
      "step": 86720
    },
    {
      "epoch": 0.43365,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017075879396984922,
      "loss": 2.0792,
      "step": 86730
    },
    {
      "epoch": 0.4337,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001707437185929648,
      "loss": 2.0616,
      "step": 86740
    },
    {
      "epoch": 0.43375,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001707286432160804,
      "loss": 2.1003,
      "step": 86750
    },
    {
      "epoch": 0.4338,
      "grad_norm": 2.0625,
      "learning_rate": 0.00017071356783919596,
      "loss": 1.987,
      "step": 86760
    },
    {
      "epoch": 0.43385,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017069849246231154,
      "loss": 2.054,
      "step": 86770
    },
    {
      "epoch": 0.4339,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00017068341708542713,
      "loss": 2.0208,
      "step": 86780
    },
    {
      "epoch": 0.43395,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001706683417085427,
      "loss": 2.0609,
      "step": 86790
    },
    {
      "epoch": 0.434,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001706532663316583,
      "loss": 2.0491,
      "step": 86800
    },
    {
      "epoch": 0.43405,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017063819095477386,
      "loss": 2.0799,
      "step": 86810
    },
    {
      "epoch": 0.4341,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00017062311557788942,
      "loss": 2.0225,
      "step": 86820
    },
    {
      "epoch": 0.43415,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00017060804020100503,
      "loss": 2.0511,
      "step": 86830
    },
    {
      "epoch": 0.4342,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001705929648241206,
      "loss": 2.0161,
      "step": 86840
    },
    {
      "epoch": 0.43425,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00017057788944723615,
      "loss": 2.0675,
      "step": 86850
    },
    {
      "epoch": 0.4343,
      "grad_norm": 1.71875,
      "learning_rate": 0.00017056281407035174,
      "loss": 2.0594,
      "step": 86860
    },
    {
      "epoch": 0.43435,
      "grad_norm": 1.859375,
      "learning_rate": 0.00017054773869346732,
      "loss": 2.0663,
      "step": 86870
    },
    {
      "epoch": 0.4344,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001705326633165829,
      "loss": 2.0594,
      "step": 86880
    },
    {
      "epoch": 0.43445,
      "grad_norm": 2.03125,
      "learning_rate": 0.00017051758793969847,
      "loss": 2.137,
      "step": 86890
    },
    {
      "epoch": 0.4345,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00017050251256281405,
      "loss": 2.1044,
      "step": 86900
    },
    {
      "epoch": 0.43455,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00017048743718592964,
      "loss": 2.0544,
      "step": 86910
    },
    {
      "epoch": 0.4346,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001704723618090452,
      "loss": 2.0446,
      "step": 86920
    },
    {
      "epoch": 0.43465,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0001704572864321608,
      "loss": 2.0974,
      "step": 86930
    },
    {
      "epoch": 0.4347,
      "grad_norm": 1.9375,
      "learning_rate": 0.00017044221105527637,
      "loss": 2.0479,
      "step": 86940
    },
    {
      "epoch": 0.43475,
      "grad_norm": 1.75,
      "learning_rate": 0.00017042713567839193,
      "loss": 2.02,
      "step": 86950
    },
    {
      "epoch": 0.4348,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017041206030150754,
      "loss": 2.0931,
      "step": 86960
    },
    {
      "epoch": 0.43485,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001703969849246231,
      "loss": 2.0591,
      "step": 86970
    },
    {
      "epoch": 0.4349,
      "grad_norm": 1.828125,
      "learning_rate": 0.00017038190954773866,
      "loss": 2.0558,
      "step": 86980
    },
    {
      "epoch": 0.43495,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017036683417085427,
      "loss": 2.0617,
      "step": 86990
    },
    {
      "epoch": 0.435,
      "grad_norm": 2.015625,
      "learning_rate": 0.00017035175879396983,
      "loss": 2.0918,
      "step": 87000
    },
    {
      "epoch": 0.43505,
      "grad_norm": 2.109375,
      "learning_rate": 0.00017033668341708542,
      "loss": 2.083,
      "step": 87010
    },
    {
      "epoch": 0.4351,
      "grad_norm": 1.703125,
      "learning_rate": 0.00017032160804020098,
      "loss": 2.0492,
      "step": 87020
    },
    {
      "epoch": 0.43515,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00017030653266331656,
      "loss": 2.0539,
      "step": 87030
    },
    {
      "epoch": 0.4352,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00017029145728643215,
      "loss": 2.0923,
      "step": 87040
    },
    {
      "epoch": 0.43525,
      "grad_norm": 2.21875,
      "learning_rate": 0.0001702763819095477,
      "loss": 2.0497,
      "step": 87050
    },
    {
      "epoch": 0.4353,
      "grad_norm": 1.875,
      "learning_rate": 0.00017026130653266332,
      "loss": 2.0719,
      "step": 87060
    },
    {
      "epoch": 0.43535,
      "grad_norm": 1.90625,
      "learning_rate": 0.00017024623115577888,
      "loss": 2.052,
      "step": 87070
    },
    {
      "epoch": 0.4354,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00017023115577889444,
      "loss": 1.9973,
      "step": 87080
    },
    {
      "epoch": 0.43545,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017021608040201005,
      "loss": 2.1093,
      "step": 87090
    },
    {
      "epoch": 0.4355,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001702010050251256,
      "loss": 2.1133,
      "step": 87100
    },
    {
      "epoch": 0.43555,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017018592964824117,
      "loss": 2.0993,
      "step": 87110
    },
    {
      "epoch": 0.4356,
      "grad_norm": 1.875,
      "learning_rate": 0.00017017085427135678,
      "loss": 2.1055,
      "step": 87120
    },
    {
      "epoch": 0.43565,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00017015577889447234,
      "loss": 2.0718,
      "step": 87130
    },
    {
      "epoch": 0.4357,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00017014070351758793,
      "loss": 2.0487,
      "step": 87140
    },
    {
      "epoch": 0.43575,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00017012562814070352,
      "loss": 2.0909,
      "step": 87150
    },
    {
      "epoch": 0.4358,
      "grad_norm": 1.78125,
      "learning_rate": 0.00017011055276381907,
      "loss": 2.0209,
      "step": 87160
    },
    {
      "epoch": 0.43585,
      "grad_norm": 1.953125,
      "learning_rate": 0.00017009547738693466,
      "loss": 2.1059,
      "step": 87170
    },
    {
      "epoch": 0.4359,
      "grad_norm": 1.796875,
      "learning_rate": 0.00017008040201005022,
      "loss": 2.0458,
      "step": 87180
    },
    {
      "epoch": 0.43595,
      "grad_norm": 1.6171875,
      "learning_rate": 0.00017006532663316583,
      "loss": 2.1457,
      "step": 87190
    },
    {
      "epoch": 0.436,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001700502512562814,
      "loss": 2.059,
      "step": 87200
    },
    {
      "epoch": 0.43605,
      "grad_norm": 1.890625,
      "learning_rate": 0.00017003517587939695,
      "loss": 2.1484,
      "step": 87210
    },
    {
      "epoch": 0.4361,
      "grad_norm": 1.703125,
      "learning_rate": 0.00017002010050251256,
      "loss": 2.0187,
      "step": 87220
    },
    {
      "epoch": 0.43615,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00017000502512562812,
      "loss": 2.0985,
      "step": 87230
    },
    {
      "epoch": 0.4362,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016998994974874368,
      "loss": 2.0319,
      "step": 87240
    },
    {
      "epoch": 0.43625,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001699748743718593,
      "loss": 2.0693,
      "step": 87250
    },
    {
      "epoch": 0.4363,
      "grad_norm": 1.796875,
      "learning_rate": 0.00016995979899497485,
      "loss": 2.0313,
      "step": 87260
    },
    {
      "epoch": 0.43635,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016994472361809044,
      "loss": 2.0728,
      "step": 87270
    },
    {
      "epoch": 0.4364,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016992964824120603,
      "loss": 2.0725,
      "step": 87280
    },
    {
      "epoch": 0.43645,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016991457286432159,
      "loss": 2.0771,
      "step": 87290
    },
    {
      "epoch": 0.4365,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00016989949748743717,
      "loss": 2.1124,
      "step": 87300
    },
    {
      "epoch": 0.43655,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016988442211055276,
      "loss": 2.0524,
      "step": 87310
    },
    {
      "epoch": 0.4366,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00016986934673366834,
      "loss": 2.087,
      "step": 87320
    },
    {
      "epoch": 0.43665,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001698542713567839,
      "loss": 2.0609,
      "step": 87330
    },
    {
      "epoch": 0.4367,
      "grad_norm": 1.765625,
      "learning_rate": 0.00016983919597989946,
      "loss": 2.0289,
      "step": 87340
    },
    {
      "epoch": 0.43675,
      "grad_norm": 2.109375,
      "learning_rate": 0.00016982412060301508,
      "loss": 2.0608,
      "step": 87350
    },
    {
      "epoch": 0.4368,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016980904522613063,
      "loss": 2.0812,
      "step": 87360
    },
    {
      "epoch": 0.43685,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001697939698492462,
      "loss": 2.0283,
      "step": 87370
    },
    {
      "epoch": 0.4369,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001697788944723618,
      "loss": 2.0806,
      "step": 87380
    },
    {
      "epoch": 0.43695,
      "grad_norm": 1.96875,
      "learning_rate": 0.00016976381909547737,
      "loss": 2.0549,
      "step": 87390
    },
    {
      "epoch": 0.437,
      "grad_norm": 2.109375,
      "learning_rate": 0.00016974874371859295,
      "loss": 2.0965,
      "step": 87400
    },
    {
      "epoch": 0.43705,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016973366834170854,
      "loss": 2.0631,
      "step": 87410
    },
    {
      "epoch": 0.4371,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001697185929648241,
      "loss": 2.0287,
      "step": 87420
    },
    {
      "epoch": 0.43715,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016970351758793968,
      "loss": 2.0929,
      "step": 87430
    },
    {
      "epoch": 0.4372,
      "grad_norm": 1.96875,
      "learning_rate": 0.00016968844221105527,
      "loss": 2.0378,
      "step": 87440
    },
    {
      "epoch": 0.43725,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016967336683417085,
      "loss": 2.0801,
      "step": 87450
    },
    {
      "epoch": 0.4373,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016965829145728641,
      "loss": 2.0448,
      "step": 87460
    },
    {
      "epoch": 0.43735,
      "grad_norm": 1.859375,
      "learning_rate": 0.000169643216080402,
      "loss": 2.0096,
      "step": 87470
    },
    {
      "epoch": 0.4374,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016962814070351759,
      "loss": 2.0162,
      "step": 87480
    },
    {
      "epoch": 0.43745,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016961306532663314,
      "loss": 2.0806,
      "step": 87490
    },
    {
      "epoch": 0.4375,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001695979899497487,
      "loss": 2.0655,
      "step": 87500
    },
    {
      "epoch": 0.43755,
      "grad_norm": 1.8125,
      "learning_rate": 0.00016958291457286432,
      "loss": 2.1031,
      "step": 87510
    },
    {
      "epoch": 0.4376,
      "grad_norm": 2.1875,
      "learning_rate": 0.00016956783919597988,
      "loss": 2.0413,
      "step": 87520
    },
    {
      "epoch": 0.43765,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016955276381909546,
      "loss": 2.0589,
      "step": 87530
    },
    {
      "epoch": 0.4377,
      "grad_norm": 2.140625,
      "learning_rate": 0.00016953768844221105,
      "loss": 2.0294,
      "step": 87540
    },
    {
      "epoch": 0.43775,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001695226130653266,
      "loss": 2.0877,
      "step": 87550
    },
    {
      "epoch": 0.4378,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001695075376884422,
      "loss": 2.073,
      "step": 87560
    },
    {
      "epoch": 0.43785,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00016949246231155778,
      "loss": 2.0828,
      "step": 87570
    },
    {
      "epoch": 0.4379,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016947738693467337,
      "loss": 2.0889,
      "step": 87580
    },
    {
      "epoch": 0.43795,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016946231155778892,
      "loss": 2.0862,
      "step": 87590
    },
    {
      "epoch": 0.438,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001694472361809045,
      "loss": 2.0253,
      "step": 87600
    },
    {
      "epoch": 0.43805,
      "grad_norm": 1.703125,
      "learning_rate": 0.0001694321608040201,
      "loss": 2.0833,
      "step": 87610
    },
    {
      "epoch": 0.4381,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016941708542713566,
      "loss": 2.0174,
      "step": 87620
    },
    {
      "epoch": 0.43815,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016940201005025127,
      "loss": 2.0965,
      "step": 87630
    },
    {
      "epoch": 0.4382,
      "grad_norm": 1.71875,
      "learning_rate": 0.00016938693467336683,
      "loss": 2.0491,
      "step": 87640
    },
    {
      "epoch": 0.43825,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001693718592964824,
      "loss": 2.1163,
      "step": 87650
    },
    {
      "epoch": 0.4383,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016935678391959797,
      "loss": 2.1302,
      "step": 87660
    },
    {
      "epoch": 0.43835,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016934170854271356,
      "loss": 2.0929,
      "step": 87670
    },
    {
      "epoch": 0.4384,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016932663316582912,
      "loss": 2.0605,
      "step": 87680
    },
    {
      "epoch": 0.43845,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001693115577889447,
      "loss": 2.103,
      "step": 87690
    },
    {
      "epoch": 0.4385,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001692964824120603,
      "loss": 2.0382,
      "step": 87700
    },
    {
      "epoch": 0.43855,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016928140703517588,
      "loss": 2.0793,
      "step": 87710
    },
    {
      "epoch": 0.4386,
      "grad_norm": 2.265625,
      "learning_rate": 0.00016926633165829144,
      "loss": 2.0795,
      "step": 87720
    },
    {
      "epoch": 0.43865,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016925125628140702,
      "loss": 2.0537,
      "step": 87730
    },
    {
      "epoch": 0.4387,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001692361809045226,
      "loss": 2.0409,
      "step": 87740
    },
    {
      "epoch": 0.43875,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016922110552763817,
      "loss": 2.0607,
      "step": 87750
    },
    {
      "epoch": 0.4388,
      "grad_norm": 1.96875,
      "learning_rate": 0.00016920603015075378,
      "loss": 2.0321,
      "step": 87760
    },
    {
      "epoch": 0.43885,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016919095477386934,
      "loss": 2.1315,
      "step": 87770
    },
    {
      "epoch": 0.4389,
      "grad_norm": 2.171875,
      "learning_rate": 0.0001691758793969849,
      "loss": 2.0227,
      "step": 87780
    },
    {
      "epoch": 0.43895,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016916080402010048,
      "loss": 2.1256,
      "step": 87790
    },
    {
      "epoch": 0.439,
      "grad_norm": 1.75,
      "learning_rate": 0.00016914572864321607,
      "loss": 2.0424,
      "step": 87800
    },
    {
      "epoch": 0.43905,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016913065326633163,
      "loss": 2.0867,
      "step": 87810
    },
    {
      "epoch": 0.4391,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016911557788944722,
      "loss": 2.008,
      "step": 87820
    },
    {
      "epoch": 0.43915,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001691005025125628,
      "loss": 2.0759,
      "step": 87830
    },
    {
      "epoch": 0.4392,
      "grad_norm": 1.78125,
      "learning_rate": 0.0001690854271356784,
      "loss": 2.0364,
      "step": 87840
    },
    {
      "epoch": 0.43925,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016907035175879395,
      "loss": 2.1005,
      "step": 87850
    },
    {
      "epoch": 0.4393,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016905527638190953,
      "loss": 2.0266,
      "step": 87860
    },
    {
      "epoch": 0.43935,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016904020100502512,
      "loss": 2.0633,
      "step": 87870
    },
    {
      "epoch": 0.4394,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016902512562814068,
      "loss": 2.0244,
      "step": 87880
    },
    {
      "epoch": 0.43945,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001690100502512563,
      "loss": 2.0826,
      "step": 87890
    },
    {
      "epoch": 0.4395,
      "grad_norm": 1.75,
      "learning_rate": 0.00016899497487437185,
      "loss": 2.0292,
      "step": 87900
    },
    {
      "epoch": 0.43955,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001689798994974874,
      "loss": 2.0821,
      "step": 87910
    },
    {
      "epoch": 0.4396,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016896482412060302,
      "loss": 2.0814,
      "step": 87920
    },
    {
      "epoch": 0.43965,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016894974874371858,
      "loss": 2.0364,
      "step": 87930
    },
    {
      "epoch": 0.4397,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016893467336683414,
      "loss": 2.0313,
      "step": 87940
    },
    {
      "epoch": 0.43975,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016891959798994973,
      "loss": 2.1182,
      "step": 87950
    },
    {
      "epoch": 0.4398,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001689045226130653,
      "loss": 2.0398,
      "step": 87960
    },
    {
      "epoch": 0.43985,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001688894472361809,
      "loss": 2.0891,
      "step": 87970
    },
    {
      "epoch": 0.4399,
      "grad_norm": 1.75,
      "learning_rate": 0.00016887437185929646,
      "loss": 2.113,
      "step": 87980
    },
    {
      "epoch": 0.43995,
      "grad_norm": 1.78125,
      "learning_rate": 0.00016885929648241204,
      "loss": 2.0487,
      "step": 87990
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016884422110552763,
      "loss": 2.0506,
      "step": 88000
    },
    {
      "epoch": 0.44,
      "eval_loss": 2.050480365753174,
      "eval_runtime": 91.4692,
      "eval_samples_per_second": 27.332,
      "eval_steps_per_second": 0.437,
      "step": 88000
    },
    {
      "epoch": 0.44005,
      "grad_norm": 1.6171875,
      "learning_rate": 0.0001688291457286432,
      "loss": 2.0475,
      "step": 88010
    },
    {
      "epoch": 0.4401,
      "grad_norm": 2.203125,
      "learning_rate": 0.0001688140703517588,
      "loss": 2.0511,
      "step": 88020
    },
    {
      "epoch": 0.44015,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016879899497487436,
      "loss": 2.06,
      "step": 88030
    },
    {
      "epoch": 0.4402,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016878391959798992,
      "loss": 2.09,
      "step": 88040
    },
    {
      "epoch": 0.44025,
      "grad_norm": 1.96875,
      "learning_rate": 0.00016876884422110553,
      "loss": 2.0162,
      "step": 88050
    },
    {
      "epoch": 0.4403,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001687537688442211,
      "loss": 2.1021,
      "step": 88060
    },
    {
      "epoch": 0.44035,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00016873869346733665,
      "loss": 2.0685,
      "step": 88070
    },
    {
      "epoch": 0.4404,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016872361809045226,
      "loss": 2.0622,
      "step": 88080
    },
    {
      "epoch": 0.44045,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00016870854271356782,
      "loss": 2.0385,
      "step": 88090
    },
    {
      "epoch": 0.4405,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001686934673366834,
      "loss": 2.0707,
      "step": 88100
    },
    {
      "epoch": 0.44055,
      "grad_norm": 1.796875,
      "learning_rate": 0.00016867839195979897,
      "loss": 2.1195,
      "step": 88110
    },
    {
      "epoch": 0.4406,
      "grad_norm": 1.875,
      "learning_rate": 0.00016866331658291455,
      "loss": 2.0755,
      "step": 88120
    },
    {
      "epoch": 0.44065,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016864824120603014,
      "loss": 2.0641,
      "step": 88130
    },
    {
      "epoch": 0.4407,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001686331658291457,
      "loss": 2.1578,
      "step": 88140
    },
    {
      "epoch": 0.44075,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001686180904522613,
      "loss": 2.0513,
      "step": 88150
    },
    {
      "epoch": 0.4408,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016860301507537687,
      "loss": 2.0646,
      "step": 88160
    },
    {
      "epoch": 0.44085,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016858793969849243,
      "loss": 2.0554,
      "step": 88170
    },
    {
      "epoch": 0.4409,
      "grad_norm": 1.875,
      "learning_rate": 0.00016857286432160804,
      "loss": 2.0884,
      "step": 88180
    },
    {
      "epoch": 0.44095,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001685577889447236,
      "loss": 2.069,
      "step": 88190
    },
    {
      "epoch": 0.441,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016854271356783916,
      "loss": 2.0552,
      "step": 88200
    },
    {
      "epoch": 0.44105,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016852763819095478,
      "loss": 2.081,
      "step": 88210
    },
    {
      "epoch": 0.4411,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00016851256281407033,
      "loss": 2.0383,
      "step": 88220
    },
    {
      "epoch": 0.44115,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016849748743718592,
      "loss": 2.047,
      "step": 88230
    },
    {
      "epoch": 0.4412,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001684824120603015,
      "loss": 2.0935,
      "step": 88240
    },
    {
      "epoch": 0.44125,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016846733668341707,
      "loss": 2.0436,
      "step": 88250
    },
    {
      "epoch": 0.4413,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016845226130653265,
      "loss": 2.1089,
      "step": 88260
    },
    {
      "epoch": 0.44135,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001684371859296482,
      "loss": 2.0601,
      "step": 88270
    },
    {
      "epoch": 0.4414,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016842211055276382,
      "loss": 2.0486,
      "step": 88280
    },
    {
      "epoch": 0.44145,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016840703517587938,
      "loss": 2.0007,
      "step": 88290
    },
    {
      "epoch": 0.4415,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016839195979899494,
      "loss": 2.1135,
      "step": 88300
    },
    {
      "epoch": 0.44155,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016837688442211055,
      "loss": 2.0217,
      "step": 88310
    },
    {
      "epoch": 0.4416,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016836180904522611,
      "loss": 2.0557,
      "step": 88320
    },
    {
      "epoch": 0.44165,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016834673366834167,
      "loss": 2.0018,
      "step": 88330
    },
    {
      "epoch": 0.4417,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016833165829145729,
      "loss": 2.0677,
      "step": 88340
    },
    {
      "epoch": 0.44175,
      "grad_norm": 1.875,
      "learning_rate": 0.00016831658291457285,
      "loss": 2.0534,
      "step": 88350
    },
    {
      "epoch": 0.4418,
      "grad_norm": 2.265625,
      "learning_rate": 0.00016830150753768843,
      "loss": 2.0688,
      "step": 88360
    },
    {
      "epoch": 0.44185,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016828643216080402,
      "loss": 2.0882,
      "step": 88370
    },
    {
      "epoch": 0.4419,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00016827135678391958,
      "loss": 2.0569,
      "step": 88380
    },
    {
      "epoch": 0.44195,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016825628140703516,
      "loss": 2.0534,
      "step": 88390
    },
    {
      "epoch": 0.442,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016824120603015075,
      "loss": 2.0663,
      "step": 88400
    },
    {
      "epoch": 0.44205,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016822613065326633,
      "loss": 2.0338,
      "step": 88410
    },
    {
      "epoch": 0.4421,
      "grad_norm": 2.0,
      "learning_rate": 0.0001682110552763819,
      "loss": 2.0947,
      "step": 88420
    },
    {
      "epoch": 0.44215,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016819597989949745,
      "loss": 2.0505,
      "step": 88430
    },
    {
      "epoch": 0.4422,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016818090452261307,
      "loss": 2.0485,
      "step": 88440
    },
    {
      "epoch": 0.44225,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016816582914572862,
      "loss": 2.0387,
      "step": 88450
    },
    {
      "epoch": 0.4423,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016815075376884418,
      "loss": 2.0075,
      "step": 88460
    },
    {
      "epoch": 0.44235,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001681356783919598,
      "loss": 2.0674,
      "step": 88470
    },
    {
      "epoch": 0.4424,
      "grad_norm": 1.734375,
      "learning_rate": 0.00016812060301507536,
      "loss": 2.1122,
      "step": 88480
    },
    {
      "epoch": 0.44245,
      "grad_norm": 1.875,
      "learning_rate": 0.00016810552763819094,
      "loss": 2.0131,
      "step": 88490
    },
    {
      "epoch": 0.4425,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016809045226130653,
      "loss": 2.0369,
      "step": 88500
    },
    {
      "epoch": 0.44255,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001680753768844221,
      "loss": 2.0371,
      "step": 88510
    },
    {
      "epoch": 0.4426,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016806030150753767,
      "loss": 2.0355,
      "step": 88520
    },
    {
      "epoch": 0.44265,
      "grad_norm": 1.796875,
      "learning_rate": 0.00016804522613065326,
      "loss": 2.0532,
      "step": 88530
    },
    {
      "epoch": 0.4427,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016803015075376885,
      "loss": 2.0305,
      "step": 88540
    },
    {
      "epoch": 0.44275,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001680150753768844,
      "loss": 2.0658,
      "step": 88550
    },
    {
      "epoch": 0.4428,
      "grad_norm": 1.9609375,
      "learning_rate": 0.000168,
      "loss": 2.0892,
      "step": 88560
    },
    {
      "epoch": 0.44285,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016798492462311558,
      "loss": 2.0867,
      "step": 88570
    },
    {
      "epoch": 0.4429,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016796984924623114,
      "loss": 2.1172,
      "step": 88580
    },
    {
      "epoch": 0.44295,
      "grad_norm": 1.75,
      "learning_rate": 0.0001679547738693467,
      "loss": 2.0639,
      "step": 88590
    },
    {
      "epoch": 0.443,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001679396984924623,
      "loss": 2.0129,
      "step": 88600
    },
    {
      "epoch": 0.44305,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016792462311557787,
      "loss": 2.0684,
      "step": 88610
    },
    {
      "epoch": 0.4431,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016790954773869345,
      "loss": 2.0279,
      "step": 88620
    },
    {
      "epoch": 0.44315,
      "grad_norm": 1.71875,
      "learning_rate": 0.00016789447236180904,
      "loss": 2.0745,
      "step": 88630
    },
    {
      "epoch": 0.4432,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001678793969849246,
      "loss": 2.0706,
      "step": 88640
    },
    {
      "epoch": 0.44325,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016786432160804018,
      "loss": 2.0483,
      "step": 88650
    },
    {
      "epoch": 0.4433,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016784924623115577,
      "loss": 2.0243,
      "step": 88660
    },
    {
      "epoch": 0.44335,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016783417085427136,
      "loss": 2.0408,
      "step": 88670
    },
    {
      "epoch": 0.4434,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016781909547738692,
      "loss": 2.0561,
      "step": 88680
    },
    {
      "epoch": 0.44345,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001678040201005025,
      "loss": 2.1001,
      "step": 88690
    },
    {
      "epoch": 0.4435,
      "grad_norm": 2.140625,
      "learning_rate": 0.0001677889447236181,
      "loss": 2.0173,
      "step": 88700
    },
    {
      "epoch": 0.44355,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016777386934673365,
      "loss": 2.0763,
      "step": 88710
    },
    {
      "epoch": 0.4436,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016775879396984926,
      "loss": 2.0651,
      "step": 88720
    },
    {
      "epoch": 0.44365,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016774371859296482,
      "loss": 2.0649,
      "step": 88730
    },
    {
      "epoch": 0.4437,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016772864321608038,
      "loss": 2.0253,
      "step": 88740
    },
    {
      "epoch": 0.44375,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016771356783919594,
      "loss": 2.1097,
      "step": 88750
    },
    {
      "epoch": 0.4438,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016769849246231155,
      "loss": 2.0318,
      "step": 88760
    },
    {
      "epoch": 0.44385,
      "grad_norm": 1.875,
      "learning_rate": 0.0001676834170854271,
      "loss": 2.0487,
      "step": 88770
    },
    {
      "epoch": 0.4439,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001676683417085427,
      "loss": 2.0379,
      "step": 88780
    },
    {
      "epoch": 0.44395,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016765326633165828,
      "loss": 2.0605,
      "step": 88790
    },
    {
      "epoch": 0.444,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016763819095477387,
      "loss": 2.1115,
      "step": 88800
    },
    {
      "epoch": 0.44405,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016762311557788943,
      "loss": 2.1252,
      "step": 88810
    },
    {
      "epoch": 0.4441,
      "grad_norm": 1.9453125,
      "learning_rate": 0.000167608040201005,
      "loss": 2.0386,
      "step": 88820
    },
    {
      "epoch": 0.44415,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001675929648241206,
      "loss": 2.0632,
      "step": 88830
    },
    {
      "epoch": 0.4442,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00016757788944723616,
      "loss": 2.0785,
      "step": 88840
    },
    {
      "epoch": 0.44425,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016756281407035177,
      "loss": 2.071,
      "step": 88850
    },
    {
      "epoch": 0.4443,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016754773869346733,
      "loss": 2.0647,
      "step": 88860
    },
    {
      "epoch": 0.44435,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001675326633165829,
      "loss": 2.0299,
      "step": 88870
    },
    {
      "epoch": 0.4444,
      "grad_norm": 1.75,
      "learning_rate": 0.0001675175879396985,
      "loss": 2.0768,
      "step": 88880
    },
    {
      "epoch": 0.44445,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016750251256281406,
      "loss": 2.1028,
      "step": 88890
    },
    {
      "epoch": 0.4445,
      "grad_norm": 1.875,
      "learning_rate": 0.00016748743718592962,
      "loss": 2.0694,
      "step": 88900
    },
    {
      "epoch": 0.44455,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001674723618090452,
      "loss": 2.0436,
      "step": 88910
    },
    {
      "epoch": 0.4446,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001674572864321608,
      "loss": 2.057,
      "step": 88920
    },
    {
      "epoch": 0.44465,
      "grad_norm": 2.140625,
      "learning_rate": 0.00016744221105527638,
      "loss": 2.0452,
      "step": 88930
    },
    {
      "epoch": 0.4447,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016742713567839194,
      "loss": 2.0931,
      "step": 88940
    },
    {
      "epoch": 0.44475,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016741206030150752,
      "loss": 2.0273,
      "step": 88950
    },
    {
      "epoch": 0.4448,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0001673969849246231,
      "loss": 2.0509,
      "step": 88960
    },
    {
      "epoch": 0.44485,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016738190954773867,
      "loss": 2.0597,
      "step": 88970
    },
    {
      "epoch": 0.4449,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016736683417085428,
      "loss": 2.1072,
      "step": 88980
    },
    {
      "epoch": 0.44495,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016735175879396984,
      "loss": 2.0552,
      "step": 88990
    },
    {
      "epoch": 0.445,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001673366834170854,
      "loss": 2.0515,
      "step": 89000
    },
    {
      "epoch": 0.44505,
      "grad_norm": 2.09375,
      "learning_rate": 0.000167321608040201,
      "loss": 2.0602,
      "step": 89010
    },
    {
      "epoch": 0.4451,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016730653266331657,
      "loss": 2.0365,
      "step": 89020
    },
    {
      "epoch": 0.44515,
      "grad_norm": 1.796875,
      "learning_rate": 0.00016729145728643213,
      "loss": 2.0777,
      "step": 89030
    },
    {
      "epoch": 0.4452,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00016727638190954772,
      "loss": 2.0772,
      "step": 89040
    },
    {
      "epoch": 0.44525,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001672613065326633,
      "loss": 2.0856,
      "step": 89050
    },
    {
      "epoch": 0.4453,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001672462311557789,
      "loss": 2.1219,
      "step": 89060
    },
    {
      "epoch": 0.44535,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016723115577889445,
      "loss": 2.0996,
      "step": 89070
    },
    {
      "epoch": 0.4454,
      "grad_norm": 2.0,
      "learning_rate": 0.00016721608040201003,
      "loss": 2.0748,
      "step": 89080
    },
    {
      "epoch": 0.44545,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00016720100502512562,
      "loss": 2.0416,
      "step": 89090
    },
    {
      "epoch": 0.4455,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016718592964824118,
      "loss": 2.055,
      "step": 89100
    },
    {
      "epoch": 0.44555,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001671708542713568,
      "loss": 2.0706,
      "step": 89110
    },
    {
      "epoch": 0.4456,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016715577889447235,
      "loss": 2.053,
      "step": 89120
    },
    {
      "epoch": 0.44565,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001671407035175879,
      "loss": 2.0196,
      "step": 89130
    },
    {
      "epoch": 0.4457,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016712562814070352,
      "loss": 2.0323,
      "step": 89140
    },
    {
      "epoch": 0.44575,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016711055276381908,
      "loss": 2.0477,
      "step": 89150
    },
    {
      "epoch": 0.4458,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016709547738693464,
      "loss": 2.1041,
      "step": 89160
    },
    {
      "epoch": 0.44585,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016708040201005026,
      "loss": 2.0625,
      "step": 89170
    },
    {
      "epoch": 0.4459,
      "grad_norm": 2.0,
      "learning_rate": 0.00016706532663316581,
      "loss": 2.0618,
      "step": 89180
    },
    {
      "epoch": 0.44595,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016705025125628137,
      "loss": 2.018,
      "step": 89190
    },
    {
      "epoch": 0.446,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00016703517587939696,
      "loss": 2.0465,
      "step": 89200
    },
    {
      "epoch": 0.44605,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016702010050251255,
      "loss": 2.1113,
      "step": 89210
    },
    {
      "epoch": 0.4461,
      "grad_norm": 2.203125,
      "learning_rate": 0.00016700502512562813,
      "loss": 2.081,
      "step": 89220
    },
    {
      "epoch": 0.44615,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001669899497487437,
      "loss": 2.0562,
      "step": 89230
    },
    {
      "epoch": 0.4462,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001669748743718593,
      "loss": 2.0748,
      "step": 89240
    },
    {
      "epoch": 0.44625,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016695979899497486,
      "loss": 2.0465,
      "step": 89250
    },
    {
      "epoch": 0.4463,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016694472361809042,
      "loss": 2.0202,
      "step": 89260
    },
    {
      "epoch": 0.44635,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016692964824120603,
      "loss": 2.113,
      "step": 89270
    },
    {
      "epoch": 0.4464,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001669145728643216,
      "loss": 2.0195,
      "step": 89280
    },
    {
      "epoch": 0.44645,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016689949748743715,
      "loss": 2.0171,
      "step": 89290
    },
    {
      "epoch": 0.4465,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00016688442211055277,
      "loss": 2.0333,
      "step": 89300
    },
    {
      "epoch": 0.44655,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00016686934673366833,
      "loss": 2.047,
      "step": 89310
    },
    {
      "epoch": 0.4466,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016685427135678388,
      "loss": 2.0493,
      "step": 89320
    },
    {
      "epoch": 0.44665,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001668391959798995,
      "loss": 2.0905,
      "step": 89330
    },
    {
      "epoch": 0.4467,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016682412060301506,
      "loss": 2.0772,
      "step": 89340
    },
    {
      "epoch": 0.44675,
      "grad_norm": 2.203125,
      "learning_rate": 0.00016680904522613064,
      "loss": 2.0685,
      "step": 89350
    },
    {
      "epoch": 0.4468,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001667939698492462,
      "loss": 2.078,
      "step": 89360
    },
    {
      "epoch": 0.44685,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016677889447236181,
      "loss": 2.0376,
      "step": 89370
    },
    {
      "epoch": 0.4469,
      "grad_norm": 1.8125,
      "learning_rate": 0.00016676381909547737,
      "loss": 2.0566,
      "step": 89380
    },
    {
      "epoch": 0.44695,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016674874371859293,
      "loss": 2.0771,
      "step": 89390
    },
    {
      "epoch": 0.447,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016673366834170855,
      "loss": 2.0906,
      "step": 89400
    },
    {
      "epoch": 0.44705,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001667185929648241,
      "loss": 2.0259,
      "step": 89410
    },
    {
      "epoch": 0.4471,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016670351758793966,
      "loss": 2.0883,
      "step": 89420
    },
    {
      "epoch": 0.44715,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016668844221105528,
      "loss": 2.0954,
      "step": 89430
    },
    {
      "epoch": 0.4472,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016667336683417084,
      "loss": 2.0691,
      "step": 89440
    },
    {
      "epoch": 0.44725,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001666582914572864,
      "loss": 2.0174,
      "step": 89450
    },
    {
      "epoch": 0.4473,
      "grad_norm": 1.7890625,
      "learning_rate": 0.000166643216080402,
      "loss": 2.1093,
      "step": 89460
    },
    {
      "epoch": 0.44735,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00016662814070351757,
      "loss": 2.0399,
      "step": 89470
    },
    {
      "epoch": 0.4474,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016661306532663315,
      "loss": 2.0744,
      "step": 89480
    },
    {
      "epoch": 0.44745,
      "grad_norm": 1.78125,
      "learning_rate": 0.00016659798994974874,
      "loss": 2.0462,
      "step": 89490
    },
    {
      "epoch": 0.4475,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016658291457286433,
      "loss": 2.0311,
      "step": 89500
    },
    {
      "epoch": 0.44755,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00016656783919597988,
      "loss": 2.0101,
      "step": 89510
    },
    {
      "epoch": 0.4476,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016655276381909544,
      "loss": 2.0969,
      "step": 89520
    },
    {
      "epoch": 0.44765,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016653768844221106,
      "loss": 2.083,
      "step": 89530
    },
    {
      "epoch": 0.4477,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016652261306532662,
      "loss": 2.0499,
      "step": 89540
    },
    {
      "epoch": 0.44775,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00016650753768844217,
      "loss": 2.1311,
      "step": 89550
    },
    {
      "epoch": 0.4478,
      "grad_norm": 1.875,
      "learning_rate": 0.0001664924623115578,
      "loss": 2.0333,
      "step": 89560
    },
    {
      "epoch": 0.44785,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016647738693467335,
      "loss": 2.0633,
      "step": 89570
    },
    {
      "epoch": 0.4479,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001664623115577889,
      "loss": 2.0599,
      "step": 89580
    },
    {
      "epoch": 0.44795,
      "grad_norm": 1.96875,
      "learning_rate": 0.00016644723618090452,
      "loss": 2.0161,
      "step": 89590
    },
    {
      "epoch": 0.448,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016643216080402008,
      "loss": 2.0806,
      "step": 89600
    },
    {
      "epoch": 0.44805,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016641708542713566,
      "loss": 2.0871,
      "step": 89610
    },
    {
      "epoch": 0.4481,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016640201005025125,
      "loss": 1.9959,
      "step": 89620
    },
    {
      "epoch": 0.44815,
      "grad_norm": 2.125,
      "learning_rate": 0.00016638693467336684,
      "loss": 2.079,
      "step": 89630
    },
    {
      "epoch": 0.4482,
      "grad_norm": 2.171875,
      "learning_rate": 0.0001663718592964824,
      "loss": 2.094,
      "step": 89640
    },
    {
      "epoch": 0.44825,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016635678391959798,
      "loss": 2.1352,
      "step": 89650
    },
    {
      "epoch": 0.4483,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016634170854271357,
      "loss": 2.0635,
      "step": 89660
    },
    {
      "epoch": 0.44835,
      "grad_norm": 1.8125,
      "learning_rate": 0.00016632663316582913,
      "loss": 2.0681,
      "step": 89670
    },
    {
      "epoch": 0.4484,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016631155778894469,
      "loss": 2.0803,
      "step": 89680
    },
    {
      "epoch": 0.44845,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001662964824120603,
      "loss": 2.0657,
      "step": 89690
    },
    {
      "epoch": 0.4485,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016628140703517586,
      "loss": 2.0303,
      "step": 89700
    },
    {
      "epoch": 0.44855,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016626633165829142,
      "loss": 2.0306,
      "step": 89710
    },
    {
      "epoch": 0.4486,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016625125628140703,
      "loss": 2.0373,
      "step": 89720
    },
    {
      "epoch": 0.44865,
      "grad_norm": 2.171875,
      "learning_rate": 0.0001662361809045226,
      "loss": 2.0761,
      "step": 89730
    },
    {
      "epoch": 0.4487,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016622110552763818,
      "loss": 2.0737,
      "step": 89740
    },
    {
      "epoch": 0.44875,
      "grad_norm": 1.875,
      "learning_rate": 0.00016620603015075376,
      "loss": 2.0037,
      "step": 89750
    },
    {
      "epoch": 0.4488,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016619095477386932,
      "loss": 2.0352,
      "step": 89760
    },
    {
      "epoch": 0.44885,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001661758793969849,
      "loss": 2.0688,
      "step": 89770
    },
    {
      "epoch": 0.4489,
      "grad_norm": 2.140625,
      "learning_rate": 0.0001661608040201005,
      "loss": 2.1234,
      "step": 89780
    },
    {
      "epoch": 0.44895,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016614572864321608,
      "loss": 2.073,
      "step": 89790
    },
    {
      "epoch": 0.449,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016613065326633164,
      "loss": 2.0602,
      "step": 89800
    },
    {
      "epoch": 0.44905,
      "grad_norm": 2.171875,
      "learning_rate": 0.00016611557788944725,
      "loss": 2.0303,
      "step": 89810
    },
    {
      "epoch": 0.4491,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001661005025125628,
      "loss": 2.0491,
      "step": 89820
    },
    {
      "epoch": 0.44915,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016608542713567837,
      "loss": 1.936,
      "step": 89830
    },
    {
      "epoch": 0.4492,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016607035175879393,
      "loss": 2.0301,
      "step": 89840
    },
    {
      "epoch": 0.44925,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016605527638190954,
      "loss": 2.0369,
      "step": 89850
    },
    {
      "epoch": 0.4493,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001660402010050251,
      "loss": 2.0782,
      "step": 89860
    },
    {
      "epoch": 0.44935,
      "grad_norm": 2.125,
      "learning_rate": 0.00016602512562814069,
      "loss": 2.0688,
      "step": 89870
    },
    {
      "epoch": 0.4494,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016601005025125627,
      "loss": 2.0782,
      "step": 89880
    },
    {
      "epoch": 0.44945,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016599497487437183,
      "loss": 2.0846,
      "step": 89890
    },
    {
      "epoch": 0.4495,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00016597989949748742,
      "loss": 2.0194,
      "step": 89900
    },
    {
      "epoch": 0.44955,
      "grad_norm": 2.0625,
      "learning_rate": 0.000165964824120603,
      "loss": 2.0858,
      "step": 89910
    },
    {
      "epoch": 0.4496,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001659497487437186,
      "loss": 2.0763,
      "step": 89920
    },
    {
      "epoch": 0.44965,
      "grad_norm": 1.6953125,
      "learning_rate": 0.00016593467336683415,
      "loss": 2.0916,
      "step": 89930
    },
    {
      "epoch": 0.4497,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016591959798994976,
      "loss": 1.9984,
      "step": 89940
    },
    {
      "epoch": 0.44975,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016590452261306532,
      "loss": 2.0363,
      "step": 89950
    },
    {
      "epoch": 0.4498,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016588944723618088,
      "loss": 2.0967,
      "step": 89960
    },
    {
      "epoch": 0.44985,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001658743718592965,
      "loss": 2.0822,
      "step": 89970
    },
    {
      "epoch": 0.4499,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016585929648241205,
      "loss": 2.0913,
      "step": 89980
    },
    {
      "epoch": 0.44995,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001658442211055276,
      "loss": 2.0752,
      "step": 89990
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001658291457286432,
      "loss": 2.0626,
      "step": 90000
    },
    {
      "epoch": 0.45,
      "eval_loss": 2.04807710647583,
      "eval_runtime": 93.431,
      "eval_samples_per_second": 26.758,
      "eval_steps_per_second": 0.428,
      "step": 90000
    },
    {
      "epoch": 0.45005,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00016581407035175878,
      "loss": 2.0327,
      "step": 90010
    },
    {
      "epoch": 0.4501,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016579899497487434,
      "loss": 2.0253,
      "step": 90020
    },
    {
      "epoch": 0.45015,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016578391959798993,
      "loss": 2.0136,
      "step": 90030
    },
    {
      "epoch": 0.4502,
      "grad_norm": 1.765625,
      "learning_rate": 0.00016576884422110551,
      "loss": 2.1064,
      "step": 90040
    },
    {
      "epoch": 0.45025,
      "grad_norm": 2.125,
      "learning_rate": 0.0001657537688442211,
      "loss": 2.029,
      "step": 90050
    },
    {
      "epoch": 0.4503,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016573869346733666,
      "loss": 2.1454,
      "step": 90060
    },
    {
      "epoch": 0.45035,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016572361809045227,
      "loss": 2.1054,
      "step": 90070
    },
    {
      "epoch": 0.4504,
      "grad_norm": 2.25,
      "learning_rate": 0.00016570854271356783,
      "loss": 2.0861,
      "step": 90080
    },
    {
      "epoch": 0.45045,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001656934673366834,
      "loss": 2.0308,
      "step": 90090
    },
    {
      "epoch": 0.4505,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000165678391959799,
      "loss": 2.1099,
      "step": 90100
    },
    {
      "epoch": 0.45055,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016566331658291456,
      "loss": 2.0535,
      "step": 90110
    },
    {
      "epoch": 0.4506,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016564824120603012,
      "loss": 2.0704,
      "step": 90120
    },
    {
      "epoch": 0.45065,
      "grad_norm": 1.8359375,
      "learning_rate": 0.0001656331658291457,
      "loss": 2.0691,
      "step": 90130
    },
    {
      "epoch": 0.4507,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001656180904522613,
      "loss": 2.0515,
      "step": 90140
    },
    {
      "epoch": 0.45075,
      "grad_norm": 2.0,
      "learning_rate": 0.00016560301507537685,
      "loss": 2.0667,
      "step": 90150
    },
    {
      "epoch": 0.4508,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016558793969849244,
      "loss": 2.0412,
      "step": 90160
    },
    {
      "epoch": 0.45085,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016557286432160803,
      "loss": 2.0883,
      "step": 90170
    },
    {
      "epoch": 0.4509,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001655577889447236,
      "loss": 2.0706,
      "step": 90180
    },
    {
      "epoch": 0.45095,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016554271356783917,
      "loss": 2.0986,
      "step": 90190
    },
    {
      "epoch": 0.451,
      "grad_norm": 1.765625,
      "learning_rate": 0.00016552763819095476,
      "loss": 2.0333,
      "step": 90200
    },
    {
      "epoch": 0.45105,
      "grad_norm": 1.765625,
      "learning_rate": 0.00016551256281407034,
      "loss": 2.0914,
      "step": 90210
    },
    {
      "epoch": 0.4511,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001654974874371859,
      "loss": 2.029,
      "step": 90220
    },
    {
      "epoch": 0.45115,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016548241206030151,
      "loss": 2.0564,
      "step": 90230
    },
    {
      "epoch": 0.4512,
      "grad_norm": 2.125,
      "learning_rate": 0.00016546733668341707,
      "loss": 2.0426,
      "step": 90240
    },
    {
      "epoch": 0.45125,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016545226130653263,
      "loss": 2.064,
      "step": 90250
    },
    {
      "epoch": 0.4513,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016543718592964825,
      "loss": 1.9776,
      "step": 90260
    },
    {
      "epoch": 0.45135,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001654221105527638,
      "loss": 2.0783,
      "step": 90270
    },
    {
      "epoch": 0.4514,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016540703517587936,
      "loss": 1.9794,
      "step": 90280
    },
    {
      "epoch": 0.45145,
      "grad_norm": 2.0,
      "learning_rate": 0.00016539195979899495,
      "loss": 2.0614,
      "step": 90290
    },
    {
      "epoch": 0.4515,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00016537688442211054,
      "loss": 2.0993,
      "step": 90300
    },
    {
      "epoch": 0.45155,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00016536180904522612,
      "loss": 2.0993,
      "step": 90310
    },
    {
      "epoch": 0.4516,
      "grad_norm": 2.0,
      "learning_rate": 0.00016534673366834168,
      "loss": 2.0813,
      "step": 90320
    },
    {
      "epoch": 0.45165,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016533165829145727,
      "loss": 1.9871,
      "step": 90330
    },
    {
      "epoch": 0.4517,
      "grad_norm": 2.1875,
      "learning_rate": 0.00016531658291457285,
      "loss": 2.0873,
      "step": 90340
    },
    {
      "epoch": 0.45175,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001653015075376884,
      "loss": 2.0508,
      "step": 90350
    },
    {
      "epoch": 0.4518,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016528643216080403,
      "loss": 2.0977,
      "step": 90360
    },
    {
      "epoch": 0.45185,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016527135678391958,
      "loss": 2.088,
      "step": 90370
    },
    {
      "epoch": 0.4519,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016525628140703514,
      "loss": 2.0654,
      "step": 90380
    },
    {
      "epoch": 0.45195,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00016524120603015076,
      "loss": 2.099,
      "step": 90390
    },
    {
      "epoch": 0.452,
      "grad_norm": 1.96875,
      "learning_rate": 0.00016522613065326632,
      "loss": 2.0628,
      "step": 90400
    },
    {
      "epoch": 0.45205,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016521105527638187,
      "loss": 2.0732,
      "step": 90410
    },
    {
      "epoch": 0.4521,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001651959798994975,
      "loss": 2.0166,
      "step": 90420
    },
    {
      "epoch": 0.45215,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016518090452261305,
      "loss": 2.0674,
      "step": 90430
    },
    {
      "epoch": 0.4522,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016516582914572863,
      "loss": 2.0211,
      "step": 90440
    },
    {
      "epoch": 0.45225,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001651507537688442,
      "loss": 2.0694,
      "step": 90450
    },
    {
      "epoch": 0.4523,
      "grad_norm": 2.359375,
      "learning_rate": 0.00016513567839195978,
      "loss": 2.0055,
      "step": 90460
    },
    {
      "epoch": 0.45235,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016512060301507536,
      "loss": 2.1207,
      "step": 90470
    },
    {
      "epoch": 0.4524,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016510552763819092,
      "loss": 2.0577,
      "step": 90480
    },
    {
      "epoch": 0.45245,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00016509045226130654,
      "loss": 2.0751,
      "step": 90490
    },
    {
      "epoch": 0.4525,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001650753768844221,
      "loss": 2.0523,
      "step": 90500
    },
    {
      "epoch": 0.45255,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016506030150753765,
      "loss": 2.0543,
      "step": 90510
    },
    {
      "epoch": 0.4526,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016504522613065327,
      "loss": 2.0668,
      "step": 90520
    },
    {
      "epoch": 0.45265,
      "grad_norm": 2.125,
      "learning_rate": 0.00016503015075376883,
      "loss": 2.0099,
      "step": 90530
    },
    {
      "epoch": 0.4527,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016501507537688439,
      "loss": 2.073,
      "step": 90540
    },
    {
      "epoch": 0.45275,
      "grad_norm": 2.0625,
      "learning_rate": 0.000165,
      "loss": 2.0288,
      "step": 90550
    },
    {
      "epoch": 0.4528,
      "grad_norm": 1.765625,
      "learning_rate": 0.00016498492462311556,
      "loss": 2.0245,
      "step": 90560
    },
    {
      "epoch": 0.45285,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016496984924623114,
      "loss": 2.0675,
      "step": 90570
    },
    {
      "epoch": 0.4529,
      "grad_norm": 1.71875,
      "learning_rate": 0.00016495477386934673,
      "loss": 2.0508,
      "step": 90580
    },
    {
      "epoch": 0.45295,
      "grad_norm": 2.125,
      "learning_rate": 0.0001649396984924623,
      "loss": 2.0644,
      "step": 90590
    },
    {
      "epoch": 0.453,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016492462311557788,
      "loss": 2.0295,
      "step": 90600
    },
    {
      "epoch": 0.45305,
      "grad_norm": 1.78125,
      "learning_rate": 0.00016490954773869343,
      "loss": 2.0634,
      "step": 90610
    },
    {
      "epoch": 0.4531,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016489447236180905,
      "loss": 2.0208,
      "step": 90620
    },
    {
      "epoch": 0.45315,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001648793969849246,
      "loss": 2.0717,
      "step": 90630
    },
    {
      "epoch": 0.4532,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016486432160804017,
      "loss": 2.1215,
      "step": 90640
    },
    {
      "epoch": 0.45325,
      "grad_norm": 2.1875,
      "learning_rate": 0.00016484924623115578,
      "loss": 2.0919,
      "step": 90650
    },
    {
      "epoch": 0.4533,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016483417085427134,
      "loss": 2.0683,
      "step": 90660
    },
    {
      "epoch": 0.45335,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001648190954773869,
      "loss": 2.0308,
      "step": 90670
    },
    {
      "epoch": 0.4534,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001648040201005025,
      "loss": 2.0635,
      "step": 90680
    },
    {
      "epoch": 0.45345,
      "grad_norm": 1.796875,
      "learning_rate": 0.00016478894472361807,
      "loss": 2.0662,
      "step": 90690
    },
    {
      "epoch": 0.4535,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016477386934673366,
      "loss": 2.0142,
      "step": 90700
    },
    {
      "epoch": 0.45355,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016475879396984924,
      "loss": 2.0369,
      "step": 90710
    },
    {
      "epoch": 0.4536,
      "grad_norm": 2.0,
      "learning_rate": 0.0001647437185929648,
      "loss": 2.0581,
      "step": 90720
    },
    {
      "epoch": 0.45365,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016472864321608039,
      "loss": 2.0857,
      "step": 90730
    },
    {
      "epoch": 0.4537,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016471356783919597,
      "loss": 2.0556,
      "step": 90740
    },
    {
      "epoch": 0.45375,
      "grad_norm": 1.8125,
      "learning_rate": 0.00016469849246231156,
      "loss": 2.0214,
      "step": 90750
    },
    {
      "epoch": 0.4538,
      "grad_norm": 2.171875,
      "learning_rate": 0.00016468341708542712,
      "loss": 2.0378,
      "step": 90760
    },
    {
      "epoch": 0.45385,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016466834170854268,
      "loss": 2.03,
      "step": 90770
    },
    {
      "epoch": 0.4539,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001646532663316583,
      "loss": 2.0806,
      "step": 90780
    },
    {
      "epoch": 0.45395,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016463819095477385,
      "loss": 2.0433,
      "step": 90790
    },
    {
      "epoch": 0.454,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001646231155778894,
      "loss": 2.0426,
      "step": 90800
    },
    {
      "epoch": 0.45405,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016460804020100502,
      "loss": 2.0558,
      "step": 90810
    },
    {
      "epoch": 0.4541,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016459296482412058,
      "loss": 2.0485,
      "step": 90820
    },
    {
      "epoch": 0.45415,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016457788944723617,
      "loss": 2.043,
      "step": 90830
    },
    {
      "epoch": 0.4542,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016456281407035175,
      "loss": 2.0368,
      "step": 90840
    },
    {
      "epoch": 0.45425,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001645477386934673,
      "loss": 2.1287,
      "step": 90850
    },
    {
      "epoch": 0.4543,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001645326633165829,
      "loss": 2.0015,
      "step": 90860
    },
    {
      "epoch": 0.45435,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016451758793969848,
      "loss": 2.1212,
      "step": 90870
    },
    {
      "epoch": 0.4544,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016450251256281407,
      "loss": 2.062,
      "step": 90880
    },
    {
      "epoch": 0.45445,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016448743718592963,
      "loss": 2.0749,
      "step": 90890
    },
    {
      "epoch": 0.4545,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016447236180904521,
      "loss": 2.0512,
      "step": 90900
    },
    {
      "epoch": 0.45455,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001644572864321608,
      "loss": 2.1026,
      "step": 90910
    },
    {
      "epoch": 0.4546,
      "grad_norm": 2.265625,
      "learning_rate": 0.00016444221105527636,
      "loss": 2.1084,
      "step": 90920
    },
    {
      "epoch": 0.45465,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016442713567839192,
      "loss": 2.0937,
      "step": 90930
    },
    {
      "epoch": 0.4547,
      "grad_norm": 2.140625,
      "learning_rate": 0.00016441206030150753,
      "loss": 2.1063,
      "step": 90940
    },
    {
      "epoch": 0.45475,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001643969849246231,
      "loss": 2.0754,
      "step": 90950
    },
    {
      "epoch": 0.4548,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016438190954773868,
      "loss": 1.9946,
      "step": 90960
    },
    {
      "epoch": 0.45485,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016436683417085426,
      "loss": 2.0533,
      "step": 90970
    },
    {
      "epoch": 0.4549,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016435175879396982,
      "loss": 2.0733,
      "step": 90980
    },
    {
      "epoch": 0.45495,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001643366834170854,
      "loss": 2.0318,
      "step": 90990
    },
    {
      "epoch": 0.455,
      "grad_norm": 1.9609375,
      "learning_rate": 0.000164321608040201,
      "loss": 2.0299,
      "step": 91000
    },
    {
      "epoch": 0.45505,
      "grad_norm": 2.0,
      "learning_rate": 0.00016430653266331658,
      "loss": 2.0972,
      "step": 91010
    },
    {
      "epoch": 0.4551,
      "grad_norm": 1.84375,
      "learning_rate": 0.00016429145728643214,
      "loss": 2.0424,
      "step": 91020
    },
    {
      "epoch": 0.45515,
      "grad_norm": 1.875,
      "learning_rate": 0.00016427638190954773,
      "loss": 2.0362,
      "step": 91030
    },
    {
      "epoch": 0.4552,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001642613065326633,
      "loss": 2.0009,
      "step": 91040
    },
    {
      "epoch": 0.45525,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016424623115577887,
      "loss": 2.0928,
      "step": 91050
    },
    {
      "epoch": 0.4553,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016423115577889448,
      "loss": 2.0591,
      "step": 91060
    },
    {
      "epoch": 0.45535,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016421608040201004,
      "loss": 2.0393,
      "step": 91070
    },
    {
      "epoch": 0.4554,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001642010050251256,
      "loss": 2.0609,
      "step": 91080
    },
    {
      "epoch": 0.45545,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001641859296482412,
      "loss": 2.0694,
      "step": 91090
    },
    {
      "epoch": 0.4555,
      "grad_norm": 2.125,
      "learning_rate": 0.00016417085427135677,
      "loss": 2.0913,
      "step": 91100
    },
    {
      "epoch": 0.45555,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016415577889447233,
      "loss": 2.0821,
      "step": 91110
    },
    {
      "epoch": 0.4556,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016414070351758792,
      "loss": 2.05,
      "step": 91120
    },
    {
      "epoch": 0.45565,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001641256281407035,
      "loss": 2.033,
      "step": 91130
    },
    {
      "epoch": 0.4557,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001641105527638191,
      "loss": 2.0883,
      "step": 91140
    },
    {
      "epoch": 0.45575,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016409547738693465,
      "loss": 2.0533,
      "step": 91150
    },
    {
      "epoch": 0.4558,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00016408040201005024,
      "loss": 2.0733,
      "step": 91160
    },
    {
      "epoch": 0.45585,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016406532663316582,
      "loss": 2.0548,
      "step": 91170
    },
    {
      "epoch": 0.4559,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016405025125628138,
      "loss": 2.0038,
      "step": 91180
    },
    {
      "epoch": 0.45595,
      "grad_norm": 1.890625,
      "learning_rate": 0.000164035175879397,
      "loss": 1.9856,
      "step": 91190
    },
    {
      "epoch": 0.456,
      "grad_norm": 1.875,
      "learning_rate": 0.00016402010050251255,
      "loss": 2.126,
      "step": 91200
    },
    {
      "epoch": 0.45605,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001640050251256281,
      "loss": 2.0146,
      "step": 91210
    },
    {
      "epoch": 0.4561,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016398994974874373,
      "loss": 2.0788,
      "step": 91220
    },
    {
      "epoch": 0.45615,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016397487437185928,
      "loss": 2.0654,
      "step": 91230
    },
    {
      "epoch": 0.4562,
      "grad_norm": 2.140625,
      "learning_rate": 0.00016395979899497484,
      "loss": 2.0233,
      "step": 91240
    },
    {
      "epoch": 0.45625,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016394472361809043,
      "loss": 2.0955,
      "step": 91250
    },
    {
      "epoch": 0.4563,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00016392964824120602,
      "loss": 2.0286,
      "step": 91260
    },
    {
      "epoch": 0.45635,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001639145728643216,
      "loss": 2.0995,
      "step": 91270
    },
    {
      "epoch": 0.4564,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00016389949748743716,
      "loss": 2.0243,
      "step": 91280
    },
    {
      "epoch": 0.45645,
      "grad_norm": 2.0,
      "learning_rate": 0.00016388442211055275,
      "loss": 2.0663,
      "step": 91290
    },
    {
      "epoch": 0.4565,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016386934673366833,
      "loss": 2.0737,
      "step": 91300
    },
    {
      "epoch": 0.45655,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001638542713567839,
      "loss": 2.1467,
      "step": 91310
    },
    {
      "epoch": 0.4566,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001638391959798995,
      "loss": 2.0838,
      "step": 91320
    },
    {
      "epoch": 0.45665,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016382412060301506,
      "loss": 2.0657,
      "step": 91330
    },
    {
      "epoch": 0.4567,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016380904522613062,
      "loss": 2.0415,
      "step": 91340
    },
    {
      "epoch": 0.45675,
      "grad_norm": 2.125,
      "learning_rate": 0.00016379396984924624,
      "loss": 2.0303,
      "step": 91350
    },
    {
      "epoch": 0.4568,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001637788944723618,
      "loss": 2.0693,
      "step": 91360
    },
    {
      "epoch": 0.45685,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016376381909547735,
      "loss": 2.0322,
      "step": 91370
    },
    {
      "epoch": 0.4569,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016374874371859294,
      "loss": 2.0764,
      "step": 91380
    },
    {
      "epoch": 0.45695,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016373366834170853,
      "loss": 2.0706,
      "step": 91390
    },
    {
      "epoch": 0.457,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001637185929648241,
      "loss": 2.0855,
      "step": 91400
    },
    {
      "epoch": 0.45705,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016370351758793967,
      "loss": 2.0295,
      "step": 91410
    },
    {
      "epoch": 0.4571,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016368844221105526,
      "loss": 2.1074,
      "step": 91420
    },
    {
      "epoch": 0.45715,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016367336683417084,
      "loss": 2.0626,
      "step": 91430
    },
    {
      "epoch": 0.4572,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001636582914572864,
      "loss": 2.0418,
      "step": 91440
    },
    {
      "epoch": 0.45725,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016364321608040202,
      "loss": 2.1545,
      "step": 91450
    },
    {
      "epoch": 0.4573,
      "grad_norm": 2.1875,
      "learning_rate": 0.00016362814070351758,
      "loss": 2.069,
      "step": 91460
    },
    {
      "epoch": 0.45735,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00016361306532663313,
      "loss": 2.087,
      "step": 91470
    },
    {
      "epoch": 0.4574,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016359798994974875,
      "loss": 2.0502,
      "step": 91480
    },
    {
      "epoch": 0.45745,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001635829145728643,
      "loss": 2.068,
      "step": 91490
    },
    {
      "epoch": 0.4575,
      "grad_norm": 1.796875,
      "learning_rate": 0.00016356783919597987,
      "loss": 2.0165,
      "step": 91500
    },
    {
      "epoch": 0.45755,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016355276381909548,
      "loss": 2.0288,
      "step": 91510
    },
    {
      "epoch": 0.4576,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016353768844221104,
      "loss": 2.0643,
      "step": 91520
    },
    {
      "epoch": 0.45765,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00016352261306532662,
      "loss": 2.0713,
      "step": 91530
    },
    {
      "epoch": 0.4577,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00016350753768844218,
      "loss": 2.0544,
      "step": 91540
    },
    {
      "epoch": 0.45775,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016349246231155777,
      "loss": 2.0127,
      "step": 91550
    },
    {
      "epoch": 0.4578,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016347738693467336,
      "loss": 2.107,
      "step": 91560
    },
    {
      "epoch": 0.45785,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016346231155778891,
      "loss": 2.041,
      "step": 91570
    },
    {
      "epoch": 0.4579,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00016344723618090453,
      "loss": 2.0611,
      "step": 91580
    },
    {
      "epoch": 0.45795,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001634321608040201,
      "loss": 2.0838,
      "step": 91590
    },
    {
      "epoch": 0.458,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016341708542713565,
      "loss": 2.0462,
      "step": 91600
    },
    {
      "epoch": 0.45805,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016340201005025126,
      "loss": 2.1214,
      "step": 91610
    },
    {
      "epoch": 0.4581,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016338693467336682,
      "loss": 2.035,
      "step": 91620
    },
    {
      "epoch": 0.45815,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016337185929648238,
      "loss": 2.0646,
      "step": 91630
    },
    {
      "epoch": 0.4582,
      "grad_norm": 2.140625,
      "learning_rate": 0.000163356783919598,
      "loss": 2.0178,
      "step": 91640
    },
    {
      "epoch": 0.45825,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016334170854271355,
      "loss": 2.0519,
      "step": 91650
    },
    {
      "epoch": 0.4583,
      "grad_norm": 2.0,
      "learning_rate": 0.00016332663316582914,
      "loss": 2.0601,
      "step": 91660
    },
    {
      "epoch": 0.45835,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016331155778894472,
      "loss": 2.0501,
      "step": 91670
    },
    {
      "epoch": 0.4584,
      "grad_norm": 1.78125,
      "learning_rate": 0.00016329648241206028,
      "loss": 2.1084,
      "step": 91680
    },
    {
      "epoch": 0.45845,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016328140703517587,
      "loss": 2.035,
      "step": 91690
    },
    {
      "epoch": 0.4585,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016326633165829143,
      "loss": 2.0856,
      "step": 91700
    },
    {
      "epoch": 0.45855,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016325125628140704,
      "loss": 2.0933,
      "step": 91710
    },
    {
      "epoch": 0.4586,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001632361809045226,
      "loss": 2.0714,
      "step": 91720
    },
    {
      "epoch": 0.45865,
      "grad_norm": 2.140625,
      "learning_rate": 0.00016322110552763816,
      "loss": 2.0125,
      "step": 91730
    },
    {
      "epoch": 0.4587,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00016320603015075377,
      "loss": 2.04,
      "step": 91740
    },
    {
      "epoch": 0.45875,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016319095477386933,
      "loss": 2.0492,
      "step": 91750
    },
    {
      "epoch": 0.4588,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001631758793969849,
      "loss": 2.0842,
      "step": 91760
    },
    {
      "epoch": 0.45885,
      "grad_norm": 1.84375,
      "learning_rate": 0.0001631608040201005,
      "loss": 2.0548,
      "step": 91770
    },
    {
      "epoch": 0.4589,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016314572864321606,
      "loss": 2.0022,
      "step": 91780
    },
    {
      "epoch": 0.45895,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016313065326633165,
      "loss": 2.0785,
      "step": 91790
    },
    {
      "epoch": 0.459,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016311557788944723,
      "loss": 2.0039,
      "step": 91800
    },
    {
      "epoch": 0.45905,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001631005025125628,
      "loss": 2.0778,
      "step": 91810
    },
    {
      "epoch": 0.4591,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00016308542713567838,
      "loss": 2.0769,
      "step": 91820
    },
    {
      "epoch": 0.45915,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00016307035175879396,
      "loss": 2.0216,
      "step": 91830
    },
    {
      "epoch": 0.4592,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016305527638190955,
      "loss": 2.0227,
      "step": 91840
    },
    {
      "epoch": 0.45925,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001630402010050251,
      "loss": 2.018,
      "step": 91850
    },
    {
      "epoch": 0.4593,
      "grad_norm": 1.78125,
      "learning_rate": 0.00016302512562814067,
      "loss": 2.0408,
      "step": 91860
    },
    {
      "epoch": 0.45935,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016301005025125628,
      "loss": 2.0169,
      "step": 91870
    },
    {
      "epoch": 0.4594,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016299497487437184,
      "loss": 2.0692,
      "step": 91880
    },
    {
      "epoch": 0.45945,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001629798994974874,
      "loss": 2.0051,
      "step": 91890
    },
    {
      "epoch": 0.4595,
      "grad_norm": 1.8828125,
      "learning_rate": 0.000162964824120603,
      "loss": 2.1096,
      "step": 91900
    },
    {
      "epoch": 0.45955,
      "grad_norm": 1.875,
      "learning_rate": 0.00016294974874371857,
      "loss": 2.0668,
      "step": 91910
    },
    {
      "epoch": 0.4596,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016293467336683416,
      "loss": 2.068,
      "step": 91920
    },
    {
      "epoch": 0.45965,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00016291959798994974,
      "loss": 2.0248,
      "step": 91930
    },
    {
      "epoch": 0.4597,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001629045226130653,
      "loss": 2.0605,
      "step": 91940
    },
    {
      "epoch": 0.45975,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001628894472361809,
      "loss": 2.039,
      "step": 91950
    },
    {
      "epoch": 0.4598,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016287437185929647,
      "loss": 2.0345,
      "step": 91960
    },
    {
      "epoch": 0.45985,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00016285929648241206,
      "loss": 2.0528,
      "step": 91970
    },
    {
      "epoch": 0.4599,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016284422110552762,
      "loss": 2.0583,
      "step": 91980
    },
    {
      "epoch": 0.45995,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001628291457286432,
      "loss": 2.0493,
      "step": 91990
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001628140703517588,
      "loss": 2.0681,
      "step": 92000
    },
    {
      "epoch": 0.46,
      "eval_loss": 2.0438733100891113,
      "eval_runtime": 90.3194,
      "eval_samples_per_second": 27.68,
      "eval_steps_per_second": 0.443,
      "step": 92000
    },
    {
      "epoch": 0.46005,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016279899497487435,
      "loss": 2.0775,
      "step": 92010
    },
    {
      "epoch": 0.4601,
      "grad_norm": 1.671875,
      "learning_rate": 0.0001627839195979899,
      "loss": 2.0924,
      "step": 92020
    },
    {
      "epoch": 0.46015,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016276884422110552,
      "loss": 2.0616,
      "step": 92030
    },
    {
      "epoch": 0.4602,
      "grad_norm": 1.796875,
      "learning_rate": 0.00016275376884422108,
      "loss": 2.0445,
      "step": 92040
    },
    {
      "epoch": 0.46025,
      "grad_norm": 2.140625,
      "learning_rate": 0.00016273869346733667,
      "loss": 2.0497,
      "step": 92050
    },
    {
      "epoch": 0.4603,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016272361809045225,
      "loss": 2.113,
      "step": 92060
    },
    {
      "epoch": 0.46035,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001627085427135678,
      "loss": 2.069,
      "step": 92070
    },
    {
      "epoch": 0.4604,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001626934673366834,
      "loss": 1.9963,
      "step": 92080
    },
    {
      "epoch": 0.46045,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016267839195979899,
      "loss": 2.0751,
      "step": 92090
    },
    {
      "epoch": 0.4605,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016266331658291457,
      "loss": 2.0739,
      "step": 92100
    },
    {
      "epoch": 0.46055,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016264824120603013,
      "loss": 2.1144,
      "step": 92110
    },
    {
      "epoch": 0.4606,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016263316582914572,
      "loss": 2.0859,
      "step": 92120
    },
    {
      "epoch": 0.46065,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001626180904522613,
      "loss": 2.0949,
      "step": 92130
    },
    {
      "epoch": 0.4607,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00016260301507537686,
      "loss": 2.1035,
      "step": 92140
    },
    {
      "epoch": 0.46075,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00016258793969849247,
      "loss": 2.0758,
      "step": 92150
    },
    {
      "epoch": 0.4608,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016257286432160803,
      "loss": 2.0448,
      "step": 92160
    },
    {
      "epoch": 0.46085,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001625577889447236,
      "loss": 2.059,
      "step": 92170
    },
    {
      "epoch": 0.4609,
      "grad_norm": 1.875,
      "learning_rate": 0.00016254271356783918,
      "loss": 2.0732,
      "step": 92180
    },
    {
      "epoch": 0.46095,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016252763819095476,
      "loss": 2.0374,
      "step": 92190
    },
    {
      "epoch": 0.461,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016251256281407032,
      "loss": 2.0249,
      "step": 92200
    },
    {
      "epoch": 0.46105,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001624974874371859,
      "loss": 2.0116,
      "step": 92210
    },
    {
      "epoch": 0.4611,
      "grad_norm": 1.59375,
      "learning_rate": 0.0001624824120603015,
      "loss": 2.0353,
      "step": 92220
    },
    {
      "epoch": 0.46115,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016246733668341708,
      "loss": 2.048,
      "step": 92230
    },
    {
      "epoch": 0.4612,
      "grad_norm": 1.875,
      "learning_rate": 0.00016245226130653264,
      "loss": 2.0489,
      "step": 92240
    },
    {
      "epoch": 0.46125,
      "grad_norm": 1.953125,
      "learning_rate": 0.00016243718592964823,
      "loss": 2.0807,
      "step": 92250
    },
    {
      "epoch": 0.4613,
      "grad_norm": 2.25,
      "learning_rate": 0.0001624221105527638,
      "loss": 2.0777,
      "step": 92260
    },
    {
      "epoch": 0.46135,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016240703517587937,
      "loss": 2.075,
      "step": 92270
    },
    {
      "epoch": 0.4614,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016239195979899499,
      "loss": 2.0811,
      "step": 92280
    },
    {
      "epoch": 0.46145,
      "grad_norm": 1.765625,
      "learning_rate": 0.00016237688442211054,
      "loss": 2.0858,
      "step": 92290
    },
    {
      "epoch": 0.4615,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001623618090452261,
      "loss": 2.029,
      "step": 92300
    },
    {
      "epoch": 0.46155,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016234673366834172,
      "loss": 2.0538,
      "step": 92310
    },
    {
      "epoch": 0.4616,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016233165829145728,
      "loss": 2.0749,
      "step": 92320
    },
    {
      "epoch": 0.46165,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016231658291457283,
      "loss": 2.0733,
      "step": 92330
    },
    {
      "epoch": 0.4617,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016230150753768842,
      "loss": 2.0913,
      "step": 92340
    },
    {
      "epoch": 0.46175,
      "grad_norm": 1.734375,
      "learning_rate": 0.000162286432160804,
      "loss": 2.0936,
      "step": 92350
    },
    {
      "epoch": 0.4618,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001622713567839196,
      "loss": 2.0722,
      "step": 92360
    },
    {
      "epoch": 0.46185,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016225628140703515,
      "loss": 2.033,
      "step": 92370
    },
    {
      "epoch": 0.4619,
      "grad_norm": 2.125,
      "learning_rate": 0.00016224120603015074,
      "loss": 2.061,
      "step": 92380
    },
    {
      "epoch": 0.46195,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016222613065326632,
      "loss": 2.0211,
      "step": 92390
    },
    {
      "epoch": 0.462,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016221105527638188,
      "loss": 2.0472,
      "step": 92400
    },
    {
      "epoch": 0.46205,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001621959798994975,
      "loss": 2.1051,
      "step": 92410
    },
    {
      "epoch": 0.4621,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016218090452261306,
      "loss": 2.0511,
      "step": 92420
    },
    {
      "epoch": 0.46215,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016216582914572861,
      "loss": 2.0692,
      "step": 92430
    },
    {
      "epoch": 0.4622,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016215075376884423,
      "loss": 1.9753,
      "step": 92440
    },
    {
      "epoch": 0.46225,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001621356783919598,
      "loss": 2.1163,
      "step": 92450
    },
    {
      "epoch": 0.4623,
      "grad_norm": 2.140625,
      "learning_rate": 0.00016212060301507535,
      "loss": 2.0699,
      "step": 92460
    },
    {
      "epoch": 0.46235,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016210552763819093,
      "loss": 2.0244,
      "step": 92470
    },
    {
      "epoch": 0.4624,
      "grad_norm": 1.921875,
      "learning_rate": 0.00016209045226130652,
      "loss": 2.0589,
      "step": 92480
    },
    {
      "epoch": 0.46245,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001620753768844221,
      "loss": 2.0004,
      "step": 92490
    },
    {
      "epoch": 0.4625,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00016206030150753766,
      "loss": 2.1027,
      "step": 92500
    },
    {
      "epoch": 0.46255,
      "grad_norm": 2.140625,
      "learning_rate": 0.00016204522613065325,
      "loss": 2.026,
      "step": 92510
    },
    {
      "epoch": 0.4626,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016203015075376884,
      "loss": 2.08,
      "step": 92520
    },
    {
      "epoch": 0.46265,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001620150753768844,
      "loss": 2.0609,
      "step": 92530
    },
    {
      "epoch": 0.4627,
      "grad_norm": 1.859375,
      "learning_rate": 0.000162,
      "loss": 2.0828,
      "step": 92540
    },
    {
      "epoch": 0.46275,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016198492462311557,
      "loss": 2.0162,
      "step": 92550
    },
    {
      "epoch": 0.4628,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016196984924623113,
      "loss": 2.0457,
      "step": 92560
    },
    {
      "epoch": 0.46285,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016195477386934674,
      "loss": 2.1108,
      "step": 92570
    },
    {
      "epoch": 0.4629,
      "grad_norm": 2.125,
      "learning_rate": 0.0001619396984924623,
      "loss": 2.055,
      "step": 92580
    },
    {
      "epoch": 0.46295,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016192462311557786,
      "loss": 2.0701,
      "step": 92590
    },
    {
      "epoch": 0.463,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016190954773869347,
      "loss": 2.0094,
      "step": 92600
    },
    {
      "epoch": 0.46305,
      "grad_norm": 1.71875,
      "learning_rate": 0.00016189447236180903,
      "loss": 2.0872,
      "step": 92610
    },
    {
      "epoch": 0.4631,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016187939698492462,
      "loss": 2.0454,
      "step": 92620
    },
    {
      "epoch": 0.46315,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016186432160804017,
      "loss": 2.0748,
      "step": 92630
    },
    {
      "epoch": 0.4632,
      "grad_norm": 2.203125,
      "learning_rate": 0.00016184924623115576,
      "loss": 2.0727,
      "step": 92640
    },
    {
      "epoch": 0.46325,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016183417085427135,
      "loss": 2.0359,
      "step": 92650
    },
    {
      "epoch": 0.4633,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001618190954773869,
      "loss": 2.0548,
      "step": 92660
    },
    {
      "epoch": 0.46335,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016180402010050252,
      "loss": 2.0679,
      "step": 92670
    },
    {
      "epoch": 0.4634,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016178894472361808,
      "loss": 2.0334,
      "step": 92680
    },
    {
      "epoch": 0.46345,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016177386934673364,
      "loss": 2.074,
      "step": 92690
    },
    {
      "epoch": 0.4635,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016175879396984925,
      "loss": 2.1053,
      "step": 92700
    },
    {
      "epoch": 0.46355,
      "grad_norm": 1.78125,
      "learning_rate": 0.0001617437185929648,
      "loss": 2.0462,
      "step": 92710
    },
    {
      "epoch": 0.4636,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016172864321608037,
      "loss": 2.0181,
      "step": 92720
    },
    {
      "epoch": 0.46365,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016171356783919598,
      "loss": 2.0939,
      "step": 92730
    },
    {
      "epoch": 0.4637,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016169849246231154,
      "loss": 2.0577,
      "step": 92740
    },
    {
      "epoch": 0.46375,
      "grad_norm": 1.78125,
      "learning_rate": 0.00016168341708542713,
      "loss": 2.0425,
      "step": 92750
    },
    {
      "epoch": 0.4638,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001616683417085427,
      "loss": 2.051,
      "step": 92760
    },
    {
      "epoch": 0.46385,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016165326633165827,
      "loss": 2.0509,
      "step": 92770
    },
    {
      "epoch": 0.4639,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016163819095477386,
      "loss": 2.0336,
      "step": 92780
    },
    {
      "epoch": 0.46395,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016162311557788942,
      "loss": 2.0171,
      "step": 92790
    },
    {
      "epoch": 0.464,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016160804020100503,
      "loss": 2.0806,
      "step": 92800
    },
    {
      "epoch": 0.46405,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001615929648241206,
      "loss": 2.0542,
      "step": 92810
    },
    {
      "epoch": 0.4641,
      "grad_norm": 1.71875,
      "learning_rate": 0.00016157788944723615,
      "loss": 2.0324,
      "step": 92820
    },
    {
      "epoch": 0.46415,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016156281407035176,
      "loss": 2.0537,
      "step": 92830
    },
    {
      "epoch": 0.4642,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016154773869346732,
      "loss": 2.0342,
      "step": 92840
    },
    {
      "epoch": 0.46425,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016153266331658288,
      "loss": 2.0954,
      "step": 92850
    },
    {
      "epoch": 0.4643,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001615175879396985,
      "loss": 2.0047,
      "step": 92860
    },
    {
      "epoch": 0.46435,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016150251256281405,
      "loss": 2.0542,
      "step": 92870
    },
    {
      "epoch": 0.4644,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00016148743718592964,
      "loss": 2.0817,
      "step": 92880
    },
    {
      "epoch": 0.46445,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00016147236180904522,
      "loss": 2.0546,
      "step": 92890
    },
    {
      "epoch": 0.4645,
      "grad_norm": 1.78125,
      "learning_rate": 0.00016145728643216078,
      "loss": 2.033,
      "step": 92900
    },
    {
      "epoch": 0.46455,
      "grad_norm": 2.234375,
      "learning_rate": 0.00016144221105527637,
      "loss": 2.0579,
      "step": 92910
    },
    {
      "epoch": 0.4646,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016142713567839195,
      "loss": 2.1233,
      "step": 92920
    },
    {
      "epoch": 0.46465,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016141206030150754,
      "loss": 2.0206,
      "step": 92930
    },
    {
      "epoch": 0.4647,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001613969849246231,
      "loss": 2.0508,
      "step": 92940
    },
    {
      "epoch": 0.46475,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016138190954773866,
      "loss": 2.0072,
      "step": 92950
    },
    {
      "epoch": 0.4648,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00016136683417085427,
      "loss": 2.0386,
      "step": 92960
    },
    {
      "epoch": 0.46485,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016135175879396983,
      "loss": 2.0218,
      "step": 92970
    },
    {
      "epoch": 0.4649,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001613366834170854,
      "loss": 2.0851,
      "step": 92980
    },
    {
      "epoch": 0.46495,
      "grad_norm": 1.7734375,
      "learning_rate": 0.000161321608040201,
      "loss": 2.025,
      "step": 92990
    },
    {
      "epoch": 0.465,
      "grad_norm": 2.0,
      "learning_rate": 0.00016130653266331656,
      "loss": 2.068,
      "step": 93000
    },
    {
      "epoch": 0.46505,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016129145728643215,
      "loss": 2.0777,
      "step": 93010
    },
    {
      "epoch": 0.4651,
      "grad_norm": 1.8125,
      "learning_rate": 0.00016127638190954773,
      "loss": 2.0012,
      "step": 93020
    },
    {
      "epoch": 0.46515,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001612613065326633,
      "loss": 2.0491,
      "step": 93030
    },
    {
      "epoch": 0.4652,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016124623115577888,
      "loss": 2.0134,
      "step": 93040
    },
    {
      "epoch": 0.46525,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016123115577889447,
      "loss": 2.0209,
      "step": 93050
    },
    {
      "epoch": 0.4653,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016121608040201005,
      "loss": 2.0553,
      "step": 93060
    },
    {
      "epoch": 0.46535,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001612010050251256,
      "loss": 2.0049,
      "step": 93070
    },
    {
      "epoch": 0.4654,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001611859296482412,
      "loss": 2.036,
      "step": 93080
    },
    {
      "epoch": 0.46545,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016117085427135678,
      "loss": 2.0132,
      "step": 93090
    },
    {
      "epoch": 0.4655,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00016115577889447234,
      "loss": 2.0273,
      "step": 93100
    },
    {
      "epoch": 0.46555,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001611407035175879,
      "loss": 2.1012,
      "step": 93110
    },
    {
      "epoch": 0.4656,
      "grad_norm": 2.109375,
      "learning_rate": 0.00016112562814070351,
      "loss": 2.0954,
      "step": 93120
    },
    {
      "epoch": 0.46565,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016111055276381907,
      "loss": 2.133,
      "step": 93130
    },
    {
      "epoch": 0.4657,
      "grad_norm": 2.0,
      "learning_rate": 0.00016109547738693466,
      "loss": 2.0189,
      "step": 93140
    },
    {
      "epoch": 0.46575,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00016108040201005024,
      "loss": 2.1346,
      "step": 93150
    },
    {
      "epoch": 0.4658,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001610653266331658,
      "loss": 2.036,
      "step": 93160
    },
    {
      "epoch": 0.46585,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001610502512562814,
      "loss": 2.0281,
      "step": 93170
    },
    {
      "epoch": 0.4659,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016103517587939698,
      "loss": 2.0079,
      "step": 93180
    },
    {
      "epoch": 0.46595,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016102010050251256,
      "loss": 2.0504,
      "step": 93190
    },
    {
      "epoch": 0.466,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016100502512562812,
      "loss": 2.1163,
      "step": 93200
    },
    {
      "epoch": 0.46605,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001609899497487437,
      "loss": 2.0156,
      "step": 93210
    },
    {
      "epoch": 0.4661,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001609748743718593,
      "loss": 2.0356,
      "step": 93220
    },
    {
      "epoch": 0.46615,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016095979899497485,
      "loss": 2.025,
      "step": 93230
    },
    {
      "epoch": 0.4662,
      "grad_norm": 1.984375,
      "learning_rate": 0.00016094472361809047,
      "loss": 2.0318,
      "step": 93240
    },
    {
      "epoch": 0.46625,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016092964824120602,
      "loss": 2.0494,
      "step": 93250
    },
    {
      "epoch": 0.4663,
      "grad_norm": 2.03125,
      "learning_rate": 0.00016091457286432158,
      "loss": 2.1019,
      "step": 93260
    },
    {
      "epoch": 0.46635,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016089949748743717,
      "loss": 2.0409,
      "step": 93270
    },
    {
      "epoch": 0.4664,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00016088442211055276,
      "loss": 2.0716,
      "step": 93280
    },
    {
      "epoch": 0.46645,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00016086934673366831,
      "loss": 2.0481,
      "step": 93290
    },
    {
      "epoch": 0.4665,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001608542713567839,
      "loss": 2.0583,
      "step": 93300
    },
    {
      "epoch": 0.46655,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001608391959798995,
      "loss": 2.0704,
      "step": 93310
    },
    {
      "epoch": 0.4666,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016082412060301507,
      "loss": 2.0766,
      "step": 93320
    },
    {
      "epoch": 0.46665,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016080904522613063,
      "loss": 2.0697,
      "step": 93330
    },
    {
      "epoch": 0.4667,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016079396984924622,
      "loss": 2.028,
      "step": 93340
    },
    {
      "epoch": 0.46675,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001607788944723618,
      "loss": 2.0316,
      "step": 93350
    },
    {
      "epoch": 0.4668,
      "grad_norm": 1.78125,
      "learning_rate": 0.00016076381909547736,
      "loss": 2.0774,
      "step": 93360
    },
    {
      "epoch": 0.46685,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00016074874371859298,
      "loss": 2.0378,
      "step": 93370
    },
    {
      "epoch": 0.4669,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016073366834170854,
      "loss": 2.014,
      "step": 93380
    },
    {
      "epoch": 0.46695,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001607185929648241,
      "loss": 2.035,
      "step": 93390
    },
    {
      "epoch": 0.467,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001607035175879397,
      "loss": 2.0834,
      "step": 93400
    },
    {
      "epoch": 0.46705,
      "grad_norm": 1.890625,
      "learning_rate": 0.00016068844221105527,
      "loss": 2.0753,
      "step": 93410
    },
    {
      "epoch": 0.4671,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00016067336683417083,
      "loss": 2.1056,
      "step": 93420
    },
    {
      "epoch": 0.46715,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001606582914572864,
      "loss": 2.0301,
      "step": 93430
    },
    {
      "epoch": 0.4672,
      "grad_norm": 2.03125,
      "learning_rate": 0.000160643216080402,
      "loss": 2.0104,
      "step": 93440
    },
    {
      "epoch": 0.46725,
      "grad_norm": 1.96875,
      "learning_rate": 0.00016062814070351758,
      "loss": 2.062,
      "step": 93450
    },
    {
      "epoch": 0.4673,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00016061306532663314,
      "loss": 2.0743,
      "step": 93460
    },
    {
      "epoch": 0.46735,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016059798994974873,
      "loss": 2.0153,
      "step": 93470
    },
    {
      "epoch": 0.4674,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00016058291457286432,
      "loss": 2.0574,
      "step": 93480
    },
    {
      "epoch": 0.46745,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016056783919597987,
      "loss": 2.0557,
      "step": 93490
    },
    {
      "epoch": 0.4675,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001605527638190955,
      "loss": 2.0674,
      "step": 93500
    },
    {
      "epoch": 0.46755,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016053768844221105,
      "loss": 2.0326,
      "step": 93510
    },
    {
      "epoch": 0.4676,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001605226130653266,
      "loss": 2.0603,
      "step": 93520
    },
    {
      "epoch": 0.46765,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00016050753768844222,
      "loss": 2.0973,
      "step": 93530
    },
    {
      "epoch": 0.4677,
      "grad_norm": 2.0625,
      "learning_rate": 0.00016049246231155778,
      "loss": 2.0837,
      "step": 93540
    },
    {
      "epoch": 0.46775,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016047738693467334,
      "loss": 2.0376,
      "step": 93550
    },
    {
      "epoch": 0.4678,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016046231155778892,
      "loss": 2.157,
      "step": 93560
    },
    {
      "epoch": 0.46785,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001604472361809045,
      "loss": 1.9983,
      "step": 93570
    },
    {
      "epoch": 0.4679,
      "grad_norm": 2.0,
      "learning_rate": 0.0001604321608040201,
      "loss": 2.1232,
      "step": 93580
    },
    {
      "epoch": 0.46795,
      "grad_norm": 2.125,
      "learning_rate": 0.00016041708542713565,
      "loss": 2.0712,
      "step": 93590
    },
    {
      "epoch": 0.468,
      "grad_norm": 1.90625,
      "learning_rate": 0.00016040201005025124,
      "loss": 2.039,
      "step": 93600
    },
    {
      "epoch": 0.46805,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016038693467336683,
      "loss": 2.0155,
      "step": 93610
    },
    {
      "epoch": 0.4681,
      "grad_norm": 1.765625,
      "learning_rate": 0.00016037185929648239,
      "loss": 2.0406,
      "step": 93620
    },
    {
      "epoch": 0.46815,
      "grad_norm": 1.9140625,
      "learning_rate": 0.000160356783919598,
      "loss": 2.0152,
      "step": 93630
    },
    {
      "epoch": 0.4682,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016034170854271356,
      "loss": 2.0386,
      "step": 93640
    },
    {
      "epoch": 0.46825,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016032663316582912,
      "loss": 2.0774,
      "step": 93650
    },
    {
      "epoch": 0.4683,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00016031155778894473,
      "loss": 2.0185,
      "step": 93660
    },
    {
      "epoch": 0.46835,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001602964824120603,
      "loss": 2.0594,
      "step": 93670
    },
    {
      "epoch": 0.4684,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016028140703517585,
      "loss": 2.041,
      "step": 93680
    },
    {
      "epoch": 0.46845,
      "grad_norm": 2.078125,
      "learning_rate": 0.00016026633165829146,
      "loss": 2.059,
      "step": 93690
    },
    {
      "epoch": 0.4685,
      "grad_norm": 2.328125,
      "learning_rate": 0.00016025125628140702,
      "loss": 2.0753,
      "step": 93700
    },
    {
      "epoch": 0.46855,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001602361809045226,
      "loss": 1.9641,
      "step": 93710
    },
    {
      "epoch": 0.4686,
      "grad_norm": 2.015625,
      "learning_rate": 0.00016022110552763816,
      "loss": 2.0046,
      "step": 93720
    },
    {
      "epoch": 0.46865,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016020603015075375,
      "loss": 2.0629,
      "step": 93730
    },
    {
      "epoch": 0.4687,
      "grad_norm": 1.859375,
      "learning_rate": 0.00016019095477386934,
      "loss": 2.0983,
      "step": 93740
    },
    {
      "epoch": 0.46875,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001601758793969849,
      "loss": 2.0577,
      "step": 93750
    },
    {
      "epoch": 0.4688,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001601608040201005,
      "loss": 1.9988,
      "step": 93760
    },
    {
      "epoch": 0.46885,
      "grad_norm": 1.828125,
      "learning_rate": 0.00016014572864321607,
      "loss": 2.0798,
      "step": 93770
    },
    {
      "epoch": 0.4689,
      "grad_norm": 2.046875,
      "learning_rate": 0.00016013065326633163,
      "loss": 2.0629,
      "step": 93780
    },
    {
      "epoch": 0.46895,
      "grad_norm": 1.734375,
      "learning_rate": 0.00016011557788944724,
      "loss": 2.0623,
      "step": 93790
    },
    {
      "epoch": 0.469,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001601005025125628,
      "loss": 2.0633,
      "step": 93800
    },
    {
      "epoch": 0.46905,
      "grad_norm": 1.9375,
      "learning_rate": 0.00016008542713567836,
      "loss": 2.0473,
      "step": 93810
    },
    {
      "epoch": 0.4691,
      "grad_norm": 1.96875,
      "learning_rate": 0.00016007035175879397,
      "loss": 2.0919,
      "step": 93820
    },
    {
      "epoch": 0.46915,
      "grad_norm": 2.09375,
      "learning_rate": 0.00016005527638190953,
      "loss": 1.9598,
      "step": 93830
    },
    {
      "epoch": 0.4692,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00016004020100502512,
      "loss": 2.0781,
      "step": 93840
    },
    {
      "epoch": 0.46925,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001600251256281407,
      "loss": 2.029,
      "step": 93850
    },
    {
      "epoch": 0.4693,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00016001005025125626,
      "loss": 2.012,
      "step": 93860
    },
    {
      "epoch": 0.46935,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015999497487437185,
      "loss": 2.0282,
      "step": 93870
    },
    {
      "epoch": 0.4694,
      "grad_norm": 1.734375,
      "learning_rate": 0.0001599798994974874,
      "loss": 2.0179,
      "step": 93880
    },
    {
      "epoch": 0.46945,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015996482412060302,
      "loss": 2.0605,
      "step": 93890
    },
    {
      "epoch": 0.4695,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015994974874371858,
      "loss": 1.979,
      "step": 93900
    },
    {
      "epoch": 0.46955,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015993467336683414,
      "loss": 2.1048,
      "step": 93910
    },
    {
      "epoch": 0.4696,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015991959798994975,
      "loss": 2.0204,
      "step": 93920
    },
    {
      "epoch": 0.46965,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001599045226130653,
      "loss": 2.022,
      "step": 93930
    },
    {
      "epoch": 0.4697,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015988944723618087,
      "loss": 2.0501,
      "step": 93940
    },
    {
      "epoch": 0.46975,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015987437185929648,
      "loss": 2.0339,
      "step": 93950
    },
    {
      "epoch": 0.4698,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015985929648241204,
      "loss": 2.0572,
      "step": 93960
    },
    {
      "epoch": 0.46985,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015984422110552763,
      "loss": 2.0241,
      "step": 93970
    },
    {
      "epoch": 0.4699,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015982914572864321,
      "loss": 2.0136,
      "step": 93980
    },
    {
      "epoch": 0.46995,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015981407035175877,
      "loss": 2.0422,
      "step": 93990
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.171875,
      "learning_rate": 0.00015979899497487436,
      "loss": 2.0733,
      "step": 94000
    },
    {
      "epoch": 0.47,
      "eval_loss": 2.0379154682159424,
      "eval_runtime": 90.8426,
      "eval_samples_per_second": 27.52,
      "eval_steps_per_second": 0.44,
      "step": 94000
    },
    {
      "epoch": 0.47005,
      "grad_norm": 1.84375,
      "learning_rate": 0.00015978391959798995,
      "loss": 2.0568,
      "step": 94010
    },
    {
      "epoch": 0.4701,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015976884422110553,
      "loss": 2.0692,
      "step": 94020
    },
    {
      "epoch": 0.47015,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001597537688442211,
      "loss": 2.0623,
      "step": 94030
    },
    {
      "epoch": 0.4702,
      "grad_norm": 2.234375,
      "learning_rate": 0.00015973869346733665,
      "loss": 2.0443,
      "step": 94040
    },
    {
      "epoch": 0.47025,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015972361809045226,
      "loss": 2.014,
      "step": 94050
    },
    {
      "epoch": 0.4703,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015970854271356782,
      "loss": 2.0556,
      "step": 94060
    },
    {
      "epoch": 0.47035,
      "grad_norm": 2.0,
      "learning_rate": 0.00015969346733668338,
      "loss": 2.0348,
      "step": 94070
    },
    {
      "epoch": 0.4704,
      "grad_norm": 1.78125,
      "learning_rate": 0.000159678391959799,
      "loss": 2.0563,
      "step": 94080
    },
    {
      "epoch": 0.47045,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015966331658291455,
      "loss": 2.0799,
      "step": 94090
    },
    {
      "epoch": 0.4705,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015964824120603014,
      "loss": 2.0663,
      "step": 94100
    },
    {
      "epoch": 0.47055,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015963316582914572,
      "loss": 2.0603,
      "step": 94110
    },
    {
      "epoch": 0.4706,
      "grad_norm": 1.796875,
      "learning_rate": 0.00015961809045226128,
      "loss": 2.065,
      "step": 94120
    },
    {
      "epoch": 0.47065,
      "grad_norm": 1.6484375,
      "learning_rate": 0.00015960301507537687,
      "loss": 2.1345,
      "step": 94130
    },
    {
      "epoch": 0.4707,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015958793969849246,
      "loss": 2.0461,
      "step": 94140
    },
    {
      "epoch": 0.47075,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015957286432160804,
      "loss": 2.0606,
      "step": 94150
    },
    {
      "epoch": 0.4708,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001595577889447236,
      "loss": 2.1142,
      "step": 94160
    },
    {
      "epoch": 0.47085,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001595427135678392,
      "loss": 2.0268,
      "step": 94170
    },
    {
      "epoch": 0.4709,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015952763819095477,
      "loss": 2.0998,
      "step": 94180
    },
    {
      "epoch": 0.47095,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015951256281407033,
      "loss": 1.9924,
      "step": 94190
    },
    {
      "epoch": 0.471,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001594974874371859,
      "loss": 2.0546,
      "step": 94200
    },
    {
      "epoch": 0.47105,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001594824120603015,
      "loss": 2.0325,
      "step": 94210
    },
    {
      "epoch": 0.4711,
      "grad_norm": 2.1875,
      "learning_rate": 0.00015946733668341706,
      "loss": 2.0921,
      "step": 94220
    },
    {
      "epoch": 0.47115,
      "grad_norm": 2.0,
      "learning_rate": 0.00015945226130653262,
      "loss": 2.0837,
      "step": 94230
    },
    {
      "epoch": 0.4712,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015943718592964824,
      "loss": 2.0445,
      "step": 94240
    },
    {
      "epoch": 0.47125,
      "grad_norm": 1.640625,
      "learning_rate": 0.0001594221105527638,
      "loss": 2.0401,
      "step": 94250
    },
    {
      "epoch": 0.4713,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015940703517587938,
      "loss": 2.1009,
      "step": 94260
    },
    {
      "epoch": 0.47135,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015939195979899497,
      "loss": 2.1067,
      "step": 94270
    },
    {
      "epoch": 0.4714,
      "grad_norm": 1.828125,
      "learning_rate": 0.00015937688442211055,
      "loss": 2.0641,
      "step": 94280
    },
    {
      "epoch": 0.47145,
      "grad_norm": 1.875,
      "learning_rate": 0.0001593618090452261,
      "loss": 1.9912,
      "step": 94290
    },
    {
      "epoch": 0.4715,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001593467336683417,
      "loss": 2.0245,
      "step": 94300
    },
    {
      "epoch": 0.47155,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015933165829145728,
      "loss": 2.0888,
      "step": 94310
    },
    {
      "epoch": 0.4716,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015931658291457284,
      "loss": 2.008,
      "step": 94320
    },
    {
      "epoch": 0.47165,
      "grad_norm": 1.609375,
      "learning_rate": 0.00015930150753768846,
      "loss": 2.0716,
      "step": 94330
    },
    {
      "epoch": 0.4717,
      "grad_norm": 2.125,
      "learning_rate": 0.00015928643216080402,
      "loss": 2.1146,
      "step": 94340
    },
    {
      "epoch": 0.47175,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015927135678391957,
      "loss": 2.0223,
      "step": 94350
    },
    {
      "epoch": 0.4718,
      "grad_norm": 1.765625,
      "learning_rate": 0.00015925628140703513,
      "loss": 2.0337,
      "step": 94360
    },
    {
      "epoch": 0.47185,
      "grad_norm": 1.796875,
      "learning_rate": 0.00015924120603015075,
      "loss": 2.0534,
      "step": 94370
    },
    {
      "epoch": 0.4719,
      "grad_norm": 1.6640625,
      "learning_rate": 0.0001592261306532663,
      "loss": 2.049,
      "step": 94380
    },
    {
      "epoch": 0.47195,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001592110552763819,
      "loss": 2.0416,
      "step": 94390
    },
    {
      "epoch": 0.472,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015919597989949748,
      "loss": 2.052,
      "step": 94400
    },
    {
      "epoch": 0.47205,
      "grad_norm": 1.84375,
      "learning_rate": 0.00015918090452261306,
      "loss": 2.011,
      "step": 94410
    },
    {
      "epoch": 0.4721,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00015916582914572862,
      "loss": 2.0809,
      "step": 94420
    },
    {
      "epoch": 0.47215,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001591507537688442,
      "loss": 2.0645,
      "step": 94430
    },
    {
      "epoch": 0.4722,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001591356783919598,
      "loss": 2.0498,
      "step": 94440
    },
    {
      "epoch": 0.47225,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015912060301507535,
      "loss": 2.0239,
      "step": 94450
    },
    {
      "epoch": 0.4723,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015910552763819097,
      "loss": 2.0287,
      "step": 94460
    },
    {
      "epoch": 0.47235,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015909045226130653,
      "loss": 2.0699,
      "step": 94470
    },
    {
      "epoch": 0.4724,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015907537688442209,
      "loss": 2.0609,
      "step": 94480
    },
    {
      "epoch": 0.47245,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001590603015075377,
      "loss": 2.0258,
      "step": 94490
    },
    {
      "epoch": 0.4725,
      "grad_norm": 1.796875,
      "learning_rate": 0.00015904522613065326,
      "loss": 2.0336,
      "step": 94500
    },
    {
      "epoch": 0.47255,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015903015075376882,
      "loss": 2.0286,
      "step": 94510
    },
    {
      "epoch": 0.4726,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001590150753768844,
      "loss": 2.0426,
      "step": 94520
    },
    {
      "epoch": 0.47265,
      "grad_norm": 1.8125,
      "learning_rate": 0.000159,
      "loss": 2.0734,
      "step": 94530
    },
    {
      "epoch": 0.4727,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015898492462311557,
      "loss": 2.0588,
      "step": 94540
    },
    {
      "epoch": 0.47275,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015896984924623113,
      "loss": 2.0637,
      "step": 94550
    },
    {
      "epoch": 0.4728,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015895477386934672,
      "loss": 2.0045,
      "step": 94560
    },
    {
      "epoch": 0.47285,
      "grad_norm": 1.875,
      "learning_rate": 0.0001589396984924623,
      "loss": 2.0796,
      "step": 94570
    },
    {
      "epoch": 0.4729,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015892462311557787,
      "loss": 2.0385,
      "step": 94580
    },
    {
      "epoch": 0.47295,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015890954773869348,
      "loss": 2.0425,
      "step": 94590
    },
    {
      "epoch": 0.473,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015889447236180904,
      "loss": 2.0595,
      "step": 94600
    },
    {
      "epoch": 0.47305,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001588793969849246,
      "loss": 2.0486,
      "step": 94610
    },
    {
      "epoch": 0.4731,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001588643216080402,
      "loss": 2.0621,
      "step": 94620
    },
    {
      "epoch": 0.47315,
      "grad_norm": 1.84375,
      "learning_rate": 0.00015884924623115577,
      "loss": 1.9889,
      "step": 94630
    },
    {
      "epoch": 0.4732,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015883417085427133,
      "loss": 2.0182,
      "step": 94640
    },
    {
      "epoch": 0.47325,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015881909547738694,
      "loss": 2.0586,
      "step": 94650
    },
    {
      "epoch": 0.4733,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001588040201005025,
      "loss": 2.0406,
      "step": 94660
    },
    {
      "epoch": 0.47335,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015878894472361809,
      "loss": 2.0391,
      "step": 94670
    },
    {
      "epoch": 0.4734,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015877386934673364,
      "loss": 2.0689,
      "step": 94680
    },
    {
      "epoch": 0.47345,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015875879396984923,
      "loss": 2.0836,
      "step": 94690
    },
    {
      "epoch": 0.4735,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015874371859296482,
      "loss": 2.0688,
      "step": 94700
    },
    {
      "epoch": 0.47355,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015872864321608038,
      "loss": 2.0401,
      "step": 94710
    },
    {
      "epoch": 0.4736,
      "grad_norm": 2.015625,
      "learning_rate": 0.000158713567839196,
      "loss": 2.0621,
      "step": 94720
    },
    {
      "epoch": 0.47365,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00015869849246231155,
      "loss": 2.0195,
      "step": 94730
    },
    {
      "epoch": 0.4737,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001586834170854271,
      "loss": 2.0964,
      "step": 94740
    },
    {
      "epoch": 0.47375,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015866834170854272,
      "loss": 2.0567,
      "step": 94750
    },
    {
      "epoch": 0.4738,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015865326633165828,
      "loss": 2.0482,
      "step": 94760
    },
    {
      "epoch": 0.47385,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015863819095477384,
      "loss": 2.0822,
      "step": 94770
    },
    {
      "epoch": 0.4739,
      "grad_norm": 1.765625,
      "learning_rate": 0.00015862311557788945,
      "loss": 2.0023,
      "step": 94780
    },
    {
      "epoch": 0.47395,
      "grad_norm": 2.03125,
      "learning_rate": 0.000158608040201005,
      "loss": 2.0275,
      "step": 94790
    },
    {
      "epoch": 0.474,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015859296482412057,
      "loss": 2.0093,
      "step": 94800
    },
    {
      "epoch": 0.47405,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015857788944723616,
      "loss": 2.0291,
      "step": 94810
    },
    {
      "epoch": 0.4741,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00015856281407035174,
      "loss": 2.0798,
      "step": 94820
    },
    {
      "epoch": 0.47415,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015854773869346733,
      "loss": 2.0188,
      "step": 94830
    },
    {
      "epoch": 0.4742,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001585326633165829,
      "loss": 2.0678,
      "step": 94840
    },
    {
      "epoch": 0.47425,
      "grad_norm": 1.625,
      "learning_rate": 0.0001585175879396985,
      "loss": 2.0285,
      "step": 94850
    },
    {
      "epoch": 0.4743,
      "grad_norm": 2.0,
      "learning_rate": 0.00015850251256281406,
      "loss": 2.0043,
      "step": 94860
    },
    {
      "epoch": 0.47435,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015848743718592962,
      "loss": 2.0771,
      "step": 94870
    },
    {
      "epoch": 0.4744,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015847236180904523,
      "loss": 2.0903,
      "step": 94880
    },
    {
      "epoch": 0.47445,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001584572864321608,
      "loss": 2.0738,
      "step": 94890
    },
    {
      "epoch": 0.4745,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015844221105527635,
      "loss": 2.0853,
      "step": 94900
    },
    {
      "epoch": 0.47455,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015842713567839196,
      "loss": 2.0362,
      "step": 94910
    },
    {
      "epoch": 0.4746,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00015841206030150752,
      "loss": 2.1138,
      "step": 94920
    },
    {
      "epoch": 0.47465,
      "grad_norm": 1.6640625,
      "learning_rate": 0.00015839698492462308,
      "loss": 2.0175,
      "step": 94930
    },
    {
      "epoch": 0.4747,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001583819095477387,
      "loss": 2.0551,
      "step": 94940
    },
    {
      "epoch": 0.47475,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015836683417085425,
      "loss": 2.0219,
      "step": 94950
    },
    {
      "epoch": 0.4748,
      "grad_norm": 2.234375,
      "learning_rate": 0.00015835175879396984,
      "loss": 2.0009,
      "step": 94960
    },
    {
      "epoch": 0.47485,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001583366834170854,
      "loss": 2.0785,
      "step": 94970
    },
    {
      "epoch": 0.4749,
      "grad_norm": 2.0625,
      "learning_rate": 0.000158321608040201,
      "loss": 2.0332,
      "step": 94980
    },
    {
      "epoch": 0.47495,
      "grad_norm": 2.125,
      "learning_rate": 0.00015830653266331657,
      "loss": 2.0369,
      "step": 94990
    },
    {
      "epoch": 0.475,
      "grad_norm": 1.828125,
      "learning_rate": 0.00015829145728643213,
      "loss": 2.0233,
      "step": 95000
    },
    {
      "epoch": 0.47505,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015827638190954774,
      "loss": 2.0223,
      "step": 95010
    },
    {
      "epoch": 0.4751,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001582613065326633,
      "loss": 2.1386,
      "step": 95020
    },
    {
      "epoch": 0.47515,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015824623115577886,
      "loss": 2.0406,
      "step": 95030
    },
    {
      "epoch": 0.4752,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015823115577889447,
      "loss": 2.1015,
      "step": 95040
    },
    {
      "epoch": 0.47525,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015821608040201003,
      "loss": 2.0117,
      "step": 95050
    },
    {
      "epoch": 0.4753,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001582010050251256,
      "loss": 2.0502,
      "step": 95060
    },
    {
      "epoch": 0.47535,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001581859296482412,
      "loss": 2.1159,
      "step": 95070
    },
    {
      "epoch": 0.4754,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015817085427135676,
      "loss": 1.9775,
      "step": 95080
    },
    {
      "epoch": 0.47545,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00015815577889447235,
      "loss": 1.9758,
      "step": 95090
    },
    {
      "epoch": 0.4755,
      "grad_norm": 2.125,
      "learning_rate": 0.00015814070351758794,
      "loss": 2.0844,
      "step": 95100
    },
    {
      "epoch": 0.47555,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015812562814070352,
      "loss": 2.0547,
      "step": 95110
    },
    {
      "epoch": 0.4756,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015811055276381908,
      "loss": 2.0292,
      "step": 95120
    },
    {
      "epoch": 0.47565,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015809547738693464,
      "loss": 2.0957,
      "step": 95130
    },
    {
      "epoch": 0.4757,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015808040201005025,
      "loss": 2.1007,
      "step": 95140
    },
    {
      "epoch": 0.47575,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001580653266331658,
      "loss": 2.0862,
      "step": 95150
    },
    {
      "epoch": 0.4758,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015805025125628137,
      "loss": 2.0458,
      "step": 95160
    },
    {
      "epoch": 0.47585,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015803517587939698,
      "loss": 2.0446,
      "step": 95170
    },
    {
      "epoch": 0.4759,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015802010050251254,
      "loss": 2.037,
      "step": 95180
    },
    {
      "epoch": 0.47595,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001580050251256281,
      "loss": 2.066,
      "step": 95190
    },
    {
      "epoch": 0.476,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015798994974874372,
      "loss": 2.0297,
      "step": 95200
    },
    {
      "epoch": 0.47605,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015797487437185927,
      "loss": 2.0888,
      "step": 95210
    },
    {
      "epoch": 0.4761,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015795979899497486,
      "loss": 2.0239,
      "step": 95220
    },
    {
      "epoch": 0.47615,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015794472361809045,
      "loss": 2.0555,
      "step": 95230
    },
    {
      "epoch": 0.4762,
      "grad_norm": 2.0,
      "learning_rate": 0.000157929648241206,
      "loss": 2.0807,
      "step": 95240
    },
    {
      "epoch": 0.47625,
      "grad_norm": 2.0,
      "learning_rate": 0.0001579145728643216,
      "loss": 2.0753,
      "step": 95250
    },
    {
      "epoch": 0.4763,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00015789949748743718,
      "loss": 2.0254,
      "step": 95260
    },
    {
      "epoch": 0.47635,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015788442211055276,
      "loss": 2.0154,
      "step": 95270
    },
    {
      "epoch": 0.4764,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015786934673366832,
      "loss": 2.023,
      "step": 95280
    },
    {
      "epoch": 0.47645,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015785427135678388,
      "loss": 2.0743,
      "step": 95290
    },
    {
      "epoch": 0.4765,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001578391959798995,
      "loss": 2.0638,
      "step": 95300
    },
    {
      "epoch": 0.47655,
      "grad_norm": 1.765625,
      "learning_rate": 0.00015782412060301505,
      "loss": 2.0439,
      "step": 95310
    },
    {
      "epoch": 0.4766,
      "grad_norm": 1.75,
      "learning_rate": 0.0001578090452261306,
      "loss": 2.072,
      "step": 95320
    },
    {
      "epoch": 0.47665,
      "grad_norm": 1.75,
      "learning_rate": 0.00015779396984924623,
      "loss": 2.0769,
      "step": 95330
    },
    {
      "epoch": 0.4767,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015777889447236179,
      "loss": 2.0417,
      "step": 95340
    },
    {
      "epoch": 0.47675,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015776381909547737,
      "loss": 2.0881,
      "step": 95350
    },
    {
      "epoch": 0.4768,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015774874371859296,
      "loss": 2.0155,
      "step": 95360
    },
    {
      "epoch": 0.47685,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015773366834170852,
      "loss": 2.0696,
      "step": 95370
    },
    {
      "epoch": 0.4769,
      "grad_norm": 2.125,
      "learning_rate": 0.0001577185929648241,
      "loss": 1.9795,
      "step": 95380
    },
    {
      "epoch": 0.47695,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001577035175879397,
      "loss": 2.0038,
      "step": 95390
    },
    {
      "epoch": 0.477,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015768844221105528,
      "loss": 2.0186,
      "step": 95400
    },
    {
      "epoch": 0.47705,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015767336683417083,
      "loss": 2.0267,
      "step": 95410
    },
    {
      "epoch": 0.4771,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015765829145728645,
      "loss": 2.0817,
      "step": 95420
    },
    {
      "epoch": 0.47715,
      "grad_norm": 1.953125,
      "learning_rate": 0.000157643216080402,
      "loss": 2.0583,
      "step": 95430
    },
    {
      "epoch": 0.4772,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015762814070351757,
      "loss": 2.0468,
      "step": 95440
    },
    {
      "epoch": 0.47725,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015761306532663312,
      "loss": 2.0355,
      "step": 95450
    },
    {
      "epoch": 0.4773,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015759798994974874,
      "loss": 2.047,
      "step": 95460
    },
    {
      "epoch": 0.47735,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001575829145728643,
      "loss": 2.0408,
      "step": 95470
    },
    {
      "epoch": 0.4774,
      "grad_norm": 2.203125,
      "learning_rate": 0.00015756783919597988,
      "loss": 2.0348,
      "step": 95480
    },
    {
      "epoch": 0.47745,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00015755276381909547,
      "loss": 2.0826,
      "step": 95490
    },
    {
      "epoch": 0.4775,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00015753768844221103,
      "loss": 2.026,
      "step": 95500
    },
    {
      "epoch": 0.47755,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015752261306532661,
      "loss": 2.0692,
      "step": 95510
    },
    {
      "epoch": 0.4776,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001575075376884422,
      "loss": 2.0729,
      "step": 95520
    },
    {
      "epoch": 0.47765,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015749246231155779,
      "loss": 2.0442,
      "step": 95530
    },
    {
      "epoch": 0.4777,
      "grad_norm": 2.0,
      "learning_rate": 0.00015747738693467335,
      "loss": 2.1207,
      "step": 95540
    },
    {
      "epoch": 0.47775,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015746231155778896,
      "loss": 1.9929,
      "step": 95550
    },
    {
      "epoch": 0.4778,
      "grad_norm": 1.828125,
      "learning_rate": 0.00015744723618090452,
      "loss": 2.0489,
      "step": 95560
    },
    {
      "epoch": 0.47785,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015743216080402008,
      "loss": 2.1034,
      "step": 95570
    },
    {
      "epoch": 0.4779,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001574170854271357,
      "loss": 2.0255,
      "step": 95580
    },
    {
      "epoch": 0.47795,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015740201005025125,
      "loss": 2.0396,
      "step": 95590
    },
    {
      "epoch": 0.478,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001573869346733668,
      "loss": 2.0761,
      "step": 95600
    },
    {
      "epoch": 0.47805,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001573718592964824,
      "loss": 2.1047,
      "step": 95610
    },
    {
      "epoch": 0.4781,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015735678391959798,
      "loss": 2.0409,
      "step": 95620
    },
    {
      "epoch": 0.47815,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015734170854271354,
      "loss": 2.0461,
      "step": 95630
    },
    {
      "epoch": 0.4782,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015732663316582912,
      "loss": 2.0864,
      "step": 95640
    },
    {
      "epoch": 0.47825,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001573115577889447,
      "loss": 2.0835,
      "step": 95650
    },
    {
      "epoch": 0.4783,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001572964824120603,
      "loss": 2.0678,
      "step": 95660
    },
    {
      "epoch": 0.47835,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015728140703517586,
      "loss": 2.0985,
      "step": 95670
    },
    {
      "epoch": 0.4784,
      "grad_norm": 2.234375,
      "learning_rate": 0.00015726633165829147,
      "loss": 2.0462,
      "step": 95680
    },
    {
      "epoch": 0.47845,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015725125628140703,
      "loss": 2.0801,
      "step": 95690
    },
    {
      "epoch": 0.4785,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001572361809045226,
      "loss": 2.0131,
      "step": 95700
    },
    {
      "epoch": 0.47855,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001572211055276382,
      "loss": 2.0422,
      "step": 95710
    },
    {
      "epoch": 0.4786,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015720603015075376,
      "loss": 2.0441,
      "step": 95720
    },
    {
      "epoch": 0.47865,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015719095477386932,
      "loss": 2.0902,
      "step": 95730
    },
    {
      "epoch": 0.4787,
      "grad_norm": 1.75,
      "learning_rate": 0.00015717587939698493,
      "loss": 2.0731,
      "step": 95740
    },
    {
      "epoch": 0.47875,
      "grad_norm": 1.734375,
      "learning_rate": 0.0001571608040201005,
      "loss": 2.0188,
      "step": 95750
    },
    {
      "epoch": 0.4788,
      "grad_norm": 2.28125,
      "learning_rate": 0.00015714572864321605,
      "loss": 2.0367,
      "step": 95760
    },
    {
      "epoch": 0.47885,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015713065326633164,
      "loss": 2.054,
      "step": 95770
    },
    {
      "epoch": 0.4789,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015711557788944722,
      "loss": 2.0707,
      "step": 95780
    },
    {
      "epoch": 0.47895,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001571005025125628,
      "loss": 2.0431,
      "step": 95790
    },
    {
      "epoch": 0.479,
      "grad_norm": 2.125,
      "learning_rate": 0.00015708542713567837,
      "loss": 2.0925,
      "step": 95800
    },
    {
      "epoch": 0.47905,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015707035175879395,
      "loss": 2.1063,
      "step": 95810
    },
    {
      "epoch": 0.4791,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015705527638190954,
      "loss": 2.0857,
      "step": 95820
    },
    {
      "epoch": 0.47915,
      "grad_norm": 1.75,
      "learning_rate": 0.0001570402010050251,
      "loss": 2.0117,
      "step": 95830
    },
    {
      "epoch": 0.4792,
      "grad_norm": 1.796875,
      "learning_rate": 0.0001570251256281407,
      "loss": 2.0693,
      "step": 95840
    },
    {
      "epoch": 0.47925,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015701005025125627,
      "loss": 2.0722,
      "step": 95850
    },
    {
      "epoch": 0.4793,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015699497487437183,
      "loss": 1.9764,
      "step": 95860
    },
    {
      "epoch": 0.47935,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015697989949748744,
      "loss": 2.0534,
      "step": 95870
    },
    {
      "epoch": 0.4794,
      "grad_norm": 1.8203125,
      "learning_rate": 0.000156964824120603,
      "loss": 2.0177,
      "step": 95880
    },
    {
      "epoch": 0.47945,
      "grad_norm": 1.765625,
      "learning_rate": 0.00015694974874371856,
      "loss": 2.1087,
      "step": 95890
    },
    {
      "epoch": 0.4795,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015693467336683415,
      "loss": 2.0533,
      "step": 95900
    },
    {
      "epoch": 0.47955,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015691959798994973,
      "loss": 2.0743,
      "step": 95910
    },
    {
      "epoch": 0.4796,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015690452261306532,
      "loss": 2.0559,
      "step": 95920
    },
    {
      "epoch": 0.47965,
      "grad_norm": 2.0,
      "learning_rate": 0.00015688944723618088,
      "loss": 2.0476,
      "step": 95930
    },
    {
      "epoch": 0.4797,
      "grad_norm": 1.875,
      "learning_rate": 0.00015687437185929646,
      "loss": 2.0791,
      "step": 95940
    },
    {
      "epoch": 0.47975,
      "grad_norm": 2.15625,
      "learning_rate": 0.00015685929648241205,
      "loss": 2.0737,
      "step": 95950
    },
    {
      "epoch": 0.4798,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001568442211055276,
      "loss": 2.0819,
      "step": 95960
    },
    {
      "epoch": 0.47985,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00015682914572864322,
      "loss": 2.0477,
      "step": 95970
    },
    {
      "epoch": 0.4799,
      "grad_norm": 1.828125,
      "learning_rate": 0.00015681407035175878,
      "loss": 2.0841,
      "step": 95980
    },
    {
      "epoch": 0.47995,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015679899497487434,
      "loss": 2.0027,
      "step": 95990
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015678391959798995,
      "loss": 2.0317,
      "step": 96000
    },
    {
      "epoch": 0.48,
      "eval_loss": 2.0330567359924316,
      "eval_runtime": 90.0718,
      "eval_samples_per_second": 27.756,
      "eval_steps_per_second": 0.444,
      "step": 96000
    },
    {
      "epoch": 0.48005,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001567688442211055,
      "loss": 2.045,
      "step": 96010
    },
    {
      "epoch": 0.4801,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00015675376884422107,
      "loss": 2.0953,
      "step": 96020
    },
    {
      "epoch": 0.48015,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015673869346733668,
      "loss": 2.0418,
      "step": 96030
    },
    {
      "epoch": 0.4802,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015672361809045224,
      "loss": 2.0502,
      "step": 96040
    },
    {
      "epoch": 0.48025,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00015670854271356783,
      "loss": 2.0422,
      "step": 96050
    },
    {
      "epoch": 0.4803,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001566934673366834,
      "loss": 1.9908,
      "step": 96060
    },
    {
      "epoch": 0.48035,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015667839195979897,
      "loss": 2.0588,
      "step": 96070
    },
    {
      "epoch": 0.4804,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015666331658291456,
      "loss": 2.0508,
      "step": 96080
    },
    {
      "epoch": 0.48045,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015664824120603012,
      "loss": 1.9869,
      "step": 96090
    },
    {
      "epoch": 0.4805,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00015663316582914573,
      "loss": 2.0335,
      "step": 96100
    },
    {
      "epoch": 0.48055,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001566180904522613,
      "loss": 1.9921,
      "step": 96110
    },
    {
      "epoch": 0.4806,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00015660301507537685,
      "loss": 2.0206,
      "step": 96120
    },
    {
      "epoch": 0.48065,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015658793969849246,
      "loss": 2.1039,
      "step": 96130
    },
    {
      "epoch": 0.4807,
      "grad_norm": 2.203125,
      "learning_rate": 0.00015657286432160802,
      "loss": 2.0199,
      "step": 96140
    },
    {
      "epoch": 0.48075,
      "grad_norm": 1.71875,
      "learning_rate": 0.00015655778894472358,
      "loss": 2.0817,
      "step": 96150
    },
    {
      "epoch": 0.4808,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001565427135678392,
      "loss": 2.0775,
      "step": 96160
    },
    {
      "epoch": 0.48085,
      "grad_norm": 1.78125,
      "learning_rate": 0.00015652763819095475,
      "loss": 1.9924,
      "step": 96170
    },
    {
      "epoch": 0.4809,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015651256281407034,
      "loss": 2.0814,
      "step": 96180
    },
    {
      "epoch": 0.48095,
      "grad_norm": 2.171875,
      "learning_rate": 0.00015649748743718593,
      "loss": 2.0724,
      "step": 96190
    },
    {
      "epoch": 0.481,
      "grad_norm": 1.734375,
      "learning_rate": 0.00015648241206030149,
      "loss": 2.0471,
      "step": 96200
    },
    {
      "epoch": 0.48105,
      "grad_norm": 1.703125,
      "learning_rate": 0.00015646733668341707,
      "loss": 2.0362,
      "step": 96210
    },
    {
      "epoch": 0.4811,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015645226130653263,
      "loss": 2.044,
      "step": 96220
    },
    {
      "epoch": 0.48115,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015643718592964824,
      "loss": 2.0543,
      "step": 96230
    },
    {
      "epoch": 0.4812,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001564221105527638,
      "loss": 2.0544,
      "step": 96240
    },
    {
      "epoch": 0.48125,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015640703517587936,
      "loss": 2.0626,
      "step": 96250
    },
    {
      "epoch": 0.4813,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00015639195979899498,
      "loss": 2.1014,
      "step": 96260
    },
    {
      "epoch": 0.48135,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015637688442211053,
      "loss": 2.0248,
      "step": 96270
    },
    {
      "epoch": 0.4814,
      "grad_norm": 1.7578125,
      "learning_rate": 0.0001563618090452261,
      "loss": 2.0226,
      "step": 96280
    },
    {
      "epoch": 0.48145,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001563467336683417,
      "loss": 2.0226,
      "step": 96290
    },
    {
      "epoch": 0.4815,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015633165829145727,
      "loss": 2.0579,
      "step": 96300
    },
    {
      "epoch": 0.48155,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015631658291457285,
      "loss": 2.0468,
      "step": 96310
    },
    {
      "epoch": 0.4816,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015630150753768844,
      "loss": 2.0342,
      "step": 96320
    },
    {
      "epoch": 0.48165,
      "grad_norm": 1.84375,
      "learning_rate": 0.000156286432160804,
      "loss": 2.0063,
      "step": 96330
    },
    {
      "epoch": 0.4817,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015627135678391958,
      "loss": 2.0487,
      "step": 96340
    },
    {
      "epoch": 0.48175,
      "grad_norm": 2.359375,
      "learning_rate": 0.00015625628140703517,
      "loss": 2.0875,
      "step": 96350
    },
    {
      "epoch": 0.4818,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015624120603015076,
      "loss": 2.0219,
      "step": 96360
    },
    {
      "epoch": 0.48185,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015622613065326631,
      "loss": 2.0127,
      "step": 96370
    },
    {
      "epoch": 0.4819,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015621105527638187,
      "loss": 2.1246,
      "step": 96380
    },
    {
      "epoch": 0.48195,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015619597989949749,
      "loss": 2.0762,
      "step": 96390
    },
    {
      "epoch": 0.482,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015618090452261305,
      "loss": 2.0213,
      "step": 96400
    },
    {
      "epoch": 0.48205,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001561658291457286,
      "loss": 2.0152,
      "step": 96410
    },
    {
      "epoch": 0.4821,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015615075376884422,
      "loss": 1.9583,
      "step": 96420
    },
    {
      "epoch": 0.48215,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015613567839195978,
      "loss": 2.0159,
      "step": 96430
    },
    {
      "epoch": 0.4822,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015612060301507536,
      "loss": 2.0443,
      "step": 96440
    },
    {
      "epoch": 0.48225,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015610552763819095,
      "loss": 2.0253,
      "step": 96450
    },
    {
      "epoch": 0.4823,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001560904522613065,
      "loss": 2.1255,
      "step": 96460
    },
    {
      "epoch": 0.48235,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001560753768844221,
      "loss": 2.0243,
      "step": 96470
    },
    {
      "epoch": 0.4824,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00015606030150753768,
      "loss": 2.0195,
      "step": 96480
    },
    {
      "epoch": 0.48245,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015604522613065327,
      "loss": 2.0628,
      "step": 96490
    },
    {
      "epoch": 0.4825,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015603015075376882,
      "loss": 2.0403,
      "step": 96500
    },
    {
      "epoch": 0.48255,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001560150753768844,
      "loss": 2.0363,
      "step": 96510
    },
    {
      "epoch": 0.4826,
      "grad_norm": 1.7421875,
      "learning_rate": 0.000156,
      "loss": 2.0412,
      "step": 96520
    },
    {
      "epoch": 0.48265,
      "grad_norm": 2.1875,
      "learning_rate": 0.00015598492462311556,
      "loss": 2.0542,
      "step": 96530
    },
    {
      "epoch": 0.4827,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015596984924623112,
      "loss": 2.0734,
      "step": 96540
    },
    {
      "epoch": 0.48275,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015595477386934673,
      "loss": 2.0536,
      "step": 96550
    },
    {
      "epoch": 0.4828,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001559396984924623,
      "loss": 2.0938,
      "step": 96560
    },
    {
      "epoch": 0.48285,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015592462311557787,
      "loss": 2.0491,
      "step": 96570
    },
    {
      "epoch": 0.4829,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015590954773869346,
      "loss": 2.0719,
      "step": 96580
    },
    {
      "epoch": 0.48295,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015589447236180902,
      "loss": 2.0216,
      "step": 96590
    },
    {
      "epoch": 0.483,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001558793969849246,
      "loss": 2.0779,
      "step": 96600
    },
    {
      "epoch": 0.48305,
      "grad_norm": 2.0,
      "learning_rate": 0.0001558643216080402,
      "loss": 2.0648,
      "step": 96610
    },
    {
      "epoch": 0.4831,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015584924623115578,
      "loss": 2.048,
      "step": 96620
    },
    {
      "epoch": 0.48315,
      "grad_norm": 2.203125,
      "learning_rate": 0.00015583417085427134,
      "loss": 2.0301,
      "step": 96630
    },
    {
      "epoch": 0.4832,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00015581909547738692,
      "loss": 2.0362,
      "step": 96640
    },
    {
      "epoch": 0.48325,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001558040201005025,
      "loss": 2.068,
      "step": 96650
    },
    {
      "epoch": 0.4833,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015578894472361807,
      "loss": 2.0389,
      "step": 96660
    },
    {
      "epoch": 0.48335,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015577386934673368,
      "loss": 1.9679,
      "step": 96670
    },
    {
      "epoch": 0.4834,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015575879396984924,
      "loss": 2.0031,
      "step": 96680
    },
    {
      "epoch": 0.48345,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001557437185929648,
      "loss": 2.067,
      "step": 96690
    },
    {
      "epoch": 0.4835,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015572864321608038,
      "loss": 2.1115,
      "step": 96700
    },
    {
      "epoch": 0.48355,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015571356783919597,
      "loss": 2.0479,
      "step": 96710
    },
    {
      "epoch": 0.4836,
      "grad_norm": 2.0,
      "learning_rate": 0.00015569849246231153,
      "loss": 2.0893,
      "step": 96720
    },
    {
      "epoch": 0.48365,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015568341708542712,
      "loss": 2.0305,
      "step": 96730
    },
    {
      "epoch": 0.4837,
      "grad_norm": 1.8671875,
      "learning_rate": 0.0001556683417085427,
      "loss": 2.0731,
      "step": 96740
    },
    {
      "epoch": 0.48375,
      "grad_norm": 1.7421875,
      "learning_rate": 0.0001556532663316583,
      "loss": 2.0322,
      "step": 96750
    },
    {
      "epoch": 0.4838,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015563819095477385,
      "loss": 2.0009,
      "step": 96760
    },
    {
      "epoch": 0.48385,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015562311557788943,
      "loss": 2.019,
      "step": 96770
    },
    {
      "epoch": 0.4839,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015560804020100502,
      "loss": 2.0794,
      "step": 96780
    },
    {
      "epoch": 0.48395,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015559296482412058,
      "loss": 2.0639,
      "step": 96790
    },
    {
      "epoch": 0.484,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001555778894472362,
      "loss": 2.0776,
      "step": 96800
    },
    {
      "epoch": 0.48405,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015556281407035175,
      "loss": 2.0707,
      "step": 96810
    },
    {
      "epoch": 0.4841,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001555477386934673,
      "loss": 1.9985,
      "step": 96820
    },
    {
      "epoch": 0.48415,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015553266331658292,
      "loss": 2.0362,
      "step": 96830
    },
    {
      "epoch": 0.4842,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015551758793969848,
      "loss": 2.0352,
      "step": 96840
    },
    {
      "epoch": 0.48425,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015550251256281404,
      "loss": 2.0362,
      "step": 96850
    },
    {
      "epoch": 0.4843,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015548743718592963,
      "loss": 2.0024,
      "step": 96860
    },
    {
      "epoch": 0.48435,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001554723618090452,
      "loss": 2.0613,
      "step": 96870
    },
    {
      "epoch": 0.4844,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001554572864321608,
      "loss": 2.0337,
      "step": 96880
    },
    {
      "epoch": 0.48445,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015544221105527636,
      "loss": 2.0425,
      "step": 96890
    },
    {
      "epoch": 0.4845,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015542713567839194,
      "loss": 2.0257,
      "step": 96900
    },
    {
      "epoch": 0.48455,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015541206030150753,
      "loss": 2.0766,
      "step": 96910
    },
    {
      "epoch": 0.4846,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001553969849246231,
      "loss": 1.9975,
      "step": 96920
    },
    {
      "epoch": 0.48465,
      "grad_norm": 2.0,
      "learning_rate": 0.0001553819095477387,
      "loss": 2.0128,
      "step": 96930
    },
    {
      "epoch": 0.4847,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015536683417085426,
      "loss": 2.0752,
      "step": 96940
    },
    {
      "epoch": 0.48475,
      "grad_norm": 2.15625,
      "learning_rate": 0.00015535175879396982,
      "loss": 2.0762,
      "step": 96950
    },
    {
      "epoch": 0.4848,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015533668341708543,
      "loss": 1.9786,
      "step": 96960
    },
    {
      "epoch": 0.48485,
      "grad_norm": 1.953125,
      "learning_rate": 0.000155321608040201,
      "loss": 2.0835,
      "step": 96970
    },
    {
      "epoch": 0.4849,
      "grad_norm": 1.84375,
      "learning_rate": 0.00015530653266331655,
      "loss": 1.9821,
      "step": 96980
    },
    {
      "epoch": 0.48495,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015529145728643216,
      "loss": 2.0206,
      "step": 96990
    },
    {
      "epoch": 0.485,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015527638190954772,
      "loss": 2.0496,
      "step": 97000
    },
    {
      "epoch": 0.48505,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001552613065326633,
      "loss": 2.0166,
      "step": 97010
    },
    {
      "epoch": 0.4851,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015524623115577887,
      "loss": 2.0188,
      "step": 97020
    },
    {
      "epoch": 0.48515,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00015523115577889445,
      "loss": 2.0912,
      "step": 97030
    },
    {
      "epoch": 0.4852,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015521608040201004,
      "loss": 2.0216,
      "step": 97040
    },
    {
      "epoch": 0.48525,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001552010050251256,
      "loss": 2.0383,
      "step": 97050
    },
    {
      "epoch": 0.4853,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001551859296482412,
      "loss": 2.026,
      "step": 97060
    },
    {
      "epoch": 0.48535,
      "grad_norm": 2.0,
      "learning_rate": 0.00015517085427135677,
      "loss": 2.0312,
      "step": 97070
    },
    {
      "epoch": 0.4854,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015515577889447233,
      "loss": 1.9726,
      "step": 97080
    },
    {
      "epoch": 0.48545,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015514070351758794,
      "loss": 2.0555,
      "step": 97090
    },
    {
      "epoch": 0.4855,
      "grad_norm": 1.765625,
      "learning_rate": 0.0001551256281407035,
      "loss": 2.0286,
      "step": 97100
    },
    {
      "epoch": 0.48555,
      "grad_norm": 2.125,
      "learning_rate": 0.00015511055276381906,
      "loss": 2.0392,
      "step": 97110
    },
    {
      "epoch": 0.4856,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00015509547738693468,
      "loss": 2.0604,
      "step": 97120
    },
    {
      "epoch": 0.48565,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015508040201005023,
      "loss": 1.9866,
      "step": 97130
    },
    {
      "epoch": 0.4857,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015506532663316582,
      "loss": 2.0488,
      "step": 97140
    },
    {
      "epoch": 0.48575,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015505025125628138,
      "loss": 2.0522,
      "step": 97150
    },
    {
      "epoch": 0.4858,
      "grad_norm": 2.125,
      "learning_rate": 0.00015503517587939697,
      "loss": 1.9663,
      "step": 97160
    },
    {
      "epoch": 0.48585,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015502010050251255,
      "loss": 2.0091,
      "step": 97170
    },
    {
      "epoch": 0.4859,
      "grad_norm": 1.6796875,
      "learning_rate": 0.0001550050251256281,
      "loss": 2.023,
      "step": 97180
    },
    {
      "epoch": 0.48595,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00015498994974874372,
      "loss": 2.0312,
      "step": 97190
    },
    {
      "epoch": 0.486,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015497487437185928,
      "loss": 2.052,
      "step": 97200
    },
    {
      "epoch": 0.48605,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015495979899497484,
      "loss": 2.0143,
      "step": 97210
    },
    {
      "epoch": 0.4861,
      "grad_norm": 2.15625,
      "learning_rate": 0.00015494472361809046,
      "loss": 2.0503,
      "step": 97220
    },
    {
      "epoch": 0.48615,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015492964824120601,
      "loss": 2.0581,
      "step": 97230
    },
    {
      "epoch": 0.4862,
      "grad_norm": 1.71875,
      "learning_rate": 0.00015491457286432157,
      "loss": 2.0496,
      "step": 97240
    },
    {
      "epoch": 0.48625,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001548994974874372,
      "loss": 2.0113,
      "step": 97250
    },
    {
      "epoch": 0.4863,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015488442211055275,
      "loss": 2.0635,
      "step": 97260
    },
    {
      "epoch": 0.48635,
      "grad_norm": 1.78125,
      "learning_rate": 0.00015486934673366833,
      "loss": 1.9875,
      "step": 97270
    },
    {
      "epoch": 0.4864,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015485427135678392,
      "loss": 2.0325,
      "step": 97280
    },
    {
      "epoch": 0.48645,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015483919597989948,
      "loss": 2.0367,
      "step": 97290
    },
    {
      "epoch": 0.4865,
      "grad_norm": 1.84375,
      "learning_rate": 0.00015482412060301506,
      "loss": 2.0221,
      "step": 97300
    },
    {
      "epoch": 0.48655,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015480904522613062,
      "loss": 1.9944,
      "step": 97310
    },
    {
      "epoch": 0.4866,
      "grad_norm": 2.171875,
      "learning_rate": 0.00015479396984924623,
      "loss": 2.0599,
      "step": 97320
    },
    {
      "epoch": 0.48665,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001547788944723618,
      "loss": 2.0104,
      "step": 97330
    },
    {
      "epoch": 0.4867,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015476381909547735,
      "loss": 1.9865,
      "step": 97340
    },
    {
      "epoch": 0.48675,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00015474874371859297,
      "loss": 2.0469,
      "step": 97350
    },
    {
      "epoch": 0.4868,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015473366834170853,
      "loss": 1.9919,
      "step": 97360
    },
    {
      "epoch": 0.48685,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015471859296482408,
      "loss": 2.0497,
      "step": 97370
    },
    {
      "epoch": 0.4869,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001547035175879397,
      "loss": 2.0839,
      "step": 97380
    },
    {
      "epoch": 0.48695,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015468844221105526,
      "loss": 1.9347,
      "step": 97390
    },
    {
      "epoch": 0.487,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015467336683417084,
      "loss": 2.0676,
      "step": 97400
    },
    {
      "epoch": 0.48705,
      "grad_norm": 1.828125,
      "learning_rate": 0.00015465829145728643,
      "loss": 2.0162,
      "step": 97410
    },
    {
      "epoch": 0.4871,
      "grad_norm": 1.96875,
      "learning_rate": 0.000154643216080402,
      "loss": 2.0483,
      "step": 97420
    },
    {
      "epoch": 0.48715,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015462814070351757,
      "loss": 2.0481,
      "step": 97430
    },
    {
      "epoch": 0.4872,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015461306532663316,
      "loss": 1.9908,
      "step": 97440
    },
    {
      "epoch": 0.48725,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015459798994974875,
      "loss": 2.0304,
      "step": 97450
    },
    {
      "epoch": 0.4873,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001545829145728643,
      "loss": 2.0424,
      "step": 97460
    },
    {
      "epoch": 0.48735,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00015456783919597986,
      "loss": 2.0029,
      "step": 97470
    },
    {
      "epoch": 0.4874,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015455276381909548,
      "loss": 2.0148,
      "step": 97480
    },
    {
      "epoch": 0.48745,
      "grad_norm": 1.796875,
      "learning_rate": 0.00015453768844221104,
      "loss": 2.0614,
      "step": 97490
    },
    {
      "epoch": 0.4875,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001545226130653266,
      "loss": 2.0551,
      "step": 97500
    },
    {
      "epoch": 0.48755,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0001545075376884422,
      "loss": 2.0133,
      "step": 97510
    },
    {
      "epoch": 0.4876,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015449246231155777,
      "loss": 2.0977,
      "step": 97520
    },
    {
      "epoch": 0.48765,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015447738693467335,
      "loss": 1.9828,
      "step": 97530
    },
    {
      "epoch": 0.4877,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015446231155778894,
      "loss": 2.0092,
      "step": 97540
    },
    {
      "epoch": 0.48775,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001544472361809045,
      "loss": 2.0257,
      "step": 97550
    },
    {
      "epoch": 0.4878,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015443216080402008,
      "loss": 2.005,
      "step": 97560
    },
    {
      "epoch": 0.48785,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015441708542713567,
      "loss": 2.1036,
      "step": 97570
    },
    {
      "epoch": 0.4879,
      "grad_norm": 2.234375,
      "learning_rate": 0.00015440201005025126,
      "loss": 2.0535,
      "step": 97580
    },
    {
      "epoch": 0.48795,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015438693467336682,
      "loss": 2.049,
      "step": 97590
    },
    {
      "epoch": 0.488,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001543718592964824,
      "loss": 2.0704,
      "step": 97600
    },
    {
      "epoch": 0.48805,
      "grad_norm": 1.7265625,
      "learning_rate": 0.000154356783919598,
      "loss": 1.9923,
      "step": 97610
    },
    {
      "epoch": 0.4881,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015434170854271355,
      "loss": 2.0555,
      "step": 97620
    },
    {
      "epoch": 0.48815,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001543266331658291,
      "loss": 2.0626,
      "step": 97630
    },
    {
      "epoch": 0.4882,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015431155778894472,
      "loss": 2.0025,
      "step": 97640
    },
    {
      "epoch": 0.48825,
      "grad_norm": 2.1875,
      "learning_rate": 0.00015429648241206028,
      "loss": 2.1059,
      "step": 97650
    },
    {
      "epoch": 0.4883,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015428140703517586,
      "loss": 2.0335,
      "step": 97660
    },
    {
      "epoch": 0.48835,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015426633165829145,
      "loss": 1.9723,
      "step": 97670
    },
    {
      "epoch": 0.4884,
      "grad_norm": 1.9375,
      "learning_rate": 0.000154251256281407,
      "loss": 2.0191,
      "step": 97680
    },
    {
      "epoch": 0.48845,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001542361809045226,
      "loss": 2.0369,
      "step": 97690
    },
    {
      "epoch": 0.4885,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015422110552763818,
      "loss": 1.991,
      "step": 97700
    },
    {
      "epoch": 0.48855,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015420603015075377,
      "loss": 2.1041,
      "step": 97710
    },
    {
      "epoch": 0.4886,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015419095477386933,
      "loss": 1.9921,
      "step": 97720
    },
    {
      "epoch": 0.48865,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001541758793969849,
      "loss": 2.0374,
      "step": 97730
    },
    {
      "epoch": 0.4887,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001541608040201005,
      "loss": 2.0847,
      "step": 97740
    },
    {
      "epoch": 0.48875,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015414572864321606,
      "loss": 2.0389,
      "step": 97750
    },
    {
      "epoch": 0.4888,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015413065326633167,
      "loss": 2.0611,
      "step": 97760
    },
    {
      "epoch": 0.48885,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015411557788944723,
      "loss": 2.0011,
      "step": 97770
    },
    {
      "epoch": 0.4889,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001541005025125628,
      "loss": 2.0047,
      "step": 97780
    },
    {
      "epoch": 0.48895,
      "grad_norm": 1.875,
      "learning_rate": 0.00015408542713567838,
      "loss": 2.0623,
      "step": 97790
    },
    {
      "epoch": 0.489,
      "grad_norm": 2.171875,
      "learning_rate": 0.00015407035175879396,
      "loss": 1.9758,
      "step": 97800
    },
    {
      "epoch": 0.48905,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015405527638190952,
      "loss": 2.0406,
      "step": 97810
    },
    {
      "epoch": 0.4891,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001540402010050251,
      "loss": 2.0352,
      "step": 97820
    },
    {
      "epoch": 0.48915,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001540251256281407,
      "loss": 2.0246,
      "step": 97830
    },
    {
      "epoch": 0.4892,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015401005025125628,
      "loss": 2.0243,
      "step": 97840
    },
    {
      "epoch": 0.48925,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015399497487437184,
      "loss": 2.0317,
      "step": 97850
    },
    {
      "epoch": 0.4893,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015397989949748742,
      "loss": 2.01,
      "step": 97860
    },
    {
      "epoch": 0.48935,
      "grad_norm": 2.03125,
      "learning_rate": 0.000153964824120603,
      "loss": 1.9784,
      "step": 97870
    },
    {
      "epoch": 0.4894,
      "grad_norm": 2.0,
      "learning_rate": 0.00015394974874371857,
      "loss": 2.0312,
      "step": 97880
    },
    {
      "epoch": 0.48945,
      "grad_norm": 2.171875,
      "learning_rate": 0.00015393467336683418,
      "loss": 2.1136,
      "step": 97890
    },
    {
      "epoch": 0.4895,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015391959798994974,
      "loss": 2.0389,
      "step": 97900
    },
    {
      "epoch": 0.48955,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001539045226130653,
      "loss": 1.939,
      "step": 97910
    },
    {
      "epoch": 0.4896,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001538894472361809,
      "loss": 2.0551,
      "step": 97920
    },
    {
      "epoch": 0.48965,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015387437185929647,
      "loss": 2.0384,
      "step": 97930
    },
    {
      "epoch": 0.4897,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015385929648241203,
      "loss": 1.9773,
      "step": 97940
    },
    {
      "epoch": 0.48975,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015384422110552762,
      "loss": 2.0374,
      "step": 97950
    },
    {
      "epoch": 0.4898,
      "grad_norm": 2.203125,
      "learning_rate": 0.0001538291457286432,
      "loss": 2.0427,
      "step": 97960
    },
    {
      "epoch": 0.48985,
      "grad_norm": 1.9765625,
      "learning_rate": 0.0001538140703517588,
      "loss": 2.015,
      "step": 97970
    },
    {
      "epoch": 0.4899,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015379899497487435,
      "loss": 2.0471,
      "step": 97980
    },
    {
      "epoch": 0.48995,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015378391959798993,
      "loss": 1.9887,
      "step": 97990
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015376884422110552,
      "loss": 2.0811,
      "step": 98000
    },
    {
      "epoch": 0.49,
      "eval_loss": 2.030482053756714,
      "eval_runtime": 93.5106,
      "eval_samples_per_second": 26.735,
      "eval_steps_per_second": 0.428,
      "step": 98000
    },
    {
      "epoch": 0.49005,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015375376884422108,
      "loss": 2.033,
      "step": 98010
    },
    {
      "epoch": 0.4901,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001537386934673367,
      "loss": 2.0036,
      "step": 98020
    },
    {
      "epoch": 0.49015,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015372361809045225,
      "loss": 2.0165,
      "step": 98030
    },
    {
      "epoch": 0.4902,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001537085427135678,
      "loss": 2.0087,
      "step": 98040
    },
    {
      "epoch": 0.49025,
      "grad_norm": 2.40625,
      "learning_rate": 0.00015369346733668342,
      "loss": 1.9795,
      "step": 98050
    },
    {
      "epoch": 0.4903,
      "grad_norm": 1.765625,
      "learning_rate": 0.00015367839195979898,
      "loss": 2.0425,
      "step": 98060
    },
    {
      "epoch": 0.49035,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015366331658291454,
      "loss": 2.0482,
      "step": 98070
    },
    {
      "epoch": 0.4904,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015364824120603016,
      "loss": 2.081,
      "step": 98080
    },
    {
      "epoch": 0.49045,
      "grad_norm": 1.875,
      "learning_rate": 0.00015363316582914571,
      "loss": 2.0534,
      "step": 98090
    },
    {
      "epoch": 0.4905,
      "grad_norm": 2.109375,
      "learning_rate": 0.0001536180904522613,
      "loss": 1.9817,
      "step": 98100
    },
    {
      "epoch": 0.49055,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015360301507537686,
      "loss": 2.0403,
      "step": 98110
    },
    {
      "epoch": 0.4906,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015358793969849245,
      "loss": 1.9828,
      "step": 98120
    },
    {
      "epoch": 0.49065,
      "grad_norm": 2.125,
      "learning_rate": 0.00015357286432160803,
      "loss": 2.0497,
      "step": 98130
    },
    {
      "epoch": 0.4907,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001535577889447236,
      "loss": 2.0314,
      "step": 98140
    },
    {
      "epoch": 0.49075,
      "grad_norm": 2.1875,
      "learning_rate": 0.0001535427135678392,
      "loss": 2.0186,
      "step": 98150
    },
    {
      "epoch": 0.4908,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015352763819095476,
      "loss": 2.0517,
      "step": 98160
    },
    {
      "epoch": 0.49085,
      "grad_norm": 1.875,
      "learning_rate": 0.00015351256281407032,
      "loss": 2.0475,
      "step": 98170
    },
    {
      "epoch": 0.4909,
      "grad_norm": 1.875,
      "learning_rate": 0.00015349748743718594,
      "loss": 2.0529,
      "step": 98180
    },
    {
      "epoch": 0.49095,
      "grad_norm": 1.7265625,
      "learning_rate": 0.0001534824120603015,
      "loss": 2.0092,
      "step": 98190
    },
    {
      "epoch": 0.491,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015346733668341705,
      "loss": 2.0096,
      "step": 98200
    },
    {
      "epoch": 0.49105,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015345226130653267,
      "loss": 2.0806,
      "step": 98210
    },
    {
      "epoch": 0.4911,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00015343718592964823,
      "loss": 2.0359,
      "step": 98220
    },
    {
      "epoch": 0.49115,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001534221105527638,
      "loss": 2.0109,
      "step": 98230
    },
    {
      "epoch": 0.4912,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015340703517587937,
      "loss": 2.0123,
      "step": 98240
    },
    {
      "epoch": 0.49125,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00015339195979899496,
      "loss": 2.0232,
      "step": 98250
    },
    {
      "epoch": 0.4913,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015337688442211054,
      "loss": 2.0138,
      "step": 98260
    },
    {
      "epoch": 0.49135,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001533618090452261,
      "loss": 2.0593,
      "step": 98270
    },
    {
      "epoch": 0.4914,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015334673366834171,
      "loss": 1.9386,
      "step": 98280
    },
    {
      "epoch": 0.49145,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015333165829145727,
      "loss": 2.058,
      "step": 98290
    },
    {
      "epoch": 0.4915,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015331658291457283,
      "loss": 1.9971,
      "step": 98300
    },
    {
      "epoch": 0.49155,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015330150753768845,
      "loss": 2.0185,
      "step": 98310
    },
    {
      "epoch": 0.4916,
      "grad_norm": 1.984375,
      "learning_rate": 0.000153286432160804,
      "loss": 2.0242,
      "step": 98320
    },
    {
      "epoch": 0.49165,
      "grad_norm": 2.1875,
      "learning_rate": 0.00015327135678391956,
      "loss": 1.9986,
      "step": 98330
    },
    {
      "epoch": 0.4917,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015325628140703518,
      "loss": 2.0506,
      "step": 98340
    },
    {
      "epoch": 0.49175,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015324120603015074,
      "loss": 2.05,
      "step": 98350
    },
    {
      "epoch": 0.4918,
      "grad_norm": 2.0,
      "learning_rate": 0.00015322613065326632,
      "loss": 2.0466,
      "step": 98360
    },
    {
      "epoch": 0.49185,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001532110552763819,
      "loss": 2.0544,
      "step": 98370
    },
    {
      "epoch": 0.4919,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015319597989949747,
      "loss": 2.046,
      "step": 98380
    },
    {
      "epoch": 0.49195,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015318090452261305,
      "loss": 2.0405,
      "step": 98390
    },
    {
      "epoch": 0.492,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001531658291457286,
      "loss": 2.0455,
      "step": 98400
    },
    {
      "epoch": 0.49205,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015315075376884423,
      "loss": 2.0205,
      "step": 98410
    },
    {
      "epoch": 0.4921,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015313567839195978,
      "loss": 2.0579,
      "step": 98420
    },
    {
      "epoch": 0.49215,
      "grad_norm": 1.734375,
      "learning_rate": 0.00015312060301507534,
      "loss": 2.0653,
      "step": 98430
    },
    {
      "epoch": 0.4922,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00015310552763819096,
      "loss": 2.0233,
      "step": 98440
    },
    {
      "epoch": 0.49225,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015309045226130652,
      "loss": 1.984,
      "step": 98450
    },
    {
      "epoch": 0.4923,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015307537688442208,
      "loss": 1.959,
      "step": 98460
    },
    {
      "epoch": 0.49235,
      "grad_norm": 2.1875,
      "learning_rate": 0.0001530603015075377,
      "loss": 2.0449,
      "step": 98470
    },
    {
      "epoch": 0.4924,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015304522613065325,
      "loss": 2.0364,
      "step": 98480
    },
    {
      "epoch": 0.49245,
      "grad_norm": 2.0,
      "learning_rate": 0.00015303015075376883,
      "loss": 1.9995,
      "step": 98490
    },
    {
      "epoch": 0.4925,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015301507537688442,
      "loss": 2.0798,
      "step": 98500
    },
    {
      "epoch": 0.49255,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015299999999999998,
      "loss": 1.997,
      "step": 98510
    },
    {
      "epoch": 0.4926,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015298492462311556,
      "loss": 1.9995,
      "step": 98520
    },
    {
      "epoch": 0.49265,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015296984924623115,
      "loss": 2.0246,
      "step": 98530
    },
    {
      "epoch": 0.4927,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015295477386934674,
      "loss": 2.0243,
      "step": 98540
    },
    {
      "epoch": 0.49275,
      "grad_norm": 1.9453125,
      "learning_rate": 0.0001529396984924623,
      "loss": 2.0404,
      "step": 98550
    },
    {
      "epoch": 0.4928,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015292462311557785,
      "loss": 2.035,
      "step": 98560
    },
    {
      "epoch": 0.49285,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015290954773869347,
      "loss": 2.0198,
      "step": 98570
    },
    {
      "epoch": 0.4929,
      "grad_norm": 2.0,
      "learning_rate": 0.00015289447236180903,
      "loss": 2.0708,
      "step": 98580
    },
    {
      "epoch": 0.49295,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015287939698492459,
      "loss": 1.9339,
      "step": 98590
    },
    {
      "epoch": 0.493,
      "grad_norm": 1.875,
      "learning_rate": 0.0001528643216080402,
      "loss": 1.9971,
      "step": 98600
    },
    {
      "epoch": 0.49305,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015284924623115576,
      "loss": 2.0321,
      "step": 98610
    },
    {
      "epoch": 0.4931,
      "grad_norm": 1.828125,
      "learning_rate": 0.00015283417085427134,
      "loss": 2.0244,
      "step": 98620
    },
    {
      "epoch": 0.49315,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015281909547738693,
      "loss": 2.0244,
      "step": 98630
    },
    {
      "epoch": 0.4932,
      "grad_norm": 1.7890625,
      "learning_rate": 0.0001528040201005025,
      "loss": 1.9929,
      "step": 98640
    },
    {
      "epoch": 0.49325,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00015278894472361808,
      "loss": 2.0556,
      "step": 98650
    },
    {
      "epoch": 0.4933,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015277386934673366,
      "loss": 2.0983,
      "step": 98660
    },
    {
      "epoch": 0.49335,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015275879396984925,
      "loss": 2.0279,
      "step": 98670
    },
    {
      "epoch": 0.4934,
      "grad_norm": 1.6875,
      "learning_rate": 0.0001527437185929648,
      "loss": 1.9931,
      "step": 98680
    },
    {
      "epoch": 0.49345,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001527286432160804,
      "loss": 2.0386,
      "step": 98690
    },
    {
      "epoch": 0.4935,
      "grad_norm": 2.234375,
      "learning_rate": 0.00015271356783919598,
      "loss": 1.9957,
      "step": 98700
    },
    {
      "epoch": 0.49355,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015269849246231154,
      "loss": 1.9878,
      "step": 98710
    },
    {
      "epoch": 0.4936,
      "grad_norm": 1.875,
      "learning_rate": 0.0001526834170854271,
      "loss": 1.9975,
      "step": 98720
    },
    {
      "epoch": 0.49365,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001526683417085427,
      "loss": 2.0392,
      "step": 98730
    },
    {
      "epoch": 0.4937,
      "grad_norm": 2.0,
      "learning_rate": 0.00015265326633165827,
      "loss": 2.0441,
      "step": 98740
    },
    {
      "epoch": 0.49375,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00015263819095477386,
      "loss": 2.0157,
      "step": 98750
    },
    {
      "epoch": 0.4938,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015262311557788944,
      "loss": 2.0156,
      "step": 98760
    },
    {
      "epoch": 0.49385,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000152608040201005,
      "loss": 2.0677,
      "step": 98770
    },
    {
      "epoch": 0.4939,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015259296482412059,
      "loss": 2.0377,
      "step": 98780
    },
    {
      "epoch": 0.49395,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015257788944723617,
      "loss": 1.9976,
      "step": 98790
    },
    {
      "epoch": 0.494,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015256281407035176,
      "loss": 1.9564,
      "step": 98800
    },
    {
      "epoch": 0.49405,
      "grad_norm": 1.8671875,
      "learning_rate": 0.00015254773869346732,
      "loss": 2.0897,
      "step": 98810
    },
    {
      "epoch": 0.4941,
      "grad_norm": 2.0,
      "learning_rate": 0.0001525326633165829,
      "loss": 1.9991,
      "step": 98820
    },
    {
      "epoch": 0.49415,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001525175879396985,
      "loss": 2.0326,
      "step": 98830
    },
    {
      "epoch": 0.4942,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015250251256281405,
      "loss": 2.0001,
      "step": 98840
    },
    {
      "epoch": 0.49425,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015248743718592966,
      "loss": 2.0368,
      "step": 98850
    },
    {
      "epoch": 0.4943,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015247236180904522,
      "loss": 2.1022,
      "step": 98860
    },
    {
      "epoch": 0.49435,
      "grad_norm": 1.765625,
      "learning_rate": 0.00015245728643216078,
      "loss": 2.0396,
      "step": 98870
    },
    {
      "epoch": 0.4944,
      "grad_norm": 2.1875,
      "learning_rate": 0.00015244221105527637,
      "loss": 2.023,
      "step": 98880
    },
    {
      "epoch": 0.49445,
      "grad_norm": 1.890625,
      "learning_rate": 0.00015242713567839195,
      "loss": 2.0382,
      "step": 98890
    },
    {
      "epoch": 0.4945,
      "grad_norm": 1.984375,
      "learning_rate": 0.0001524120603015075,
      "loss": 2.0603,
      "step": 98900
    },
    {
      "epoch": 0.49455,
      "grad_norm": 2.171875,
      "learning_rate": 0.0001523969849246231,
      "loss": 2.0445,
      "step": 98910
    },
    {
      "epoch": 0.4946,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015238190954773868,
      "loss": 2.0186,
      "step": 98920
    },
    {
      "epoch": 0.49465,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015236683417085427,
      "loss": 2.0903,
      "step": 98930
    },
    {
      "epoch": 0.4947,
      "grad_norm": 1.625,
      "learning_rate": 0.00015235175879396983,
      "loss": 1.9986,
      "step": 98940
    },
    {
      "epoch": 0.49475,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015233668341708541,
      "loss": 2.0635,
      "step": 98950
    },
    {
      "epoch": 0.4948,
      "grad_norm": 1.7734375,
      "learning_rate": 0.000152321608040201,
      "loss": 2.0983,
      "step": 98960
    },
    {
      "epoch": 0.49485,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015230653266331656,
      "loss": 2.0332,
      "step": 98970
    },
    {
      "epoch": 0.4949,
      "grad_norm": 2.0,
      "learning_rate": 0.00015229145728643217,
      "loss": 2.1002,
      "step": 98980
    },
    {
      "epoch": 0.49495,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015227638190954773,
      "loss": 2.0045,
      "step": 98990
    },
    {
      "epoch": 0.495,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001522613065326633,
      "loss": 2.0331,
      "step": 99000
    },
    {
      "epoch": 0.49505,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001522462311557789,
      "loss": 2.016,
      "step": 99010
    },
    {
      "epoch": 0.4951,
      "grad_norm": 1.828125,
      "learning_rate": 0.00015223115577889446,
      "loss": 2.0394,
      "step": 99020
    },
    {
      "epoch": 0.49515,
      "grad_norm": 1.7578125,
      "learning_rate": 0.00015221608040201002,
      "loss": 2.0503,
      "step": 99030
    },
    {
      "epoch": 0.4952,
      "grad_norm": 2.15625,
      "learning_rate": 0.0001522010050251256,
      "loss": 2.0573,
      "step": 99040
    },
    {
      "epoch": 0.49525,
      "grad_norm": 2.1875,
      "learning_rate": 0.0001521859296482412,
      "loss": 2.033,
      "step": 99050
    },
    {
      "epoch": 0.4953,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015217085427135678,
      "loss": 2.0333,
      "step": 99060
    },
    {
      "epoch": 0.49535,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015215577889447234,
      "loss": 2.0414,
      "step": 99070
    },
    {
      "epoch": 0.4954,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00015214070351758793,
      "loss": 1.998,
      "step": 99080
    },
    {
      "epoch": 0.49545,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001521256281407035,
      "loss": 2.0115,
      "step": 99090
    },
    {
      "epoch": 0.4955,
      "grad_norm": 1.78125,
      "learning_rate": 0.00015211055276381907,
      "loss": 2.0141,
      "step": 99100
    },
    {
      "epoch": 0.49555,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015209547738693468,
      "loss": 2.0599,
      "step": 99110
    },
    {
      "epoch": 0.4956,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015208040201005024,
      "loss": 2.0272,
      "step": 99120
    },
    {
      "epoch": 0.49565,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001520653266331658,
      "loss": 2.0006,
      "step": 99130
    },
    {
      "epoch": 0.4957,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015205025125628142,
      "loss": 2.0751,
      "step": 99140
    },
    {
      "epoch": 0.49575,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015203517587939697,
      "loss": 2.0171,
      "step": 99150
    },
    {
      "epoch": 0.4958,
      "grad_norm": 2.15625,
      "learning_rate": 0.00015202010050251253,
      "loss": 2.0773,
      "step": 99160
    },
    {
      "epoch": 0.49585,
      "grad_norm": 1.84375,
      "learning_rate": 0.00015200502512562815,
      "loss": 2.0103,
      "step": 99170
    },
    {
      "epoch": 0.4959,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001519899497487437,
      "loss": 2.0254,
      "step": 99180
    },
    {
      "epoch": 0.49595,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001519748743718593,
      "loss": 2.0368,
      "step": 99190
    },
    {
      "epoch": 0.496,
      "grad_norm": 2.234375,
      "learning_rate": 0.00015195979899497485,
      "loss": 1.9812,
      "step": 99200
    },
    {
      "epoch": 0.49605,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015194472361809044,
      "loss": 2.0364,
      "step": 99210
    },
    {
      "epoch": 0.4961,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015192964824120602,
      "loss": 1.9928,
      "step": 99220
    },
    {
      "epoch": 0.49615,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015191457286432158,
      "loss": 1.9844,
      "step": 99230
    },
    {
      "epoch": 0.4962,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001518994974874372,
      "loss": 2.0771,
      "step": 99240
    },
    {
      "epoch": 0.49625,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015188442211055275,
      "loss": 2.0091,
      "step": 99250
    },
    {
      "epoch": 0.4963,
      "grad_norm": 1.875,
      "learning_rate": 0.0001518693467336683,
      "loss": 2.0375,
      "step": 99260
    },
    {
      "epoch": 0.49635,
      "grad_norm": 2.15625,
      "learning_rate": 0.00015185427135678393,
      "loss": 2.0335,
      "step": 99270
    },
    {
      "epoch": 0.4964,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015183919597989949,
      "loss": 2.0425,
      "step": 99280
    },
    {
      "epoch": 0.49645,
      "grad_norm": 2.15625,
      "learning_rate": 0.00015182412060301504,
      "loss": 1.9813,
      "step": 99290
    },
    {
      "epoch": 0.4965,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015180904522613066,
      "loss": 2.0284,
      "step": 99300
    },
    {
      "epoch": 0.49655,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015179396984924622,
      "loss": 2.0571,
      "step": 99310
    },
    {
      "epoch": 0.4966,
      "grad_norm": 1.75,
      "learning_rate": 0.0001517788944723618,
      "loss": 1.981,
      "step": 99320
    },
    {
      "epoch": 0.49665,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001517638190954774,
      "loss": 2.0377,
      "step": 99330
    },
    {
      "epoch": 0.4967,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00015174874371859295,
      "loss": 2.0302,
      "step": 99340
    },
    {
      "epoch": 0.49675,
      "grad_norm": 1.7890625,
      "learning_rate": 0.00015173366834170853,
      "loss": 2.0061,
      "step": 99350
    },
    {
      "epoch": 0.4968,
      "grad_norm": 1.75,
      "learning_rate": 0.0001517185929648241,
      "loss": 2.0213,
      "step": 99360
    },
    {
      "epoch": 0.49685,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001517035175879397,
      "loss": 2.0138,
      "step": 99370
    },
    {
      "epoch": 0.4969,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015168844221105526,
      "loss": 2.0099,
      "step": 99380
    },
    {
      "epoch": 0.49695,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015167336683417082,
      "loss": 2.0504,
      "step": 99390
    },
    {
      "epoch": 0.497,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015165829145728644,
      "loss": 2.0741,
      "step": 99400
    },
    {
      "epoch": 0.49705,
      "grad_norm": 1.8828125,
      "learning_rate": 0.000151643216080402,
      "loss": 2.0075,
      "step": 99410
    },
    {
      "epoch": 0.4971,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015162814070351755,
      "loss": 2.0346,
      "step": 99420
    },
    {
      "epoch": 0.49715,
      "grad_norm": 2.25,
      "learning_rate": 0.00015161306532663317,
      "loss": 2.0464,
      "step": 99430
    },
    {
      "epoch": 0.4972,
      "grad_norm": 1.8125,
      "learning_rate": 0.00015159798994974873,
      "loss": 2.0864,
      "step": 99440
    },
    {
      "epoch": 0.49725,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001515829145728643,
      "loss": 1.9924,
      "step": 99450
    },
    {
      "epoch": 0.4973,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001515678391959799,
      "loss": 2.0659,
      "step": 99460
    },
    {
      "epoch": 0.49735,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015155276381909546,
      "loss": 2.0261,
      "step": 99470
    },
    {
      "epoch": 0.4974,
      "grad_norm": 2.359375,
      "learning_rate": 0.00015153768844221104,
      "loss": 2.0216,
      "step": 99480
    },
    {
      "epoch": 0.49745,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001515226130653266,
      "loss": 2.048,
      "step": 99490
    },
    {
      "epoch": 0.4975,
      "grad_norm": 1.875,
      "learning_rate": 0.00015150753768844222,
      "loss": 1.9639,
      "step": 99500
    },
    {
      "epoch": 0.49755,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015149246231155778,
      "loss": 2.009,
      "step": 99510
    },
    {
      "epoch": 0.4976,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015147738693467333,
      "loss": 1.9987,
      "step": 99520
    },
    {
      "epoch": 0.49765,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015146231155778895,
      "loss": 2.0455,
      "step": 99530
    },
    {
      "epoch": 0.4977,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001514472361809045,
      "loss": 2.0771,
      "step": 99540
    },
    {
      "epoch": 0.49775,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015143216080402007,
      "loss": 1.9747,
      "step": 99550
    },
    {
      "epoch": 0.4978,
      "grad_norm": 2.15625,
      "learning_rate": 0.00015141708542713568,
      "loss": 2.0416,
      "step": 99560
    },
    {
      "epoch": 0.49785,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015140201005025124,
      "loss": 2.0365,
      "step": 99570
    },
    {
      "epoch": 0.4979,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015138693467336682,
      "loss": 2.0292,
      "step": 99580
    },
    {
      "epoch": 0.49795,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001513718592964824,
      "loss": 2.0407,
      "step": 99590
    },
    {
      "epoch": 0.498,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015135678391959797,
      "loss": 2.0086,
      "step": 99600
    },
    {
      "epoch": 0.49805,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015134170854271356,
      "loss": 2.0753,
      "step": 99610
    },
    {
      "epoch": 0.4981,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015132663316582914,
      "loss": 2.0057,
      "step": 99620
    },
    {
      "epoch": 0.49815,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015131155778894473,
      "loss": 2.0159,
      "step": 99630
    },
    {
      "epoch": 0.4982,
      "grad_norm": 1.8828125,
      "learning_rate": 0.0001512964824120603,
      "loss": 2.0177,
      "step": 99640
    },
    {
      "epoch": 0.49825,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015128140703517585,
      "loss": 2.0343,
      "step": 99650
    },
    {
      "epoch": 0.4983,
      "grad_norm": 2.1875,
      "learning_rate": 0.00015126633165829146,
      "loss": 1.9774,
      "step": 99660
    },
    {
      "epoch": 0.49835,
      "grad_norm": 2.078125,
      "learning_rate": 0.00015125125628140702,
      "loss": 2.0019,
      "step": 99670
    },
    {
      "epoch": 0.4984,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015123618090452258,
      "loss": 2.0309,
      "step": 99680
    },
    {
      "epoch": 0.49845,
      "grad_norm": 1.8125,
      "learning_rate": 0.0001512211055276382,
      "loss": 2.0067,
      "step": 99690
    },
    {
      "epoch": 0.4985,
      "grad_norm": 1.953125,
      "learning_rate": 0.00015120603015075375,
      "loss": 2.0088,
      "step": 99700
    },
    {
      "epoch": 0.49855,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015119095477386934,
      "loss": 2.0589,
      "step": 99710
    },
    {
      "epoch": 0.4986,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015117587939698492,
      "loss": 2.0248,
      "step": 99720
    },
    {
      "epoch": 0.49865,
      "grad_norm": 2.28125,
      "learning_rate": 0.00015116080402010048,
      "loss": 2.0299,
      "step": 99730
    },
    {
      "epoch": 0.4987,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015114572864321607,
      "loss": 2.0281,
      "step": 99740
    },
    {
      "epoch": 0.49875,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015113065326633165,
      "loss": 1.986,
      "step": 99750
    },
    {
      "epoch": 0.4988,
      "grad_norm": 1.984375,
      "learning_rate": 0.00015111557788944724,
      "loss": 2.016,
      "step": 99760
    },
    {
      "epoch": 0.49885,
      "grad_norm": 2.203125,
      "learning_rate": 0.0001511005025125628,
      "loss": 2.0047,
      "step": 99770
    },
    {
      "epoch": 0.4989,
      "grad_norm": 1.9375,
      "learning_rate": 0.00015108542713567838,
      "loss": 2.0504,
      "step": 99780
    },
    {
      "epoch": 0.49895,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015107035175879397,
      "loss": 1.9596,
      "step": 99790
    },
    {
      "epoch": 0.499,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015105527638190953,
      "loss": 2.0407,
      "step": 99800
    },
    {
      "epoch": 0.49905,
      "grad_norm": 1.71875,
      "learning_rate": 0.0001510402010050251,
      "loss": 2.026,
      "step": 99810
    },
    {
      "epoch": 0.4991,
      "grad_norm": 1.859375,
      "learning_rate": 0.0001510251256281407,
      "loss": 1.9834,
      "step": 99820
    },
    {
      "epoch": 0.49915,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00015101005025125626,
      "loss": 2.039,
      "step": 99830
    },
    {
      "epoch": 0.4992,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00015099497487437182,
      "loss": 1.987,
      "step": 99840
    },
    {
      "epoch": 0.49925,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015097989949748743,
      "loss": 2.0579,
      "step": 99850
    },
    {
      "epoch": 0.4993,
      "grad_norm": 2.0,
      "learning_rate": 0.000150964824120603,
      "loss": 2.016,
      "step": 99860
    },
    {
      "epoch": 0.49935,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015094974874371858,
      "loss": 2.0367,
      "step": 99870
    },
    {
      "epoch": 0.4994,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00015093467336683416,
      "loss": 2.0922,
      "step": 99880
    },
    {
      "epoch": 0.49945,
      "grad_norm": 2.0,
      "learning_rate": 0.00015091959798994975,
      "loss": 2.0603,
      "step": 99890
    },
    {
      "epoch": 0.4995,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0001509045226130653,
      "loss": 2.0179,
      "step": 99900
    },
    {
      "epoch": 0.49955,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001508894472361809,
      "loss": 1.9589,
      "step": 99910
    },
    {
      "epoch": 0.4996,
      "grad_norm": 2.015625,
      "learning_rate": 0.00015087437185929648,
      "loss": 2.0192,
      "step": 99920
    },
    {
      "epoch": 0.49965,
      "grad_norm": 1.6875,
      "learning_rate": 0.00015085929648241204,
      "loss": 2.0496,
      "step": 99930
    },
    {
      "epoch": 0.4997,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015084422110552765,
      "loss": 1.9865,
      "step": 99940
    },
    {
      "epoch": 0.49975,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001508291457286432,
      "loss": 2.026,
      "step": 99950
    },
    {
      "epoch": 0.4998,
      "grad_norm": 1.75,
      "learning_rate": 0.00015081407035175877,
      "loss": 2.0019,
      "step": 99960
    },
    {
      "epoch": 0.49985,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015079899497487433,
      "loss": 2.0947,
      "step": 99970
    },
    {
      "epoch": 0.4999,
      "grad_norm": 2.546875,
      "learning_rate": 0.00015078391959798994,
      "loss": 2.0141,
      "step": 99980
    },
    {
      "epoch": 0.49995,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001507688442211055,
      "loss": 2.0165,
      "step": 99990
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.234375,
      "learning_rate": 0.0001507537688442211,
      "loss": 1.996,
      "step": 100000
    },
    {
      "epoch": 0.5,
      "eval_loss": 2.0342369079589844,
      "eval_runtime": 90.0954,
      "eval_samples_per_second": 27.748,
      "eval_steps_per_second": 0.444,
      "step": 100000
    },
    {
      "epoch": 0.50005,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015073869346733667,
      "loss": 2.0577,
      "step": 100010
    },
    {
      "epoch": 0.5001,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015072361809045226,
      "loss": 2.04,
      "step": 100020
    },
    {
      "epoch": 0.50015,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015070854271356782,
      "loss": 2.0467,
      "step": 100030
    },
    {
      "epoch": 0.5002,
      "grad_norm": 2.078125,
      "learning_rate": 0.0001506934673366834,
      "loss": 2.0113,
      "step": 100040
    },
    {
      "epoch": 0.50025,
      "grad_norm": 2.078125,
      "learning_rate": 0.000150678391959799,
      "loss": 2.0461,
      "step": 100050
    },
    {
      "epoch": 0.5003,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015066331658291455,
      "loss": 1.9994,
      "step": 100060
    },
    {
      "epoch": 0.50035,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015064824120603016,
      "loss": 2.0283,
      "step": 100070
    },
    {
      "epoch": 0.5004,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015063316582914572,
      "loss": 2.0629,
      "step": 100080
    },
    {
      "epoch": 0.50045,
      "grad_norm": 2.09375,
      "learning_rate": 0.00015061809045226128,
      "loss": 2.0144,
      "step": 100090
    },
    {
      "epoch": 0.5005,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001506030150753769,
      "loss": 2.082,
      "step": 100100
    },
    {
      "epoch": 0.50055,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015058793969849245,
      "loss": 2.0549,
      "step": 100110
    },
    {
      "epoch": 0.5006,
      "grad_norm": 1.9296875,
      "learning_rate": 0.000150572864321608,
      "loss": 2.0591,
      "step": 100120
    },
    {
      "epoch": 0.50065,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001505577889447236,
      "loss": 1.9906,
      "step": 100130
    },
    {
      "epoch": 0.5007,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015054271356783919,
      "loss": 2.0959,
      "step": 100140
    },
    {
      "epoch": 0.50075,
      "grad_norm": 1.875,
      "learning_rate": 0.00015052763819095477,
      "loss": 2.0214,
      "step": 100150
    },
    {
      "epoch": 0.5008,
      "grad_norm": 2.0625,
      "learning_rate": 0.00015051256281407033,
      "loss": 2.0448,
      "step": 100160
    },
    {
      "epoch": 0.50085,
      "grad_norm": 1.96875,
      "learning_rate": 0.00015049748743718592,
      "loss": 2.05,
      "step": 100170
    },
    {
      "epoch": 0.5009,
      "grad_norm": 2.21875,
      "learning_rate": 0.0001504824120603015,
      "loss": 2.014,
      "step": 100180
    },
    {
      "epoch": 0.50095,
      "grad_norm": 1.7734375,
      "learning_rate": 0.00015046733668341706,
      "loss": 1.9987,
      "step": 100190
    },
    {
      "epoch": 0.501,
      "grad_norm": 2.0,
      "learning_rate": 0.00015045226130653267,
      "loss": 2.0231,
      "step": 100200
    },
    {
      "epoch": 0.50105,
      "grad_norm": 1.859375,
      "learning_rate": 0.00015043718592964823,
      "loss": 2.0519,
      "step": 100210
    },
    {
      "epoch": 0.5011,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001504221105527638,
      "loss": 2.0005,
      "step": 100220
    },
    {
      "epoch": 0.50115,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001504070351758794,
      "loss": 2.0114,
      "step": 100230
    },
    {
      "epoch": 0.5012,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00015039195979899496,
      "loss": 2.0219,
      "step": 100240
    },
    {
      "epoch": 0.50125,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015037688442211052,
      "loss": 2.0079,
      "step": 100250
    },
    {
      "epoch": 0.5013,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015036180904522614,
      "loss": 2.0236,
      "step": 100260
    },
    {
      "epoch": 0.50135,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001503467336683417,
      "loss": 2.0025,
      "step": 100270
    },
    {
      "epoch": 0.5014,
      "grad_norm": 1.90625,
      "learning_rate": 0.00015033165829145726,
      "loss": 2.0407,
      "step": 100280
    },
    {
      "epoch": 0.50145,
      "grad_norm": 2.296875,
      "learning_rate": 0.00015031658291457284,
      "loss": 2.0013,
      "step": 100290
    },
    {
      "epoch": 0.5015,
      "grad_norm": 2.046875,
      "learning_rate": 0.00015030150753768843,
      "loss": 1.9921,
      "step": 100300
    },
    {
      "epoch": 0.50155,
      "grad_norm": 1.9453125,
      "learning_rate": 0.000150286432160804,
      "loss": 2.0336,
      "step": 100310
    },
    {
      "epoch": 0.5016,
      "grad_norm": 2.171875,
      "learning_rate": 0.00015027135678391957,
      "loss": 2.0329,
      "step": 100320
    },
    {
      "epoch": 0.50165,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00015025628140703519,
      "loss": 2.0327,
      "step": 100330
    },
    {
      "epoch": 0.5017,
      "grad_norm": 1.78125,
      "learning_rate": 0.00015024120603015074,
      "loss": 2.0726,
      "step": 100340
    },
    {
      "epoch": 0.50175,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001502261306532663,
      "loss": 2.0025,
      "step": 100350
    },
    {
      "epoch": 0.5018,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00015021105527638192,
      "loss": 2.0309,
      "step": 100360
    },
    {
      "epoch": 0.50185,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00015019597989949748,
      "loss": 2.0078,
      "step": 100370
    },
    {
      "epoch": 0.5019,
      "grad_norm": 1.921875,
      "learning_rate": 0.00015018090452261303,
      "loss": 2.0121,
      "step": 100380
    },
    {
      "epoch": 0.50195,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00015016582914572865,
      "loss": 2.0177,
      "step": 100390
    },
    {
      "epoch": 0.502,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001501507537688442,
      "loss": 2.012,
      "step": 100400
    },
    {
      "epoch": 0.50205,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00015013567839195977,
      "loss": 2.0336,
      "step": 100410
    },
    {
      "epoch": 0.5021,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015012060301507538,
      "loss": 2.0294,
      "step": 100420
    },
    {
      "epoch": 0.50215,
      "grad_norm": 1.875,
      "learning_rate": 0.00015010552763819094,
      "loss": 2.0701,
      "step": 100430
    },
    {
      "epoch": 0.5022,
      "grad_norm": 2.140625,
      "learning_rate": 0.00015009045226130652,
      "loss": 2.042,
      "step": 100440
    },
    {
      "epoch": 0.50225,
      "grad_norm": 2.15625,
      "learning_rate": 0.00015007537688442208,
      "loss": 2.0562,
      "step": 100450
    },
    {
      "epoch": 0.5023,
      "grad_norm": 1.71875,
      "learning_rate": 0.0001500603015075377,
      "loss": 1.9848,
      "step": 100460
    },
    {
      "epoch": 0.50235,
      "grad_norm": 2.03125,
      "learning_rate": 0.00015004522613065326,
      "loss": 2.0385,
      "step": 100470
    },
    {
      "epoch": 0.5024,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00015003015075376881,
      "loss": 2.0441,
      "step": 100480
    },
    {
      "epoch": 0.50245,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00015001507537688443,
      "loss": 1.9888,
      "step": 100490
    },
    {
      "epoch": 0.5025,
      "grad_norm": 2.109375,
      "learning_rate": 0.00015,
      "loss": 2.0933,
      "step": 100500
    },
    {
      "epoch": 0.50255,
      "grad_norm": 1.921875,
      "learning_rate": 0.00014998492462311557,
      "loss": 1.9895,
      "step": 100510
    },
    {
      "epoch": 0.5026,
      "grad_norm": 2.0625,
      "learning_rate": 0.00014996984924623113,
      "loss": 2.0241,
      "step": 100520
    },
    {
      "epoch": 0.50265,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00014995477386934672,
      "loss": 2.0868,
      "step": 100530
    },
    {
      "epoch": 0.5027,
      "grad_norm": 1.90625,
      "learning_rate": 0.00014993969849246228,
      "loss": 1.9649,
      "step": 100540
    },
    {
      "epoch": 0.50275,
      "grad_norm": 2.09375,
      "learning_rate": 0.00014992462311557786,
      "loss": 2.0709,
      "step": 100550
    },
    {
      "epoch": 0.5028,
      "grad_norm": 2.046875,
      "learning_rate": 0.00014990954773869345,
      "loss": 2.0065,
      "step": 100560
    },
    {
      "epoch": 0.50285,
      "grad_norm": 1.828125,
      "learning_rate": 0.00014989447236180904,
      "loss": 2.0105,
      "step": 100570
    },
    {
      "epoch": 0.5029,
      "grad_norm": 2.09375,
      "learning_rate": 0.00014987939698492462,
      "loss": 2.004,
      "step": 100580
    },
    {
      "epoch": 0.50295,
      "grad_norm": 1.9921875,
      "learning_rate": 0.0001498643216080402,
      "loss": 2.0418,
      "step": 100590
    },
    {
      "epoch": 0.503,
      "grad_norm": 1.921875,
      "learning_rate": 0.00014984924623115577,
      "loss": 1.9932,
      "step": 100600
    },
    {
      "epoch": 0.50305,
      "grad_norm": 2.03125,
      "learning_rate": 0.00014983417085427135,
      "loss": 2.0319,
      "step": 100610
    },
    {
      "epoch": 0.5031,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001498190954773869,
      "loss": 2.0594,
      "step": 100620
    },
    {
      "epoch": 0.50315,
      "grad_norm": 1.875,
      "learning_rate": 0.0001498040201005025,
      "loss": 2.0186,
      "step": 100630
    },
    {
      "epoch": 0.5032,
      "grad_norm": 1.875,
      "learning_rate": 0.00014978894472361808,
      "loss": 2.0526,
      "step": 100640
    },
    {
      "epoch": 0.50325,
      "grad_norm": 2.265625,
      "learning_rate": 0.00014977386934673364,
      "loss": 1.9934,
      "step": 100650
    },
    {
      "epoch": 0.5033,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00014975879396984923,
      "loss": 1.9944,
      "step": 100660
    },
    {
      "epoch": 0.50335,
      "grad_norm": 1.890625,
      "learning_rate": 0.00014974371859296482,
      "loss": 2.0696,
      "step": 100670
    },
    {
      "epoch": 0.5034,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00014972864321608037,
      "loss": 2.0373,
      "step": 100680
    },
    {
      "epoch": 0.50345,
      "grad_norm": 2.046875,
      "learning_rate": 0.00014971356783919596,
      "loss": 2.0697,
      "step": 100690
    },
    {
      "epoch": 0.5035,
      "grad_norm": 2.078125,
      "learning_rate": 0.00014969849246231155,
      "loss": 2.015,
      "step": 100700
    },
    {
      "epoch": 0.50355,
      "grad_norm": 2.015625,
      "learning_rate": 0.00014968341708542713,
      "loss": 2.026,
      "step": 100710
    },
    {
      "epoch": 0.5036,
      "grad_norm": 1.859375,
      "learning_rate": 0.00014966834170854272,
      "loss": 1.9736,
      "step": 100720
    },
    {
      "epoch": 0.50365,
      "grad_norm": 2.109375,
      "learning_rate": 0.00014965326633165828,
      "loss": 1.9758,
      "step": 100730
    },
    {
      "epoch": 0.5037,
      "grad_norm": 2.03125,
      "learning_rate": 0.00014963819095477386,
      "loss": 2.0381,
      "step": 100740
    },
    {
      "epoch": 0.50375,
      "grad_norm": 1.984375,
      "learning_rate": 0.00014962311557788945,
      "loss": 2.005,
      "step": 100750
    },
    {
      "epoch": 0.5038,
      "grad_norm": 2.1875,
      "learning_rate": 0.000149608040201005,
      "loss": 2.0392,
      "step": 100760
    },
    {
      "epoch": 0.50385,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001495929648241206,
      "loss": 1.9888,
      "step": 100770
    },
    {
      "epoch": 0.5039,
      "grad_norm": 2.0,
      "learning_rate": 0.00014957788944723615,
      "loss": 2.0717,
      "step": 100780
    },
    {
      "epoch": 0.50395,
      "grad_norm": 2.09375,
      "learning_rate": 0.00014956281407035174,
      "loss": 2.0205,
      "step": 100790
    },
    {
      "epoch": 0.504,
      "grad_norm": 2.421875,
      "learning_rate": 0.00014954773869346733,
      "loss": 2.0285,
      "step": 100800
    },
    {
      "epoch": 0.50405,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00014953266331658289,
      "loss": 2.086,
      "step": 100810
    },
    {
      "epoch": 0.5041,
      "grad_norm": 2.015625,
      "learning_rate": 0.00014951758793969847,
      "loss": 1.9678,
      "step": 100820
    },
    {
      "epoch": 0.50415,
      "grad_norm": 1.828125,
      "learning_rate": 0.00014950251256281406,
      "loss": 2.1181,
      "step": 100830
    },
    {
      "epoch": 0.5042,
      "grad_norm": 1.765625,
      "learning_rate": 0.00014948743718592964,
      "loss": 2.0051,
      "step": 100840
    },
    {
      "epoch": 0.50425,
      "grad_norm": 1.875,
      "learning_rate": 0.0001494723618090452,
      "loss": 2.0193,
      "step": 100850
    },
    {
      "epoch": 0.5043,
      "grad_norm": 1.875,
      "learning_rate": 0.0001494572864321608,
      "loss": 2.0467,
      "step": 100860
    },
    {
      "epoch": 0.50435,
      "grad_norm": 2.09375,
      "learning_rate": 0.00014944221105527637,
      "loss": 2.0017,
      "step": 100870
    },
    {
      "epoch": 0.5044,
      "grad_norm": 1.90625,
      "learning_rate": 0.00014942713567839196,
      "loss": 2.0517,
      "step": 100880
    },
    {
      "epoch": 0.50445,
      "grad_norm": 2.078125,
      "learning_rate": 0.00014941206030150752,
      "loss": 1.9835,
      "step": 100890
    },
    {
      "epoch": 0.5045,
      "grad_norm": 1.8203125,
      "learning_rate": 0.0001493969849246231,
      "loss": 2.0614,
      "step": 100900
    },
    {
      "epoch": 0.50455,
      "grad_norm": 1.953125,
      "learning_rate": 0.0001493819095477387,
      "loss": 2.0655,
      "step": 100910
    },
    {
      "epoch": 0.5046,
      "grad_norm": 2.109375,
      "learning_rate": 0.00014936683417085425,
      "loss": 1.9778,
      "step": 100920
    },
    {
      "epoch": 0.50465,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00014935175879396984,
      "loss": 2.0143,
      "step": 100930
    },
    {
      "epoch": 0.5047,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001493366834170854,
      "loss": 1.9989,
      "step": 100940
    },
    {
      "epoch": 0.50475,
      "grad_norm": 2.03125,
      "learning_rate": 0.00014932160804020098,
      "loss": 2.0735,
      "step": 100950
    },
    {
      "epoch": 0.5048,
      "grad_norm": 1.984375,
      "learning_rate": 0.00014930653266331657,
      "loss": 2.0113,
      "step": 100960
    },
    {
      "epoch": 0.50485,
      "grad_norm": 1.765625,
      "learning_rate": 0.00014929145728643215,
      "loss": 2.046,
      "step": 100970
    },
    {
      "epoch": 0.5049,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001492763819095477,
      "loss": 1.9569,
      "step": 100980
    },
    {
      "epoch": 0.50495,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001492613065326633,
      "loss": 2.0329,
      "step": 100990
    },
    {
      "epoch": 0.505,
      "grad_norm": 1.96875,
      "learning_rate": 0.00014924623115577889,
      "loss": 1.9891,
      "step": 101000
    },
    {
      "epoch": 0.50505,
      "grad_norm": 2.015625,
      "learning_rate": 0.00014923115577889447,
      "loss": 1.9908,
      "step": 101010
    },
    {
      "epoch": 0.5051,
      "grad_norm": 1.7421875,
      "learning_rate": 0.00014921608040201003,
      "loss": 2.0593,
      "step": 101020
    },
    {
      "epoch": 0.50515,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00014920100502512562,
      "loss": 1.9822,
      "step": 101030
    },
    {
      "epoch": 0.5052,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001491859296482412,
      "loss": 2.0216,
      "step": 101040
    },
    {
      "epoch": 0.50525,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00014917085427135676,
      "loss": 1.9841,
      "step": 101050
    },
    {
      "epoch": 0.5053,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00014915577889447235,
      "loss": 1.9997,
      "step": 101060
    },
    {
      "epoch": 0.50535,
      "grad_norm": 1.984375,
      "learning_rate": 0.00014914070351758793,
      "loss": 2.044,
      "step": 101070
    },
    {
      "epoch": 0.5054,
      "grad_norm": 2.03125,
      "learning_rate": 0.0001491256281407035,
      "loss": 2.0443,
      "step": 101080
    },
    {
      "epoch": 0.50545,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00014911055276381908,
      "loss": 2.0243,
      "step": 101090
    },
    {
      "epoch": 0.5055,
      "grad_norm": 1.8359375,
      "learning_rate": 0.00014909547738693467,
      "loss": 2.0287,
      "step": 101100
    },
    {
      "epoch": 0.50555,
      "grad_norm": 1.8046875,
      "learning_rate": 0.00014908040201005022,
      "loss": 2.036,
      "step": 101110
    },
    {
      "epoch": 0.5056,
      "grad_norm": 2.046875,
      "learning_rate": 0.0001490653266331658,
      "loss": 2.0173,
      "step": 101120
    },
    {
      "epoch": 0.50565,
      "grad_norm": 1.921875,
      "learning_rate": 0.0001490502512562814,
      "loss": 1.9824,
      "step": 101130
    },
    {
      "epoch": 0.5057,
      "grad_norm": 1.765625,
      "learning_rate": 0.00014903517587939698,
      "loss": 2.0331,
      "step": 101140
    },
    {
      "epoch": 0.50575,
      "grad_norm": 2.21875,
      "learning_rate": 0.00014902010050251257,
      "loss": 2.0081,
      "step": 101150
    },
    {
      "epoch": 0.5058,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00014900502512562813,
      "loss": 2.0302,
      "step": 101160
    },
    {
      "epoch": 0.50585,
      "grad_norm": 1.8203125,
      "learning_rate": 0.00014898994974874371,
      "loss": 2.0202,
      "step": 101170
    },
    {
      "epoch": 0.5059,
      "grad_norm": 2.125,
      "learning_rate": 0.00014897487437185927,
      "loss": 2.0086,
      "step": 101180
    },
    {
      "epoch": 0.50595,
      "grad_norm": 1.96875,
      "learning_rate": 0.00014895979899497486,
      "loss": 2.0516,
      "step": 101190
    },
    {
      "epoch": 0.506,
      "grad_norm": 1.9453125,
      "learning_rate": 0.00014894472361809044,
      "loss": 2.0198,
      "step": 101200
    },
    {
      "epoch": 0.50605,
      "grad_norm": 1.8984375,
      "learning_rate": 0.000148929648241206,
      "loss": 2.068,
      "step": 101210
    },
    {
      "epoch": 0.5061,
      "grad_norm": 1.90625,
      "learning_rate": 0.0001489145728643216,
      "loss": 1.9807,
      "step": 101220
    },
    {
      "epoch": 0.50615,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00014889949748743718,
      "loss": 2.0408,
      "step": 101230
    },
    {
      "epoch": 0.5062,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00014888442211055274,
      "loss": 2.0004,
      "step": 101240
    },
    {
      "epoch": 0.50625,
      "grad_norm": 1.8515625,
      "learning_rate": 0.00014886934673366832,
      "loss": 2.0351,
      "step": 101250
    },
    {
      "epoch": 0.5063,
      "grad_norm": 2.203125,
      "learning_rate": 0.0001488542713567839,
      "loss": 2.0074,
      "step": 101260
    },
    {
      "epoch": 0.50635,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001488391959798995,
      "loss": 2.0361,
      "step": 101270
    },
    {
      "epoch": 0.5064,
      "grad_norm": 1.8984375,
      "learning_rate": 0.00014882412060301508,
      "loss": 2.0219,
      "step": 101280
    },
    {
      "epoch": 0.50645,
      "grad_norm": 2.0,
      "learning_rate": 0.00014880904522613064,
      "loss": 2.0133,
      "step": 101290
    },
    {
      "epoch": 0.5065,
      "grad_norm": 1.796875,
      "learning_rate": 0.00014879396984924622,
      "loss": 1.9861,
      "step": 101300
    },
    {
      "epoch": 0.50655,
      "grad_norm": 1.9375,
      "learning_rate": 0.0001487788944723618,
      "loss": 2.0125,
      "step": 101310
    },
    {
      "epoch": 0.5066,
      "grad_norm": 1.7265625,
      "learning_rate": 0.00014876381909547737,
      "loss": 2.0377,
      "step": 101320
    },
    {
      "epoch": 0.50665,
      "grad_norm": 2.0,
      "learning_rate": 0.00014874874371859296,
      "loss": 2.0377,
      "step": 101330
    },
    {
      "epoch": 0.5067,
      "grad_norm": 1.921875,
      "learning_rate": 0.00014873366834170851,
      "loss": 2.0038,
      "step": 101340
    },
    {
      "epoch": 0.50675,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001487185929648241,
      "loss": 2.0242,
      "step": 101350
    },
    {
      "epoch": 0.5068,
      "grad_norm": 1.8984375,
      "learning_rate": 0.0001487035175879397,
      "loss": 2.0106,
      "step": 101360
    },
    {
      "epoch": 0.50685,
      "grad_norm": 1.8125,
      "learning_rate": 0.00014868844221105525,
      "loss": 2.0362,
      "step": 101370
    },
    {
      "epoch": 0.5069,
      "grad_norm": 2.078125,
      "learning_rate": 0.00014867336683417083,
      "loss": 2.0324,
      "step": 101380
    },
    {
      "epoch": 0.50695,
      "grad_norm": 1.921875,
      "learning_rate": 0.00014865829145728642,
      "loss": 2.0529,
      "step": 101390
    },
    {
      "epoch": 0.507,
      "grad_norm": 1.9765625,
      "learning_rate": 0.000148643216080402,
      "loss": 2.0232,
      "step": 101400
    },
    {
      "epoch": 0.50705,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001486281407035176,
      "loss": 2.0135,
      "step": 101410
    },
    {
      "epoch": 0.5071,
      "grad_norm": 1.875,
      "learning_rate": 0.00014861306532663315,
      "loss": 1.9847,
      "step": 101420
    },
    {
      "epoch": 0.50715,
      "grad_norm": 2.046875,
      "learning_rate": 0.00014859798994974874,
      "loss": 2.0022,
      "step": 101430
    },
    {
      "epoch": 0.5072,
      "grad_norm": 2.09375,
      "learning_rate": 0.00014858291457286432,
      "loss": 2.0359,
      "step": 101440
    },
    {
      "epoch": 0.50725,
      "grad_norm": 2.0,
      "learning_rate": 0.00014856783919597988,
      "loss": 1.9862,
      "step": 101450
    },
    {
      "epoch": 0.5073,
      "grad_norm": 2.15625,
      "learning_rate": 0.00014855276381909547,
      "loss": 2.0993,
      "step": 101460
    },
    {
      "epoch": 0.50735,
      "grad_norm": 1.84375,
      "learning_rate": 0.00014853768844221105,
      "loss": 1.9999,
      "step": 101470
    },
    {
      "epoch": 0.5074,
      "grad_norm": 2.21875,
      "learning_rate": 0.0001485226130653266,
      "loss": 2.0576,
      "step": 101480
    },
    {
      "epoch": 0.50745,
      "grad_norm": 1.96875,
      "learning_rate": 0.0001485075376884422,
      "loss": 2.0463,
      "step": 101490
    },
    {
      "epoch": 0.5075,
      "grad_norm": 2.046875,
      "learning_rate": 0.00014849246231155776,
      "loss": 1.9991,
      "step": 101500
    },
    {
      "epoch": 0.50755,
      "grad_norm": 2.015625,
      "learning_rate": 0.00014847738693467334,
      "loss": 2.0225,
      "step": 101510
    },
    {
      "epoch": 0.5076,
      "grad_norm": 2.0,
      "learning_rate": 0.00014846231155778893,
      "loss": 1.9933,
      "step": 101520
    },
    {
      "epoch": 0.50765,
      "grad_norm": 2.03125,
      "learning_rate": 0.00014844723618090452,
      "loss": 2.068,
      "step": 101530
    },
    {
      "epoch": 0.5077,
      "grad_norm": 2.140625,
      "learning_rate": 0.0001484321608040201,
      "loss": 2.0123,
      "step": 101540
    },
    {
      "epoch": 0.50775,
      "grad_norm": 2.046875,
      "learning_rate": 0.00014841708542713566,
      "loss": 2.0615,
      "step": 101550
    },
    {
      "epoch": 0.5078,
      "grad_norm": 1.78125,
      "learning_rate": 0.00014840201005025125,
      "loss": 2.0239,
      "step": 101560
    },
    {
      "epoch": 0.50785,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00014838693467336683,
      "loss": 2.0751,
      "step": 101570
    },
    {
      "epoch": 0.5079,
      "grad_norm": 2.0625,
      "learning_rate": 0.0001483718592964824,
      "loss": 2.0723,
      "step": 101580
    },
    {
      "epoch": 0.50795,
      "grad_norm": 2.265625,
      "learning_rate": 0.00014835678391959798,
      "loss": 1.9995,
      "step": 101590
    },
    {
      "epoch": 0.508,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00014834170854271356,
      "loss": 1.9753,
      "step": 101600
    },
    {
      "epoch": 0.50805,
      "grad_norm": 2.046875,
      "learning_rate": 0.00014832663316582912,
      "loss": 1.977,
      "step": 101610
    },
    {
      "epoch": 0.5081,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001483115577889447,
      "loss": 2.0894,
      "step": 101620
    },
    {
      "epoch": 0.50815,
      "grad_norm": 1.9140625,
      "learning_rate": 0.0001482964824120603,
      "loss": 1.9872,
      "step": 101630
    },
    {
      "epoch": 0.5082,
      "grad_norm": 2.03125,
      "learning_rate": 0.00014828140703517585,
      "loss": 2.0307,
      "step": 101640
    },
    {
      "epoch": 0.50825,
      "grad_norm": 1.7109375,
      "learning_rate": 0.00014826633165829144,
      "loss": 2.0058,
      "step": 101650
    },
    {
      "epoch": 0.5083,
      "grad_norm": 1.8828125,
      "learning_rate": 0.00014825125628140703,
      "loss": 2.0163,
      "step": 101660
    },
    {
      "epoch": 0.50835,
      "grad_norm": 1.7734375,
      "learning_rate": 0.0001482361809045226,
      "loss": 2.0325,
      "step": 101670
    },
    {
      "epoch": 0.5084,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00014822110552763817,
      "loss": 2.0308,
      "step": 101680
    },
    {
      "epoch": 0.50845,
      "grad_norm": 1.9921875,
      "learning_rate": 0.00014820603015075376,
      "loss": 2.0286,
      "step": 101690
    },
    {
      "epoch": 0.5085,
      "grad_norm": 2.015625,
      "learning_rate": 0.00014819095477386934,
      "loss": 2.0159,
      "step": 101700
    },
    {
      "epoch": 0.50855,
      "grad_norm": 1.890625,
      "learning_rate": 0.0001481758793969849,
      "loss": 2.04,
      "step": 101710
    },
    {
      "epoch": 0.5086,
      "grad_norm": 1.9296875,
      "learning_rate": 0.0001481608040201005,
      "loss": 2.0119,
      "step": 101720
    },
    {
      "epoch": 0.50865,
      "grad_norm": 2.0,
      "learning_rate": 0.00014814572864321607,
      "loss": 1.9724,
      "step": 101730
    },
    {
      "epoch": 0.5087,
      "grad_norm": 2.078125,
      "learning_rate": 0.00014813065326633163,
      "loss": 2.0856,
      "step": 101740
    },
    {
      "epoch": 0.50875,
      "grad_norm": 1.9375,
      "learning_rate": 0.00014811557788944722,
      "loss": 2.027,
      "step": 101750
    },
    {
      "epoch": 0.5088,
      "grad_norm": 2.015625,
      "learning_rate": 0.0001481005025125628,
      "loss": 2.0297,
      "step": 101760
    },
    {
      "epoch": 0.50885,
      "grad_norm": 1.9375,
      "learning_rate": 0.00014808542713567836,
      "loss": 2.0425,
      "step": 101770
    },
    {
      "epoch": 0.5089,
      "grad_norm": 2.40625,
      "learning_rate": 0.00014807035175879395,
      "loss": 2.0579,
      "step": 101780
    },
    {
      "epoch": 0.50895,
      "grad_norm": 1.9140625,
      "learning_rate": 0.00014805527638190954,
      "loss": 1.9863,
      "step": 101790
    },
    {
      "epoch": 0.509,
      "grad_norm": 2.0625,
      "learning_rate": 0.00014804020100502512,
      "loss": 1.9923,
      "step": 101800
    },
    {
      "epoch": 0.50905,
      "grad_norm": 2.109375,
      "learning_rate": 0.00014802512562814068,
      "loss": 2.0216,
      "step": 101810
    },
    {
      "epoch": 0.5091,
      "grad_norm": 2.140625,
      "learning_rate": 0.00014801005025125627,
      "loss": 2.0225,
      "step": 101820
    },
    {
      "epoch": 0.50915,
      "grad_norm": 1.921875,
      "learning_rate": 0.00014799497487437185,
      "loss": 1.9862,
      "step": 101830
    },
    {
      "epoch": 0.5092,
      "grad_norm": 1.984375,
      "learning_rate": 0.00014797989949748744,
      "loss": 1.9726,
      "step": 101840
    },
    {
      "epoch": 0.50925,
      "grad_norm": 1.8359375,
      "learning_rate": 0.000147964824120603,
      "loss": 2.0245,
      "step": 101850
    },
    {
      "epoch": 0.5093,
      "grad_norm": 1.890625,
      "learning_rate": 0.00014794974874371859,
      "loss": 2.0225,
      "step": 101860
    },
    {
      "epoch": 0.50935,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00014793467336683414,
      "loss": 2.0797,
      "step": 101870
    },
    {
      "epoch": 0.5094,
      "grad_norm": 1.9765625,
      "learning_rate": 0.00014791959798994973,
      "loss": 2.0775,
      "step": 101880
    },
    {
      "epoch": 0.50945,
      "grad_norm": 2.03125,
      "learning_rate": 0.00014790452261306532,
      "loss": 2.0884,
      "step": 101890
    },
    {
      "epoch": 0.5095,
      "grad_norm": 1.71875,
      "learning_rate": 0.00014788944723618088,
      "loss": 2.0254,
      "step": 101900
    },
    {
      "epoch": 0.50955,
      "grad_norm": 1.90625,
      "learning_rate": 0.00014787437185929646,
      "loss": 1.9893,
      "step": 101910
    },
    {
      "epoch": 0.5096,
      "grad_norm": 1.9296875,
      "learning_rate": 0.00014785929648241205,
      "loss": 2.0477,
      "step": 101920
    },
    {
      "epoch": 0.50965,
      "grad_norm": 2.125,
      "learning_rate": 0.00014784422110552763,
      "loss": 2.0333,
      "step": 101930
    },
    {
      "epoch": 0.5097,
      "grad_norm": 1.828125,
      "learning_rate": 0.0001478291457286432,
      "loss": 2.009,
      "step": 101940
    },
    {
      "epoch": 0.50975,
      "grad_norm": 2.046875,
      "learning_rate": 0.00014781407035175878,
      "loss": 2.0322,
      "step": 101950
    },
    {
      "epoch": 0.5098,
      "grad_norm": 2.03125,
      "learning_rate": 0.00014779899497487437,
      "loss": 1.9683,
      "step": 101960
    },
    {
      "epoch": 0.50985,
      "grad_norm": 1.828125,
      "learning_rate": 0.00014778391959798995,
      "loss": 2.0255,
      "step": 101970
    },
    {
      "epoch": 0.5099,
      "grad_norm": 2.09375,
      "learning_rate": 0.0001477688442211055,
      "loss": 2.016,
      "step": 101980
    },
    {
      "epoch": 0.50995,
      "grad_norm": 1.8515625,
      "learning_rate": 0.0001477537688442211,
      "loss": 2.0768,
      "step": 101990
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.109375,
      "learning_rate": 0.00014773869346733668,
      "loss": 1.9938,
      "step": 102000
    },
    {
      "epoch": 0.51,
      "eval_loss": 2.0225799083709717,
      "eval_runtime": 90.2278,
      "eval_samples_per_second": 27.708,
      "eval_steps_per_second": 0.443,
      "step": 102000
    }
  ],
  "logging_steps": 10,
  "max_steps": 200000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.471196266234852e+19,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}