{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.99,
  "eval_steps": 2000,
  "global_step": 198000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5e-05,
      "grad_norm": 40.25,
      "learning_rate": 3e-05,
      "loss": 11.1394,
      "step": 10
    },
    {
      "epoch": 0.0001,
      "grad_norm": 10.1875,
      "learning_rate": 6e-05,
      "loss": 10.9977,
      "step": 20
    },
    {
      "epoch": 0.00015,
      "grad_norm": 17.875,
      "learning_rate": 8.999999999999999e-05,
      "loss": 10.7316,
      "step": 30
    },
    {
      "epoch": 0.0002,
      "grad_norm": 11.125,
      "learning_rate": 0.00012,
      "loss": 10.3011,
      "step": 40
    },
    {
      "epoch": 0.00025,
      "grad_norm": 26.5,
      "learning_rate": 0.00015000000000000001,
      "loss": 9.3273,
      "step": 50
    },
    {
      "epoch": 0.0003,
      "grad_norm": 2.21875,
      "learning_rate": 0.00017999999999999998,
      "loss": 8.1906,
      "step": 60
    },
    {
      "epoch": 0.00035,
      "grad_norm": 105.5,
      "learning_rate": 0.00021000000000000004,
      "loss": 7.6939,
      "step": 70
    },
    {
      "epoch": 0.0004,
      "grad_norm": 9.75,
      "learning_rate": 0.00024,
      "loss": 7.7775,
      "step": 80
    },
    {
      "epoch": 0.00045,
      "grad_norm": 1.4375,
      "learning_rate": 0.00027,
      "loss": 7.7105,
      "step": 90
    },
    {
      "epoch": 0.0005,
      "grad_norm": 1.4296875,
      "learning_rate": 0.00030000000000000003,
      "loss": 7.7077,
      "step": 100
    },
    {
      "epoch": 0.00055,
      "grad_norm": 1.765625,
      "learning_rate": 0.00033,
      "loss": 7.6771,
      "step": 110
    },
    {
      "epoch": 0.0006,
      "grad_norm": 1.9609375,
      "learning_rate": 0.00035999999999999997,
      "loss": 7.6258,
      "step": 120
    },
    {
      "epoch": 0.00065,
      "grad_norm": 0.79296875,
      "learning_rate": 0.00039000000000000005,
      "loss": 7.6656,
      "step": 130
    },
    {
      "epoch": 0.0007,
      "grad_norm": 4.0,
      "learning_rate": 0.00042000000000000007,
      "loss": 7.6237,
      "step": 140
    },
    {
      "epoch": 0.00075,
      "grad_norm": 6.96875,
      "learning_rate": 0.00045,
      "loss": 7.6968,
      "step": 150
    },
    {
      "epoch": 0.0008,
      "grad_norm": 4.65625,
      "learning_rate": 0.00048,
      "loss": 7.6275,
      "step": 160
    },
    {
      "epoch": 0.00085,
      "grad_norm": 4.5625,
      "learning_rate": 0.00051,
      "loss": 7.5377,
      "step": 170
    },
    {
      "epoch": 0.0009,
      "grad_norm": 4.15625,
      "learning_rate": 0.00054,
      "loss": 7.49,
      "step": 180
    },
    {
      "epoch": 0.00095,
      "grad_norm": 5.3125,
      "learning_rate": 0.00057,
      "loss": 7.3152,
      "step": 190
    },
    {
      "epoch": 0.001,
      "grad_norm": 12.625,
      "learning_rate": 0.0006000000000000001,
      "loss": 7.2709,
      "step": 200
    },
    {
      "epoch": 0.00105,
      "grad_norm": 3.140625,
      "learning_rate": 0.00063,
      "loss": 7.0626,
      "step": 210
    },
    {
      "epoch": 0.0011,
      "grad_norm": 6.15625,
      "learning_rate": 0.00066,
      "loss": 6.9694,
      "step": 220
    },
    {
      "epoch": 0.00115,
      "grad_norm": 6.34375,
      "learning_rate": 0.0006900000000000001,
      "loss": 6.8454,
      "step": 230
    },
    {
      "epoch": 0.0012,
      "grad_norm": 4.09375,
      "learning_rate": 0.0007199999999999999,
      "loss": 6.6577,
      "step": 240
    },
    {
      "epoch": 0.00125,
      "grad_norm": 5.40625,
      "learning_rate": 0.00075,
      "loss": 6.5198,
      "step": 250
    },
    {
      "epoch": 0.0013,
      "grad_norm": 4.15625,
      "learning_rate": 0.0007800000000000001,
      "loss": 6.3885,
      "step": 260
    },
    {
      "epoch": 0.00135,
      "grad_norm": 2.09375,
      "learning_rate": 0.0008100000000000001,
      "loss": 6.3162,
      "step": 270
    },
    {
      "epoch": 0.0014,
      "grad_norm": 1.6328125,
      "learning_rate": 0.0008400000000000001,
      "loss": 6.2158,
      "step": 280
    },
    {
      "epoch": 0.00145,
      "grad_norm": 2.25,
      "learning_rate": 0.00087,
      "loss": 6.0857,
      "step": 290
    },
    {
      "epoch": 0.0015,
      "grad_norm": 2.484375,
      "learning_rate": 0.0009,
      "loss": 5.9952,
      "step": 300
    },
    {
      "epoch": 0.00155,
      "grad_norm": 1.4453125,
      "learning_rate": 0.00093,
      "loss": 5.9662,
      "step": 310
    },
    {
      "epoch": 0.0016,
      "grad_norm": 2.328125,
      "learning_rate": 0.00096,
      "loss": 5.8449,
      "step": 320
    },
    {
      "epoch": 0.00165,
      "grad_norm": 1.1328125,
      "learning_rate": 0.00099,
      "loss": 5.8188,
      "step": 330
    },
    {
      "epoch": 0.0017,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00102,
      "loss": 5.7833,
      "step": 340
    },
    {
      "epoch": 0.00175,
      "grad_norm": 1.03125,
      "learning_rate": 0.00105,
      "loss": 5.7273,
      "step": 350
    },
    {
      "epoch": 0.0018,
      "grad_norm": 2.125,
      "learning_rate": 0.00108,
      "loss": 5.724,
      "step": 360
    },
    {
      "epoch": 0.00185,
      "grad_norm": 0.98046875,
      "learning_rate": 0.00111,
      "loss": 5.6219,
      "step": 370
    },
    {
      "epoch": 0.0019,
      "grad_norm": 3.34375,
      "learning_rate": 0.00114,
      "loss": 5.5756,
      "step": 380
    },
    {
      "epoch": 0.00195,
      "grad_norm": 3.125,
      "learning_rate": 0.00117,
      "loss": 5.6481,
      "step": 390
    },
    {
      "epoch": 0.002,
      "grad_norm": 1.375,
      "learning_rate": 0.0012000000000000001,
      "loss": 5.4712,
      "step": 400
    },
    {
      "epoch": 0.00205,
      "grad_norm": 2.671875,
      "learning_rate": 0.00123,
      "loss": 5.5402,
      "step": 410
    },
    {
      "epoch": 0.0021,
      "grad_norm": 2.109375,
      "learning_rate": 0.00126,
      "loss": 5.4793,
      "step": 420
    },
    {
      "epoch": 0.00215,
      "grad_norm": 2.109375,
      "learning_rate": 0.00129,
      "loss": 5.3914,
      "step": 430
    },
    {
      "epoch": 0.0022,
      "grad_norm": 1.4375,
      "learning_rate": 0.00132,
      "loss": 5.3984,
      "step": 440
    },
    {
      "epoch": 0.00225,
      "grad_norm": 1.703125,
      "learning_rate": 0.00135,
      "loss": 5.2885,
      "step": 450
    },
    {
      "epoch": 0.0023,
      "grad_norm": 1.5,
      "learning_rate": 0.0013800000000000002,
      "loss": 5.3134,
      "step": 460
    },
    {
      "epoch": 0.00235,
      "grad_norm": 1.703125,
      "learning_rate": 0.00141,
      "loss": 5.2788,
      "step": 470
    },
    {
      "epoch": 0.0024,
      "grad_norm": 1.2421875,
      "learning_rate": 0.0014399999999999999,
      "loss": 5.2627,
      "step": 480
    },
    {
      "epoch": 0.00245,
      "grad_norm": 1.640625,
      "learning_rate": 0.00147,
      "loss": 5.2986,
      "step": 490
    },
    {
      "epoch": 0.0025,
      "grad_norm": 1.203125,
      "learning_rate": 0.0015,
      "loss": 5.2141,
      "step": 500
    },
    {
      "epoch": 0.00255,
      "grad_norm": 2.171875,
      "learning_rate": 0.0015300000000000001,
      "loss": 5.1679,
      "step": 510
    },
    {
      "epoch": 0.0026,
      "grad_norm": 4.90625,
      "learning_rate": 0.0015600000000000002,
      "loss": 5.1572,
      "step": 520
    },
    {
      "epoch": 0.00265,
      "grad_norm": 1.796875,
      "learning_rate": 0.00159,
      "loss": 5.1829,
      "step": 530
    },
    {
      "epoch": 0.0027,
      "grad_norm": 1.4921875,
      "learning_rate": 0.0016200000000000001,
      "loss": 5.1789,
      "step": 540
    },
    {
      "epoch": 0.00275,
      "grad_norm": 3.265625,
      "learning_rate": 0.0016500000000000002,
      "loss": 5.1366,
      "step": 550
    },
    {
      "epoch": 0.0028,
      "grad_norm": 1.421875,
      "learning_rate": 0.0016800000000000003,
      "loss": 5.0894,
      "step": 560
    },
    {
      "epoch": 0.00285,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00171,
      "loss": 5.0709,
      "step": 570
    },
    {
      "epoch": 0.0029,
      "grad_norm": 1.734375,
      "learning_rate": 0.00174,
      "loss": 5.039,
      "step": 580
    },
    {
      "epoch": 0.00295,
      "grad_norm": 1.8046875,
      "learning_rate": 0.0017699999999999999,
      "loss": 5.0598,
      "step": 590
    },
    {
      "epoch": 0.003,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0018,
      "loss": 5.0494,
      "step": 600
    },
    {
      "epoch": 0.00305,
      "grad_norm": 2.453125,
      "learning_rate": 0.00183,
      "loss": 4.9924,
      "step": 610
    },
    {
      "epoch": 0.0031,
      "grad_norm": 1.484375,
      "learning_rate": 0.00186,
      "loss": 4.998,
      "step": 620
    },
    {
      "epoch": 0.00315,
      "grad_norm": 0.859375,
      "learning_rate": 0.00189,
      "loss": 4.9414,
      "step": 630
    },
    {
      "epoch": 0.0032,
      "grad_norm": 0.9765625,
      "learning_rate": 0.00192,
      "loss": 4.9932,
      "step": 640
    },
    {
      "epoch": 0.00325,
      "grad_norm": 0.87109375,
      "learning_rate": 0.0019500000000000001,
      "loss": 4.9092,
      "step": 650
    },
    {
      "epoch": 0.0033,
      "grad_norm": 1.046875,
      "learning_rate": 0.00198,
      "loss": 4.916,
      "step": 660
    },
    {
      "epoch": 0.00335,
      "grad_norm": 0.90234375,
      "learning_rate": 0.00201,
      "loss": 4.856,
      "step": 670
    },
    {
      "epoch": 0.0034,
      "grad_norm": 1.359375,
      "learning_rate": 0.00204,
      "loss": 4.8744,
      "step": 680
    },
    {
      "epoch": 0.00345,
      "grad_norm": 1.5703125,
      "learning_rate": 0.00207,
      "loss": 4.9353,
      "step": 690
    },
    {
      "epoch": 0.0035,
      "grad_norm": 0.83203125,
      "learning_rate": 0.0021,
      "loss": 4.8405,
      "step": 700
    },
    {
      "epoch": 0.00355,
      "grad_norm": 1.4921875,
      "learning_rate": 0.00213,
      "loss": 4.9276,
      "step": 710
    },
    {
      "epoch": 0.0036,
      "grad_norm": 1.2421875,
      "learning_rate": 0.00216,
      "loss": 4.7808,
      "step": 720
    },
    {
      "epoch": 0.00365,
      "grad_norm": 1.3671875,
      "learning_rate": 0.00219,
      "loss": 4.8553,
      "step": 730
    },
    {
      "epoch": 0.0037,
      "grad_norm": 1.1640625,
      "learning_rate": 0.00222,
      "loss": 4.8473,
      "step": 740
    },
    {
      "epoch": 0.00375,
      "grad_norm": 1.9609375,
      "learning_rate": 0.0022500000000000003,
      "loss": 4.7304,
      "step": 750
    },
    {
      "epoch": 0.0038,
      "grad_norm": 0.88671875,
      "learning_rate": 0.00228,
      "loss": 4.8073,
      "step": 760
    },
    {
      "epoch": 0.00385,
      "grad_norm": 1.65625,
      "learning_rate": 0.00231,
      "loss": 4.7911,
      "step": 770
    },
    {
      "epoch": 0.0039,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00234,
      "loss": 4.7424,
      "step": 780
    },
    {
      "epoch": 0.00395,
      "grad_norm": 1.6796875,
      "learning_rate": 0.00237,
      "loss": 4.7551,
      "step": 790
    },
    {
      "epoch": 0.004,
      "grad_norm": 0.90234375,
      "learning_rate": 0.0024000000000000002,
      "loss": 4.709,
      "step": 800
    },
    {
      "epoch": 0.00405,
      "grad_norm": 0.7734375,
      "learning_rate": 0.0024300000000000003,
      "loss": 4.6938,
      "step": 810
    },
    {
      "epoch": 0.0041,
      "grad_norm": 0.83984375,
      "learning_rate": 0.00246,
      "loss": 4.689,
      "step": 820
    },
    {
      "epoch": 0.00415,
      "grad_norm": 0.96484375,
      "learning_rate": 0.00249,
      "loss": 4.6335,
      "step": 830
    },
    {
      "epoch": 0.0042,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00252,
      "loss": 4.7347,
      "step": 840
    },
    {
      "epoch": 0.00425,
      "grad_norm": 0.921875,
      "learning_rate": 0.00255,
      "loss": 4.6952,
      "step": 850
    },
    {
      "epoch": 0.0043,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00258,
      "loss": 4.6011,
      "step": 860
    },
    {
      "epoch": 0.00435,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00261,
      "loss": 4.6277,
      "step": 870
    },
    {
      "epoch": 0.0044,
      "grad_norm": 0.6875,
      "learning_rate": 0.00264,
      "loss": 4.6032,
      "step": 880
    },
    {
      "epoch": 0.00445,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00267,
      "loss": 4.5906,
      "step": 890
    },
    {
      "epoch": 0.0045,
      "grad_norm": 0.8203125,
      "learning_rate": 0.0027,
      "loss": 4.5917,
      "step": 900
    },
    {
      "epoch": 0.00455,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0027300000000000002,
      "loss": 4.5631,
      "step": 910
    },
    {
      "epoch": 0.0046,
      "grad_norm": 1.0390625,
      "learning_rate": 0.0027600000000000003,
      "loss": 4.5513,
      "step": 920
    },
    {
      "epoch": 0.00465,
      "grad_norm": 0.8515625,
      "learning_rate": 0.0027900000000000004,
      "loss": 4.5553,
      "step": 930
    },
    {
      "epoch": 0.0047,
      "grad_norm": 0.8359375,
      "learning_rate": 0.00282,
      "loss": 4.5521,
      "step": 940
    },
    {
      "epoch": 0.00475,
      "grad_norm": 1.234375,
      "learning_rate": 0.00285,
      "loss": 4.5279,
      "step": 950
    },
    {
      "epoch": 0.0048,
      "grad_norm": 0.95703125,
      "learning_rate": 0.0028799999999999997,
      "loss": 4.4868,
      "step": 960
    },
    {
      "epoch": 0.00485,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00291,
      "loss": 4.5141,
      "step": 970
    },
    {
      "epoch": 0.0049,
      "grad_norm": 0.65625,
      "learning_rate": 0.00294,
      "loss": 4.4835,
      "step": 980
    },
    {
      "epoch": 0.00495,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00297,
      "loss": 4.4969,
      "step": 990
    },
    {
      "epoch": 0.005,
      "grad_norm": 0.8984375,
      "learning_rate": 0.003,
      "loss": 4.4266,
      "step": 1000
    },
    {
      "epoch": 0.00505,
      "grad_norm": 0.82421875,
      "learning_rate": 0.002999849246231156,
      "loss": 4.4552,
      "step": 1010
    },
    {
      "epoch": 0.0051,
      "grad_norm": 0.9453125,
      "learning_rate": 0.0029996984924623117,
      "loss": 4.4244,
      "step": 1020
    },
    {
      "epoch": 0.00515,
      "grad_norm": 0.87109375,
      "learning_rate": 0.0029995477386934675,
      "loss": 4.4256,
      "step": 1030
    },
    {
      "epoch": 0.0052,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0029993969849246233,
      "loss": 4.4478,
      "step": 1040
    },
    {
      "epoch": 0.00525,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002999246231155779,
      "loss": 4.3761,
      "step": 1050
    },
    {
      "epoch": 0.0053,
      "grad_norm": 0.6328125,
      "learning_rate": 0.002999095477386935,
      "loss": 4.4148,
      "step": 1060
    },
    {
      "epoch": 0.00535,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0029989447236180903,
      "loss": 4.3645,
      "step": 1070
    },
    {
      "epoch": 0.0054,
      "grad_norm": 0.8515625,
      "learning_rate": 0.002998793969849246,
      "loss": 4.3658,
      "step": 1080
    },
    {
      "epoch": 0.00545,
      "grad_norm": 0.578125,
      "learning_rate": 0.0029986432160804023,
      "loss": 4.3648,
      "step": 1090
    },
    {
      "epoch": 0.0055,
      "grad_norm": 0.796875,
      "learning_rate": 0.0029984924623115577,
      "loss": 4.2646,
      "step": 1100
    },
    {
      "epoch": 0.00555,
      "grad_norm": 0.93359375,
      "learning_rate": 0.0029983417085427135,
      "loss": 4.2943,
      "step": 1110
    },
    {
      "epoch": 0.0056,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0029981909547738693,
      "loss": 4.2308,
      "step": 1120
    },
    {
      "epoch": 0.00565,
      "grad_norm": 0.65625,
      "learning_rate": 0.002998040201005025,
      "loss": 4.278,
      "step": 1130
    },
    {
      "epoch": 0.0057,
      "grad_norm": 0.9375,
      "learning_rate": 0.002997889447236181,
      "loss": 4.2114,
      "step": 1140
    },
    {
      "epoch": 0.00575,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0029977386934673367,
      "loss": 4.2426,
      "step": 1150
    },
    {
      "epoch": 0.0058,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0029975879396984925,
      "loss": 4.2733,
      "step": 1160
    },
    {
      "epoch": 0.00585,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0029974371859296483,
      "loss": 4.2083,
      "step": 1170
    },
    {
      "epoch": 0.0059,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002997286432160804,
      "loss": 4.2203,
      "step": 1180
    },
    {
      "epoch": 0.00595,
      "grad_norm": 0.4765625,
      "learning_rate": 0.00299713567839196,
      "loss": 4.1582,
      "step": 1190
    },
    {
      "epoch": 0.006,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0029969849246231158,
      "loss": 4.1757,
      "step": 1200
    },
    {
      "epoch": 0.00605,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0029968341708542716,
      "loss": 4.2141,
      "step": 1210
    },
    {
      "epoch": 0.0061,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0029966834170854274,
      "loss": 4.1366,
      "step": 1220
    },
    {
      "epoch": 0.00615,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0029965326633165828,
      "loss": 4.1204,
      "step": 1230
    },
    {
      "epoch": 0.0062,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0029963819095477386,
      "loss": 4.121,
      "step": 1240
    },
    {
      "epoch": 0.00625,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002996231155778895,
      "loss": 4.1186,
      "step": 1250
    },
    {
      "epoch": 0.0063,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00299608040201005,
      "loss": 4.081,
      "step": 1260
    },
    {
      "epoch": 0.00635,
      "grad_norm": 0.65234375,
      "learning_rate": 0.002995929648241206,
      "loss": 4.0578,
      "step": 1270
    },
    {
      "epoch": 0.0064,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002995778894472362,
      "loss": 4.142,
      "step": 1280
    },
    {
      "epoch": 0.00645,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0029956281407035176,
      "loss": 4.0216,
      "step": 1290
    },
    {
      "epoch": 0.0065,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0029954773869346734,
      "loss": 4.0804,
      "step": 1300
    },
    {
      "epoch": 0.00655,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002995326633165829,
      "loss": 4.0054,
      "step": 1310
    },
    {
      "epoch": 0.0066,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002995175879396985,
      "loss": 4.0021,
      "step": 1320
    },
    {
      "epoch": 0.00665,
      "grad_norm": 0.609375,
      "learning_rate": 0.002995025125628141,
      "loss": 4.0147,
      "step": 1330
    },
    {
      "epoch": 0.0067,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0029948743718592966,
      "loss": 3.9667,
      "step": 1340
    },
    {
      "epoch": 0.00675,
      "grad_norm": 0.5625,
      "learning_rate": 0.0029947236180904524,
      "loss": 4.0127,
      "step": 1350
    },
    {
      "epoch": 0.0068,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0029945728643216082,
      "loss": 3.9632,
      "step": 1360
    },
    {
      "epoch": 0.00685,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002994422110552764,
      "loss": 4.0206,
      "step": 1370
    },
    {
      "epoch": 0.0069,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00299427135678392,
      "loss": 3.9734,
      "step": 1380
    },
    {
      "epoch": 0.00695,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0029941206030150752,
      "loss": 3.9019,
      "step": 1390
    },
    {
      "epoch": 0.007,
      "grad_norm": 0.640625,
      "learning_rate": 0.002993969849246231,
      "loss": 3.9362,
      "step": 1400
    },
    {
      "epoch": 0.00705,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0029938190954773873,
      "loss": 3.8937,
      "step": 1410
    },
    {
      "epoch": 0.0071,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0029936683417085426,
      "loss": 3.97,
      "step": 1420
    },
    {
      "epoch": 0.00715,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0029935175879396985,
      "loss": 3.8703,
      "step": 1430
    },
    {
      "epoch": 0.0072,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0029933668341708543,
      "loss": 3.8832,
      "step": 1440
    },
    {
      "epoch": 0.00725,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00299321608040201,
      "loss": 3.9191,
      "step": 1450
    },
    {
      "epoch": 0.0073,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002993065326633166,
      "loss": 3.8235,
      "step": 1460
    },
    {
      "epoch": 0.00735,
      "grad_norm": 0.75,
      "learning_rate": 0.0029929145728643217,
      "loss": 3.8824,
      "step": 1470
    },
    {
      "epoch": 0.0074,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0029927638190954775,
      "loss": 3.8155,
      "step": 1480
    },
    {
      "epoch": 0.00745,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0029926130653266333,
      "loss": 3.9106,
      "step": 1490
    },
    {
      "epoch": 0.0075,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002992462311557789,
      "loss": 3.8117,
      "step": 1500
    },
    {
      "epoch": 0.00755,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002992311557788945,
      "loss": 3.8342,
      "step": 1510
    },
    {
      "epoch": 0.0076,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0029921608040201003,
      "loss": 3.8455,
      "step": 1520
    },
    {
      "epoch": 0.00765,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0029920100502512565,
      "loss": 3.7953,
      "step": 1530
    },
    {
      "epoch": 0.0077,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0029918592964824123,
      "loss": 3.8156,
      "step": 1540
    },
    {
      "epoch": 0.00775,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0029917085427135677,
      "loss": 3.8096,
      "step": 1550
    },
    {
      "epoch": 0.0078,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0029915577889447235,
      "loss": 3.7956,
      "step": 1560
    },
    {
      "epoch": 0.00785,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0029914070351758793,
      "loss": 3.8082,
      "step": 1570
    },
    {
      "epoch": 0.0079,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002991256281407035,
      "loss": 3.8187,
      "step": 1580
    },
    {
      "epoch": 0.00795,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002991105527638191,
      "loss": 3.7985,
      "step": 1590
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.4375,
      "learning_rate": 0.0029909547738693467,
      "loss": 3.7191,
      "step": 1600
    },
    {
      "epoch": 0.00805,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0029908040201005025,
      "loss": 3.757,
      "step": 1610
    },
    {
      "epoch": 0.0081,
      "grad_norm": 0.453125,
      "learning_rate": 0.0029906532663316584,
      "loss": 3.729,
      "step": 1620
    },
    {
      "epoch": 0.00815,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002990502512562814,
      "loss": 3.7104,
      "step": 1630
    },
    {
      "epoch": 0.0082,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00299035175879397,
      "loss": 3.7641,
      "step": 1640
    },
    {
      "epoch": 0.00825,
      "grad_norm": 0.46875,
      "learning_rate": 0.0029902010050251258,
      "loss": 3.6872,
      "step": 1650
    },
    {
      "epoch": 0.0083,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0029900502512562816,
      "loss": 3.7552,
      "step": 1660
    },
    {
      "epoch": 0.00835,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0029898994974874374,
      "loss": 3.6998,
      "step": 1670
    },
    {
      "epoch": 0.0084,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0029897487437185928,
      "loss": 3.6539,
      "step": 1680
    },
    {
      "epoch": 0.00845,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002989597989949749,
      "loss": 3.6722,
      "step": 1690
    },
    {
      "epoch": 0.0085,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002989447236180905,
      "loss": 3.655,
      "step": 1700
    },
    {
      "epoch": 0.00855,
      "grad_norm": 0.421875,
      "learning_rate": 0.00298929648241206,
      "loss": 3.6805,
      "step": 1710
    },
    {
      "epoch": 0.0086,
      "grad_norm": 0.421875,
      "learning_rate": 0.002989145728643216,
      "loss": 3.621,
      "step": 1720
    },
    {
      "epoch": 0.00865,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002988994974874372,
      "loss": 3.6781,
      "step": 1730
    },
    {
      "epoch": 0.0087,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0029888442211055276,
      "loss": 3.6426,
      "step": 1740
    },
    {
      "epoch": 0.00875,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0029886934673366834,
      "loss": 3.6454,
      "step": 1750
    },
    {
      "epoch": 0.0088,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002988542713567839,
      "loss": 3.6876,
      "step": 1760
    },
    {
      "epoch": 0.00885,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002988391959798995,
      "loss": 3.6445,
      "step": 1770
    },
    {
      "epoch": 0.0089,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002988241206030151,
      "loss": 3.665,
      "step": 1780
    },
    {
      "epoch": 0.00895,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0029880904522613066,
      "loss": 3.6371,
      "step": 1790
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0029879396984924624,
      "loss": 3.6539,
      "step": 1800
    },
    {
      "epoch": 0.00905,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0029877889447236182,
      "loss": 3.6585,
      "step": 1810
    },
    {
      "epoch": 0.0091,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002987638190954774,
      "loss": 3.6083,
      "step": 1820
    },
    {
      "epoch": 0.00915,
      "grad_norm": 0.482421875,
      "learning_rate": 0.00298748743718593,
      "loss": 3.6701,
      "step": 1830
    },
    {
      "epoch": 0.0092,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0029873366834170852,
      "loss": 3.5761,
      "step": 1840
    },
    {
      "epoch": 0.00925,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0029871859296482415,
      "loss": 3.6609,
      "step": 1850
    },
    {
      "epoch": 0.0093,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0029870351758793973,
      "loss": 3.5931,
      "step": 1860
    },
    {
      "epoch": 0.00935,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0029868844221105527,
      "loss": 3.6157,
      "step": 1870
    },
    {
      "epoch": 0.0094,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0029867336683417085,
      "loss": 3.6278,
      "step": 1880
    },
    {
      "epoch": 0.00945,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0029865829145728643,
      "loss": 3.5502,
      "step": 1890
    },
    {
      "epoch": 0.0095,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00298643216080402,
      "loss": 3.6043,
      "step": 1900
    },
    {
      "epoch": 0.00955,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002986281407035176,
      "loss": 3.5331,
      "step": 1910
    },
    {
      "epoch": 0.0096,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0029861306532663317,
      "loss": 3.6151,
      "step": 1920
    },
    {
      "epoch": 0.00965,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0029859798994974875,
      "loss": 3.627,
      "step": 1930
    },
    {
      "epoch": 0.0097,
      "grad_norm": 0.4375,
      "learning_rate": 0.0029858291457286433,
      "loss": 3.5058,
      "step": 1940
    },
    {
      "epoch": 0.00975,
      "grad_norm": 0.53125,
      "learning_rate": 0.002985678391959799,
      "loss": 3.5747,
      "step": 1950
    },
    {
      "epoch": 0.0098,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002985527638190955,
      "loss": 3.5478,
      "step": 1960
    },
    {
      "epoch": 0.00985,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0029853768844221107,
      "loss": 3.5722,
      "step": 1970
    },
    {
      "epoch": 0.0099,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0029852261306532665,
      "loss": 3.5226,
      "step": 1980
    },
    {
      "epoch": 0.00995,
      "grad_norm": 0.40625,
      "learning_rate": 0.0029850753768844223,
      "loss": 3.5596,
      "step": 1990
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0029849246231155777,
      "loss": 3.5177,
      "step": 2000
    },
    {
      "epoch": 0.01,
      "eval_loss": 3.515671491622925,
      "eval_runtime": 51.2323,
      "eval_samples_per_second": 48.797,
      "eval_steps_per_second": 0.098,
      "step": 2000
    },
    {
      "epoch": 0.01005,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002984773869346734,
      "loss": 3.5138,
      "step": 2010
    },
    {
      "epoch": 0.0101,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0029846231155778898,
      "loss": 3.5413,
      "step": 2020
    },
    {
      "epoch": 0.01015,
      "grad_norm": 0.453125,
      "learning_rate": 0.002984472361809045,
      "loss": 3.5336,
      "step": 2030
    },
    {
      "epoch": 0.0102,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002984321608040201,
      "loss": 3.5503,
      "step": 2040
    },
    {
      "epoch": 0.01025,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029841708542713567,
      "loss": 3.5071,
      "step": 2050
    },
    {
      "epoch": 0.0103,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0029840201005025126,
      "loss": 3.5222,
      "step": 2060
    },
    {
      "epoch": 0.01035,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029838693467336684,
      "loss": 3.508,
      "step": 2070
    },
    {
      "epoch": 0.0104,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002983718592964824,
      "loss": 3.463,
      "step": 2080
    },
    {
      "epoch": 0.01045,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00298356783919598,
      "loss": 3.5465,
      "step": 2090
    },
    {
      "epoch": 0.0105,
      "grad_norm": 0.5,
      "learning_rate": 0.0029834170854271358,
      "loss": 3.4485,
      "step": 2100
    },
    {
      "epoch": 0.01055,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0029832663316582916,
      "loss": 3.5339,
      "step": 2110
    },
    {
      "epoch": 0.0106,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0029831155778894474,
      "loss": 3.4573,
      "step": 2120
    },
    {
      "epoch": 0.01065,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002982964824120603,
      "loss": 3.4517,
      "step": 2130
    },
    {
      "epoch": 0.0107,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002982814070351759,
      "loss": 3.4774,
      "step": 2140
    },
    {
      "epoch": 0.01075,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002982663316582915,
      "loss": 3.4726,
      "step": 2150
    },
    {
      "epoch": 0.0108,
      "grad_norm": 0.546875,
      "learning_rate": 0.00298251256281407,
      "loss": 3.4809,
      "step": 2160
    },
    {
      "epoch": 0.01085,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002982361809045226,
      "loss": 3.4626,
      "step": 2170
    },
    {
      "epoch": 0.0109,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0029822110552763822,
      "loss": 3.473,
      "step": 2180
    },
    {
      "epoch": 0.01095,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0029820603015075376,
      "loss": 3.4343,
      "step": 2190
    },
    {
      "epoch": 0.011,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0029819095477386934,
      "loss": 3.4426,
      "step": 2200
    },
    {
      "epoch": 0.01105,
      "grad_norm": 0.40625,
      "learning_rate": 0.0029817587939698492,
      "loss": 3.4476,
      "step": 2210
    },
    {
      "epoch": 0.0111,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002981608040201005,
      "loss": 3.4098,
      "step": 2220
    },
    {
      "epoch": 0.01115,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002981457286432161,
      "loss": 3.4901,
      "step": 2230
    },
    {
      "epoch": 0.0112,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029813065326633166,
      "loss": 3.4266,
      "step": 2240
    },
    {
      "epoch": 0.01125,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029811557788944724,
      "loss": 3.4214,
      "step": 2250
    },
    {
      "epoch": 0.0113,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0029810050251256283,
      "loss": 3.4023,
      "step": 2260
    },
    {
      "epoch": 0.01135,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002980854271356784,
      "loss": 3.4477,
      "step": 2270
    },
    {
      "epoch": 0.0114,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00298070351758794,
      "loss": 3.44,
      "step": 2280
    },
    {
      "epoch": 0.01145,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0029805527638190957,
      "loss": 3.404,
      "step": 2290
    },
    {
      "epoch": 0.0115,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0029804020100502515,
      "loss": 3.4463,
      "step": 2300
    },
    {
      "epoch": 0.01155,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029802512562814073,
      "loss": 3.3801,
      "step": 2310
    },
    {
      "epoch": 0.0116,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0029801005025125627,
      "loss": 3.4239,
      "step": 2320
    },
    {
      "epoch": 0.01165,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029799497487437185,
      "loss": 3.4086,
      "step": 2330
    },
    {
      "epoch": 0.0117,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0029797989949748747,
      "loss": 3.372,
      "step": 2340
    },
    {
      "epoch": 0.01175,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00297964824120603,
      "loss": 3.3379,
      "step": 2350
    },
    {
      "epoch": 0.0118,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002979497487437186,
      "loss": 3.3605,
      "step": 2360
    },
    {
      "epoch": 0.01185,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0029793467336683417,
      "loss": 3.3491,
      "step": 2370
    },
    {
      "epoch": 0.0119,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029791959798994975,
      "loss": 3.3464,
      "step": 2380
    },
    {
      "epoch": 0.01195,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029790452261306533,
      "loss": 3.3371,
      "step": 2390
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002978894472361809,
      "loss": 3.3567,
      "step": 2400
    },
    {
      "epoch": 0.01205,
      "grad_norm": 0.421875,
      "learning_rate": 0.002978743718592965,
      "loss": 3.3142,
      "step": 2410
    },
    {
      "epoch": 0.0121,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029785929648241207,
      "loss": 3.3574,
      "step": 2420
    },
    {
      "epoch": 0.01215,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0029784422110552765,
      "loss": 3.3536,
      "step": 2430
    },
    {
      "epoch": 0.0122,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029782914572864323,
      "loss": 3.3956,
      "step": 2440
    },
    {
      "epoch": 0.01225,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0029781407035175877,
      "loss": 3.3835,
      "step": 2450
    },
    {
      "epoch": 0.0123,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002977989949748744,
      "loss": 3.3292,
      "step": 2460
    },
    {
      "epoch": 0.01235,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029778391959798998,
      "loss": 3.3224,
      "step": 2470
    },
    {
      "epoch": 0.0124,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002977688442211055,
      "loss": 3.3699,
      "step": 2480
    },
    {
      "epoch": 0.01245,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002977537688442211,
      "loss": 3.2812,
      "step": 2490
    },
    {
      "epoch": 0.0125,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0029773869346733668,
      "loss": 3.3565,
      "step": 2500
    },
    {
      "epoch": 0.01255,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0029772361809045226,
      "loss": 3.3458,
      "step": 2510
    },
    {
      "epoch": 0.0126,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0029770854271356784,
      "loss": 3.2871,
      "step": 2520
    },
    {
      "epoch": 0.01265,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002976934673366834,
      "loss": 3.3464,
      "step": 2530
    },
    {
      "epoch": 0.0127,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00297678391959799,
      "loss": 3.3214,
      "step": 2540
    },
    {
      "epoch": 0.01275,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002976633165829146,
      "loss": 3.3429,
      "step": 2550
    },
    {
      "epoch": 0.0128,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0029764824120603016,
      "loss": 3.3113,
      "step": 2560
    },
    {
      "epoch": 0.01285,
      "grad_norm": 0.5,
      "learning_rate": 0.0029763316582914574,
      "loss": 3.2767,
      "step": 2570
    },
    {
      "epoch": 0.0129,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002976180904522613,
      "loss": 3.3392,
      "step": 2580
    },
    {
      "epoch": 0.01295,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002976030150753769,
      "loss": 3.283,
      "step": 2590
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002975879396984925,
      "loss": 3.3157,
      "step": 2600
    },
    {
      "epoch": 0.01305,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00297572864321608,
      "loss": 3.2728,
      "step": 2610
    },
    {
      "epoch": 0.0131,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0029755778894472364,
      "loss": 3.2965,
      "step": 2620
    },
    {
      "epoch": 0.01315,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0029754271356783922,
      "loss": 3.2742,
      "step": 2630
    },
    {
      "epoch": 0.0132,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0029752763819095476,
      "loss": 3.271,
      "step": 2640
    },
    {
      "epoch": 0.01325,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0029751256281407034,
      "loss": 3.2855,
      "step": 2650
    },
    {
      "epoch": 0.0133,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0029749748743718592,
      "loss": 3.2769,
      "step": 2660
    },
    {
      "epoch": 0.01335,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002974824120603015,
      "loss": 3.3274,
      "step": 2670
    },
    {
      "epoch": 0.0134,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002974673366834171,
      "loss": 3.253,
      "step": 2680
    },
    {
      "epoch": 0.01345,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0029745226130653266,
      "loss": 3.2819,
      "step": 2690
    },
    {
      "epoch": 0.0135,
      "grad_norm": 0.46875,
      "learning_rate": 0.0029743718592964825,
      "loss": 3.2291,
      "step": 2700
    },
    {
      "epoch": 0.01355,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0029742211055276383,
      "loss": 3.2277,
      "step": 2710
    },
    {
      "epoch": 0.0136,
      "grad_norm": 0.453125,
      "learning_rate": 0.002974070351758794,
      "loss": 3.3039,
      "step": 2720
    },
    {
      "epoch": 0.01365,
      "grad_norm": 0.40625,
      "learning_rate": 0.00297391959798995,
      "loss": 3.2172,
      "step": 2730
    },
    {
      "epoch": 0.0137,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0029737688442211057,
      "loss": 3.263,
      "step": 2740
    },
    {
      "epoch": 0.01375,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0029736180904522615,
      "loss": 3.2532,
      "step": 2750
    },
    {
      "epoch": 0.0138,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029734673366834173,
      "loss": 3.2697,
      "step": 2760
    },
    {
      "epoch": 0.01385,
      "grad_norm": 0.40625,
      "learning_rate": 0.0029733165829145727,
      "loss": 3.1869,
      "step": 2770
    },
    {
      "epoch": 0.0139,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002973165829145729,
      "loss": 3.2199,
      "step": 2780
    },
    {
      "epoch": 0.01395,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0029730150753768847,
      "loss": 3.2655,
      "step": 2790
    },
    {
      "epoch": 0.014,
      "grad_norm": 0.419921875,
      "learning_rate": 0.00297286432160804,
      "loss": 3.2784,
      "step": 2800
    },
    {
      "epoch": 0.01405,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002972713567839196,
      "loss": 3.3085,
      "step": 2810
    },
    {
      "epoch": 0.0141,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0029725628140703517,
      "loss": 3.1922,
      "step": 2820
    },
    {
      "epoch": 0.01415,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0029724120603015075,
      "loss": 3.1898,
      "step": 2830
    },
    {
      "epoch": 0.0142,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0029722613065326633,
      "loss": 3.2388,
      "step": 2840
    },
    {
      "epoch": 0.01425,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002972110552763819,
      "loss": 3.2828,
      "step": 2850
    },
    {
      "epoch": 0.0143,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002971959798994975,
      "loss": 3.2339,
      "step": 2860
    },
    {
      "epoch": 0.01435,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029718090452261307,
      "loss": 3.2371,
      "step": 2870
    },
    {
      "epoch": 0.0144,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0029716582914572865,
      "loss": 3.2536,
      "step": 2880
    },
    {
      "epoch": 0.01445,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029715075376884423,
      "loss": 3.2563,
      "step": 2890
    },
    {
      "epoch": 0.0145,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002971356783919598,
      "loss": 3.2679,
      "step": 2900
    },
    {
      "epoch": 0.01455,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002971206030150754,
      "loss": 3.1872,
      "step": 2910
    },
    {
      "epoch": 0.0146,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0029710552763819098,
      "loss": 3.1841,
      "step": 2920
    },
    {
      "epoch": 0.01465,
      "grad_norm": 0.375,
      "learning_rate": 0.002970904522613065,
      "loss": 3.1964,
      "step": 2930
    },
    {
      "epoch": 0.0147,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0029707537688442214,
      "loss": 3.2321,
      "step": 2940
    },
    {
      "epoch": 0.01475,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002970603015075377,
      "loss": 3.2231,
      "step": 2950
    },
    {
      "epoch": 0.0148,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0029704522613065326,
      "loss": 3.2013,
      "step": 2960
    },
    {
      "epoch": 0.01485,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029703015075376884,
      "loss": 3.2388,
      "step": 2970
    },
    {
      "epoch": 0.0149,
      "grad_norm": 0.349609375,
      "learning_rate": 0.002970150753768844,
      "loss": 3.2342,
      "step": 2980
    },
    {
      "epoch": 0.01495,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00297,
      "loss": 3.2093,
      "step": 2990
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002969849246231156,
      "loss": 3.2399,
      "step": 3000
    },
    {
      "epoch": 0.01505,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0029696984924623116,
      "loss": 3.174,
      "step": 3010
    },
    {
      "epoch": 0.0151,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029695477386934674,
      "loss": 3.1442,
      "step": 3020
    },
    {
      "epoch": 0.01515,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002969396984924623,
      "loss": 3.1744,
      "step": 3030
    },
    {
      "epoch": 0.0152,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002969246231155779,
      "loss": 3.2046,
      "step": 3040
    },
    {
      "epoch": 0.01525,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002969095477386935,
      "loss": 3.1886,
      "step": 3050
    },
    {
      "epoch": 0.0153,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0029689447236180906,
      "loss": 3.1523,
      "step": 3060
    },
    {
      "epoch": 0.01535,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0029687939698492464,
      "loss": 3.1335,
      "step": 3070
    },
    {
      "epoch": 0.0154,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0029686432160804022,
      "loss": 3.2162,
      "step": 3080
    },
    {
      "epoch": 0.01545,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0029684924623115576,
      "loss": 3.1768,
      "step": 3090
    },
    {
      "epoch": 0.0155,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002968341708542714,
      "loss": 3.1816,
      "step": 3100
    },
    {
      "epoch": 0.01555,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0029681909547738697,
      "loss": 3.1637,
      "step": 3110
    },
    {
      "epoch": 0.0156,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002968040201005025,
      "loss": 3.1651,
      "step": 3120
    },
    {
      "epoch": 0.01565,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002967889447236181,
      "loss": 3.2211,
      "step": 3130
    },
    {
      "epoch": 0.0157,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029677386934673367,
      "loss": 3.1988,
      "step": 3140
    },
    {
      "epoch": 0.01575,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0029675879396984925,
      "loss": 3.1687,
      "step": 3150
    },
    {
      "epoch": 0.0158,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0029674371859296483,
      "loss": 3.1696,
      "step": 3160
    },
    {
      "epoch": 0.01585,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002967286432160804,
      "loss": 3.2052,
      "step": 3170
    },
    {
      "epoch": 0.0159,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00296713567839196,
      "loss": 3.1252,
      "step": 3180
    },
    {
      "epoch": 0.01595,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0029669849246231157,
      "loss": 3.2229,
      "step": 3190
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0029668341708542715,
      "loss": 3.1302,
      "step": 3200
    },
    {
      "epoch": 0.01605,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0029666834170854273,
      "loss": 3.1591,
      "step": 3210
    },
    {
      "epoch": 0.0161,
      "grad_norm": 0.375,
      "learning_rate": 0.002966532663316583,
      "loss": 3.1862,
      "step": 3220
    },
    {
      "epoch": 0.01615,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002966381909547739,
      "loss": 3.1128,
      "step": 3230
    },
    {
      "epoch": 0.0162,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0029662311557788947,
      "loss": 3.2078,
      "step": 3240
    },
    {
      "epoch": 0.01625,
      "grad_norm": 0.435546875,
      "learning_rate": 0.00296608040201005,
      "loss": 3.1019,
      "step": 3250
    },
    {
      "epoch": 0.0163,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0029659296482412063,
      "loss": 3.2081,
      "step": 3260
    },
    {
      "epoch": 0.01635,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002965778894472362,
      "loss": 3.1721,
      "step": 3270
    },
    {
      "epoch": 0.0164,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029656281407035175,
      "loss": 3.1434,
      "step": 3280
    },
    {
      "epoch": 0.01645,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0029654773869346733,
      "loss": 3.1993,
      "step": 3290
    },
    {
      "epoch": 0.0165,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002965326633165829,
      "loss": 3.1676,
      "step": 3300
    },
    {
      "epoch": 0.01655,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002965175879396985,
      "loss": 3.1356,
      "step": 3310
    },
    {
      "epoch": 0.0166,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029650251256281407,
      "loss": 3.158,
      "step": 3320
    },
    {
      "epoch": 0.01665,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0029648743718592965,
      "loss": 3.1081,
      "step": 3330
    },
    {
      "epoch": 0.0167,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0029647236180904524,
      "loss": 3.1429,
      "step": 3340
    },
    {
      "epoch": 0.01675,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002964572864321608,
      "loss": 3.1097,
      "step": 3350
    },
    {
      "epoch": 0.0168,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002964422110552764,
      "loss": 3.0755,
      "step": 3360
    },
    {
      "epoch": 0.01685,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029642713567839198,
      "loss": 3.1041,
      "step": 3370
    },
    {
      "epoch": 0.0169,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002964120603015075,
      "loss": 3.1142,
      "step": 3380
    },
    {
      "epoch": 0.01695,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0029639698492462314,
      "loss": 3.1458,
      "step": 3390
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.359375,
      "learning_rate": 0.002963819095477387,
      "loss": 3.1108,
      "step": 3400
    },
    {
      "epoch": 0.01705,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0029636683417085426,
      "loss": 3.1122,
      "step": 3410
    },
    {
      "epoch": 0.0171,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0029635175879396984,
      "loss": 3.1213,
      "step": 3420
    },
    {
      "epoch": 0.01715,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002963366834170854,
      "loss": 3.1115,
      "step": 3430
    },
    {
      "epoch": 0.0172,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00296321608040201,
      "loss": 3.173,
      "step": 3440
    },
    {
      "epoch": 0.01725,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002963065326633166,
      "loss": 3.1475,
      "step": 3450
    },
    {
      "epoch": 0.0173,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0029629145728643216,
      "loss": 3.1828,
      "step": 3460
    },
    {
      "epoch": 0.01735,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0029627638190954774,
      "loss": 3.1007,
      "step": 3470
    },
    {
      "epoch": 0.0174,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0029626130653266332,
      "loss": 3.1107,
      "step": 3480
    },
    {
      "epoch": 0.01745,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002962462311557789,
      "loss": 3.1064,
      "step": 3490
    },
    {
      "epoch": 0.0175,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002962311557788945,
      "loss": 3.0574,
      "step": 3500
    },
    {
      "epoch": 0.01755,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0029621608040201006,
      "loss": 3.0686,
      "step": 3510
    },
    {
      "epoch": 0.0176,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029620100502512564,
      "loss": 3.0863,
      "step": 3520
    },
    {
      "epoch": 0.01765,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0029618592964824123,
      "loss": 3.0547,
      "step": 3530
    },
    {
      "epoch": 0.0177,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0029617085427135676,
      "loss": 3.1519,
      "step": 3540
    },
    {
      "epoch": 0.01775,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002961557788944724,
      "loss": 3.107,
      "step": 3550
    },
    {
      "epoch": 0.0178,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029614070351758797,
      "loss": 3.0675,
      "step": 3560
    },
    {
      "epoch": 0.01785,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002961256281407035,
      "loss": 3.128,
      "step": 3570
    },
    {
      "epoch": 0.0179,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002961105527638191,
      "loss": 3.1235,
      "step": 3580
    },
    {
      "epoch": 0.01795,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0029609547738693467,
      "loss": 3.1088,
      "step": 3590
    },
    {
      "epoch": 0.018,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0029608040201005025,
      "loss": 3.0641,
      "step": 3600
    },
    {
      "epoch": 0.01805,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029606532663316583,
      "loss": 3.1722,
      "step": 3610
    },
    {
      "epoch": 0.0181,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002960502512562814,
      "loss": 3.0971,
      "step": 3620
    },
    {
      "epoch": 0.01815,
      "grad_norm": 0.421875,
      "learning_rate": 0.00296035175879397,
      "loss": 3.0603,
      "step": 3630
    },
    {
      "epoch": 0.0182,
      "grad_norm": 0.40625,
      "learning_rate": 0.0029602010050251257,
      "loss": 3.1148,
      "step": 3640
    },
    {
      "epoch": 0.01825,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0029600502512562815,
      "loss": 3.054,
      "step": 3650
    },
    {
      "epoch": 0.0183,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0029598994974874373,
      "loss": 3.0512,
      "step": 3660
    },
    {
      "epoch": 0.01835,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002959748743718593,
      "loss": 3.0811,
      "step": 3670
    },
    {
      "epoch": 0.0184,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002959597989949749,
      "loss": 3.09,
      "step": 3680
    },
    {
      "epoch": 0.01845,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029594472361809047,
      "loss": 3.0565,
      "step": 3690
    },
    {
      "epoch": 0.0185,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00295929648241206,
      "loss": 3.1175,
      "step": 3700
    },
    {
      "epoch": 0.01855,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0029591457286432163,
      "loss": 3.0158,
      "step": 3710
    },
    {
      "epoch": 0.0186,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002958994974874372,
      "loss": 3.0527,
      "step": 3720
    },
    {
      "epoch": 0.01865,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0029588442211055275,
      "loss": 3.0238,
      "step": 3730
    },
    {
      "epoch": 0.0187,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0029586934673366833,
      "loss": 3.058,
      "step": 3740
    },
    {
      "epoch": 0.01875,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002958542713567839,
      "loss": 3.0689,
      "step": 3750
    },
    {
      "epoch": 0.0188,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002958391959798995,
      "loss": 3.0678,
      "step": 3760
    },
    {
      "epoch": 0.01885,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0029582412060301507,
      "loss": 3.1042,
      "step": 3770
    },
    {
      "epoch": 0.0189,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0029580904522613066,
      "loss": 3.0411,
      "step": 3780
    },
    {
      "epoch": 0.01895,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0029579396984924624,
      "loss": 3.0552,
      "step": 3790
    },
    {
      "epoch": 0.019,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002957788944723618,
      "loss": 3.0114,
      "step": 3800
    },
    {
      "epoch": 0.01905,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002957638190954774,
      "loss": 3.0433,
      "step": 3810
    },
    {
      "epoch": 0.0191,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029574874371859298,
      "loss": 3.0133,
      "step": 3820
    },
    {
      "epoch": 0.01915,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029573366834170856,
      "loss": 3.0923,
      "step": 3830
    },
    {
      "epoch": 0.0192,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0029571859296482414,
      "loss": 3.041,
      "step": 3840
    },
    {
      "epoch": 0.01925,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002957035175879397,
      "loss": 3.0512,
      "step": 3850
    },
    {
      "epoch": 0.0193,
      "grad_norm": 0.40625,
      "learning_rate": 0.0029568844221105526,
      "loss": 3.0747,
      "step": 3860
    },
    {
      "epoch": 0.01935,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002956733668341709,
      "loss": 3.0672,
      "step": 3870
    },
    {
      "epoch": 0.0194,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0029565829145728646,
      "loss": 3.0522,
      "step": 3880
    },
    {
      "epoch": 0.01945,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00295643216080402,
      "loss": 3.0274,
      "step": 3890
    },
    {
      "epoch": 0.0195,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002956281407035176,
      "loss": 3.0861,
      "step": 3900
    },
    {
      "epoch": 0.01955,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029561306532663316,
      "loss": 3.0174,
      "step": 3910
    },
    {
      "epoch": 0.0196,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0029559798994974874,
      "loss": 3.0612,
      "step": 3920
    },
    {
      "epoch": 0.01965,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0029558291457286432,
      "loss": 3.0119,
      "step": 3930
    },
    {
      "epoch": 0.0197,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002955678391959799,
      "loss": 3.0359,
      "step": 3940
    },
    {
      "epoch": 0.01975,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002955527638190955,
      "loss": 3.076,
      "step": 3950
    },
    {
      "epoch": 0.0198,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029553768844221106,
      "loss": 3.0459,
      "step": 3960
    },
    {
      "epoch": 0.01985,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0029552261306532665,
      "loss": 3.0837,
      "step": 3970
    },
    {
      "epoch": 0.0199,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0029550753768844223,
      "loss": 3.0283,
      "step": 3980
    },
    {
      "epoch": 0.01995,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002954924623115578,
      "loss": 2.9757,
      "step": 3990
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002954773869346734,
      "loss": 3.0222,
      "step": 4000
    },
    {
      "epoch": 0.02,
      "eval_loss": 3.018690347671509,
      "eval_runtime": 47.1122,
      "eval_samples_per_second": 53.065,
      "eval_steps_per_second": 0.106,
      "step": 4000
    },
    {
      "epoch": 0.02005,
      "grad_norm": 0.40625,
      "learning_rate": 0.0029546231155778897,
      "loss": 3.0129,
      "step": 4010
    },
    {
      "epoch": 0.0201,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002954472361809045,
      "loss": 3.0331,
      "step": 4020
    },
    {
      "epoch": 0.02015,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0029543216080402013,
      "loss": 3.0065,
      "step": 4030
    },
    {
      "epoch": 0.0202,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002954170854271357,
      "loss": 3.0296,
      "step": 4040
    },
    {
      "epoch": 0.02025,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0029540201005025125,
      "loss": 3.0368,
      "step": 4050
    },
    {
      "epoch": 0.0203,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0029538693467336683,
      "loss": 2.966,
      "step": 4060
    },
    {
      "epoch": 0.02035,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002953718592964824,
      "loss": 3.064,
      "step": 4070
    },
    {
      "epoch": 0.0204,
      "grad_norm": 0.390625,
      "learning_rate": 0.00295356783919598,
      "loss": 2.9665,
      "step": 4080
    },
    {
      "epoch": 0.02045,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0029534170854271357,
      "loss": 2.9523,
      "step": 4090
    },
    {
      "epoch": 0.0205,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029532663316582915,
      "loss": 3.036,
      "step": 4100
    },
    {
      "epoch": 0.02055,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0029531155778894473,
      "loss": 3.0077,
      "step": 4110
    },
    {
      "epoch": 0.0206,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002952964824120603,
      "loss": 2.9844,
      "step": 4120
    },
    {
      "epoch": 0.02065,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002952814070351759,
      "loss": 3.0245,
      "step": 4130
    },
    {
      "epoch": 0.0207,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0029526633165829147,
      "loss": 2.9949,
      "step": 4140
    },
    {
      "epoch": 0.02075,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0029525125628140705,
      "loss": 2.9738,
      "step": 4150
    },
    {
      "epoch": 0.0208,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0029523618090452263,
      "loss": 3.046,
      "step": 4160
    },
    {
      "epoch": 0.02085,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002952211055276382,
      "loss": 3.0153,
      "step": 4170
    },
    {
      "epoch": 0.0209,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029520603015075375,
      "loss": 2.998,
      "step": 4180
    },
    {
      "epoch": 0.02095,
      "grad_norm": 0.330078125,
      "learning_rate": 0.0029519095477386938,
      "loss": 2.9859,
      "step": 4190
    },
    {
      "epoch": 0.021,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029517587939698496,
      "loss": 2.9586,
      "step": 4200
    },
    {
      "epoch": 0.02105,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002951608040201005,
      "loss": 2.9871,
      "step": 4210
    },
    {
      "epoch": 0.0211,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029514572864321608,
      "loss": 3.0887,
      "step": 4220
    },
    {
      "epoch": 0.02115,
      "grad_norm": 0.546875,
      "learning_rate": 0.0029513065326633166,
      "loss": 2.9886,
      "step": 4230
    },
    {
      "epoch": 0.0212,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029511557788944724,
      "loss": 3.0071,
      "step": 4240
    },
    {
      "epoch": 0.02125,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002951005025125628,
      "loss": 2.9563,
      "step": 4250
    },
    {
      "epoch": 0.0213,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002950854271356784,
      "loss": 3.0169,
      "step": 4260
    },
    {
      "epoch": 0.02135,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00295070351758794,
      "loss": 2.9684,
      "step": 4270
    },
    {
      "epoch": 0.0214,
      "grad_norm": 0.453125,
      "learning_rate": 0.0029505527638190956,
      "loss": 2.9833,
      "step": 4280
    },
    {
      "epoch": 0.02145,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0029504020100502514,
      "loss": 2.9529,
      "step": 4290
    },
    {
      "epoch": 0.0215,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002950251256281407,
      "loss": 2.9982,
      "step": 4300
    },
    {
      "epoch": 0.02155,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0029501005025125626,
      "loss": 3.0247,
      "step": 4310
    },
    {
      "epoch": 0.0216,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002949949748743719,
      "loss": 2.9519,
      "step": 4320
    },
    {
      "epoch": 0.02165,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0029497989949748746,
      "loss": 3.0094,
      "step": 4330
    },
    {
      "epoch": 0.0217,
      "grad_norm": 0.349609375,
      "learning_rate": 0.00294964824120603,
      "loss": 2.9854,
      "step": 4340
    },
    {
      "epoch": 0.02175,
      "grad_norm": 0.34375,
      "learning_rate": 0.0029494974874371862,
      "loss": 3.0139,
      "step": 4350
    },
    {
      "epoch": 0.0218,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0029493467336683416,
      "loss": 2.9916,
      "step": 4360
    },
    {
      "epoch": 0.02185,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0029491959798994974,
      "loss": 2.9704,
      "step": 4370
    },
    {
      "epoch": 0.0219,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029490452261306532,
      "loss": 2.9274,
      "step": 4380
    },
    {
      "epoch": 0.02195,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002948894472361809,
      "loss": 2.9152,
      "step": 4390
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002948743718592965,
      "loss": 2.9922,
      "step": 4400
    },
    {
      "epoch": 0.02205,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0029485929648241207,
      "loss": 3.0008,
      "step": 4410
    },
    {
      "epoch": 0.0221,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029484422110552765,
      "loss": 2.9268,
      "step": 4420
    },
    {
      "epoch": 0.02215,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029482914572864323,
      "loss": 2.9931,
      "step": 4430
    },
    {
      "epoch": 0.0222,
      "grad_norm": 0.3515625,
      "learning_rate": 0.002948140703517588,
      "loss": 2.9795,
      "step": 4440
    },
    {
      "epoch": 0.02225,
      "grad_norm": 0.40625,
      "learning_rate": 0.002947989949748744,
      "loss": 2.9542,
      "step": 4450
    },
    {
      "epoch": 0.0223,
      "grad_norm": 0.375,
      "learning_rate": 0.0029478391959798997,
      "loss": 2.9317,
      "step": 4460
    },
    {
      "epoch": 0.02235,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002947688442211055,
      "loss": 2.9393,
      "step": 4470
    },
    {
      "epoch": 0.0224,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0029475376884422113,
      "loss": 2.9863,
      "step": 4480
    },
    {
      "epoch": 0.02245,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002947386934673367,
      "loss": 2.9403,
      "step": 4490
    },
    {
      "epoch": 0.0225,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0029472361809045225,
      "loss": 2.9534,
      "step": 4500
    },
    {
      "epoch": 0.02255,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029470854271356783,
      "loss": 2.9642,
      "step": 4510
    },
    {
      "epoch": 0.0226,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002946934673366834,
      "loss": 2.9855,
      "step": 4520
    },
    {
      "epoch": 0.02265,
      "grad_norm": 0.34375,
      "learning_rate": 0.00294678391959799,
      "loss": 2.9561,
      "step": 4530
    },
    {
      "epoch": 0.0227,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0029466331658291457,
      "loss": 2.9869,
      "step": 4540
    },
    {
      "epoch": 0.02275,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0029464824120603015,
      "loss": 2.9154,
      "step": 4550
    },
    {
      "epoch": 0.0228,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0029463316582914573,
      "loss": 2.9843,
      "step": 4560
    },
    {
      "epoch": 0.02285,
      "grad_norm": 0.3515625,
      "learning_rate": 0.002946180904522613,
      "loss": 2.9376,
      "step": 4570
    },
    {
      "epoch": 0.0229,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002946030150753769,
      "loss": 2.9438,
      "step": 4580
    },
    {
      "epoch": 0.02295,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029458793969849247,
      "loss": 2.9914,
      "step": 4590
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029457286432160805,
      "loss": 2.9041,
      "step": 4600
    },
    {
      "epoch": 0.02305,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029455778894472364,
      "loss": 2.8793,
      "step": 4610
    },
    {
      "epoch": 0.0231,
      "grad_norm": 0.349609375,
      "learning_rate": 0.002945427135678392,
      "loss": 2.9287,
      "step": 4620
    },
    {
      "epoch": 0.02315,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0029452763819095475,
      "loss": 2.9253,
      "step": 4630
    },
    {
      "epoch": 0.0232,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0029451256281407038,
      "loss": 2.9453,
      "step": 4640
    },
    {
      "epoch": 0.02325,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0029449748743718596,
      "loss": 2.9622,
      "step": 4650
    },
    {
      "epoch": 0.0233,
      "grad_norm": 0.34375,
      "learning_rate": 0.002944824120603015,
      "loss": 2.9391,
      "step": 4660
    },
    {
      "epoch": 0.02335,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029446733668341708,
      "loss": 2.9516,
      "step": 4670
    },
    {
      "epoch": 0.0234,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029445226130653266,
      "loss": 2.9082,
      "step": 4680
    },
    {
      "epoch": 0.02345,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029443718592964824,
      "loss": 2.9859,
      "step": 4690
    },
    {
      "epoch": 0.0235,
      "grad_norm": 0.375,
      "learning_rate": 0.002944221105527638,
      "loss": 2.887,
      "step": 4700
    },
    {
      "epoch": 0.02355,
      "grad_norm": 0.375,
      "learning_rate": 0.002944070351758794,
      "loss": 2.956,
      "step": 4710
    },
    {
      "epoch": 0.0236,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00294391959798995,
      "loss": 2.9573,
      "step": 4720
    },
    {
      "epoch": 0.02365,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0029437688442211056,
      "loss": 2.9327,
      "step": 4730
    },
    {
      "epoch": 0.0237,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0029436180904522614,
      "loss": 2.9945,
      "step": 4740
    },
    {
      "epoch": 0.02375,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002943467336683417,
      "loss": 2.9498,
      "step": 4750
    },
    {
      "epoch": 0.0238,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002943316582914573,
      "loss": 2.9435,
      "step": 4760
    },
    {
      "epoch": 0.02385,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002943165829145729,
      "loss": 2.9328,
      "step": 4770
    },
    {
      "epoch": 0.0239,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0029430150753768846,
      "loss": 2.9151,
      "step": 4780
    },
    {
      "epoch": 0.02395,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00294286432160804,
      "loss": 2.9706,
      "step": 4790
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029427135678391962,
      "loss": 2.9226,
      "step": 4800
    },
    {
      "epoch": 0.02405,
      "grad_norm": 0.375,
      "learning_rate": 0.002942562814070352,
      "loss": 2.9765,
      "step": 4810
    },
    {
      "epoch": 0.0241,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0029424120603015074,
      "loss": 2.8899,
      "step": 4820
    },
    {
      "epoch": 0.02415,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0029422613065326632,
      "loss": 2.8756,
      "step": 4830
    },
    {
      "epoch": 0.0242,
      "grad_norm": 0.375,
      "learning_rate": 0.002942110552763819,
      "loss": 2.9712,
      "step": 4840
    },
    {
      "epoch": 0.02425,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002941959798994975,
      "loss": 2.9051,
      "step": 4850
    },
    {
      "epoch": 0.0243,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029418090452261307,
      "loss": 2.9483,
      "step": 4860
    },
    {
      "epoch": 0.02435,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029416582914572865,
      "loss": 2.8797,
      "step": 4870
    },
    {
      "epoch": 0.0244,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029415075376884423,
      "loss": 2.93,
      "step": 4880
    },
    {
      "epoch": 0.02445,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002941356783919598,
      "loss": 2.9137,
      "step": 4890
    },
    {
      "epoch": 0.0245,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002941206030150754,
      "loss": 2.9056,
      "step": 4900
    },
    {
      "epoch": 0.02455,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029410552763819097,
      "loss": 2.9171,
      "step": 4910
    },
    {
      "epoch": 0.0246,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0029409045226130655,
      "loss": 2.9244,
      "step": 4920
    },
    {
      "epoch": 0.02465,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0029407537688442213,
      "loss": 2.9198,
      "step": 4930
    },
    {
      "epoch": 0.0247,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002940603015075377,
      "loss": 2.9258,
      "step": 4940
    },
    {
      "epoch": 0.02475,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0029404522613065325,
      "loss": 2.8822,
      "step": 4950
    },
    {
      "epoch": 0.0248,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029403015075376887,
      "loss": 2.9267,
      "step": 4960
    },
    {
      "epoch": 0.02485,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029401507537688445,
      "loss": 2.8756,
      "step": 4970
    },
    {
      "epoch": 0.0249,
      "grad_norm": 0.375,
      "learning_rate": 0.00294,
      "loss": 2.9177,
      "step": 4980
    },
    {
      "epoch": 0.02495,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0029398492462311557,
      "loss": 2.901,
      "step": 4990
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0029396984924623115,
      "loss": 2.9226,
      "step": 5000
    },
    {
      "epoch": 0.02505,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029395477386934673,
      "loss": 2.8925,
      "step": 5010
    },
    {
      "epoch": 0.0251,
      "grad_norm": 0.349609375,
      "learning_rate": 0.002939396984924623,
      "loss": 2.9344,
      "step": 5020
    },
    {
      "epoch": 0.02515,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002939246231155779,
      "loss": 2.8546,
      "step": 5030
    },
    {
      "epoch": 0.0252,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0029390954773869347,
      "loss": 2.9153,
      "step": 5040
    },
    {
      "epoch": 0.02525,
      "grad_norm": 0.3203125,
      "learning_rate": 0.0029389447236180906,
      "loss": 2.9241,
      "step": 5050
    },
    {
      "epoch": 0.0253,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029387939698492464,
      "loss": 2.9416,
      "step": 5060
    },
    {
      "epoch": 0.02535,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002938643216080402,
      "loss": 2.9234,
      "step": 5070
    },
    {
      "epoch": 0.0254,
      "grad_norm": 0.36328125,
      "learning_rate": 0.002938492462311558,
      "loss": 2.8593,
      "step": 5080
    },
    {
      "epoch": 0.02545,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0029383417085427138,
      "loss": 2.9544,
      "step": 5090
    },
    {
      "epoch": 0.0255,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0029381909547738696,
      "loss": 2.8277,
      "step": 5100
    },
    {
      "epoch": 0.02555,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002938040201005025,
      "loss": 2.8799,
      "step": 5110
    },
    {
      "epoch": 0.0256,
      "grad_norm": 0.375,
      "learning_rate": 0.002937889447236181,
      "loss": 2.8714,
      "step": 5120
    },
    {
      "epoch": 0.02565,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002937738693467337,
      "loss": 2.9603,
      "step": 5130
    },
    {
      "epoch": 0.0257,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0029375879396984924,
      "loss": 2.861,
      "step": 5140
    },
    {
      "epoch": 0.02575,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002937437185929648,
      "loss": 2.9018,
      "step": 5150
    },
    {
      "epoch": 0.0258,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002937286432160804,
      "loss": 2.8571,
      "step": 5160
    },
    {
      "epoch": 0.02585,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00293713567839196,
      "loss": 2.8797,
      "step": 5170
    },
    {
      "epoch": 0.0259,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0029369849246231156,
      "loss": 2.9151,
      "step": 5180
    },
    {
      "epoch": 0.02595,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0029368341708542714,
      "loss": 2.8518,
      "step": 5190
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0029366834170854272,
      "loss": 2.8872,
      "step": 5200
    },
    {
      "epoch": 0.02605,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002936532663316583,
      "loss": 2.9125,
      "step": 5210
    },
    {
      "epoch": 0.0261,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002936381909547739,
      "loss": 2.8769,
      "step": 5220
    },
    {
      "epoch": 0.02615,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029362311557788946,
      "loss": 2.8595,
      "step": 5230
    },
    {
      "epoch": 0.0262,
      "grad_norm": 0.3515625,
      "learning_rate": 0.00293608040201005,
      "loss": 2.8918,
      "step": 5240
    },
    {
      "epoch": 0.02625,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0029359296482412063,
      "loss": 2.8916,
      "step": 5250
    },
    {
      "epoch": 0.0263,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002935778894472362,
      "loss": 2.9402,
      "step": 5260
    },
    {
      "epoch": 0.02635,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029356281407035174,
      "loss": 2.883,
      "step": 5270
    },
    {
      "epoch": 0.0264,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029354773869346737,
      "loss": 2.8662,
      "step": 5280
    },
    {
      "epoch": 0.02645,
      "grad_norm": 0.337890625,
      "learning_rate": 0.002935326633165829,
      "loss": 2.8677,
      "step": 5290
    },
    {
      "epoch": 0.0265,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002935175879396985,
      "loss": 2.9089,
      "step": 5300
    },
    {
      "epoch": 0.02655,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0029350251256281407,
      "loss": 2.8473,
      "step": 5310
    },
    {
      "epoch": 0.0266,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0029348743718592965,
      "loss": 2.909,
      "step": 5320
    },
    {
      "epoch": 0.02665,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0029347236180904523,
      "loss": 2.8925,
      "step": 5330
    },
    {
      "epoch": 0.0267,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002934572864321608,
      "loss": 2.8759,
      "step": 5340
    },
    {
      "epoch": 0.02675,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002934422110552764,
      "loss": 2.8633,
      "step": 5350
    },
    {
      "epoch": 0.0268,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0029342713567839197,
      "loss": 2.8927,
      "step": 5360
    },
    {
      "epoch": 0.02685,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0029341206030150755,
      "loss": 2.8683,
      "step": 5370
    },
    {
      "epoch": 0.0269,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029339698492462313,
      "loss": 2.8915,
      "step": 5380
    },
    {
      "epoch": 0.02695,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002933819095477387,
      "loss": 2.8475,
      "step": 5390
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.375,
      "learning_rate": 0.0029336683417085425,
      "loss": 2.9092,
      "step": 5400
    },
    {
      "epoch": 0.02705,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0029335175879396987,
      "loss": 2.8278,
      "step": 5410
    },
    {
      "epoch": 0.0271,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0029333668341708545,
      "loss": 2.885,
      "step": 5420
    },
    {
      "epoch": 0.02715,
      "grad_norm": 0.45703125,
      "learning_rate": 0.00293321608040201,
      "loss": 2.8472,
      "step": 5430
    },
    {
      "epoch": 0.0272,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002933065326633166,
      "loss": 2.8911,
      "step": 5440
    },
    {
      "epoch": 0.02725,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0029329145728643215,
      "loss": 2.8445,
      "step": 5450
    },
    {
      "epoch": 0.0273,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029327638190954773,
      "loss": 2.8829,
      "step": 5460
    },
    {
      "epoch": 0.02735,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002932613065326633,
      "loss": 2.8712,
      "step": 5470
    },
    {
      "epoch": 0.0274,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002932462311557789,
      "loss": 2.841,
      "step": 5480
    },
    {
      "epoch": 0.02745,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0029323115577889448,
      "loss": 2.864,
      "step": 5490
    },
    {
      "epoch": 0.0275,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0029321608040201006,
      "loss": 2.8464,
      "step": 5500
    },
    {
      "epoch": 0.02755,
      "grad_norm": 0.515625,
      "learning_rate": 0.0029320100502512564,
      "loss": 2.926,
      "step": 5510
    },
    {
      "epoch": 0.0276,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002931859296482412,
      "loss": 2.8365,
      "step": 5520
    },
    {
      "epoch": 0.02765,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002931708542713568,
      "loss": 2.8949,
      "step": 5530
    },
    {
      "epoch": 0.0277,
      "grad_norm": 0.375,
      "learning_rate": 0.002931557788944724,
      "loss": 2.8217,
      "step": 5540
    },
    {
      "epoch": 0.02775,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0029314070351758796,
      "loss": 2.843,
      "step": 5550
    },
    {
      "epoch": 0.0278,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002931256281407035,
      "loss": 2.8391,
      "step": 5560
    },
    {
      "epoch": 0.02785,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002931105527638191,
      "loss": 2.8182,
      "step": 5570
    },
    {
      "epoch": 0.0279,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002930954773869347,
      "loss": 2.8312,
      "step": 5580
    },
    {
      "epoch": 0.02795,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0029308040201005024,
      "loss": 2.8736,
      "step": 5590
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.375,
      "learning_rate": 0.0029306532663316586,
      "loss": 2.8251,
      "step": 5600
    },
    {
      "epoch": 0.02805,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002930502512562814,
      "loss": 2.8974,
      "step": 5610
    },
    {
      "epoch": 0.0281,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00293035175879397,
      "loss": 2.8583,
      "step": 5620
    },
    {
      "epoch": 0.02815,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0029302010050251256,
      "loss": 2.8909,
      "step": 5630
    },
    {
      "epoch": 0.0282,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0029300502512562814,
      "loss": 2.8418,
      "step": 5640
    },
    {
      "epoch": 0.02825,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029298994974874372,
      "loss": 2.8774,
      "step": 5650
    },
    {
      "epoch": 0.0283,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002929748743718593,
      "loss": 2.8703,
      "step": 5660
    },
    {
      "epoch": 0.02835,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002929597989949749,
      "loss": 2.8453,
      "step": 5670
    },
    {
      "epoch": 0.0284,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029294472361809046,
      "loss": 2.8378,
      "step": 5680
    },
    {
      "epoch": 0.02845,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029292964824120605,
      "loss": 2.8541,
      "step": 5690
    },
    {
      "epoch": 0.0285,
      "grad_norm": 0.40625,
      "learning_rate": 0.0029291457286432163,
      "loss": 2.8624,
      "step": 5700
    },
    {
      "epoch": 0.02855,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002928994974874372,
      "loss": 2.8368,
      "step": 5710
    },
    {
      "epoch": 0.0286,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0029288442211055274,
      "loss": 2.8356,
      "step": 5720
    },
    {
      "epoch": 0.02865,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0029286934673366837,
      "loss": 2.8139,
      "step": 5730
    },
    {
      "epoch": 0.0287,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0029285427135678395,
      "loss": 2.8438,
      "step": 5740
    },
    {
      "epoch": 0.02875,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002928391959798995,
      "loss": 2.8442,
      "step": 5750
    },
    {
      "epoch": 0.0288,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0029282412060301507,
      "loss": 2.8953,
      "step": 5760
    },
    {
      "epoch": 0.02885,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0029280904522613065,
      "loss": 2.796,
      "step": 5770
    },
    {
      "epoch": 0.0289,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0029279396984924623,
      "loss": 2.8441,
      "step": 5780
    },
    {
      "epoch": 0.02895,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002927788944723618,
      "loss": 2.8072,
      "step": 5790
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002927638190954774,
      "loss": 2.8446,
      "step": 5800
    },
    {
      "epoch": 0.02905,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0029274874371859297,
      "loss": 2.835,
      "step": 5810
    },
    {
      "epoch": 0.0291,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0029273366834170855,
      "loss": 2.8566,
      "step": 5820
    },
    {
      "epoch": 0.02915,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029271859296482413,
      "loss": 2.8259,
      "step": 5830
    },
    {
      "epoch": 0.0292,
      "grad_norm": 0.359375,
      "learning_rate": 0.002927035175879397,
      "loss": 2.8494,
      "step": 5840
    },
    {
      "epoch": 0.02925,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002926884422110553,
      "loss": 2.7838,
      "step": 5850
    },
    {
      "epoch": 0.0293,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029267336683417087,
      "loss": 2.8312,
      "step": 5860
    },
    {
      "epoch": 0.02935,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0029265829145728645,
      "loss": 2.7647,
      "step": 5870
    },
    {
      "epoch": 0.0294,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00292643216080402,
      "loss": 2.8047,
      "step": 5880
    },
    {
      "epoch": 0.02945,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002926281407035176,
      "loss": 2.8518,
      "step": 5890
    },
    {
      "epoch": 0.0295,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002926130653266332,
      "loss": 2.8311,
      "step": 5900
    },
    {
      "epoch": 0.02955,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0029259798994974873,
      "loss": 2.8447,
      "step": 5910
    },
    {
      "epoch": 0.0296,
      "grad_norm": 0.30078125,
      "learning_rate": 0.002925829145728643,
      "loss": 2.8684,
      "step": 5920
    },
    {
      "epoch": 0.02965,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002925678391959799,
      "loss": 2.7815,
      "step": 5930
    },
    {
      "epoch": 0.0297,
      "grad_norm": 0.375,
      "learning_rate": 0.0029255276381909548,
      "loss": 2.858,
      "step": 5940
    },
    {
      "epoch": 0.02975,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0029253768844221106,
      "loss": 2.8128,
      "step": 5950
    },
    {
      "epoch": 0.0298,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029252261306532664,
      "loss": 2.8666,
      "step": 5960
    },
    {
      "epoch": 0.02985,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002925075376884422,
      "loss": 2.8046,
      "step": 5970
    },
    {
      "epoch": 0.0299,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002924924623115578,
      "loss": 2.8184,
      "step": 5980
    },
    {
      "epoch": 0.02995,
      "grad_norm": 0.34765625,
      "learning_rate": 0.002924773869346734,
      "loss": 2.8059,
      "step": 5990
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0029246231155778896,
      "loss": 2.8638,
      "step": 6000
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.803591728210449,
      "eval_runtime": 48.3904,
      "eval_samples_per_second": 51.663,
      "eval_steps_per_second": 0.103,
      "step": 6000
    },
    {
      "epoch": 0.03005,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0029244723618090454,
      "loss": 2.8328,
      "step": 6010
    },
    {
      "epoch": 0.0301,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002924321608040201,
      "loss": 2.8637,
      "step": 6020
    },
    {
      "epoch": 0.03015,
      "grad_norm": 0.40625,
      "learning_rate": 0.002924170854271357,
      "loss": 2.755,
      "step": 6030
    },
    {
      "epoch": 0.0302,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0029240201005025124,
      "loss": 2.8026,
      "step": 6040
    },
    {
      "epoch": 0.03025,
      "grad_norm": 0.375,
      "learning_rate": 0.0029238693467336686,
      "loss": 2.841,
      "step": 6050
    },
    {
      "epoch": 0.0303,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0029237185929648244,
      "loss": 2.8611,
      "step": 6060
    },
    {
      "epoch": 0.03035,
      "grad_norm": 0.427734375,
      "learning_rate": 0.00292356783919598,
      "loss": 2.786,
      "step": 6070
    },
    {
      "epoch": 0.0304,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029234170854271356,
      "loss": 2.8233,
      "step": 6080
    },
    {
      "epoch": 0.03045,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0029232663316582914,
      "loss": 2.7707,
      "step": 6090
    },
    {
      "epoch": 0.0305,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0029231155778894472,
      "loss": 2.8086,
      "step": 6100
    },
    {
      "epoch": 0.03055,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002922964824120603,
      "loss": 2.7534,
      "step": 6110
    },
    {
      "epoch": 0.0306,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002922814070351759,
      "loss": 2.8164,
      "step": 6120
    },
    {
      "epoch": 0.03065,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0029226633165829147,
      "loss": 2.8094,
      "step": 6130
    },
    {
      "epoch": 0.0307,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0029225125628140705,
      "loss": 2.8079,
      "step": 6140
    },
    {
      "epoch": 0.03075,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0029223618090452263,
      "loss": 2.817,
      "step": 6150
    },
    {
      "epoch": 0.0308,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002922211055276382,
      "loss": 2.7395,
      "step": 6160
    },
    {
      "epoch": 0.03085,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029220603015075374,
      "loss": 2.864,
      "step": 6170
    },
    {
      "epoch": 0.0309,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0029219095477386937,
      "loss": 2.7892,
      "step": 6180
    },
    {
      "epoch": 0.03095,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0029217587939698495,
      "loss": 2.7926,
      "step": 6190
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.375,
      "learning_rate": 0.002921608040201005,
      "loss": 2.8099,
      "step": 6200
    },
    {
      "epoch": 0.03105,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002921457286432161,
      "loss": 2.7852,
      "step": 6210
    },
    {
      "epoch": 0.0311,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0029213065326633165,
      "loss": 2.7983,
      "step": 6220
    },
    {
      "epoch": 0.03115,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029211557788944723,
      "loss": 2.8091,
      "step": 6230
    },
    {
      "epoch": 0.0312,
      "grad_norm": 0.353515625,
      "learning_rate": 0.002921005025125628,
      "loss": 2.7954,
      "step": 6240
    },
    {
      "epoch": 0.03125,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002920854271356784,
      "loss": 2.8445,
      "step": 6250
    },
    {
      "epoch": 0.0313,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0029207035175879397,
      "loss": 2.779,
      "step": 6260
    },
    {
      "epoch": 0.03135,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0029205527638190955,
      "loss": 2.7838,
      "step": 6270
    },
    {
      "epoch": 0.0314,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029204020100502513,
      "loss": 2.7897,
      "step": 6280
    },
    {
      "epoch": 0.03145,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002920251256281407,
      "loss": 2.8072,
      "step": 6290
    },
    {
      "epoch": 0.0315,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002920100502512563,
      "loss": 2.731,
      "step": 6300
    },
    {
      "epoch": 0.03155,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029199497487437187,
      "loss": 2.7686,
      "step": 6310
    },
    {
      "epoch": 0.0316,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0029197989949748746,
      "loss": 2.7512,
      "step": 6320
    },
    {
      "epoch": 0.03165,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00291964824120603,
      "loss": 2.7874,
      "step": 6330
    },
    {
      "epoch": 0.0317,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002919497487437186,
      "loss": 2.7694,
      "step": 6340
    },
    {
      "epoch": 0.03175,
      "grad_norm": 0.337890625,
      "learning_rate": 0.002919346733668342,
      "loss": 2.8555,
      "step": 6350
    },
    {
      "epoch": 0.0318,
      "grad_norm": 0.375,
      "learning_rate": 0.0029191959798994973,
      "loss": 2.7784,
      "step": 6360
    },
    {
      "epoch": 0.03185,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029190452261306536,
      "loss": 2.7989,
      "step": 6370
    },
    {
      "epoch": 0.0319,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002918894472361809,
      "loss": 2.7929,
      "step": 6380
    },
    {
      "epoch": 0.03195,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029187437185929648,
      "loss": 2.8336,
      "step": 6390
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0029185929648241206,
      "loss": 2.7863,
      "step": 6400
    },
    {
      "epoch": 0.03205,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029184422110552764,
      "loss": 2.788,
      "step": 6410
    },
    {
      "epoch": 0.0321,
      "grad_norm": 0.390625,
      "learning_rate": 0.002918291457286432,
      "loss": 2.8159,
      "step": 6420
    },
    {
      "epoch": 0.03215,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002918140703517588,
      "loss": 2.8397,
      "step": 6430
    },
    {
      "epoch": 0.0322,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002917989949748744,
      "loss": 2.7257,
      "step": 6440
    },
    {
      "epoch": 0.03225,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029178391959798996,
      "loss": 2.8282,
      "step": 6450
    },
    {
      "epoch": 0.0323,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0029176884422110554,
      "loss": 2.7681,
      "step": 6460
    },
    {
      "epoch": 0.03235,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0029175376884422112,
      "loss": 2.822,
      "step": 6470
    },
    {
      "epoch": 0.0324,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002917386934673367,
      "loss": 2.7474,
      "step": 6480
    },
    {
      "epoch": 0.03245,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0029172361809045224,
      "loss": 2.8551,
      "step": 6490
    },
    {
      "epoch": 0.0325,
      "grad_norm": 0.46875,
      "learning_rate": 0.0029170854271356786,
      "loss": 2.7245,
      "step": 6500
    },
    {
      "epoch": 0.03255,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0029169346733668344,
      "loss": 2.8284,
      "step": 6510
    },
    {
      "epoch": 0.0326,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00291678391959799,
      "loss": 2.782,
      "step": 6520
    },
    {
      "epoch": 0.03265,
      "grad_norm": 0.421875,
      "learning_rate": 0.002916633165829146,
      "loss": 2.7488,
      "step": 6530
    },
    {
      "epoch": 0.0327,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029164824120603014,
      "loss": 2.7536,
      "step": 6540
    },
    {
      "epoch": 0.03275,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0029163316582914572,
      "loss": 2.7543,
      "step": 6550
    },
    {
      "epoch": 0.0328,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002916180904522613,
      "loss": 2.7221,
      "step": 6560
    },
    {
      "epoch": 0.03285,
      "grad_norm": 0.330078125,
      "learning_rate": 0.002916030150753769,
      "loss": 2.7901,
      "step": 6570
    },
    {
      "epoch": 0.0329,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029158793969849247,
      "loss": 2.7956,
      "step": 6580
    },
    {
      "epoch": 0.03295,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0029157286432160805,
      "loss": 2.7717,
      "step": 6590
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0029155778894472363,
      "loss": 2.8091,
      "step": 6600
    },
    {
      "epoch": 0.03305,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002915427135678392,
      "loss": 2.8209,
      "step": 6610
    },
    {
      "epoch": 0.0331,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002915276381909548,
      "loss": 2.7713,
      "step": 6620
    },
    {
      "epoch": 0.03315,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029151256281407037,
      "loss": 2.7435,
      "step": 6630
    },
    {
      "epoch": 0.0332,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029149748743718595,
      "loss": 2.7489,
      "step": 6640
    },
    {
      "epoch": 0.03325,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002914824120603015,
      "loss": 2.8263,
      "step": 6650
    },
    {
      "epoch": 0.0333,
      "grad_norm": 0.341796875,
      "learning_rate": 0.002914673366834171,
      "loss": 2.7533,
      "step": 6660
    },
    {
      "epoch": 0.03335,
      "grad_norm": 0.35546875,
      "learning_rate": 0.002914522613065327,
      "loss": 2.8158,
      "step": 6670
    },
    {
      "epoch": 0.0334,
      "grad_norm": 0.34375,
      "learning_rate": 0.0029143718592964823,
      "loss": 2.7266,
      "step": 6680
    },
    {
      "epoch": 0.03345,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0029142211055276385,
      "loss": 2.7651,
      "step": 6690
    },
    {
      "epoch": 0.0335,
      "grad_norm": 0.375,
      "learning_rate": 0.002914070351758794,
      "loss": 2.7158,
      "step": 6700
    },
    {
      "epoch": 0.03355,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029139195979899497,
      "loss": 2.7993,
      "step": 6710
    },
    {
      "epoch": 0.0336,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029137688442211055,
      "loss": 2.7539,
      "step": 6720
    },
    {
      "epoch": 0.03365,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0029136180904522613,
      "loss": 2.8118,
      "step": 6730
    },
    {
      "epoch": 0.0337,
      "grad_norm": 0.34375,
      "learning_rate": 0.002913467336683417,
      "loss": 2.7326,
      "step": 6740
    },
    {
      "epoch": 0.03375,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002913316582914573,
      "loss": 2.8077,
      "step": 6750
    },
    {
      "epoch": 0.0338,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0029131658291457288,
      "loss": 2.7314,
      "step": 6760
    },
    {
      "epoch": 0.03385,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0029130150753768846,
      "loss": 2.7746,
      "step": 6770
    },
    {
      "epoch": 0.0339,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0029128643216080404,
      "loss": 2.7742,
      "step": 6780
    },
    {
      "epoch": 0.03395,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002912713567839196,
      "loss": 2.7713,
      "step": 6790
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.35546875,
      "learning_rate": 0.002912562814070352,
      "loss": 2.7876,
      "step": 6800
    },
    {
      "epoch": 0.03405,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0029124120603015074,
      "loss": 2.7401,
      "step": 6810
    },
    {
      "epoch": 0.0341,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0029122613065326636,
      "loss": 2.7652,
      "step": 6820
    },
    {
      "epoch": 0.03415,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0029121105527638194,
      "loss": 2.7608,
      "step": 6830
    },
    {
      "epoch": 0.0342,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029119597989949748,
      "loss": 2.7315,
      "step": 6840
    },
    {
      "epoch": 0.03425,
      "grad_norm": 0.326171875,
      "learning_rate": 0.0029118090452261306,
      "loss": 2.7867,
      "step": 6850
    },
    {
      "epoch": 0.0343,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0029116582914572864,
      "loss": 2.7467,
      "step": 6860
    },
    {
      "epoch": 0.03435,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002911507537688442,
      "loss": 2.769,
      "step": 6870
    },
    {
      "epoch": 0.0344,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002911356783919598,
      "loss": 2.742,
      "step": 6880
    },
    {
      "epoch": 0.03445,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002911206030150754,
      "loss": 2.7709,
      "step": 6890
    },
    {
      "epoch": 0.0345,
      "grad_norm": 0.390625,
      "learning_rate": 0.0029110552763819096,
      "loss": 2.7704,
      "step": 6900
    },
    {
      "epoch": 0.03455,
      "grad_norm": 0.40625,
      "learning_rate": 0.0029109045226130654,
      "loss": 2.7821,
      "step": 6910
    },
    {
      "epoch": 0.0346,
      "grad_norm": 0.359375,
      "learning_rate": 0.0029107537688442212,
      "loss": 2.7224,
      "step": 6920
    },
    {
      "epoch": 0.03465,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002910603015075377,
      "loss": 2.7677,
      "step": 6930
    },
    {
      "epoch": 0.0347,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0029104522613065324,
      "loss": 2.7008,
      "step": 6940
    },
    {
      "epoch": 0.03475,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0029103015075376886,
      "loss": 2.7645,
      "step": 6950
    },
    {
      "epoch": 0.0348,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0029101507537688445,
      "loss": 2.7964,
      "step": 6960
    },
    {
      "epoch": 0.03485,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00291,
      "loss": 2.7415,
      "step": 6970
    },
    {
      "epoch": 0.0349,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002909849246231156,
      "loss": 2.7871,
      "step": 6980
    },
    {
      "epoch": 0.03495,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002909698492462312,
      "loss": 2.8145,
      "step": 6990
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029095477386934672,
      "loss": 2.7702,
      "step": 7000
    },
    {
      "epoch": 0.03505,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002909396984924623,
      "loss": 2.7948,
      "step": 7010
    },
    {
      "epoch": 0.0351,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002909246231155779,
      "loss": 2.7392,
      "step": 7020
    },
    {
      "epoch": 0.03515,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029090954773869347,
      "loss": 2.7476,
      "step": 7030
    },
    {
      "epoch": 0.0352,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0029089447236180905,
      "loss": 2.7427,
      "step": 7040
    },
    {
      "epoch": 0.03525,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029087939698492463,
      "loss": 2.7801,
      "step": 7050
    },
    {
      "epoch": 0.0353,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002908643216080402,
      "loss": 2.7364,
      "step": 7060
    },
    {
      "epoch": 0.03535,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002908492462311558,
      "loss": 2.741,
      "step": 7070
    },
    {
      "epoch": 0.0354,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0029083417085427137,
      "loss": 2.7848,
      "step": 7080
    },
    {
      "epoch": 0.03545,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0029081909547738695,
      "loss": 2.771,
      "step": 7090
    },
    {
      "epoch": 0.0355,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002908040201005025,
      "loss": 2.7783,
      "step": 7100
    },
    {
      "epoch": 0.03555,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002907889447236181,
      "loss": 2.7629,
      "step": 7110
    },
    {
      "epoch": 0.0356,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002907738693467337,
      "loss": 2.754,
      "step": 7120
    },
    {
      "epoch": 0.03565,
      "grad_norm": 0.322265625,
      "learning_rate": 0.0029075879396984923,
      "loss": 2.7812,
      "step": 7130
    },
    {
      "epoch": 0.0357,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029074371859296485,
      "loss": 2.7633,
      "step": 7140
    },
    {
      "epoch": 0.03575,
      "grad_norm": 0.341796875,
      "learning_rate": 0.002907286432160804,
      "loss": 2.7429,
      "step": 7150
    },
    {
      "epoch": 0.0358,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0029071356783919597,
      "loss": 2.7191,
      "step": 7160
    },
    {
      "epoch": 0.03585,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0029069849246231155,
      "loss": 2.8059,
      "step": 7170
    },
    {
      "epoch": 0.0359,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0029068341708542713,
      "loss": 2.7108,
      "step": 7180
    },
    {
      "epoch": 0.03595,
      "grad_norm": 0.390625,
      "learning_rate": 0.002906683417085427,
      "loss": 2.7546,
      "step": 7190
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002906532663316583,
      "loss": 2.7191,
      "step": 7200
    },
    {
      "epoch": 0.03605,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0029063819095477388,
      "loss": 2.7636,
      "step": 7210
    },
    {
      "epoch": 0.0361,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0029062311557788946,
      "loss": 2.7675,
      "step": 7220
    },
    {
      "epoch": 0.03615,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029060804020100504,
      "loss": 2.7328,
      "step": 7230
    },
    {
      "epoch": 0.0362,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002905929648241206,
      "loss": 2.7185,
      "step": 7240
    },
    {
      "epoch": 0.03625,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002905778894472362,
      "loss": 2.7298,
      "step": 7250
    },
    {
      "epoch": 0.0363,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0029056281407035174,
      "loss": 2.7466,
      "step": 7260
    },
    {
      "epoch": 0.03635,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0029054773869346736,
      "loss": 2.7408,
      "step": 7270
    },
    {
      "epoch": 0.0364,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0029053266331658294,
      "loss": 2.6951,
      "step": 7280
    },
    {
      "epoch": 0.03645,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029051758793969848,
      "loss": 2.7059,
      "step": 7290
    },
    {
      "epoch": 0.0365,
      "grad_norm": 0.3359375,
      "learning_rate": 0.002905025125628141,
      "loss": 2.8282,
      "step": 7300
    },
    {
      "epoch": 0.03655,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0029048743718592964,
      "loss": 2.7729,
      "step": 7310
    },
    {
      "epoch": 0.0366,
      "grad_norm": 0.453125,
      "learning_rate": 0.002904723618090452,
      "loss": 2.7231,
      "step": 7320
    },
    {
      "epoch": 0.03665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002904572864321608,
      "loss": 2.7531,
      "step": 7330
    },
    {
      "epoch": 0.0367,
      "grad_norm": 0.341796875,
      "learning_rate": 0.002904422110552764,
      "loss": 2.695,
      "step": 7340
    },
    {
      "epoch": 0.03675,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0029042713567839196,
      "loss": 2.7452,
      "step": 7350
    },
    {
      "epoch": 0.0368,
      "grad_norm": 0.337890625,
      "learning_rate": 0.0029041206030150754,
      "loss": 2.7343,
      "step": 7360
    },
    {
      "epoch": 0.03685,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0029039698492462312,
      "loss": 2.7425,
      "step": 7370
    },
    {
      "epoch": 0.0369,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002903819095477387,
      "loss": 2.7847,
      "step": 7380
    },
    {
      "epoch": 0.03695,
      "grad_norm": 0.390625,
      "learning_rate": 0.002903668341708543,
      "loss": 2.7226,
      "step": 7390
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029035175879396987,
      "loss": 2.7778,
      "step": 7400
    },
    {
      "epoch": 0.03705,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0029033668341708545,
      "loss": 2.7004,
      "step": 7410
    },
    {
      "epoch": 0.0371,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00290321608040201,
      "loss": 2.7436,
      "step": 7420
    },
    {
      "epoch": 0.03715,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002903065326633166,
      "loss": 2.7171,
      "step": 7430
    },
    {
      "epoch": 0.0372,
      "grad_norm": 0.4375,
      "learning_rate": 0.002902914572864322,
      "loss": 2.7418,
      "step": 7440
    },
    {
      "epoch": 0.03725,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029027638190954773,
      "loss": 2.7113,
      "step": 7450
    },
    {
      "epoch": 0.0373,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0029026130653266335,
      "loss": 2.7239,
      "step": 7460
    },
    {
      "epoch": 0.03735,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002902462311557789,
      "loss": 2.7607,
      "step": 7470
    },
    {
      "epoch": 0.0374,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029023115577889447,
      "loss": 2.7659,
      "step": 7480
    },
    {
      "epoch": 0.03745,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0029021608040201005,
      "loss": 2.7107,
      "step": 7490
    },
    {
      "epoch": 0.0375,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0029020100502512563,
      "loss": 2.7779,
      "step": 7500
    },
    {
      "epoch": 0.03755,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002901859296482412,
      "loss": 2.6782,
      "step": 7510
    },
    {
      "epoch": 0.0376,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002901708542713568,
      "loss": 2.7537,
      "step": 7520
    },
    {
      "epoch": 0.03765,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0029015577889447237,
      "loss": 2.6814,
      "step": 7530
    },
    {
      "epoch": 0.0377,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0029014070351758795,
      "loss": 2.7294,
      "step": 7540
    },
    {
      "epoch": 0.03775,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0029012562814070353,
      "loss": 2.6985,
      "step": 7550
    },
    {
      "epoch": 0.0378,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002901105527638191,
      "loss": 2.749,
      "step": 7560
    },
    {
      "epoch": 0.03785,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002900954773869347,
      "loss": 2.7069,
      "step": 7570
    },
    {
      "epoch": 0.0379,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0029008040201005023,
      "loss": 2.7156,
      "step": 7580
    },
    {
      "epoch": 0.03795,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0029006532663316585,
      "loss": 2.7447,
      "step": 7590
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0029005025125628144,
      "loss": 2.74,
      "step": 7600
    },
    {
      "epoch": 0.03805,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0029003517587939697,
      "loss": 2.7272,
      "step": 7610
    },
    {
      "epoch": 0.0381,
      "grad_norm": 0.3515625,
      "learning_rate": 0.002900201005025126,
      "loss": 2.752,
      "step": 7620
    },
    {
      "epoch": 0.03815,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0029000502512562813,
      "loss": 2.7048,
      "step": 7630
    },
    {
      "epoch": 0.0382,
      "grad_norm": 0.337890625,
      "learning_rate": 0.002899899497487437,
      "loss": 2.7635,
      "step": 7640
    },
    {
      "epoch": 0.03825,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002899748743718593,
      "loss": 2.7418,
      "step": 7650
    },
    {
      "epoch": 0.0383,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0028995979899497488,
      "loss": 2.7493,
      "step": 7660
    },
    {
      "epoch": 0.03835,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028994472361809046,
      "loss": 2.6619,
      "step": 7670
    },
    {
      "epoch": 0.0384,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028992964824120604,
      "loss": 2.7537,
      "step": 7680
    },
    {
      "epoch": 0.03845,
      "grad_norm": 0.359375,
      "learning_rate": 0.002899145728643216,
      "loss": 2.6771,
      "step": 7690
    },
    {
      "epoch": 0.0385,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002898994974874372,
      "loss": 2.7664,
      "step": 7700
    },
    {
      "epoch": 0.03855,
      "grad_norm": 0.35546875,
      "learning_rate": 0.002898844221105528,
      "loss": 2.6655,
      "step": 7710
    },
    {
      "epoch": 0.0386,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028986934673366836,
      "loss": 2.7363,
      "step": 7720
    },
    {
      "epoch": 0.03865,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028985427135678394,
      "loss": 2.6945,
      "step": 7730
    },
    {
      "epoch": 0.0387,
      "grad_norm": 0.390625,
      "learning_rate": 0.002898391959798995,
      "loss": 2.7515,
      "step": 7740
    },
    {
      "epoch": 0.03875,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002898241206030151,
      "loss": 2.6795,
      "step": 7750
    },
    {
      "epoch": 0.0388,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002898090452261307,
      "loss": 2.6805,
      "step": 7760
    },
    {
      "epoch": 0.03885,
      "grad_norm": 0.40625,
      "learning_rate": 0.002897939698492462,
      "loss": 2.7087,
      "step": 7770
    },
    {
      "epoch": 0.0389,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0028977889447236184,
      "loss": 2.7484,
      "step": 7780
    },
    {
      "epoch": 0.03895,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002897638190954774,
      "loss": 2.7261,
      "step": 7790
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028974874371859296,
      "loss": 2.7192,
      "step": 7800
    },
    {
      "epoch": 0.03905,
      "grad_norm": 0.359375,
      "learning_rate": 0.0028973366834170854,
      "loss": 2.6973,
      "step": 7810
    },
    {
      "epoch": 0.0391,
      "grad_norm": 0.375,
      "learning_rate": 0.0028971859296482412,
      "loss": 2.6638,
      "step": 7820
    },
    {
      "epoch": 0.03915,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002897035175879397,
      "loss": 2.6679,
      "step": 7830
    },
    {
      "epoch": 0.0392,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002896884422110553,
      "loss": 2.7473,
      "step": 7840
    },
    {
      "epoch": 0.03925,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028967336683417087,
      "loss": 2.7248,
      "step": 7850
    },
    {
      "epoch": 0.0393,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0028965829145728645,
      "loss": 2.7045,
      "step": 7860
    },
    {
      "epoch": 0.03935,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00289643216080402,
      "loss": 2.6692,
      "step": 7870
    },
    {
      "epoch": 0.0394,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002896281407035176,
      "loss": 2.6732,
      "step": 7880
    },
    {
      "epoch": 0.03945,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002896130653266332,
      "loss": 2.7679,
      "step": 7890
    },
    {
      "epoch": 0.0395,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028959798994974873,
      "loss": 2.6377,
      "step": 7900
    },
    {
      "epoch": 0.03955,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028958291457286435,
      "loss": 2.7421,
      "step": 7910
    },
    {
      "epoch": 0.0396,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028956783919597993,
      "loss": 2.6933,
      "step": 7920
    },
    {
      "epoch": 0.03965,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0028955276381909547,
      "loss": 2.7259,
      "step": 7930
    },
    {
      "epoch": 0.0397,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002895376884422111,
      "loss": 2.7409,
      "step": 7940
    },
    {
      "epoch": 0.03975,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0028952261306532663,
      "loss": 2.7188,
      "step": 7950
    },
    {
      "epoch": 0.0398,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002895075376884422,
      "loss": 2.6504,
      "step": 7960
    },
    {
      "epoch": 0.03985,
      "grad_norm": 0.40625,
      "learning_rate": 0.002894924623115578,
      "loss": 2.7532,
      "step": 7970
    },
    {
      "epoch": 0.0399,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028947738693467337,
      "loss": 2.6942,
      "step": 7980
    },
    {
      "epoch": 0.03995,
      "grad_norm": 0.34375,
      "learning_rate": 0.0028946231155778895,
      "loss": 2.6972,
      "step": 7990
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0028944723618090453,
      "loss": 2.7194,
      "step": 8000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.681936264038086,
      "eval_runtime": 46.3833,
      "eval_samples_per_second": 53.899,
      "eval_steps_per_second": 0.108,
      "step": 8000
    },
    {
      "epoch": 0.04005,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002894321608040201,
      "loss": 2.7402,
      "step": 8010
    },
    {
      "epoch": 0.0401,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002894170854271357,
      "loss": 2.6924,
      "step": 8020
    },
    {
      "epoch": 0.04015,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028940201005025123,
      "loss": 2.7129,
      "step": 8030
    },
    {
      "epoch": 0.0402,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028938693467336686,
      "loss": 2.6607,
      "step": 8040
    },
    {
      "epoch": 0.04025,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028937185929648244,
      "loss": 2.7518,
      "step": 8050
    },
    {
      "epoch": 0.0403,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028935678391959797,
      "loss": 2.6506,
      "step": 8060
    },
    {
      "epoch": 0.04035,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002893417085427136,
      "loss": 2.6952,
      "step": 8070
    },
    {
      "epoch": 0.0404,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0028932663316582913,
      "loss": 2.615,
      "step": 8080
    },
    {
      "epoch": 0.04045,
      "grad_norm": 0.349609375,
      "learning_rate": 0.002893115577889447,
      "loss": 2.6681,
      "step": 8090
    },
    {
      "epoch": 0.0405,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002892964824120603,
      "loss": 2.6355,
      "step": 8100
    },
    {
      "epoch": 0.04055,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028928140703517588,
      "loss": 2.7517,
      "step": 8110
    },
    {
      "epoch": 0.0406,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028926633165829146,
      "loss": 2.7008,
      "step": 8120
    },
    {
      "epoch": 0.04065,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0028925125628140704,
      "loss": 2.7343,
      "step": 8130
    },
    {
      "epoch": 0.0407,
      "grad_norm": 0.353515625,
      "learning_rate": 0.002892361809045226,
      "loss": 2.7121,
      "step": 8140
    },
    {
      "epoch": 0.04075,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002892211055276382,
      "loss": 2.6988,
      "step": 8150
    },
    {
      "epoch": 0.0408,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002892060301507538,
      "loss": 2.5823,
      "step": 8160
    },
    {
      "epoch": 0.04085,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028919095477386936,
      "loss": 2.6982,
      "step": 8170
    },
    {
      "epoch": 0.0409,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028917587939698494,
      "loss": 2.6584,
      "step": 8180
    },
    {
      "epoch": 0.04095,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002891608040201005,
      "loss": 2.7315,
      "step": 8190
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.36328125,
      "learning_rate": 0.002891457286432161,
      "loss": 2.6538,
      "step": 8200
    },
    {
      "epoch": 0.04105,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002891306532663317,
      "loss": 2.6669,
      "step": 8210
    },
    {
      "epoch": 0.0411,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002891155778894472,
      "loss": 2.676,
      "step": 8220
    },
    {
      "epoch": 0.04115,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0028910050251256285,
      "loss": 2.7158,
      "step": 8230
    },
    {
      "epoch": 0.0412,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002890854271356784,
      "loss": 2.7145,
      "step": 8240
    },
    {
      "epoch": 0.04125,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0028907035175879396,
      "loss": 2.6434,
      "step": 8250
    },
    {
      "epoch": 0.0413,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0028905527638190954,
      "loss": 2.7311,
      "step": 8260
    },
    {
      "epoch": 0.04135,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028904020100502512,
      "loss": 2.6893,
      "step": 8270
    },
    {
      "epoch": 0.0414,
      "grad_norm": 0.34375,
      "learning_rate": 0.002890251256281407,
      "loss": 2.6991,
      "step": 8280
    },
    {
      "epoch": 0.04145,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002890100502512563,
      "loss": 2.6942,
      "step": 8290
    },
    {
      "epoch": 0.0415,
      "grad_norm": 0.375,
      "learning_rate": 0.0028899497487437187,
      "loss": 2.7148,
      "step": 8300
    },
    {
      "epoch": 0.04155,
      "grad_norm": 0.421875,
      "learning_rate": 0.0028897989949748745,
      "loss": 2.6725,
      "step": 8310
    },
    {
      "epoch": 0.0416,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028896482412060303,
      "loss": 2.6834,
      "step": 8320
    },
    {
      "epoch": 0.04165,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002889497487437186,
      "loss": 2.6444,
      "step": 8330
    },
    {
      "epoch": 0.0417,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002889346733668342,
      "loss": 2.6953,
      "step": 8340
    },
    {
      "epoch": 0.04175,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028891959798994973,
      "loss": 2.6696,
      "step": 8350
    },
    {
      "epoch": 0.0418,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028890452261306535,
      "loss": 2.6746,
      "step": 8360
    },
    {
      "epoch": 0.04185,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028888944723618093,
      "loss": 2.6532,
      "step": 8370
    },
    {
      "epoch": 0.0419,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028887437185929647,
      "loss": 2.7116,
      "step": 8380
    },
    {
      "epoch": 0.04195,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002888592964824121,
      "loss": 2.6479,
      "step": 8390
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028884422110552763,
      "loss": 2.6735,
      "step": 8400
    },
    {
      "epoch": 0.04205,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002888291457286432,
      "loss": 2.6117,
      "step": 8410
    },
    {
      "epoch": 0.0421,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002888140703517588,
      "loss": 2.6933,
      "step": 8420
    },
    {
      "epoch": 0.04215,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0028879899497487437,
      "loss": 2.6659,
      "step": 8430
    },
    {
      "epoch": 0.0422,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028878391959798995,
      "loss": 2.6864,
      "step": 8440
    },
    {
      "epoch": 0.04225,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028876884422110553,
      "loss": 2.6379,
      "step": 8450
    },
    {
      "epoch": 0.0423,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002887537688442211,
      "loss": 2.6447,
      "step": 8460
    },
    {
      "epoch": 0.04235,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002887386934673367,
      "loss": 2.6352,
      "step": 8470
    },
    {
      "epoch": 0.0424,
      "grad_norm": 0.421875,
      "learning_rate": 0.0028872361809045228,
      "loss": 2.7171,
      "step": 8480
    },
    {
      "epoch": 0.04245,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028870854271356786,
      "loss": 2.7037,
      "step": 8490
    },
    {
      "epoch": 0.0425,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0028869346733668344,
      "loss": 2.7273,
      "step": 8500
    },
    {
      "epoch": 0.04255,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028867839195979897,
      "loss": 2.6695,
      "step": 8510
    },
    {
      "epoch": 0.0426,
      "grad_norm": 0.375,
      "learning_rate": 0.002886633165829146,
      "loss": 2.6762,
      "step": 8520
    },
    {
      "epoch": 0.04265,
      "grad_norm": 0.35546875,
      "learning_rate": 0.002886482412060302,
      "loss": 2.6083,
      "step": 8530
    },
    {
      "epoch": 0.0427,
      "grad_norm": 0.390625,
      "learning_rate": 0.002886331658291457,
      "loss": 2.646,
      "step": 8540
    },
    {
      "epoch": 0.04275,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028861809045226134,
      "loss": 2.661,
      "step": 8550
    },
    {
      "epoch": 0.0428,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028860301507537688,
      "loss": 2.6527,
      "step": 8560
    },
    {
      "epoch": 0.04285,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0028858793969849246,
      "loss": 2.6597,
      "step": 8570
    },
    {
      "epoch": 0.0429,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0028857286432160804,
      "loss": 2.6841,
      "step": 8580
    },
    {
      "epoch": 0.04295,
      "grad_norm": 0.345703125,
      "learning_rate": 0.002885577889447236,
      "loss": 2.7272,
      "step": 8590
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.375,
      "learning_rate": 0.002885427135678392,
      "loss": 2.6443,
      "step": 8600
    },
    {
      "epoch": 0.04305,
      "grad_norm": 0.345703125,
      "learning_rate": 0.002885276381909548,
      "loss": 2.6663,
      "step": 8610
    },
    {
      "epoch": 0.0431,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028851256281407036,
      "loss": 2.6379,
      "step": 8620
    },
    {
      "epoch": 0.04315,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028849748743718594,
      "loss": 2.704,
      "step": 8630
    },
    {
      "epoch": 0.0432,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028848241206030152,
      "loss": 2.6201,
      "step": 8640
    },
    {
      "epoch": 0.04325,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002884673366834171,
      "loss": 2.6915,
      "step": 8650
    },
    {
      "epoch": 0.0433,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002884522613065327,
      "loss": 2.6305,
      "step": 8660
    },
    {
      "epoch": 0.04335,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028843718592964822,
      "loss": 2.6121,
      "step": 8670
    },
    {
      "epoch": 0.0434,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0028842211055276385,
      "loss": 2.6589,
      "step": 8680
    },
    {
      "epoch": 0.04345,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028840703517587943,
      "loss": 2.6592,
      "step": 8690
    },
    {
      "epoch": 0.0435,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028839195979899496,
      "loss": 2.6496,
      "step": 8700
    },
    {
      "epoch": 0.04355,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002883768844221106,
      "loss": 2.6904,
      "step": 8710
    },
    {
      "epoch": 0.0436,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028836180904522613,
      "loss": 2.6694,
      "step": 8720
    },
    {
      "epoch": 0.04365,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002883467336683417,
      "loss": 2.6496,
      "step": 8730
    },
    {
      "epoch": 0.0437,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002883316582914573,
      "loss": 2.6434,
      "step": 8740
    },
    {
      "epoch": 0.04375,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028831658291457287,
      "loss": 2.7134,
      "step": 8750
    },
    {
      "epoch": 0.0438,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0028830150753768845,
      "loss": 2.6891,
      "step": 8760
    },
    {
      "epoch": 0.04385,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0028828643216080403,
      "loss": 2.6773,
      "step": 8770
    },
    {
      "epoch": 0.0439,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002882713567839196,
      "loss": 2.6597,
      "step": 8780
    },
    {
      "epoch": 0.04395,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002882562814070352,
      "loss": 2.6548,
      "step": 8790
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028824120603015073,
      "loss": 2.6389,
      "step": 8800
    },
    {
      "epoch": 0.04405,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0028822613065326635,
      "loss": 2.6558,
      "step": 8810
    },
    {
      "epoch": 0.0441,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0028821105527638193,
      "loss": 2.6641,
      "step": 8820
    },
    {
      "epoch": 0.04415,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0028819597989949747,
      "loss": 2.6429,
      "step": 8830
    },
    {
      "epoch": 0.0442,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002881809045226131,
      "loss": 2.6987,
      "step": 8840
    },
    {
      "epoch": 0.04425,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0028816582914572867,
      "loss": 2.664,
      "step": 8850
    },
    {
      "epoch": 0.0443,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002881507537688442,
      "loss": 2.6756,
      "step": 8860
    },
    {
      "epoch": 0.04435,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028813567839195984,
      "loss": 2.6783,
      "step": 8870
    },
    {
      "epoch": 0.0444,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028812060301507537,
      "loss": 2.6378,
      "step": 8880
    },
    {
      "epoch": 0.04445,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0028810552763819095,
      "loss": 2.6289,
      "step": 8890
    },
    {
      "epoch": 0.0445,
      "grad_norm": 0.359375,
      "learning_rate": 0.0028809045226130653,
      "loss": 2.6485,
      "step": 8900
    },
    {
      "epoch": 0.04455,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002880753768844221,
      "loss": 2.6012,
      "step": 8910
    },
    {
      "epoch": 0.0446,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002880603015075377,
      "loss": 2.6766,
      "step": 8920
    },
    {
      "epoch": 0.04465,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028804522613065328,
      "loss": 2.5916,
      "step": 8930
    },
    {
      "epoch": 0.0447,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028803015075376886,
      "loss": 2.6736,
      "step": 8940
    },
    {
      "epoch": 0.04475,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028801507537688444,
      "loss": 2.6681,
      "step": 8950
    },
    {
      "epoch": 0.0448,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0028799999999999997,
      "loss": 2.6404,
      "step": 8960
    },
    {
      "epoch": 0.04485,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002879849246231156,
      "loss": 2.6764,
      "step": 8970
    },
    {
      "epoch": 0.0449,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002879698492462312,
      "loss": 2.6496,
      "step": 8980
    },
    {
      "epoch": 0.04495,
      "grad_norm": 0.322265625,
      "learning_rate": 0.002879547738693467,
      "loss": 2.6064,
      "step": 8990
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028793969849246234,
      "loss": 2.6632,
      "step": 9000
    },
    {
      "epoch": 0.04505,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028792462311557788,
      "loss": 2.6699,
      "step": 9010
    },
    {
      "epoch": 0.0451,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028790954773869346,
      "loss": 2.6281,
      "step": 9020
    },
    {
      "epoch": 0.04515,
      "grad_norm": 0.359375,
      "learning_rate": 0.002878944723618091,
      "loss": 2.6482,
      "step": 9030
    },
    {
      "epoch": 0.0452,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002878793969849246,
      "loss": 2.6249,
      "step": 9040
    },
    {
      "epoch": 0.04525,
      "grad_norm": 0.359375,
      "learning_rate": 0.002878643216080402,
      "loss": 2.7149,
      "step": 9050
    },
    {
      "epoch": 0.0453,
      "grad_norm": 0.375,
      "learning_rate": 0.002878492462311558,
      "loss": 2.6667,
      "step": 9060
    },
    {
      "epoch": 0.04535,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028783417085427136,
      "loss": 2.6658,
      "step": 9070
    },
    {
      "epoch": 0.0454,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028781909547738694,
      "loss": 2.6781,
      "step": 9080
    },
    {
      "epoch": 0.04545,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028780402010050252,
      "loss": 2.6469,
      "step": 9090
    },
    {
      "epoch": 0.0455,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002877889447236181,
      "loss": 2.6116,
      "step": 9100
    },
    {
      "epoch": 0.04555,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002877738693467337,
      "loss": 2.7041,
      "step": 9110
    },
    {
      "epoch": 0.0456,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028775879396984922,
      "loss": 2.6614,
      "step": 9120
    },
    {
      "epoch": 0.04565,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0028774371859296485,
      "loss": 2.6817,
      "step": 9130
    },
    {
      "epoch": 0.0457,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028772864321608043,
      "loss": 2.584,
      "step": 9140
    },
    {
      "epoch": 0.04575,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0028771356783919596,
      "loss": 2.6641,
      "step": 9150
    },
    {
      "epoch": 0.0458,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002876984924623116,
      "loss": 2.6083,
      "step": 9160
    },
    {
      "epoch": 0.04585,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0028768341708542713,
      "loss": 2.6649,
      "step": 9170
    },
    {
      "epoch": 0.0459,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002876683417085427,
      "loss": 2.6103,
      "step": 9180
    },
    {
      "epoch": 0.04595,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002876532663316583,
      "loss": 2.6662,
      "step": 9190
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028763819095477387,
      "loss": 2.6112,
      "step": 9200
    },
    {
      "epoch": 0.04605,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0028762311557788945,
      "loss": 2.6076,
      "step": 9210
    },
    {
      "epoch": 0.0461,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028760804020100503,
      "loss": 2.5967,
      "step": 9220
    },
    {
      "epoch": 0.04615,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002875929648241206,
      "loss": 2.6219,
      "step": 9230
    },
    {
      "epoch": 0.0462,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002875778894472362,
      "loss": 2.626,
      "step": 9240
    },
    {
      "epoch": 0.04625,
      "grad_norm": 0.359375,
      "learning_rate": 0.0028756281407035177,
      "loss": 2.6057,
      "step": 9250
    },
    {
      "epoch": 0.0463,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0028754773869346735,
      "loss": 2.605,
      "step": 9260
    },
    {
      "epoch": 0.04635,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0028753266331658293,
      "loss": 2.6266,
      "step": 9270
    },
    {
      "epoch": 0.0464,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0028751758793969847,
      "loss": 2.6093,
      "step": 9280
    },
    {
      "epoch": 0.04645,
      "grad_norm": 0.375,
      "learning_rate": 0.002875025125628141,
      "loss": 2.657,
      "step": 9290
    },
    {
      "epoch": 0.0465,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028748743718592967,
      "loss": 2.6951,
      "step": 9300
    },
    {
      "epoch": 0.04655,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002874723618090452,
      "loss": 2.6276,
      "step": 9310
    },
    {
      "epoch": 0.0466,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028745728643216084,
      "loss": 2.6703,
      "step": 9320
    },
    {
      "epoch": 0.04665,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028744221105527637,
      "loss": 2.6908,
      "step": 9330
    },
    {
      "epoch": 0.0467,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028742713567839195,
      "loss": 2.6378,
      "step": 9340
    },
    {
      "epoch": 0.04675,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028741206030150753,
      "loss": 2.6225,
      "step": 9350
    },
    {
      "epoch": 0.0468,
      "grad_norm": 0.3515625,
      "learning_rate": 0.002873969849246231,
      "loss": 2.6193,
      "step": 9360
    },
    {
      "epoch": 0.04685,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002873819095477387,
      "loss": 2.6057,
      "step": 9370
    },
    {
      "epoch": 0.0469,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0028736683417085428,
      "loss": 2.6548,
      "step": 9380
    },
    {
      "epoch": 0.04695,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028735175879396986,
      "loss": 2.6054,
      "step": 9390
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028733668341708544,
      "loss": 2.601,
      "step": 9400
    },
    {
      "epoch": 0.04705,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00287321608040201,
      "loss": 2.5863,
      "step": 9410
    },
    {
      "epoch": 0.0471,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002873065326633166,
      "loss": 2.6954,
      "step": 9420
    },
    {
      "epoch": 0.04715,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002872914572864322,
      "loss": 2.5837,
      "step": 9430
    },
    {
      "epoch": 0.0472,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002872763819095477,
      "loss": 2.6567,
      "step": 9440
    },
    {
      "epoch": 0.04725,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028726130653266334,
      "loss": 2.6139,
      "step": 9450
    },
    {
      "epoch": 0.0473,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028724623115577892,
      "loss": 2.6203,
      "step": 9460
    },
    {
      "epoch": 0.04735,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028723115577889446,
      "loss": 2.5671,
      "step": 9470
    },
    {
      "epoch": 0.0474,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002872160804020101,
      "loss": 2.654,
      "step": 9480
    },
    {
      "epoch": 0.04745,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002872010050251256,
      "loss": 2.6048,
      "step": 9490
    },
    {
      "epoch": 0.0475,
      "grad_norm": 0.349609375,
      "learning_rate": 0.002871859296482412,
      "loss": 2.6262,
      "step": 9500
    },
    {
      "epoch": 0.04755,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002871708542713568,
      "loss": 2.6045,
      "step": 9510
    },
    {
      "epoch": 0.0476,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028715577889447236,
      "loss": 2.6254,
      "step": 9520
    },
    {
      "epoch": 0.04765,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0028714070351758794,
      "loss": 2.6029,
      "step": 9530
    },
    {
      "epoch": 0.0477,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0028712562814070352,
      "loss": 2.6535,
      "step": 9540
    },
    {
      "epoch": 0.04775,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002871105527638191,
      "loss": 2.6625,
      "step": 9550
    },
    {
      "epoch": 0.0478,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002870954773869347,
      "loss": 2.609,
      "step": 9560
    },
    {
      "epoch": 0.04785,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0028708040201005027,
      "loss": 2.6937,
      "step": 9570
    },
    {
      "epoch": 0.0479,
      "grad_norm": 0.359375,
      "learning_rate": 0.0028706532663316585,
      "loss": 2.6183,
      "step": 9580
    },
    {
      "epoch": 0.04795,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028705025125628143,
      "loss": 2.5901,
      "step": 9590
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028703517587939697,
      "loss": 2.6614,
      "step": 9600
    },
    {
      "epoch": 0.04805,
      "grad_norm": 0.333984375,
      "learning_rate": 0.002870201005025126,
      "loss": 2.6636,
      "step": 9610
    },
    {
      "epoch": 0.0481,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0028700502512562817,
      "loss": 2.6197,
      "step": 9620
    },
    {
      "epoch": 0.04815,
      "grad_norm": 0.359375,
      "learning_rate": 0.002869899497487437,
      "loss": 2.6806,
      "step": 9630
    },
    {
      "epoch": 0.0482,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0028697487437185933,
      "loss": 2.6266,
      "step": 9640
    },
    {
      "epoch": 0.04825,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028695979899497487,
      "loss": 2.6583,
      "step": 9650
    },
    {
      "epoch": 0.0483,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0028694472361809045,
      "loss": 2.5965,
      "step": 9660
    },
    {
      "epoch": 0.04835,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028692964824120603,
      "loss": 2.6034,
      "step": 9670
    },
    {
      "epoch": 0.0484,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002869145728643216,
      "loss": 2.6146,
      "step": 9680
    },
    {
      "epoch": 0.04845,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002868994974874372,
      "loss": 2.6382,
      "step": 9690
    },
    {
      "epoch": 0.0485,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028688442211055277,
      "loss": 2.6255,
      "step": 9700
    },
    {
      "epoch": 0.04855,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0028686934673366835,
      "loss": 2.6182,
      "step": 9710
    },
    {
      "epoch": 0.0486,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028685427135678393,
      "loss": 2.621,
      "step": 9720
    },
    {
      "epoch": 0.04865,
      "grad_norm": 0.375,
      "learning_rate": 0.0028683919597989947,
      "loss": 2.658,
      "step": 9730
    },
    {
      "epoch": 0.0487,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002868241206030151,
      "loss": 2.6581,
      "step": 9740
    },
    {
      "epoch": 0.04875,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028680904522613068,
      "loss": 2.6145,
      "step": 9750
    },
    {
      "epoch": 0.0488,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002867939698492462,
      "loss": 2.6506,
      "step": 9760
    },
    {
      "epoch": 0.04885,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0028677889447236184,
      "loss": 2.597,
      "step": 9770
    },
    {
      "epoch": 0.0489,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002867638190954774,
      "loss": 2.6212,
      "step": 9780
    },
    {
      "epoch": 0.04895,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0028674874371859295,
      "loss": 2.6666,
      "step": 9790
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002867336683417086,
      "loss": 2.6731,
      "step": 9800
    },
    {
      "epoch": 0.04905,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002867185929648241,
      "loss": 2.6165,
      "step": 9810
    },
    {
      "epoch": 0.0491,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002867035175879397,
      "loss": 2.6318,
      "step": 9820
    },
    {
      "epoch": 0.04915,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028668844221105528,
      "loss": 2.538,
      "step": 9830
    },
    {
      "epoch": 0.0492,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028667336683417086,
      "loss": 2.6374,
      "step": 9840
    },
    {
      "epoch": 0.04925,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0028665829145728644,
      "loss": 2.5914,
      "step": 9850
    },
    {
      "epoch": 0.0493,
      "grad_norm": 0.5,
      "learning_rate": 0.00286643216080402,
      "loss": 2.5791,
      "step": 9860
    },
    {
      "epoch": 0.04935,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002866281407035176,
      "loss": 2.5896,
      "step": 9870
    },
    {
      "epoch": 0.0494,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002866130653266332,
      "loss": 2.6321,
      "step": 9880
    },
    {
      "epoch": 0.04945,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002865979899497487,
      "loss": 2.6044,
      "step": 9890
    },
    {
      "epoch": 0.0495,
      "grad_norm": 0.40625,
      "learning_rate": 0.0028658291457286434,
      "loss": 2.6171,
      "step": 9900
    },
    {
      "epoch": 0.04955,
      "grad_norm": 0.4375,
      "learning_rate": 0.0028656783919597992,
      "loss": 2.6161,
      "step": 9910
    },
    {
      "epoch": 0.0496,
      "grad_norm": 0.359375,
      "learning_rate": 0.0028655276381909546,
      "loss": 2.5985,
      "step": 9920
    },
    {
      "epoch": 0.04965,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002865376884422111,
      "loss": 2.5877,
      "step": 9930
    },
    {
      "epoch": 0.0497,
      "grad_norm": 0.390625,
      "learning_rate": 0.002865226130653266,
      "loss": 2.5741,
      "step": 9940
    },
    {
      "epoch": 0.04975,
      "grad_norm": 0.341796875,
      "learning_rate": 0.002865075376884422,
      "loss": 2.6157,
      "step": 9950
    },
    {
      "epoch": 0.0498,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028649246231155783,
      "loss": 2.5212,
      "step": 9960
    },
    {
      "epoch": 0.04985,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028647738693467336,
      "loss": 2.6555,
      "step": 9970
    },
    {
      "epoch": 0.0499,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0028646231155778894,
      "loss": 2.577,
      "step": 9980
    },
    {
      "epoch": 0.04995,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028644723618090452,
      "loss": 2.6343,
      "step": 9990
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002864321608040201,
      "loss": 2.6073,
      "step": 10000
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.595369815826416,
      "eval_runtime": 46.4463,
      "eval_samples_per_second": 53.826,
      "eval_steps_per_second": 0.108,
      "step": 10000
    },
    {
      "epoch": 0.05005,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002864170854271357,
      "loss": 2.6495,
      "step": 10010
    },
    {
      "epoch": 0.0501,
      "grad_norm": 0.40625,
      "learning_rate": 0.0028640201005025127,
      "loss": 2.6148,
      "step": 10020
    },
    {
      "epoch": 0.05015,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028638693467336685,
      "loss": 2.6208,
      "step": 10030
    },
    {
      "epoch": 0.0502,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028637185929648243,
      "loss": 2.559,
      "step": 10040
    },
    {
      "epoch": 0.05025,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028635678391959797,
      "loss": 2.619,
      "step": 10050
    },
    {
      "epoch": 0.0503,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002863417085427136,
      "loss": 2.5958,
      "step": 10060
    },
    {
      "epoch": 0.05035,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0028632663316582917,
      "loss": 2.641,
      "step": 10070
    },
    {
      "epoch": 0.0504,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002863115577889447,
      "loss": 2.597,
      "step": 10080
    },
    {
      "epoch": 0.05045,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028629648241206033,
      "loss": 2.6386,
      "step": 10090
    },
    {
      "epoch": 0.0505,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028628140703517587,
      "loss": 2.6056,
      "step": 10100
    },
    {
      "epoch": 0.05055,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0028626633165829145,
      "loss": 2.6036,
      "step": 10110
    },
    {
      "epoch": 0.0506,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0028625125628140707,
      "loss": 2.6082,
      "step": 10120
    },
    {
      "epoch": 0.05065,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002862361809045226,
      "loss": 2.6114,
      "step": 10130
    },
    {
      "epoch": 0.0507,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002862211055276382,
      "loss": 2.6448,
      "step": 10140
    },
    {
      "epoch": 0.05075,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0028620603015075377,
      "loss": 2.6108,
      "step": 10150
    },
    {
      "epoch": 0.0508,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0028619095477386935,
      "loss": 2.7013,
      "step": 10160
    },
    {
      "epoch": 0.05085,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0028617587939698493,
      "loss": 2.6085,
      "step": 10170
    },
    {
      "epoch": 0.0509,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002861608040201005,
      "loss": 2.6287,
      "step": 10180
    },
    {
      "epoch": 0.05095,
      "grad_norm": 0.3359375,
      "learning_rate": 0.002861457286432161,
      "loss": 2.5783,
      "step": 10190
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0028613065326633168,
      "loss": 2.6428,
      "step": 10200
    },
    {
      "epoch": 0.05105,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002861155778894472,
      "loss": 2.5729,
      "step": 10210
    },
    {
      "epoch": 0.0511,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028610050251256284,
      "loss": 2.6212,
      "step": 10220
    },
    {
      "epoch": 0.05115,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002860854271356784,
      "loss": 2.5492,
      "step": 10230
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0028607035175879396,
      "loss": 2.6168,
      "step": 10240
    },
    {
      "epoch": 0.05125,
      "grad_norm": 0.353515625,
      "learning_rate": 0.002860552763819096,
      "loss": 2.5815,
      "step": 10250
    },
    {
      "epoch": 0.0513,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002860402010050251,
      "loss": 2.6064,
      "step": 10260
    },
    {
      "epoch": 0.05135,
      "grad_norm": 0.390625,
      "learning_rate": 0.002860251256281407,
      "loss": 2.6122,
      "step": 10270
    },
    {
      "epoch": 0.0514,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028601005025125628,
      "loss": 2.6731,
      "step": 10280
    },
    {
      "epoch": 0.05145,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028599497487437186,
      "loss": 2.5816,
      "step": 10290
    },
    {
      "epoch": 0.0515,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0028597989949748744,
      "loss": 2.5952,
      "step": 10300
    },
    {
      "epoch": 0.05155,
      "grad_norm": 0.361328125,
      "learning_rate": 0.00285964824120603,
      "loss": 2.5684,
      "step": 10310
    },
    {
      "epoch": 0.0516,
      "grad_norm": 0.390625,
      "learning_rate": 0.002859497487437186,
      "loss": 2.6272,
      "step": 10320
    },
    {
      "epoch": 0.05165,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002859346733668342,
      "loss": 2.646,
      "step": 10330
    },
    {
      "epoch": 0.0517,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028591959798994976,
      "loss": 2.6019,
      "step": 10340
    },
    {
      "epoch": 0.05175,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0028590452261306534,
      "loss": 2.6139,
      "step": 10350
    },
    {
      "epoch": 0.0518,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028588944723618092,
      "loss": 2.5877,
      "step": 10360
    },
    {
      "epoch": 0.05185,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0028587437185929646,
      "loss": 2.5869,
      "step": 10370
    },
    {
      "epoch": 0.0519,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002858592964824121,
      "loss": 2.5655,
      "step": 10380
    },
    {
      "epoch": 0.05195,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028584422110552767,
      "loss": 2.6035,
      "step": 10390
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.421875,
      "learning_rate": 0.002858291457286432,
      "loss": 2.5786,
      "step": 10400
    },
    {
      "epoch": 0.05205,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028581407035175883,
      "loss": 2.6118,
      "step": 10410
    },
    {
      "epoch": 0.0521,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0028579899497487436,
      "loss": 2.6356,
      "step": 10420
    },
    {
      "epoch": 0.05215,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028578391959798994,
      "loss": 2.578,
      "step": 10430
    },
    {
      "epoch": 0.0522,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028576884422110553,
      "loss": 2.5807,
      "step": 10440
    },
    {
      "epoch": 0.05225,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002857537688442211,
      "loss": 2.5612,
      "step": 10450
    },
    {
      "epoch": 0.0523,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002857386934673367,
      "loss": 2.6212,
      "step": 10460
    },
    {
      "epoch": 0.05235,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0028572361809045227,
      "loss": 2.5342,
      "step": 10470
    },
    {
      "epoch": 0.0524,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028570854271356785,
      "loss": 2.6335,
      "step": 10480
    },
    {
      "epoch": 0.05245,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028569346733668343,
      "loss": 2.5936,
      "step": 10490
    },
    {
      "epoch": 0.0525,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00285678391959799,
      "loss": 2.6231,
      "step": 10500
    },
    {
      "epoch": 0.05255,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002856633165829146,
      "loss": 2.5312,
      "step": 10510
    },
    {
      "epoch": 0.0526,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0028564824120603017,
      "loss": 2.649,
      "step": 10520
    },
    {
      "epoch": 0.05265,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002856331658291457,
      "loss": 2.5475,
      "step": 10530
    },
    {
      "epoch": 0.0527,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028561809045226133,
      "loss": 2.599,
      "step": 10540
    },
    {
      "epoch": 0.05275,
      "grad_norm": 0.337890625,
      "learning_rate": 0.002856030150753769,
      "loss": 2.5415,
      "step": 10550
    },
    {
      "epoch": 0.0528,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028558793969849245,
      "loss": 2.6124,
      "step": 10560
    },
    {
      "epoch": 0.05285,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0028557286432160807,
      "loss": 2.5781,
      "step": 10570
    },
    {
      "epoch": 0.0529,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002855577889447236,
      "loss": 2.5697,
      "step": 10580
    },
    {
      "epoch": 0.05295,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002855427135678392,
      "loss": 2.5898,
      "step": 10590
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028552763819095477,
      "loss": 2.5502,
      "step": 10600
    },
    {
      "epoch": 0.05305,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028551256281407035,
      "loss": 2.6435,
      "step": 10610
    },
    {
      "epoch": 0.0531,
      "grad_norm": 0.40625,
      "learning_rate": 0.0028549748743718593,
      "loss": 2.6135,
      "step": 10620
    },
    {
      "epoch": 0.05315,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002854824120603015,
      "loss": 2.5718,
      "step": 10630
    },
    {
      "epoch": 0.0532,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002854673366834171,
      "loss": 2.5863,
      "step": 10640
    },
    {
      "epoch": 0.05325,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028545226130653268,
      "loss": 2.6721,
      "step": 10650
    },
    {
      "epoch": 0.0533,
      "grad_norm": 0.375,
      "learning_rate": 0.002854371859296482,
      "loss": 2.5748,
      "step": 10660
    },
    {
      "epoch": 0.05335,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028542211055276384,
      "loss": 2.6645,
      "step": 10670
    },
    {
      "epoch": 0.0534,
      "grad_norm": 0.349609375,
      "learning_rate": 0.002854070351758794,
      "loss": 2.6114,
      "step": 10680
    },
    {
      "epoch": 0.05345,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028539195979899496,
      "loss": 2.6528,
      "step": 10690
    },
    {
      "epoch": 0.0535,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002853768844221106,
      "loss": 2.592,
      "step": 10700
    },
    {
      "epoch": 0.05355,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028536180904522616,
      "loss": 2.5776,
      "step": 10710
    },
    {
      "epoch": 0.0536,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002853467336683417,
      "loss": 2.6239,
      "step": 10720
    },
    {
      "epoch": 0.05365,
      "grad_norm": 0.375,
      "learning_rate": 0.0028533165829145732,
      "loss": 2.5995,
      "step": 10730
    },
    {
      "epoch": 0.0537,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028531658291457286,
      "loss": 2.629,
      "step": 10740
    },
    {
      "epoch": 0.05375,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0028530150753768844,
      "loss": 2.5716,
      "step": 10750
    },
    {
      "epoch": 0.0538,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00285286432160804,
      "loss": 2.5709,
      "step": 10760
    },
    {
      "epoch": 0.05385,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002852713567839196,
      "loss": 2.576,
      "step": 10770
    },
    {
      "epoch": 0.0539,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002852562814070352,
      "loss": 2.6179,
      "step": 10780
    },
    {
      "epoch": 0.05395,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0028524120603015076,
      "loss": 2.5445,
      "step": 10790
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0028522613065326634,
      "loss": 2.6118,
      "step": 10800
    },
    {
      "epoch": 0.05405,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028521105527638192,
      "loss": 2.5885,
      "step": 10810
    },
    {
      "epoch": 0.0541,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028519597989949746,
      "loss": 2.5987,
      "step": 10820
    },
    {
      "epoch": 0.05415,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002851809045226131,
      "loss": 2.6065,
      "step": 10830
    },
    {
      "epoch": 0.0542,
      "grad_norm": 0.40625,
      "learning_rate": 0.0028516582914572867,
      "loss": 2.5586,
      "step": 10840
    },
    {
      "epoch": 0.05425,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002851507537688442,
      "loss": 2.58,
      "step": 10850
    },
    {
      "epoch": 0.0543,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0028513567839195983,
      "loss": 2.5732,
      "step": 10860
    },
    {
      "epoch": 0.05435,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028512060301507536,
      "loss": 2.5399,
      "step": 10870
    },
    {
      "epoch": 0.0544,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0028510552763819095,
      "loss": 2.6085,
      "step": 10880
    },
    {
      "epoch": 0.05445,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028509045226130657,
      "loss": 2.6038,
      "step": 10890
    },
    {
      "epoch": 0.0545,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002850753768844221,
      "loss": 2.633,
      "step": 10900
    },
    {
      "epoch": 0.05455,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002850603015075377,
      "loss": 2.6409,
      "step": 10910
    },
    {
      "epoch": 0.0546,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0028504522613065327,
      "loss": 2.6176,
      "step": 10920
    },
    {
      "epoch": 0.05465,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028503015075376885,
      "loss": 2.6127,
      "step": 10930
    },
    {
      "epoch": 0.0547,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0028501507537688443,
      "loss": 2.5566,
      "step": 10940
    },
    {
      "epoch": 0.05475,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00285,
      "loss": 2.5667,
      "step": 10950
    },
    {
      "epoch": 0.0548,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002849849246231156,
      "loss": 2.5399,
      "step": 10960
    },
    {
      "epoch": 0.05485,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0028496984924623117,
      "loss": 2.6296,
      "step": 10970
    },
    {
      "epoch": 0.0549,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002849547738693467,
      "loss": 2.6059,
      "step": 10980
    },
    {
      "epoch": 0.05495,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028493969849246233,
      "loss": 2.5378,
      "step": 10990
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.349609375,
      "learning_rate": 0.002849246231155779,
      "loss": 2.5866,
      "step": 11000
    },
    {
      "epoch": 0.05505,
      "grad_norm": 0.3515625,
      "learning_rate": 0.0028490954773869345,
      "loss": 2.5618,
      "step": 11010
    },
    {
      "epoch": 0.0551,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028489447236180908,
      "loss": 2.5993,
      "step": 11020
    },
    {
      "epoch": 0.05515,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002848793969849246,
      "loss": 2.5525,
      "step": 11030
    },
    {
      "epoch": 0.0552,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002848643216080402,
      "loss": 2.6245,
      "step": 11040
    },
    {
      "epoch": 0.05525,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002848492462311558,
      "loss": 2.5443,
      "step": 11050
    },
    {
      "epoch": 0.0553,
      "grad_norm": 0.3359375,
      "learning_rate": 0.0028483417085427135,
      "loss": 2.5923,
      "step": 11060
    },
    {
      "epoch": 0.05535,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028481909547738694,
      "loss": 2.608,
      "step": 11070
    },
    {
      "epoch": 0.0554,
      "grad_norm": 0.359375,
      "learning_rate": 0.002848040201005025,
      "loss": 2.5754,
      "step": 11080
    },
    {
      "epoch": 0.05545,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002847889447236181,
      "loss": 2.5511,
      "step": 11090
    },
    {
      "epoch": 0.0555,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0028477386934673368,
      "loss": 2.5489,
      "step": 11100
    },
    {
      "epoch": 0.05555,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028475879396984926,
      "loss": 2.6421,
      "step": 11110
    },
    {
      "epoch": 0.0556,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0028474371859296484,
      "loss": 2.5583,
      "step": 11120
    },
    {
      "epoch": 0.05565,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002847286432160804,
      "loss": 2.5848,
      "step": 11130
    },
    {
      "epoch": 0.0557,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0028471356783919596,
      "loss": 2.529,
      "step": 11140
    },
    {
      "epoch": 0.05575,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002846984924623116,
      "loss": 2.5793,
      "step": 11150
    },
    {
      "epoch": 0.0558,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028468341708542716,
      "loss": 2.5367,
      "step": 11160
    },
    {
      "epoch": 0.05585,
      "grad_norm": 0.36328125,
      "learning_rate": 0.002846683417085427,
      "loss": 2.5751,
      "step": 11170
    },
    {
      "epoch": 0.0559,
      "grad_norm": 0.375,
      "learning_rate": 0.0028465326633165832,
      "loss": 2.5814,
      "step": 11180
    },
    {
      "epoch": 0.05595,
      "grad_norm": 0.40625,
      "learning_rate": 0.0028463819095477386,
      "loss": 2.5471,
      "step": 11190
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028462311557788944,
      "loss": 2.6221,
      "step": 11200
    },
    {
      "epoch": 0.05605,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0028460804020100506,
      "loss": 2.5453,
      "step": 11210
    },
    {
      "epoch": 0.0561,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002845929648241206,
      "loss": 2.5752,
      "step": 11220
    },
    {
      "epoch": 0.05615,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002845778894472362,
      "loss": 2.5343,
      "step": 11230
    },
    {
      "epoch": 0.0562,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0028456281407035176,
      "loss": 2.6085,
      "step": 11240
    },
    {
      "epoch": 0.05625,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028454773869346734,
      "loss": 2.5491,
      "step": 11250
    },
    {
      "epoch": 0.0563,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028453266331658292,
      "loss": 2.6244,
      "step": 11260
    },
    {
      "epoch": 0.05635,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002845175879396985,
      "loss": 2.5673,
      "step": 11270
    },
    {
      "epoch": 0.0564,
      "grad_norm": 0.36328125,
      "learning_rate": 0.002845025125628141,
      "loss": 2.5403,
      "step": 11280
    },
    {
      "epoch": 0.05645,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028448743718592967,
      "loss": 2.5835,
      "step": 11290
    },
    {
      "epoch": 0.0565,
      "grad_norm": 0.453125,
      "learning_rate": 0.002844723618090452,
      "loss": 2.5577,
      "step": 11300
    },
    {
      "epoch": 0.05655,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028445728643216083,
      "loss": 2.5949,
      "step": 11310
    },
    {
      "epoch": 0.0566,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002844422110552764,
      "loss": 2.5689,
      "step": 11320
    },
    {
      "epoch": 0.05665,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028442713567839195,
      "loss": 2.5973,
      "step": 11330
    },
    {
      "epoch": 0.0567,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028441206030150757,
      "loss": 2.529,
      "step": 11340
    },
    {
      "epoch": 0.05675,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002843969849246231,
      "loss": 2.6214,
      "step": 11350
    },
    {
      "epoch": 0.0568,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002843819095477387,
      "loss": 2.5521,
      "step": 11360
    },
    {
      "epoch": 0.05685,
      "grad_norm": 0.330078125,
      "learning_rate": 0.002843668341708543,
      "loss": 2.6081,
      "step": 11370
    },
    {
      "epoch": 0.0569,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028435175879396985,
      "loss": 2.5338,
      "step": 11380
    },
    {
      "epoch": 0.05695,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0028433668341708543,
      "loss": 2.5539,
      "step": 11390
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.35546875,
      "learning_rate": 0.00284321608040201,
      "loss": 2.5335,
      "step": 11400
    },
    {
      "epoch": 0.05705,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002843065326633166,
      "loss": 2.5788,
      "step": 11410
    },
    {
      "epoch": 0.0571,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0028429145728643217,
      "loss": 2.5994,
      "step": 11420
    },
    {
      "epoch": 0.05715,
      "grad_norm": 0.375,
      "learning_rate": 0.0028427638190954775,
      "loss": 2.504,
      "step": 11430
    },
    {
      "epoch": 0.0572,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0028426130653266333,
      "loss": 2.5852,
      "step": 11440
    },
    {
      "epoch": 0.05725,
      "grad_norm": 0.390625,
      "learning_rate": 0.002842462311557789,
      "loss": 2.5313,
      "step": 11450
    },
    {
      "epoch": 0.0573,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028423115577889445,
      "loss": 2.6267,
      "step": 11460
    },
    {
      "epoch": 0.05735,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0028421608040201008,
      "loss": 2.5208,
      "step": 11470
    },
    {
      "epoch": 0.0574,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028420100502512566,
      "loss": 2.5678,
      "step": 11480
    },
    {
      "epoch": 0.05745,
      "grad_norm": 0.40625,
      "learning_rate": 0.002841859296482412,
      "loss": 2.5712,
      "step": 11490
    },
    {
      "epoch": 0.0575,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002841708542713568,
      "loss": 2.5938,
      "step": 11500
    },
    {
      "epoch": 0.05755,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028415577889447236,
      "loss": 2.6272,
      "step": 11510
    },
    {
      "epoch": 0.0576,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0028414070351758794,
      "loss": 2.5143,
      "step": 11520
    },
    {
      "epoch": 0.05765,
      "grad_norm": 0.353515625,
      "learning_rate": 0.002841256281407035,
      "loss": 2.5745,
      "step": 11530
    },
    {
      "epoch": 0.0577,
      "grad_norm": 0.359375,
      "learning_rate": 0.002841105527638191,
      "loss": 2.5637,
      "step": 11540
    },
    {
      "epoch": 0.05775,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0028409547738693468,
      "loss": 2.5792,
      "step": 11550
    },
    {
      "epoch": 0.0578,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028408040201005026,
      "loss": 2.5055,
      "step": 11560
    },
    {
      "epoch": 0.05785,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028406532663316584,
      "loss": 2.5625,
      "step": 11570
    },
    {
      "epoch": 0.0579,
      "grad_norm": 0.375,
      "learning_rate": 0.002840502512562814,
      "loss": 2.5032,
      "step": 11580
    },
    {
      "epoch": 0.05795,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0028403517587939696,
      "loss": 2.5683,
      "step": 11590
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002840201005025126,
      "loss": 2.5853,
      "step": 11600
    },
    {
      "epoch": 0.05805,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028400502512562816,
      "loss": 2.5996,
      "step": 11610
    },
    {
      "epoch": 0.0581,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002839899497487437,
      "loss": 2.5705,
      "step": 11620
    },
    {
      "epoch": 0.05815,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028397487437185932,
      "loss": 2.5342,
      "step": 11630
    },
    {
      "epoch": 0.0582,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002839597989949749,
      "loss": 2.5916,
      "step": 11640
    },
    {
      "epoch": 0.05825,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0028394472361809044,
      "loss": 2.5413,
      "step": 11650
    },
    {
      "epoch": 0.0583,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0028392964824120607,
      "loss": 2.5505,
      "step": 11660
    },
    {
      "epoch": 0.05835,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002839145728643216,
      "loss": 2.5779,
      "step": 11670
    },
    {
      "epoch": 0.0584,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002838994974874372,
      "loss": 2.5388,
      "step": 11680
    },
    {
      "epoch": 0.05845,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028388442211055276,
      "loss": 2.548,
      "step": 11690
    },
    {
      "epoch": 0.0585,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0028386934673366834,
      "loss": 2.5555,
      "step": 11700
    },
    {
      "epoch": 0.05855,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028385427135678393,
      "loss": 2.601,
      "step": 11710
    },
    {
      "epoch": 0.0586,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002838391959798995,
      "loss": 2.5299,
      "step": 11720
    },
    {
      "epoch": 0.05865,
      "grad_norm": 0.375,
      "learning_rate": 0.002838241206030151,
      "loss": 2.5854,
      "step": 11730
    },
    {
      "epoch": 0.0587,
      "grad_norm": 0.5,
      "learning_rate": 0.0028380904522613067,
      "loss": 2.5098,
      "step": 11740
    },
    {
      "epoch": 0.05875,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002837939698492462,
      "loss": 2.5575,
      "step": 11750
    },
    {
      "epoch": 0.0588,
      "grad_norm": 0.33203125,
      "learning_rate": 0.0028377889447236183,
      "loss": 2.5517,
      "step": 11760
    },
    {
      "epoch": 0.05885,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002837638190954774,
      "loss": 2.573,
      "step": 11770
    },
    {
      "epoch": 0.0589,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028374874371859295,
      "loss": 2.5343,
      "step": 11780
    },
    {
      "epoch": 0.05895,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0028373366834170857,
      "loss": 2.5255,
      "step": 11790
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002837185929648241,
      "loss": 2.5258,
      "step": 11800
    },
    {
      "epoch": 0.05905,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002837035175879397,
      "loss": 2.5438,
      "step": 11810
    },
    {
      "epoch": 0.0591,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002836884422110553,
      "loss": 2.6117,
      "step": 11820
    },
    {
      "epoch": 0.05915,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0028367336683417085,
      "loss": 2.5128,
      "step": 11830
    },
    {
      "epoch": 0.0592,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028365829145728643,
      "loss": 2.5717,
      "step": 11840
    },
    {
      "epoch": 0.05925,
      "grad_norm": 0.37109375,
      "learning_rate": 0.00283643216080402,
      "loss": 2.5568,
      "step": 11850
    },
    {
      "epoch": 0.0593,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002836281407035176,
      "loss": 2.5466,
      "step": 11860
    },
    {
      "epoch": 0.05935,
      "grad_norm": 0.46875,
      "learning_rate": 0.0028361306532663317,
      "loss": 2.5218,
      "step": 11870
    },
    {
      "epoch": 0.0594,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0028359798994974875,
      "loss": 2.5424,
      "step": 11880
    },
    {
      "epoch": 0.05945,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0028358291457286433,
      "loss": 2.5472,
      "step": 11890
    },
    {
      "epoch": 0.0595,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002835678391959799,
      "loss": 2.5456,
      "step": 11900
    },
    {
      "epoch": 0.05955,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028355276381909545,
      "loss": 2.5463,
      "step": 11910
    },
    {
      "epoch": 0.0596,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0028353768844221108,
      "loss": 2.5448,
      "step": 11920
    },
    {
      "epoch": 0.05965,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028352261306532666,
      "loss": 2.5502,
      "step": 11930
    },
    {
      "epoch": 0.0597,
      "grad_norm": 0.421875,
      "learning_rate": 0.002835075376884422,
      "loss": 2.571,
      "step": 11940
    },
    {
      "epoch": 0.05975,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002834924623115578,
      "loss": 2.5325,
      "step": 11950
    },
    {
      "epoch": 0.0598,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028347738693467336,
      "loss": 2.5393,
      "step": 11960
    },
    {
      "epoch": 0.05985,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028346231155778894,
      "loss": 2.5781,
      "step": 11970
    },
    {
      "epoch": 0.0599,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028344723618090456,
      "loss": 2.5092,
      "step": 11980
    },
    {
      "epoch": 0.05995,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002834321608040201,
      "loss": 2.5401,
      "step": 11990
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002834170854271357,
      "loss": 2.5494,
      "step": 12000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.5305933952331543,
      "eval_runtime": 49.9235,
      "eval_samples_per_second": 50.077,
      "eval_steps_per_second": 0.1,
      "step": 12000
    },
    {
      "epoch": 0.06005,
      "grad_norm": 0.341796875,
      "learning_rate": 0.0028340201005025126,
      "loss": 2.5512,
      "step": 12010
    },
    {
      "epoch": 0.0601,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028338693467336684,
      "loss": 2.5185,
      "step": 12020
    },
    {
      "epoch": 0.06015,
      "grad_norm": 0.390625,
      "learning_rate": 0.002833718592964824,
      "loss": 2.5534,
      "step": 12030
    },
    {
      "epoch": 0.0602,
      "grad_norm": 0.3671875,
      "learning_rate": 0.00283356783919598,
      "loss": 2.5587,
      "step": 12040
    },
    {
      "epoch": 0.06025,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002833417085427136,
      "loss": 2.5394,
      "step": 12050
    },
    {
      "epoch": 0.0603,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0028332663316582916,
      "loss": 2.607,
      "step": 12060
    },
    {
      "epoch": 0.06035,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002833115577889447,
      "loss": 2.5607,
      "step": 12070
    },
    {
      "epoch": 0.0604,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028329648241206032,
      "loss": 2.5571,
      "step": 12080
    },
    {
      "epoch": 0.06045,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002832814070351759,
      "loss": 2.5725,
      "step": 12090
    },
    {
      "epoch": 0.0605,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028326633165829144,
      "loss": 2.523,
      "step": 12100
    },
    {
      "epoch": 0.06055,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028325125628140707,
      "loss": 2.5647,
      "step": 12110
    },
    {
      "epoch": 0.0606,
      "grad_norm": 0.359375,
      "learning_rate": 0.002832361809045226,
      "loss": 2.5675,
      "step": 12120
    },
    {
      "epoch": 0.06065,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002832211055276382,
      "loss": 2.5584,
      "step": 12130
    },
    {
      "epoch": 0.0607,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002832060301507538,
      "loss": 2.5346,
      "step": 12140
    },
    {
      "epoch": 0.06075,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0028319095477386935,
      "loss": 2.5374,
      "step": 12150
    },
    {
      "epoch": 0.0608,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028317587939698493,
      "loss": 2.5354,
      "step": 12160
    },
    {
      "epoch": 0.06085,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002831608040201005,
      "loss": 2.5692,
      "step": 12170
    },
    {
      "epoch": 0.0609,
      "grad_norm": 0.421875,
      "learning_rate": 0.002831457286432161,
      "loss": 2.533,
      "step": 12180
    },
    {
      "epoch": 0.06095,
      "grad_norm": 0.421875,
      "learning_rate": 0.0028313065326633167,
      "loss": 2.5273,
      "step": 12190
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028311557788944725,
      "loss": 2.5474,
      "step": 12200
    },
    {
      "epoch": 0.06105,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028310050251256283,
      "loss": 2.5466,
      "step": 12210
    },
    {
      "epoch": 0.0611,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002830854271356784,
      "loss": 2.5629,
      "step": 12220
    },
    {
      "epoch": 0.06115,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0028307035175879395,
      "loss": 2.5212,
      "step": 12230
    },
    {
      "epoch": 0.0612,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028305527638190957,
      "loss": 2.5349,
      "step": 12240
    },
    {
      "epoch": 0.06125,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028304020100502515,
      "loss": 2.4718,
      "step": 12250
    },
    {
      "epoch": 0.0613,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002830251256281407,
      "loss": 2.5515,
      "step": 12260
    },
    {
      "epoch": 0.06135,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002830100502512563,
      "loss": 2.4719,
      "step": 12270
    },
    {
      "epoch": 0.0614,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028299497487437185,
      "loss": 2.5391,
      "step": 12280
    },
    {
      "epoch": 0.06145,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0028297989949748743,
      "loss": 2.5834,
      "step": 12290
    },
    {
      "epoch": 0.0615,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028296482412060306,
      "loss": 2.4759,
      "step": 12300
    },
    {
      "epoch": 0.06155,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002829497487437186,
      "loss": 2.5959,
      "step": 12310
    },
    {
      "epoch": 0.0616,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028293467336683417,
      "loss": 2.522,
      "step": 12320
    },
    {
      "epoch": 0.06165,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028291959798994975,
      "loss": 2.5647,
      "step": 12330
    },
    {
      "epoch": 0.0617,
      "grad_norm": 0.375,
      "learning_rate": 0.0028290452261306533,
      "loss": 2.5185,
      "step": 12340
    },
    {
      "epoch": 0.06175,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002828894472361809,
      "loss": 2.5674,
      "step": 12350
    },
    {
      "epoch": 0.0618,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002828743718592965,
      "loss": 2.5585,
      "step": 12360
    },
    {
      "epoch": 0.06185,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0028285929648241208,
      "loss": 2.54,
      "step": 12370
    },
    {
      "epoch": 0.0619,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028284422110552766,
      "loss": 2.5608,
      "step": 12380
    },
    {
      "epoch": 0.06195,
      "grad_norm": 0.40625,
      "learning_rate": 0.002828291457286432,
      "loss": 2.4984,
      "step": 12390
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002828140703517588,
      "loss": 2.5552,
      "step": 12400
    },
    {
      "epoch": 0.06205,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002827989949748744,
      "loss": 2.5178,
      "step": 12410
    },
    {
      "epoch": 0.0621,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028278391959798994,
      "loss": 2.5541,
      "step": 12420
    },
    {
      "epoch": 0.06215,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0028276884422110556,
      "loss": 2.5246,
      "step": 12430
    },
    {
      "epoch": 0.0622,
      "grad_norm": 0.353515625,
      "learning_rate": 0.002827537688442211,
      "loss": 2.5578,
      "step": 12440
    },
    {
      "epoch": 0.06225,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002827386934673367,
      "loss": 2.5076,
      "step": 12450
    },
    {
      "epoch": 0.0623,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002827236180904523,
      "loss": 2.5151,
      "step": 12460
    },
    {
      "epoch": 0.06235,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028270854271356784,
      "loss": 2.5297,
      "step": 12470
    },
    {
      "epoch": 0.0624,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002826934673366834,
      "loss": 2.494,
      "step": 12480
    },
    {
      "epoch": 0.06245,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00282678391959799,
      "loss": 2.5461,
      "step": 12490
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002826633165829146,
      "loss": 2.5239,
      "step": 12500
    },
    {
      "epoch": 0.06255,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028264824120603016,
      "loss": 2.5262,
      "step": 12510
    },
    {
      "epoch": 0.0626,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002826331658291457,
      "loss": 2.501,
      "step": 12520
    },
    {
      "epoch": 0.06265,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028261809045226132,
      "loss": 2.4986,
      "step": 12530
    },
    {
      "epoch": 0.0627,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002826030150753769,
      "loss": 2.5298,
      "step": 12540
    },
    {
      "epoch": 0.06275,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028258793969849244,
      "loss": 2.5326,
      "step": 12550
    },
    {
      "epoch": 0.0628,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0028257286432160807,
      "loss": 2.5378,
      "step": 12560
    },
    {
      "epoch": 0.06285,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0028255778894472365,
      "loss": 2.5061,
      "step": 12570
    },
    {
      "epoch": 0.0629,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002825427135678392,
      "loss": 2.5766,
      "step": 12580
    },
    {
      "epoch": 0.06295,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002825276381909548,
      "loss": 2.5153,
      "step": 12590
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028251256281407035,
      "loss": 2.5524,
      "step": 12600
    },
    {
      "epoch": 0.06305,
      "grad_norm": 0.33984375,
      "learning_rate": 0.0028249748743718593,
      "loss": 2.5254,
      "step": 12610
    },
    {
      "epoch": 0.0631,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002824824120603015,
      "loss": 2.5708,
      "step": 12620
    },
    {
      "epoch": 0.06315,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002824673366834171,
      "loss": 2.5475,
      "step": 12630
    },
    {
      "epoch": 0.0632,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028245226130653267,
      "loss": 2.5202,
      "step": 12640
    },
    {
      "epoch": 0.06325,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0028243718592964825,
      "loss": 2.5294,
      "step": 12650
    },
    {
      "epoch": 0.0633,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028242211055276383,
      "loss": 2.5652,
      "step": 12660
    },
    {
      "epoch": 0.06335,
      "grad_norm": 0.6171875,
      "learning_rate": 0.002824070351758794,
      "loss": 2.5293,
      "step": 12670
    },
    {
      "epoch": 0.0634,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028239195979899495,
      "loss": 2.4974,
      "step": 12680
    },
    {
      "epoch": 0.06345,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0028237688442211057,
      "loss": 2.5821,
      "step": 12690
    },
    {
      "epoch": 0.0635,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028236180904522615,
      "loss": 2.4596,
      "step": 12700
    },
    {
      "epoch": 0.06355,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002823467336683417,
      "loss": 2.5198,
      "step": 12710
    },
    {
      "epoch": 0.0636,
      "grad_norm": 0.375,
      "learning_rate": 0.002823316582914573,
      "loss": 2.5154,
      "step": 12720
    },
    {
      "epoch": 0.06365,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028231658291457285,
      "loss": 2.519,
      "step": 12730
    },
    {
      "epoch": 0.0637,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0028230150753768843,
      "loss": 2.5693,
      "step": 12740
    },
    {
      "epoch": 0.06375,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0028228643216080406,
      "loss": 2.5546,
      "step": 12750
    },
    {
      "epoch": 0.0638,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002822713567839196,
      "loss": 2.5152,
      "step": 12760
    },
    {
      "epoch": 0.06385,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0028225628140703517,
      "loss": 2.5323,
      "step": 12770
    },
    {
      "epoch": 0.0639,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0028224120603015075,
      "loss": 2.5418,
      "step": 12780
    },
    {
      "epoch": 0.06395,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028222613065326634,
      "loss": 2.4528,
      "step": 12790
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002822110552763819,
      "loss": 2.541,
      "step": 12800
    },
    {
      "epoch": 0.06405,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002821959798994975,
      "loss": 2.5591,
      "step": 12810
    },
    {
      "epoch": 0.0641,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028218090452261308,
      "loss": 2.5198,
      "step": 12820
    },
    {
      "epoch": 0.06415,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0028216582914572866,
      "loss": 2.5429,
      "step": 12830
    },
    {
      "epoch": 0.0642,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002821507537688442,
      "loss": 2.5179,
      "step": 12840
    },
    {
      "epoch": 0.06425,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002821356783919598,
      "loss": 2.5318,
      "step": 12850
    },
    {
      "epoch": 0.0643,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002821206030150754,
      "loss": 2.4717,
      "step": 12860
    },
    {
      "epoch": 0.06435,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028210552763819094,
      "loss": 2.5437,
      "step": 12870
    },
    {
      "epoch": 0.0644,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0028209045226130656,
      "loss": 2.5346,
      "step": 12880
    },
    {
      "epoch": 0.06445,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002820753768844221,
      "loss": 2.5284,
      "step": 12890
    },
    {
      "epoch": 0.0645,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002820603015075377,
      "loss": 2.5314,
      "step": 12900
    },
    {
      "epoch": 0.06455,
      "grad_norm": 0.390625,
      "learning_rate": 0.002820452261306533,
      "loss": 2.5088,
      "step": 12910
    },
    {
      "epoch": 0.0646,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0028203015075376884,
      "loss": 2.5439,
      "step": 12920
    },
    {
      "epoch": 0.06465,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0028201507537688442,
      "loss": 2.5495,
      "step": 12930
    },
    {
      "epoch": 0.0647,
      "grad_norm": 0.39453125,
      "learning_rate": 0.00282,
      "loss": 2.5488,
      "step": 12940
    },
    {
      "epoch": 0.06475,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002819849246231156,
      "loss": 2.5377,
      "step": 12950
    },
    {
      "epoch": 0.0648,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0028196984924623116,
      "loss": 2.5237,
      "step": 12960
    },
    {
      "epoch": 0.06485,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0028195477386934674,
      "loss": 2.5452,
      "step": 12970
    },
    {
      "epoch": 0.0649,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0028193969849246233,
      "loss": 2.5359,
      "step": 12980
    },
    {
      "epoch": 0.06495,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002819246231155779,
      "loss": 2.5402,
      "step": 12990
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028190954773869344,
      "loss": 2.5064,
      "step": 13000
    },
    {
      "epoch": 0.06505,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028189447236180907,
      "loss": 2.5155,
      "step": 13010
    },
    {
      "epoch": 0.0651,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0028187939698492465,
      "loss": 2.5471,
      "step": 13020
    },
    {
      "epoch": 0.06515,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002818643216080402,
      "loss": 2.4855,
      "step": 13030
    },
    {
      "epoch": 0.0652,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002818492462311558,
      "loss": 2.5515,
      "step": 13040
    },
    {
      "epoch": 0.06525,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028183417085427135,
      "loss": 2.4853,
      "step": 13050
    },
    {
      "epoch": 0.0653,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028181909547738693,
      "loss": 2.5442,
      "step": 13060
    },
    {
      "epoch": 0.06535,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028180402010050255,
      "loss": 2.4901,
      "step": 13070
    },
    {
      "epoch": 0.0654,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002817889447236181,
      "loss": 2.5276,
      "step": 13080
    },
    {
      "epoch": 0.06545,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028177386934673367,
      "loss": 2.5224,
      "step": 13090
    },
    {
      "epoch": 0.0655,
      "grad_norm": 0.40625,
      "learning_rate": 0.0028175879396984925,
      "loss": 2.5213,
      "step": 13100
    },
    {
      "epoch": 0.06555,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0028174371859296483,
      "loss": 2.5525,
      "step": 13110
    },
    {
      "epoch": 0.0656,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002817286432160804,
      "loss": 2.5292,
      "step": 13120
    },
    {
      "epoch": 0.06565,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00281713567839196,
      "loss": 2.5499,
      "step": 13130
    },
    {
      "epoch": 0.0657,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0028169849246231157,
      "loss": 2.4796,
      "step": 13140
    },
    {
      "epoch": 0.06575,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0028168341708542715,
      "loss": 2.5155,
      "step": 13150
    },
    {
      "epoch": 0.0658,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002816683417085427,
      "loss": 2.5332,
      "step": 13160
    },
    {
      "epoch": 0.06585,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002816532663316583,
      "loss": 2.5315,
      "step": 13170
    },
    {
      "epoch": 0.0659,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002816381909547739,
      "loss": 2.5509,
      "step": 13180
    },
    {
      "epoch": 0.06595,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0028162311557788943,
      "loss": 2.509,
      "step": 13190
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028160804020100506,
      "loss": 2.5429,
      "step": 13200
    },
    {
      "epoch": 0.06605,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002815929648241206,
      "loss": 2.446,
      "step": 13210
    },
    {
      "epoch": 0.0661,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0028157788944723617,
      "loss": 2.5617,
      "step": 13220
    },
    {
      "epoch": 0.06615,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002815628140703518,
      "loss": 2.5125,
      "step": 13230
    },
    {
      "epoch": 0.0662,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0028154773869346734,
      "loss": 2.5602,
      "step": 13240
    },
    {
      "epoch": 0.06625,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002815326633165829,
      "loss": 2.5411,
      "step": 13250
    },
    {
      "epoch": 0.0663,
      "grad_norm": 0.3515625,
      "learning_rate": 0.002815175879396985,
      "loss": 2.5267,
      "step": 13260
    },
    {
      "epoch": 0.06635,
      "grad_norm": 0.359375,
      "learning_rate": 0.0028150251256281408,
      "loss": 2.5288,
      "step": 13270
    },
    {
      "epoch": 0.0664,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0028148743718592966,
      "loss": 2.4685,
      "step": 13280
    },
    {
      "epoch": 0.06645,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028147236180904524,
      "loss": 2.5265,
      "step": 13290
    },
    {
      "epoch": 0.0665,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002814572864321608,
      "loss": 2.5003,
      "step": 13300
    },
    {
      "epoch": 0.06655,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002814422110552764,
      "loss": 2.4518,
      "step": 13310
    },
    {
      "epoch": 0.0666,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0028142713567839194,
      "loss": 2.5507,
      "step": 13320
    },
    {
      "epoch": 0.06665,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0028141206030150756,
      "loss": 2.5612,
      "step": 13330
    },
    {
      "epoch": 0.0667,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028139698492462314,
      "loss": 2.568,
      "step": 13340
    },
    {
      "epoch": 0.06675,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002813819095477387,
      "loss": 2.5305,
      "step": 13350
    },
    {
      "epoch": 0.0668,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002813668341708543,
      "loss": 2.5295,
      "step": 13360
    },
    {
      "epoch": 0.06685,
      "grad_norm": 0.546875,
      "learning_rate": 0.0028135175879396984,
      "loss": 2.4858,
      "step": 13370
    },
    {
      "epoch": 0.0669,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028133668341708542,
      "loss": 2.4852,
      "step": 13380
    },
    {
      "epoch": 0.06695,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0028132160804020105,
      "loss": 2.4862,
      "step": 13390
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.390625,
      "learning_rate": 0.002813065326633166,
      "loss": 2.4952,
      "step": 13400
    },
    {
      "epoch": 0.06705,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028129145728643216,
      "loss": 2.516,
      "step": 13410
    },
    {
      "epoch": 0.0671,
      "grad_norm": 0.421875,
      "learning_rate": 0.0028127638190954775,
      "loss": 2.5452,
      "step": 13420
    },
    {
      "epoch": 0.06715,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028126130653266333,
      "loss": 2.535,
      "step": 13430
    },
    {
      "epoch": 0.0672,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002812462311557789,
      "loss": 2.5102,
      "step": 13440
    },
    {
      "epoch": 0.06725,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028123115577889444,
      "loss": 2.5794,
      "step": 13450
    },
    {
      "epoch": 0.0673,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0028121608040201007,
      "loss": 2.5173,
      "step": 13460
    },
    {
      "epoch": 0.06735,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0028120100502512565,
      "loss": 2.5138,
      "step": 13470
    },
    {
      "epoch": 0.0674,
      "grad_norm": 0.359375,
      "learning_rate": 0.002811859296482412,
      "loss": 2.5053,
      "step": 13480
    },
    {
      "epoch": 0.06745,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002811708542713568,
      "loss": 2.5048,
      "step": 13490
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002811557788944724,
      "loss": 2.4914,
      "step": 13500
    },
    {
      "epoch": 0.06755,
      "grad_norm": 0.40625,
      "learning_rate": 0.0028114070351758793,
      "loss": 2.5039,
      "step": 13510
    },
    {
      "epoch": 0.0676,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0028112562814070355,
      "loss": 2.4639,
      "step": 13520
    },
    {
      "epoch": 0.06765,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002811105527638191,
      "loss": 2.505,
      "step": 13530
    },
    {
      "epoch": 0.0677,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028109547738693467,
      "loss": 2.561,
      "step": 13540
    },
    {
      "epoch": 0.06775,
      "grad_norm": 0.36328125,
      "learning_rate": 0.002810804020100503,
      "loss": 2.495,
      "step": 13550
    },
    {
      "epoch": 0.0678,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028106532663316583,
      "loss": 2.5162,
      "step": 13560
    },
    {
      "epoch": 0.06785,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002810502512562814,
      "loss": 2.5252,
      "step": 13570
    },
    {
      "epoch": 0.0679,
      "grad_norm": 0.369140625,
      "learning_rate": 0.00281035175879397,
      "loss": 2.4786,
      "step": 13580
    },
    {
      "epoch": 0.06795,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0028102010050251257,
      "loss": 2.4629,
      "step": 13590
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0028100502512562815,
      "loss": 2.53,
      "step": 13600
    },
    {
      "epoch": 0.06805,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002809899497487437,
      "loss": 2.5051,
      "step": 13610
    },
    {
      "epoch": 0.0681,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002809748743718593,
      "loss": 2.5251,
      "step": 13620
    },
    {
      "epoch": 0.06815,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002809597989949749,
      "loss": 2.4991,
      "step": 13630
    },
    {
      "epoch": 0.0682,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0028094472361809043,
      "loss": 2.5613,
      "step": 13640
    },
    {
      "epoch": 0.06825,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0028092964824120606,
      "loss": 2.5066,
      "step": 13650
    },
    {
      "epoch": 0.0683,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002809145728643216,
      "loss": 2.508,
      "step": 13660
    },
    {
      "epoch": 0.06835,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028089949748743718,
      "loss": 2.4975,
      "step": 13670
    },
    {
      "epoch": 0.0684,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002808844221105528,
      "loss": 2.5038,
      "step": 13680
    },
    {
      "epoch": 0.06845,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028086934673366834,
      "loss": 2.4926,
      "step": 13690
    },
    {
      "epoch": 0.0685,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002808542713567839,
      "loss": 2.4825,
      "step": 13700
    },
    {
      "epoch": 0.06855,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0028083919597989954,
      "loss": 2.4771,
      "step": 13710
    },
    {
      "epoch": 0.0686,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002808241206030151,
      "loss": 2.4955,
      "step": 13720
    },
    {
      "epoch": 0.06865,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028080904522613066,
      "loss": 2.528,
      "step": 13730
    },
    {
      "epoch": 0.0687,
      "grad_norm": 0.40625,
      "learning_rate": 0.0028079396984924624,
      "loss": 2.4955,
      "step": 13740
    },
    {
      "epoch": 0.06875,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002807788944723618,
      "loss": 2.5082,
      "step": 13750
    },
    {
      "epoch": 0.0688,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002807638190954774,
      "loss": 2.522,
      "step": 13760
    },
    {
      "epoch": 0.06885,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0028074874371859294,
      "loss": 2.4771,
      "step": 13770
    },
    {
      "epoch": 0.0689,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028073366834170856,
      "loss": 2.5384,
      "step": 13780
    },
    {
      "epoch": 0.06895,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028071859296482414,
      "loss": 2.4797,
      "step": 13790
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002807035175879397,
      "loss": 2.5512,
      "step": 13800
    },
    {
      "epoch": 0.06905,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002806884422110553,
      "loss": 2.4598,
      "step": 13810
    },
    {
      "epoch": 0.0691,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0028067336683417084,
      "loss": 2.5531,
      "step": 13820
    },
    {
      "epoch": 0.06915,
      "grad_norm": 0.375,
      "learning_rate": 0.0028065829145728642,
      "loss": 2.5153,
      "step": 13830
    },
    {
      "epoch": 0.0692,
      "grad_norm": 0.390625,
      "learning_rate": 0.0028064321608040205,
      "loss": 2.5204,
      "step": 13840
    },
    {
      "epoch": 0.06925,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002806281407035176,
      "loss": 2.5446,
      "step": 13850
    },
    {
      "epoch": 0.0693,
      "grad_norm": 0.421875,
      "learning_rate": 0.0028061306532663317,
      "loss": 2.4184,
      "step": 13860
    },
    {
      "epoch": 0.06935,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0028059798994974875,
      "loss": 2.5361,
      "step": 13870
    },
    {
      "epoch": 0.0694,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0028058291457286433,
      "loss": 2.4816,
      "step": 13880
    },
    {
      "epoch": 0.06945,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002805678391959799,
      "loss": 2.5541,
      "step": 13890
    },
    {
      "epoch": 0.0695,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002805527638190955,
      "loss": 2.4921,
      "step": 13900
    },
    {
      "epoch": 0.06955,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0028053768844221107,
      "loss": 2.5144,
      "step": 13910
    },
    {
      "epoch": 0.0696,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0028052261306532665,
      "loss": 2.4983,
      "step": 13920
    },
    {
      "epoch": 0.06965,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002805075376884422,
      "loss": 2.4474,
      "step": 13930
    },
    {
      "epoch": 0.0697,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002804924623115578,
      "loss": 2.5187,
      "step": 13940
    },
    {
      "epoch": 0.06975,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002804773869346734,
      "loss": 2.4979,
      "step": 13950
    },
    {
      "epoch": 0.0698,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0028046231155778893,
      "loss": 2.5276,
      "step": 13960
    },
    {
      "epoch": 0.06985,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0028044723618090455,
      "loss": 2.4862,
      "step": 13970
    },
    {
      "epoch": 0.0699,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002804321608040201,
      "loss": 2.4954,
      "step": 13980
    },
    {
      "epoch": 0.06995,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0028041708542713567,
      "loss": 2.4774,
      "step": 13990
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002804020100502513,
      "loss": 2.5129,
      "step": 14000
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.4894371032714844,
      "eval_runtime": 46.9394,
      "eval_samples_per_second": 53.26,
      "eval_steps_per_second": 0.107,
      "step": 14000
    },
    {
      "epoch": 0.07005,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0028038693467336683,
      "loss": 2.4923,
      "step": 14010
    },
    {
      "epoch": 0.0701,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002803718592964824,
      "loss": 2.4702,
      "step": 14020
    },
    {
      "epoch": 0.07015,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00280356783919598,
      "loss": 2.5018,
      "step": 14030
    },
    {
      "epoch": 0.0702,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0028034170854271357,
      "loss": 2.5001,
      "step": 14040
    },
    {
      "epoch": 0.07025,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028032663316582915,
      "loss": 2.4438,
      "step": 14050
    },
    {
      "epoch": 0.0703,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0028031155778894474,
      "loss": 2.547,
      "step": 14060
    },
    {
      "epoch": 0.07035,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002802964824120603,
      "loss": 2.5058,
      "step": 14070
    },
    {
      "epoch": 0.0704,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002802814070351759,
      "loss": 2.5086,
      "step": 14080
    },
    {
      "epoch": 0.07045,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0028026633165829143,
      "loss": 2.4784,
      "step": 14090
    },
    {
      "epoch": 0.0705,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0028025125628140706,
      "loss": 2.5336,
      "step": 14100
    },
    {
      "epoch": 0.07055,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0028023618090452264,
      "loss": 2.5281,
      "step": 14110
    },
    {
      "epoch": 0.0706,
      "grad_norm": 0.421875,
      "learning_rate": 0.0028022110552763818,
      "loss": 2.4488,
      "step": 14120
    },
    {
      "epoch": 0.07065,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002802060301507538,
      "loss": 2.5191,
      "step": 14130
    },
    {
      "epoch": 0.0707,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0028019095477386934,
      "loss": 2.4896,
      "step": 14140
    },
    {
      "epoch": 0.07075,
      "grad_norm": 0.390625,
      "learning_rate": 0.002801758793969849,
      "loss": 2.4987,
      "step": 14150
    },
    {
      "epoch": 0.0708,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0028016080402010054,
      "loss": 2.4707,
      "step": 14160
    },
    {
      "epoch": 0.07085,
      "grad_norm": 0.345703125,
      "learning_rate": 0.002801457286432161,
      "loss": 2.5038,
      "step": 14170
    },
    {
      "epoch": 0.0709,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0028013065326633166,
      "loss": 2.4847,
      "step": 14180
    },
    {
      "epoch": 0.07095,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0028011557788944724,
      "loss": 2.4837,
      "step": 14190
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.357421875,
      "learning_rate": 0.002801005025125628,
      "loss": 2.512,
      "step": 14200
    },
    {
      "epoch": 0.07105,
      "grad_norm": 0.330078125,
      "learning_rate": 0.002800854271356784,
      "loss": 2.4795,
      "step": 14210
    },
    {
      "epoch": 0.0711,
      "grad_norm": 0.390625,
      "learning_rate": 0.00280070351758794,
      "loss": 2.4953,
      "step": 14220
    },
    {
      "epoch": 0.07115,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0028005527638190956,
      "loss": 2.4909,
      "step": 14230
    },
    {
      "epoch": 0.0712,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0028004020100502514,
      "loss": 2.4851,
      "step": 14240
    },
    {
      "epoch": 0.07125,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002800251256281407,
      "loss": 2.5229,
      "step": 14250
    },
    {
      "epoch": 0.0713,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002800100502512563,
      "loss": 2.5179,
      "step": 14260
    },
    {
      "epoch": 0.07135,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002799949748743719,
      "loss": 2.6353,
      "step": 14270
    },
    {
      "epoch": 0.0714,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0027997989949748742,
      "loss": 2.4789,
      "step": 14280
    },
    {
      "epoch": 0.07145,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0027996482412060305,
      "loss": 2.5398,
      "step": 14290
    },
    {
      "epoch": 0.0715,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002799497487437186,
      "loss": 2.5028,
      "step": 14300
    },
    {
      "epoch": 0.07155,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027993467336683417,
      "loss": 2.5452,
      "step": 14310
    },
    {
      "epoch": 0.0716,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002799195979899498,
      "loss": 2.5263,
      "step": 14320
    },
    {
      "epoch": 0.07165,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0027990452261306533,
      "loss": 2.4927,
      "step": 14330
    },
    {
      "epoch": 0.0717,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002798894472361809,
      "loss": 2.5256,
      "step": 14340
    },
    {
      "epoch": 0.07175,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002798743718592965,
      "loss": 2.5356,
      "step": 14350
    },
    {
      "epoch": 0.0718,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027985929648241207,
      "loss": 2.4872,
      "step": 14360
    },
    {
      "epoch": 0.07185,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0027984422110552765,
      "loss": 2.4872,
      "step": 14370
    },
    {
      "epoch": 0.0719,
      "grad_norm": 0.36328125,
      "learning_rate": 0.002798291457286432,
      "loss": 2.5169,
      "step": 14380
    },
    {
      "epoch": 0.07195,
      "grad_norm": 0.40625,
      "learning_rate": 0.002798140703517588,
      "loss": 2.5481,
      "step": 14390
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002797989949748744,
      "loss": 2.5237,
      "step": 14400
    },
    {
      "epoch": 0.07205,
      "grad_norm": 0.421875,
      "learning_rate": 0.0027978391959798993,
      "loss": 2.4781,
      "step": 14410
    },
    {
      "epoch": 0.0721,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0027976884422110555,
      "loss": 2.4991,
      "step": 14420
    },
    {
      "epoch": 0.07215,
      "grad_norm": 0.345703125,
      "learning_rate": 0.0027975376884422113,
      "loss": 2.4865,
      "step": 14430
    },
    {
      "epoch": 0.0722,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0027973869346733667,
      "loss": 2.4592,
      "step": 14440
    },
    {
      "epoch": 0.07225,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002797236180904523,
      "loss": 2.4543,
      "step": 14450
    },
    {
      "epoch": 0.0723,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0027970854271356783,
      "loss": 2.4942,
      "step": 14460
    },
    {
      "epoch": 0.07235,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002796934673366834,
      "loss": 2.4491,
      "step": 14470
    },
    {
      "epoch": 0.0724,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027967839195979904,
      "loss": 2.4839,
      "step": 14480
    },
    {
      "epoch": 0.07245,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027966331658291457,
      "loss": 2.4689,
      "step": 14490
    },
    {
      "epoch": 0.0725,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0027964824120603016,
      "loss": 2.4918,
      "step": 14500
    },
    {
      "epoch": 0.07255,
      "grad_norm": 0.359375,
      "learning_rate": 0.0027963316582914574,
      "loss": 2.4493,
      "step": 14510
    },
    {
      "epoch": 0.0726,
      "grad_norm": 0.375,
      "learning_rate": 0.002796180904522613,
      "loss": 2.4822,
      "step": 14520
    },
    {
      "epoch": 0.07265,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002796030150753769,
      "loss": 2.4916,
      "step": 14530
    },
    {
      "epoch": 0.0727,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0027958793969849243,
      "loss": 2.4813,
      "step": 14540
    },
    {
      "epoch": 0.07275,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027957286432160806,
      "loss": 2.4654,
      "step": 14550
    },
    {
      "epoch": 0.0728,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0027955778894472364,
      "loss": 2.489,
      "step": 14560
    },
    {
      "epoch": 0.07285,
      "grad_norm": 0.390625,
      "learning_rate": 0.0027954271356783918,
      "loss": 2.4758,
      "step": 14570
    },
    {
      "epoch": 0.0729,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002795276381909548,
      "loss": 2.4554,
      "step": 14580
    },
    {
      "epoch": 0.07295,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027951256281407034,
      "loss": 2.4473,
      "step": 14590
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002794974874371859,
      "loss": 2.4915,
      "step": 14600
    },
    {
      "epoch": 0.07305,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0027948241206030154,
      "loss": 2.4595,
      "step": 14610
    },
    {
      "epoch": 0.0731,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002794673366834171,
      "loss": 2.5303,
      "step": 14620
    },
    {
      "epoch": 0.07315,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0027945226130653266,
      "loss": 2.4932,
      "step": 14630
    },
    {
      "epoch": 0.0732,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002794371859296483,
      "loss": 2.5167,
      "step": 14640
    },
    {
      "epoch": 0.07325,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027942211055276382,
      "loss": 2.4868,
      "step": 14650
    },
    {
      "epoch": 0.0733,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002794070351758794,
      "loss": 2.4678,
      "step": 14660
    },
    {
      "epoch": 0.07335,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00279391959798995,
      "loss": 2.5189,
      "step": 14670
    },
    {
      "epoch": 0.0734,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0027937688442211056,
      "loss": 2.4881,
      "step": 14680
    },
    {
      "epoch": 0.07345,
      "grad_norm": 0.375,
      "learning_rate": 0.0027936180904522614,
      "loss": 2.4993,
      "step": 14690
    },
    {
      "epoch": 0.0735,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002793467336683417,
      "loss": 2.4809,
      "step": 14700
    },
    {
      "epoch": 0.07355,
      "grad_norm": 0.46875,
      "learning_rate": 0.002793316582914573,
      "loss": 2.4863,
      "step": 14710
    },
    {
      "epoch": 0.0736,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002793165829145729,
      "loss": 2.5427,
      "step": 14720
    },
    {
      "epoch": 0.07365,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0027930150753768842,
      "loss": 2.4316,
      "step": 14730
    },
    {
      "epoch": 0.0737,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027928643216080405,
      "loss": 2.5198,
      "step": 14740
    },
    {
      "epoch": 0.07375,
      "grad_norm": 0.453125,
      "learning_rate": 0.002792713567839196,
      "loss": 2.5018,
      "step": 14750
    },
    {
      "epoch": 0.0738,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027925628140703517,
      "loss": 2.4964,
      "step": 14760
    },
    {
      "epoch": 0.07385,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002792412060301508,
      "loss": 2.4892,
      "step": 14770
    },
    {
      "epoch": 0.0739,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027922613065326633,
      "loss": 2.4548,
      "step": 14780
    },
    {
      "epoch": 0.07395,
      "grad_norm": 0.421875,
      "learning_rate": 0.002792110552763819,
      "loss": 2.4896,
      "step": 14790
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002791959798994975,
      "loss": 2.4936,
      "step": 14800
    },
    {
      "epoch": 0.07405,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0027918090452261307,
      "loss": 2.491,
      "step": 14810
    },
    {
      "epoch": 0.0741,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027916582914572865,
      "loss": 2.4979,
      "step": 14820
    },
    {
      "epoch": 0.07415,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0027915075376884423,
      "loss": 2.4996,
      "step": 14830
    },
    {
      "epoch": 0.0742,
      "grad_norm": 0.375,
      "learning_rate": 0.002791356783919598,
      "loss": 2.4822,
      "step": 14840
    },
    {
      "epoch": 0.07425,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002791206030150754,
      "loss": 2.4348,
      "step": 14850
    },
    {
      "epoch": 0.0743,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0027910552763819093,
      "loss": 2.4767,
      "step": 14860
    },
    {
      "epoch": 0.07435,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027909045226130655,
      "loss": 2.4375,
      "step": 14870
    },
    {
      "epoch": 0.0744,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0027907537688442213,
      "loss": 2.4773,
      "step": 14880
    },
    {
      "epoch": 0.07445,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027906030150753767,
      "loss": 2.4632,
      "step": 14890
    },
    {
      "epoch": 0.0745,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002790452261306533,
      "loss": 2.4626,
      "step": 14900
    },
    {
      "epoch": 0.07455,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027903015075376883,
      "loss": 2.5196,
      "step": 14910
    },
    {
      "epoch": 0.0746,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002790150753768844,
      "loss": 2.4683,
      "step": 14920
    },
    {
      "epoch": 0.07465,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0027900000000000004,
      "loss": 2.4847,
      "step": 14930
    },
    {
      "epoch": 0.0747,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0027898492462311558,
      "loss": 2.4379,
      "step": 14940
    },
    {
      "epoch": 0.07475,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0027896984924623116,
      "loss": 2.4703,
      "step": 14950
    },
    {
      "epoch": 0.0748,
      "grad_norm": 0.375,
      "learning_rate": 0.0027895477386934674,
      "loss": 2.5119,
      "step": 14960
    },
    {
      "epoch": 0.07485,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002789396984924623,
      "loss": 2.4482,
      "step": 14970
    },
    {
      "epoch": 0.0749,
      "grad_norm": 0.390625,
      "learning_rate": 0.002789246231155779,
      "loss": 2.4585,
      "step": 14980
    },
    {
      "epoch": 0.07495,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002789095477386935,
      "loss": 2.4866,
      "step": 14990
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0027889447236180906,
      "loss": 2.5104,
      "step": 15000
    },
    {
      "epoch": 0.07505,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027887939698492464,
      "loss": 2.4938,
      "step": 15010
    },
    {
      "epoch": 0.0751,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027886432160804018,
      "loss": 2.5364,
      "step": 15020
    },
    {
      "epoch": 0.07515,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002788492462311558,
      "loss": 2.5705,
      "step": 15030
    },
    {
      "epoch": 0.0752,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002788341708542714,
      "loss": 2.441,
      "step": 15040
    },
    {
      "epoch": 0.07525,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002788190954773869,
      "loss": 2.5288,
      "step": 15050
    },
    {
      "epoch": 0.0753,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027880402010050254,
      "loss": 2.4371,
      "step": 15060
    },
    {
      "epoch": 0.07535,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002787889447236181,
      "loss": 2.5055,
      "step": 15070
    },
    {
      "epoch": 0.0754,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027877386934673366,
      "loss": 2.5295,
      "step": 15080
    },
    {
      "epoch": 0.07545,
      "grad_norm": 0.421875,
      "learning_rate": 0.002787587939698493,
      "loss": 2.4404,
      "step": 15090
    },
    {
      "epoch": 0.0755,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0027874371859296482,
      "loss": 2.5067,
      "step": 15100
    },
    {
      "epoch": 0.07555,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002787286432160804,
      "loss": 2.4813,
      "step": 15110
    },
    {
      "epoch": 0.0756,
      "grad_norm": 0.36328125,
      "learning_rate": 0.00278713567839196,
      "loss": 2.49,
      "step": 15120
    },
    {
      "epoch": 0.07565,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027869849246231156,
      "loss": 2.4754,
      "step": 15130
    },
    {
      "epoch": 0.0757,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0027868341708542715,
      "loss": 2.4717,
      "step": 15140
    },
    {
      "epoch": 0.07575,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0027866834170854273,
      "loss": 2.4892,
      "step": 15150
    },
    {
      "epoch": 0.0758,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002786532663316583,
      "loss": 2.4097,
      "step": 15160
    },
    {
      "epoch": 0.07585,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002786381909547739,
      "loss": 2.4897,
      "step": 15170
    },
    {
      "epoch": 0.0759,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0027862311557788942,
      "loss": 2.4144,
      "step": 15180
    },
    {
      "epoch": 0.07595,
      "grad_norm": 0.328125,
      "learning_rate": 0.0027860804020100505,
      "loss": 2.5614,
      "step": 15190
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027859296482412063,
      "loss": 2.4657,
      "step": 15200
    },
    {
      "epoch": 0.07605,
      "grad_norm": 0.40625,
      "learning_rate": 0.0027857788944723617,
      "loss": 2.482,
      "step": 15210
    },
    {
      "epoch": 0.0761,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002785628140703518,
      "loss": 2.4959,
      "step": 15220
    },
    {
      "epoch": 0.07615,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0027854773869346733,
      "loss": 2.4321,
      "step": 15230
    },
    {
      "epoch": 0.0762,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002785326633165829,
      "loss": 2.4372,
      "step": 15240
    },
    {
      "epoch": 0.07625,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0027851758793969853,
      "loss": 2.4441,
      "step": 15250
    },
    {
      "epoch": 0.0763,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0027850251256281407,
      "loss": 2.4863,
      "step": 15260
    },
    {
      "epoch": 0.07635,
      "grad_norm": 0.375,
      "learning_rate": 0.0027848743718592965,
      "loss": 2.5092,
      "step": 15270
    },
    {
      "epoch": 0.0764,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0027847236180904523,
      "loss": 2.5552,
      "step": 15280
    },
    {
      "epoch": 0.07645,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002784572864321608,
      "loss": 2.436,
      "step": 15290
    },
    {
      "epoch": 0.0765,
      "grad_norm": 0.40625,
      "learning_rate": 0.002784422110552764,
      "loss": 2.4652,
      "step": 15300
    },
    {
      "epoch": 0.07655,
      "grad_norm": 0.34765625,
      "learning_rate": 0.0027842713567839193,
      "loss": 2.5049,
      "step": 15310
    },
    {
      "epoch": 0.0766,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0027841206030150755,
      "loss": 2.5145,
      "step": 15320
    },
    {
      "epoch": 0.07665,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0027839698492462314,
      "loss": 2.4996,
      "step": 15330
    },
    {
      "epoch": 0.0767,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027838190954773867,
      "loss": 2.4956,
      "step": 15340
    },
    {
      "epoch": 0.07675,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002783668341708543,
      "loss": 2.4501,
      "step": 15350
    },
    {
      "epoch": 0.0768,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027835175879396988,
      "loss": 2.4747,
      "step": 15360
    },
    {
      "epoch": 0.07685,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002783366834170854,
      "loss": 2.4696,
      "step": 15370
    },
    {
      "epoch": 0.0769,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0027832160804020104,
      "loss": 2.5035,
      "step": 15380
    },
    {
      "epoch": 0.07695,
      "grad_norm": 0.421875,
      "learning_rate": 0.0027830653266331658,
      "loss": 2.5107,
      "step": 15390
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0027829145728643216,
      "loss": 2.4507,
      "step": 15400
    },
    {
      "epoch": 0.07705,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002782763819095478,
      "loss": 2.4792,
      "step": 15410
    },
    {
      "epoch": 0.0771,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002782613065326633,
      "loss": 2.446,
      "step": 15420
    },
    {
      "epoch": 0.07715,
      "grad_norm": 0.375,
      "learning_rate": 0.002782462311557789,
      "loss": 2.5254,
      "step": 15430
    },
    {
      "epoch": 0.0772,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002782311557788945,
      "loss": 2.5356,
      "step": 15440
    },
    {
      "epoch": 0.07725,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0027821608040201006,
      "loss": 2.4309,
      "step": 15450
    },
    {
      "epoch": 0.0773,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027820100502512564,
      "loss": 2.5383,
      "step": 15460
    },
    {
      "epoch": 0.07735,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0027818592964824118,
      "loss": 2.4653,
      "step": 15470
    },
    {
      "epoch": 0.0774,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002781708542713568,
      "loss": 2.4503,
      "step": 15480
    },
    {
      "epoch": 0.07745,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002781557788944724,
      "loss": 2.4554,
      "step": 15490
    },
    {
      "epoch": 0.0775,
      "grad_norm": 0.375,
      "learning_rate": 0.002781407035175879,
      "loss": 2.4837,
      "step": 15500
    },
    {
      "epoch": 0.07755,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0027812562814070354,
      "loss": 2.4483,
      "step": 15510
    },
    {
      "epoch": 0.0776,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002781105527638191,
      "loss": 2.516,
      "step": 15520
    },
    {
      "epoch": 0.07765,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027809547738693466,
      "loss": 2.4914,
      "step": 15530
    },
    {
      "epoch": 0.0777,
      "grad_norm": 0.35546875,
      "learning_rate": 0.002780804020100503,
      "loss": 2.4776,
      "step": 15540
    },
    {
      "epoch": 0.07775,
      "grad_norm": 0.375,
      "learning_rate": 0.0027806532663316582,
      "loss": 2.4965,
      "step": 15550
    },
    {
      "epoch": 0.0778,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002780502512562814,
      "loss": 2.4846,
      "step": 15560
    },
    {
      "epoch": 0.07785,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0027803517587939703,
      "loss": 2.4725,
      "step": 15570
    },
    {
      "epoch": 0.0779,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027802010050251257,
      "loss": 2.464,
      "step": 15580
    },
    {
      "epoch": 0.07795,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027800502512562815,
      "loss": 2.4656,
      "step": 15590
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0027798994974874373,
      "loss": 2.4942,
      "step": 15600
    },
    {
      "epoch": 0.07805,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002779748743718593,
      "loss": 2.5099,
      "step": 15610
    },
    {
      "epoch": 0.0781,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002779597989949749,
      "loss": 2.4945,
      "step": 15620
    },
    {
      "epoch": 0.07815,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0027794472361809043,
      "loss": 2.4444,
      "step": 15630
    },
    {
      "epoch": 0.0782,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0027792964824120605,
      "loss": 2.4747,
      "step": 15640
    },
    {
      "epoch": 0.07825,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0027791457286432163,
      "loss": 2.4396,
      "step": 15650
    },
    {
      "epoch": 0.0783,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0027789949748743717,
      "loss": 2.506,
      "step": 15660
    },
    {
      "epoch": 0.07835,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002778844221105528,
      "loss": 2.4241,
      "step": 15670
    },
    {
      "epoch": 0.0784,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027786934673366833,
      "loss": 2.4747,
      "step": 15680
    },
    {
      "epoch": 0.07845,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002778542713567839,
      "loss": 2.4953,
      "step": 15690
    },
    {
      "epoch": 0.0785,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027783919597989953,
      "loss": 2.4257,
      "step": 15700
    },
    {
      "epoch": 0.07855,
      "grad_norm": 0.40625,
      "learning_rate": 0.0027782412060301507,
      "loss": 2.5012,
      "step": 15710
    },
    {
      "epoch": 0.0786,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0027780904522613065,
      "loss": 2.4836,
      "step": 15720
    },
    {
      "epoch": 0.07865,
      "grad_norm": 0.375,
      "learning_rate": 0.0027779396984924623,
      "loss": 2.488,
      "step": 15730
    },
    {
      "epoch": 0.0787,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002777788944723618,
      "loss": 2.4794,
      "step": 15740
    },
    {
      "epoch": 0.07875,
      "grad_norm": 0.359375,
      "learning_rate": 0.002777638190954774,
      "loss": 2.4521,
      "step": 15750
    },
    {
      "epoch": 0.0788,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0027774874371859297,
      "loss": 2.4673,
      "step": 15760
    },
    {
      "epoch": 0.07885,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0027773366834170856,
      "loss": 2.4455,
      "step": 15770
    },
    {
      "epoch": 0.0789,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027771859296482414,
      "loss": 2.4711,
      "step": 15780
    },
    {
      "epoch": 0.07895,
      "grad_norm": 0.421875,
      "learning_rate": 0.0027770351758793967,
      "loss": 2.4714,
      "step": 15790
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.390625,
      "learning_rate": 0.002776884422110553,
      "loss": 2.4786,
      "step": 15800
    },
    {
      "epoch": 0.07905,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027767336683417088,
      "loss": 2.4211,
      "step": 15810
    },
    {
      "epoch": 0.0791,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002776582914572864,
      "loss": 2.4714,
      "step": 15820
    },
    {
      "epoch": 0.07915,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0027764321608040204,
      "loss": 2.4959,
      "step": 15830
    },
    {
      "epoch": 0.0792,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027762814070351758,
      "loss": 2.4648,
      "step": 15840
    },
    {
      "epoch": 0.07925,
      "grad_norm": 0.390625,
      "learning_rate": 0.0027761306532663316,
      "loss": 2.5023,
      "step": 15850
    },
    {
      "epoch": 0.0793,
      "grad_norm": 0.35546875,
      "learning_rate": 0.002775979899497488,
      "loss": 2.416,
      "step": 15860
    },
    {
      "epoch": 0.07935,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002775829145728643,
      "loss": 2.4513,
      "step": 15870
    },
    {
      "epoch": 0.0794,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002775678391959799,
      "loss": 2.5083,
      "step": 15880
    },
    {
      "epoch": 0.07945,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002775527638190955,
      "loss": 2.4464,
      "step": 15890
    },
    {
      "epoch": 0.0795,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0027753768844221106,
      "loss": 2.4535,
      "step": 15900
    },
    {
      "epoch": 0.07955,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027752261306532664,
      "loss": 2.4734,
      "step": 15910
    },
    {
      "epoch": 0.0796,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027750753768844222,
      "loss": 2.4467,
      "step": 15920
    },
    {
      "epoch": 0.07965,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002774924623115578,
      "loss": 2.4647,
      "step": 15930
    },
    {
      "epoch": 0.0797,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002774773869346734,
      "loss": 2.5003,
      "step": 15940
    },
    {
      "epoch": 0.07975,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002774623115577889,
      "loss": 2.4872,
      "step": 15950
    },
    {
      "epoch": 0.0798,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0027744723618090454,
      "loss": 2.4739,
      "step": 15960
    },
    {
      "epoch": 0.07985,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027743216080402013,
      "loss": 2.4454,
      "step": 15970
    },
    {
      "epoch": 0.0799,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027741708542713566,
      "loss": 2.5067,
      "step": 15980
    },
    {
      "epoch": 0.07995,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002774020100502513,
      "loss": 2.4658,
      "step": 15990
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027738693467336682,
      "loss": 2.488,
      "step": 16000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.4433748722076416,
      "eval_runtime": 47.2401,
      "eval_samples_per_second": 52.921,
      "eval_steps_per_second": 0.106,
      "step": 16000
    },
    {
      "epoch": 0.08005,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002773718592964824,
      "loss": 2.4451,
      "step": 16010
    },
    {
      "epoch": 0.0801,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0027735678391959803,
      "loss": 2.4889,
      "step": 16020
    },
    {
      "epoch": 0.08015,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027734170854271357,
      "loss": 2.4918,
      "step": 16030
    },
    {
      "epoch": 0.0802,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0027732663316582915,
      "loss": 2.4492,
      "step": 16040
    },
    {
      "epoch": 0.08025,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0027731155778894473,
      "loss": 2.4669,
      "step": 16050
    },
    {
      "epoch": 0.0803,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002772964824120603,
      "loss": 2.4419,
      "step": 16060
    },
    {
      "epoch": 0.08035,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002772814070351759,
      "loss": 2.4803,
      "step": 16070
    },
    {
      "epoch": 0.0804,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027726633165829147,
      "loss": 2.4654,
      "step": 16080
    },
    {
      "epoch": 0.08045,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0027725125628140705,
      "loss": 2.4268,
      "step": 16090
    },
    {
      "epoch": 0.0805,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027723618090452263,
      "loss": 2.4529,
      "step": 16100
    },
    {
      "epoch": 0.08055,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0027722110552763817,
      "loss": 2.4145,
      "step": 16110
    },
    {
      "epoch": 0.0806,
      "grad_norm": 0.40625,
      "learning_rate": 0.002772060301507538,
      "loss": 2.4784,
      "step": 16120
    },
    {
      "epoch": 0.08065,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0027719095477386937,
      "loss": 2.4549,
      "step": 16130
    },
    {
      "epoch": 0.0807,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002771758793969849,
      "loss": 2.4949,
      "step": 16140
    },
    {
      "epoch": 0.08075,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0027716080402010053,
      "loss": 2.5039,
      "step": 16150
    },
    {
      "epoch": 0.0808,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027714572864321607,
      "loss": 2.4546,
      "step": 16160
    },
    {
      "epoch": 0.08085,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027713065326633165,
      "loss": 2.4633,
      "step": 16170
    },
    {
      "epoch": 0.0809,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027711557788944728,
      "loss": 2.4417,
      "step": 16180
    },
    {
      "epoch": 0.08095,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002771005025125628,
      "loss": 2.412,
      "step": 16190
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002770854271356784,
      "loss": 2.4747,
      "step": 16200
    },
    {
      "epoch": 0.08105,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027707035175879398,
      "loss": 2.4543,
      "step": 16210
    },
    {
      "epoch": 0.0811,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0027705527638190956,
      "loss": 2.4561,
      "step": 16220
    },
    {
      "epoch": 0.08115,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027704020100502514,
      "loss": 2.4387,
      "step": 16230
    },
    {
      "epoch": 0.0812,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027702512562814067,
      "loss": 2.4722,
      "step": 16240
    },
    {
      "epoch": 0.08125,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002770100502512563,
      "loss": 2.4627,
      "step": 16250
    },
    {
      "epoch": 0.0813,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002769949748743719,
      "loss": 2.4447,
      "step": 16260
    },
    {
      "epoch": 0.08135,
      "grad_norm": 0.36328125,
      "learning_rate": 0.002769798994974874,
      "loss": 2.484,
      "step": 16270
    },
    {
      "epoch": 0.0814,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027696482412060304,
      "loss": 2.4346,
      "step": 16280
    },
    {
      "epoch": 0.08145,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002769497487437186,
      "loss": 2.4695,
      "step": 16290
    },
    {
      "epoch": 0.0815,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0027693467336683416,
      "loss": 2.47,
      "step": 16300
    },
    {
      "epoch": 0.08155,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002769195979899498,
      "loss": 2.4429,
      "step": 16310
    },
    {
      "epoch": 0.0816,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002769045226130653,
      "loss": 2.4858,
      "step": 16320
    },
    {
      "epoch": 0.08165,
      "grad_norm": 0.353515625,
      "learning_rate": 0.002768894472361809,
      "loss": 2.453,
      "step": 16330
    },
    {
      "epoch": 0.0817,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027687437185929652,
      "loss": 2.4146,
      "step": 16340
    },
    {
      "epoch": 0.08175,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0027685929648241206,
      "loss": 2.4825,
      "step": 16350
    },
    {
      "epoch": 0.0818,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0027684422110552764,
      "loss": 2.4149,
      "step": 16360
    },
    {
      "epoch": 0.08185,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027682914572864322,
      "loss": 2.4691,
      "step": 16370
    },
    {
      "epoch": 0.0819,
      "grad_norm": 0.390625,
      "learning_rate": 0.002768140703517588,
      "loss": 2.4388,
      "step": 16380
    },
    {
      "epoch": 0.08195,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002767989949748744,
      "loss": 2.4498,
      "step": 16390
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002767839195979899,
      "loss": 2.4231,
      "step": 16400
    },
    {
      "epoch": 0.08205,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0027676884422110555,
      "loss": 2.4379,
      "step": 16410
    },
    {
      "epoch": 0.0821,
      "grad_norm": 0.40625,
      "learning_rate": 0.0027675376884422113,
      "loss": 2.4674,
      "step": 16420
    },
    {
      "epoch": 0.08215,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027673869346733666,
      "loss": 2.4312,
      "step": 16430
    },
    {
      "epoch": 0.0822,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002767236180904523,
      "loss": 2.4942,
      "step": 16440
    },
    {
      "epoch": 0.08225,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027670854271356782,
      "loss": 2.4554,
      "step": 16450
    },
    {
      "epoch": 0.0823,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002766934673366834,
      "loss": 2.4822,
      "step": 16460
    },
    {
      "epoch": 0.08235,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0027667839195979903,
      "loss": 2.4729,
      "step": 16470
    },
    {
      "epoch": 0.0824,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0027666331658291457,
      "loss": 2.4384,
      "step": 16480
    },
    {
      "epoch": 0.08245,
      "grad_norm": 0.4375,
      "learning_rate": 0.0027664824120603015,
      "loss": 2.4311,
      "step": 16490
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027663316582914577,
      "loss": 2.4634,
      "step": 16500
    },
    {
      "epoch": 0.08255,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002766180904522613,
      "loss": 2.4534,
      "step": 16510
    },
    {
      "epoch": 0.0826,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002766030150753769,
      "loss": 2.4937,
      "step": 16520
    },
    {
      "epoch": 0.08265,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027658793969849247,
      "loss": 2.4186,
      "step": 16530
    },
    {
      "epoch": 0.0827,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027657286432160805,
      "loss": 2.4521,
      "step": 16540
    },
    {
      "epoch": 0.08275,
      "grad_norm": 0.375,
      "learning_rate": 0.0027655778894472363,
      "loss": 2.4361,
      "step": 16550
    },
    {
      "epoch": 0.0828,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0027654271356783917,
      "loss": 2.4409,
      "step": 16560
    },
    {
      "epoch": 0.08285,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002765276381909548,
      "loss": 2.4965,
      "step": 16570
    },
    {
      "epoch": 0.0829,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0027651256281407037,
      "loss": 2.4314,
      "step": 16580
    },
    {
      "epoch": 0.08295,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002764974874371859,
      "loss": 2.4802,
      "step": 16590
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027648241206030153,
      "loss": 2.4641,
      "step": 16600
    },
    {
      "epoch": 0.08305,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027646733668341707,
      "loss": 2.4457,
      "step": 16610
    },
    {
      "epoch": 0.0831,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0027645226130653265,
      "loss": 2.4552,
      "step": 16620
    },
    {
      "epoch": 0.08315,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0027643718592964828,
      "loss": 2.4497,
      "step": 16630
    },
    {
      "epoch": 0.0832,
      "grad_norm": 0.46875,
      "learning_rate": 0.002764221105527638,
      "loss": 2.4728,
      "step": 16640
    },
    {
      "epoch": 0.08325,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002764070351758794,
      "loss": 2.3924,
      "step": 16650
    },
    {
      "epoch": 0.0833,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0027639195979899498,
      "loss": 2.4372,
      "step": 16660
    },
    {
      "epoch": 0.08335,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0027637688442211056,
      "loss": 2.4219,
      "step": 16670
    },
    {
      "epoch": 0.0834,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027636180904522614,
      "loss": 2.4453,
      "step": 16680
    },
    {
      "epoch": 0.08345,
      "grad_norm": 0.4375,
      "learning_rate": 0.002763467336683417,
      "loss": 2.419,
      "step": 16690
    },
    {
      "epoch": 0.0835,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002763316582914573,
      "loss": 2.4652,
      "step": 16700
    },
    {
      "epoch": 0.08355,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002763165829145729,
      "loss": 2.493,
      "step": 16710
    },
    {
      "epoch": 0.0836,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002763015075376884,
      "loss": 2.4679,
      "step": 16720
    },
    {
      "epoch": 0.08365,
      "grad_norm": 0.453125,
      "learning_rate": 0.0027628643216080404,
      "loss": 2.4935,
      "step": 16730
    },
    {
      "epoch": 0.0837,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002762713567839196,
      "loss": 2.478,
      "step": 16740
    },
    {
      "epoch": 0.08375,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0027625628140703516,
      "loss": 2.4173,
      "step": 16750
    },
    {
      "epoch": 0.0838,
      "grad_norm": 0.3515625,
      "learning_rate": 0.002762412060301508,
      "loss": 2.472,
      "step": 16760
    },
    {
      "epoch": 0.08385,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002762261306532663,
      "loss": 2.4179,
      "step": 16770
    },
    {
      "epoch": 0.0839,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002762110552763819,
      "loss": 2.4092,
      "step": 16780
    },
    {
      "epoch": 0.08395,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0027619597989949752,
      "loss": 2.4344,
      "step": 16790
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027618090452261306,
      "loss": 2.4575,
      "step": 16800
    },
    {
      "epoch": 0.08405,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027616582914572864,
      "loss": 2.423,
      "step": 16810
    },
    {
      "epoch": 0.0841,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0027615075376884422,
      "loss": 2.3808,
      "step": 16820
    },
    {
      "epoch": 0.08415,
      "grad_norm": 0.453125,
      "learning_rate": 0.002761356783919598,
      "loss": 2.4571,
      "step": 16830
    },
    {
      "epoch": 0.0842,
      "grad_norm": 0.4375,
      "learning_rate": 0.002761206030150754,
      "loss": 2.4787,
      "step": 16840
    },
    {
      "epoch": 0.08425,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027610552763819097,
      "loss": 2.429,
      "step": 16850
    },
    {
      "epoch": 0.0843,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027609045226130655,
      "loss": 2.5167,
      "step": 16860
    },
    {
      "epoch": 0.08435,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027607537688442213,
      "loss": 2.457,
      "step": 16870
    },
    {
      "epoch": 0.0844,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0027606030150753766,
      "loss": 2.4489,
      "step": 16880
    },
    {
      "epoch": 0.08445,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002760452261306533,
      "loss": 2.4349,
      "step": 16890
    },
    {
      "epoch": 0.0845,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0027603015075376887,
      "loss": 2.4706,
      "step": 16900
    },
    {
      "epoch": 0.08455,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002760150753768844,
      "loss": 2.4453,
      "step": 16910
    },
    {
      "epoch": 0.0846,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027600000000000003,
      "loss": 2.446,
      "step": 16920
    },
    {
      "epoch": 0.08465,
      "grad_norm": 0.390625,
      "learning_rate": 0.0027598492462311557,
      "loss": 2.4172,
      "step": 16930
    },
    {
      "epoch": 0.0847,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027596984924623115,
      "loss": 2.4565,
      "step": 16940
    },
    {
      "epoch": 0.08475,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0027595477386934677,
      "loss": 2.4748,
      "step": 16950
    },
    {
      "epoch": 0.0848,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002759396984924623,
      "loss": 2.4649,
      "step": 16960
    },
    {
      "epoch": 0.08485,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002759246231155779,
      "loss": 2.4615,
      "step": 16970
    },
    {
      "epoch": 0.0849,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0027590954773869347,
      "loss": 2.4991,
      "step": 16980
    },
    {
      "epoch": 0.08495,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027589447236180905,
      "loss": 2.4806,
      "step": 16990
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.375,
      "learning_rate": 0.0027587939698492463,
      "loss": 2.4111,
      "step": 17000
    },
    {
      "epoch": 0.08505,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002758643216080402,
      "loss": 2.4785,
      "step": 17010
    },
    {
      "epoch": 0.0851,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002758492462311558,
      "loss": 2.4435,
      "step": 17020
    },
    {
      "epoch": 0.08515,
      "grad_norm": 0.390625,
      "learning_rate": 0.0027583417085427137,
      "loss": 2.4289,
      "step": 17030
    },
    {
      "epoch": 0.0852,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002758190954773869,
      "loss": 2.4583,
      "step": 17040
    },
    {
      "epoch": 0.08525,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0027580402010050254,
      "loss": 2.4391,
      "step": 17050
    },
    {
      "epoch": 0.0853,
      "grad_norm": 0.359375,
      "learning_rate": 0.002757889447236181,
      "loss": 2.4463,
      "step": 17060
    },
    {
      "epoch": 0.08535,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027577386934673365,
      "loss": 2.4488,
      "step": 17070
    },
    {
      "epoch": 0.0854,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0027575879396984928,
      "loss": 2.4442,
      "step": 17080
    },
    {
      "epoch": 0.08545,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002757437185929648,
      "loss": 2.4572,
      "step": 17090
    },
    {
      "epoch": 0.0855,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002757286432160804,
      "loss": 2.4488,
      "step": 17100
    },
    {
      "epoch": 0.08555,
      "grad_norm": 0.447265625,
      "learning_rate": 0.00275713567839196,
      "loss": 2.4781,
      "step": 17110
    },
    {
      "epoch": 0.0856,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027569849246231156,
      "loss": 2.4448,
      "step": 17120
    },
    {
      "epoch": 0.08565,
      "grad_norm": 0.390625,
      "learning_rate": 0.0027568341708542714,
      "loss": 2.4352,
      "step": 17130
    },
    {
      "epoch": 0.0857,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002756683417085427,
      "loss": 2.417,
      "step": 17140
    },
    {
      "epoch": 0.08575,
      "grad_norm": 0.390625,
      "learning_rate": 0.002756532663316583,
      "loss": 2.4523,
      "step": 17150
    },
    {
      "epoch": 0.0858,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002756381909547739,
      "loss": 2.4901,
      "step": 17160
    },
    {
      "epoch": 0.08585,
      "grad_norm": 0.453125,
      "learning_rate": 0.002756231155778894,
      "loss": 2.4467,
      "step": 17170
    },
    {
      "epoch": 0.0859,
      "grad_norm": 0.40625,
      "learning_rate": 0.0027560804020100504,
      "loss": 2.4547,
      "step": 17180
    },
    {
      "epoch": 0.08595,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0027559296482412062,
      "loss": 2.4511,
      "step": 17190
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0027557788944723616,
      "loss": 2.4574,
      "step": 17200
    },
    {
      "epoch": 0.08605,
      "grad_norm": 0.3515625,
      "learning_rate": 0.002755628140703518,
      "loss": 2.4216,
      "step": 17210
    },
    {
      "epoch": 0.0861,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0027554773869346736,
      "loss": 2.4196,
      "step": 17220
    },
    {
      "epoch": 0.08615,
      "grad_norm": 0.453125,
      "learning_rate": 0.002755326633165829,
      "loss": 2.4538,
      "step": 17230
    },
    {
      "epoch": 0.0862,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0027551758793969853,
      "loss": 2.4529,
      "step": 17240
    },
    {
      "epoch": 0.08625,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027550251256281406,
      "loss": 2.4078,
      "step": 17250
    },
    {
      "epoch": 0.0863,
      "grad_norm": 0.40625,
      "learning_rate": 0.0027548743718592964,
      "loss": 2.4841,
      "step": 17260
    },
    {
      "epoch": 0.08635,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0027547236180904527,
      "loss": 2.4586,
      "step": 17270
    },
    {
      "epoch": 0.0864,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002754572864321608,
      "loss": 2.4316,
      "step": 17280
    },
    {
      "epoch": 0.08645,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002754422110552764,
      "loss": 2.4811,
      "step": 17290
    },
    {
      "epoch": 0.0865,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0027542713567839197,
      "loss": 2.4823,
      "step": 17300
    },
    {
      "epoch": 0.08655,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0027541206030150755,
      "loss": 2.4537,
      "step": 17310
    },
    {
      "epoch": 0.0866,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027539698492462313,
      "loss": 2.4353,
      "step": 17320
    },
    {
      "epoch": 0.08665,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0027538190954773866,
      "loss": 2.4521,
      "step": 17330
    },
    {
      "epoch": 0.0867,
      "grad_norm": 0.361328125,
      "learning_rate": 0.002753668341708543,
      "loss": 2.4695,
      "step": 17340
    },
    {
      "epoch": 0.08675,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027535175879396987,
      "loss": 2.4045,
      "step": 17350
    },
    {
      "epoch": 0.0868,
      "grad_norm": 0.40625,
      "learning_rate": 0.002753366834170854,
      "loss": 2.475,
      "step": 17360
    },
    {
      "epoch": 0.08685,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0027532160804020103,
      "loss": 2.4504,
      "step": 17370
    },
    {
      "epoch": 0.0869,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027530653266331657,
      "loss": 2.4699,
      "step": 17380
    },
    {
      "epoch": 0.08695,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0027529145728643215,
      "loss": 2.4654,
      "step": 17390
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0027527638190954777,
      "loss": 2.4199,
      "step": 17400
    },
    {
      "epoch": 0.08705,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002752613065326633,
      "loss": 2.4301,
      "step": 17410
    },
    {
      "epoch": 0.0871,
      "grad_norm": 0.421875,
      "learning_rate": 0.002752462311557789,
      "loss": 2.4711,
      "step": 17420
    },
    {
      "epoch": 0.08715,
      "grad_norm": 0.34375,
      "learning_rate": 0.002752311557788945,
      "loss": 2.4667,
      "step": 17430
    },
    {
      "epoch": 0.0872,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027521608040201005,
      "loss": 2.4611,
      "step": 17440
    },
    {
      "epoch": 0.08725,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0027520100502512563,
      "loss": 2.4436,
      "step": 17450
    },
    {
      "epoch": 0.0873,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002751859296482412,
      "loss": 2.5009,
      "step": 17460
    },
    {
      "epoch": 0.08735,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002751708542713568,
      "loss": 2.4283,
      "step": 17470
    },
    {
      "epoch": 0.0874,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0027515577889447237,
      "loss": 2.4416,
      "step": 17480
    },
    {
      "epoch": 0.08745,
      "grad_norm": 0.40625,
      "learning_rate": 0.002751407035175879,
      "loss": 2.4605,
      "step": 17490
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0027512562814070354,
      "loss": 2.4138,
      "step": 17500
    },
    {
      "epoch": 0.08755,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002751105527638191,
      "loss": 2.4707,
      "step": 17510
    },
    {
      "epoch": 0.0876,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027509547738693465,
      "loss": 2.4888,
      "step": 17520
    },
    {
      "epoch": 0.08765,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0027508040201005028,
      "loss": 2.4439,
      "step": 17530
    },
    {
      "epoch": 0.0877,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002750653266331658,
      "loss": 2.4519,
      "step": 17540
    },
    {
      "epoch": 0.08775,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002750502512562814,
      "loss": 2.4621,
      "step": 17550
    },
    {
      "epoch": 0.0878,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00275035175879397,
      "loss": 2.4574,
      "step": 17560
    },
    {
      "epoch": 0.08785,
      "grad_norm": 0.390625,
      "learning_rate": 0.0027502010050251256,
      "loss": 2.4538,
      "step": 17570
    },
    {
      "epoch": 0.0879,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027500502512562814,
      "loss": 2.3873,
      "step": 17580
    },
    {
      "epoch": 0.08795,
      "grad_norm": 0.390625,
      "learning_rate": 0.002749899497487437,
      "loss": 2.4473,
      "step": 17590
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.390625,
      "learning_rate": 0.002749748743718593,
      "loss": 2.4585,
      "step": 17600
    },
    {
      "epoch": 0.08805,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002749597989949749,
      "loss": 2.4266,
      "step": 17610
    },
    {
      "epoch": 0.0881,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027494472361809046,
      "loss": 2.449,
      "step": 17620
    },
    {
      "epoch": 0.08815,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0027492964824120604,
      "loss": 2.3929,
      "step": 17630
    },
    {
      "epoch": 0.0882,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027491457286432162,
      "loss": 2.5114,
      "step": 17640
    },
    {
      "epoch": 0.08825,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0027489949748743716,
      "loss": 2.4774,
      "step": 17650
    },
    {
      "epoch": 0.0883,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002748844221105528,
      "loss": 2.4706,
      "step": 17660
    },
    {
      "epoch": 0.08835,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0027486934673366836,
      "loss": 2.4072,
      "step": 17670
    },
    {
      "epoch": 0.0884,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002748542713567839,
      "loss": 2.4369,
      "step": 17680
    },
    {
      "epoch": 0.08845,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0027483919597989953,
      "loss": 2.4791,
      "step": 17690
    },
    {
      "epoch": 0.0885,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0027482412060301506,
      "loss": 2.439,
      "step": 17700
    },
    {
      "epoch": 0.08855,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0027480904522613064,
      "loss": 2.417,
      "step": 17710
    },
    {
      "epoch": 0.0886,
      "grad_norm": 0.375,
      "learning_rate": 0.0027479396984924627,
      "loss": 2.4057,
      "step": 17720
    },
    {
      "epoch": 0.08865,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002747788944723618,
      "loss": 2.3916,
      "step": 17730
    },
    {
      "epoch": 0.0887,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002747638190954774,
      "loss": 2.4463,
      "step": 17740
    },
    {
      "epoch": 0.08875,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0027474874371859297,
      "loss": 2.3905,
      "step": 17750
    },
    {
      "epoch": 0.0888,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0027473366834170855,
      "loss": 2.4292,
      "step": 17760
    },
    {
      "epoch": 0.08885,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0027471859296482413,
      "loss": 2.4529,
      "step": 17770
    },
    {
      "epoch": 0.0889,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002747035175879397,
      "loss": 2.4121,
      "step": 17780
    },
    {
      "epoch": 0.08895,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002746884422110553,
      "loss": 2.433,
      "step": 17790
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0027467336683417087,
      "loss": 2.4263,
      "step": 17800
    },
    {
      "epoch": 0.08905,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002746582914572864,
      "loss": 2.5114,
      "step": 17810
    },
    {
      "epoch": 0.0891,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027464321608040203,
      "loss": 2.4882,
      "step": 17820
    },
    {
      "epoch": 0.08915,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002746281407035176,
      "loss": 2.3831,
      "step": 17830
    },
    {
      "epoch": 0.0892,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0027461306532663315,
      "loss": 2.4588,
      "step": 17840
    },
    {
      "epoch": 0.08925,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027459798994974877,
      "loss": 2.4406,
      "step": 17850
    },
    {
      "epoch": 0.0893,
      "grad_norm": 0.484375,
      "learning_rate": 0.002745829145728643,
      "loss": 2.4649,
      "step": 17860
    },
    {
      "epoch": 0.08935,
      "grad_norm": 0.390625,
      "learning_rate": 0.002745678391959799,
      "loss": 2.4613,
      "step": 17870
    },
    {
      "epoch": 0.0894,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002745527638190955,
      "loss": 2.404,
      "step": 17880
    },
    {
      "epoch": 0.08945,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0027453768844221105,
      "loss": 2.4562,
      "step": 17890
    },
    {
      "epoch": 0.0895,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0027452261306532663,
      "loss": 2.3962,
      "step": 17900
    },
    {
      "epoch": 0.08955,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002745075376884422,
      "loss": 2.4691,
      "step": 17910
    },
    {
      "epoch": 0.0896,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002744924623115578,
      "loss": 2.4534,
      "step": 17920
    },
    {
      "epoch": 0.08965,
      "grad_norm": 0.40625,
      "learning_rate": 0.0027447738693467338,
      "loss": 2.3965,
      "step": 17930
    },
    {
      "epoch": 0.0897,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027446231155778896,
      "loss": 2.4311,
      "step": 17940
    },
    {
      "epoch": 0.08975,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0027444723618090454,
      "loss": 2.4404,
      "step": 17950
    },
    {
      "epoch": 0.0898,
      "grad_norm": 0.40625,
      "learning_rate": 0.002744321608040201,
      "loss": 2.3893,
      "step": 17960
    },
    {
      "epoch": 0.08985,
      "grad_norm": 0.40625,
      "learning_rate": 0.0027441708542713565,
      "loss": 2.4202,
      "step": 17970
    },
    {
      "epoch": 0.0899,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002744020100502513,
      "loss": 2.4024,
      "step": 17980
    },
    {
      "epoch": 0.08995,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0027438693467336686,
      "loss": 2.4028,
      "step": 17990
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002743718592964824,
      "loss": 2.4276,
      "step": 18000
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.4131133556365967,
      "eval_runtime": 49.1547,
      "eval_samples_per_second": 50.86,
      "eval_steps_per_second": 0.102,
      "step": 18000
    },
    {
      "epoch": 0.09005,
      "grad_norm": 0.3984375,
      "learning_rate": 0.00274356783919598,
      "loss": 2.3922,
      "step": 18010
    },
    {
      "epoch": 0.0901,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0027434170854271356,
      "loss": 2.4642,
      "step": 18020
    },
    {
      "epoch": 0.09015,
      "grad_norm": 0.40625,
      "learning_rate": 0.0027432663316582914,
      "loss": 2.4167,
      "step": 18030
    },
    {
      "epoch": 0.0902,
      "grad_norm": 0.359375,
      "learning_rate": 0.0027431155778894476,
      "loss": 2.4109,
      "step": 18040
    },
    {
      "epoch": 0.09025,
      "grad_norm": 0.390625,
      "learning_rate": 0.002742964824120603,
      "loss": 2.437,
      "step": 18050
    },
    {
      "epoch": 0.0903,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002742814070351759,
      "loss": 2.4386,
      "step": 18060
    },
    {
      "epoch": 0.09035,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0027426633165829146,
      "loss": 2.447,
      "step": 18070
    },
    {
      "epoch": 0.0904,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0027425125628140704,
      "loss": 2.3972,
      "step": 18080
    },
    {
      "epoch": 0.09045,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0027423618090452262,
      "loss": 2.4345,
      "step": 18090
    },
    {
      "epoch": 0.0905,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027422110552763816,
      "loss": 2.469,
      "step": 18100
    },
    {
      "epoch": 0.09055,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002742060301507538,
      "loss": 2.395,
      "step": 18110
    },
    {
      "epoch": 0.0906,
      "grad_norm": 0.375,
      "learning_rate": 0.0027419095477386937,
      "loss": 2.4519,
      "step": 18120
    },
    {
      "epoch": 0.09065,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002741758793969849,
      "loss": 2.423,
      "step": 18130
    },
    {
      "epoch": 0.0907,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0027416080402010053,
      "loss": 2.3616,
      "step": 18140
    },
    {
      "epoch": 0.09075,
      "grad_norm": 0.40625,
      "learning_rate": 0.002741457286432161,
      "loss": 2.4362,
      "step": 18150
    },
    {
      "epoch": 0.0908,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0027413065326633164,
      "loss": 2.4198,
      "step": 18160
    },
    {
      "epoch": 0.09085,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027411557788944727,
      "loss": 2.4405,
      "step": 18170
    },
    {
      "epoch": 0.0909,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002741005025125628,
      "loss": 2.4188,
      "step": 18180
    },
    {
      "epoch": 0.09095,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002740854271356784,
      "loss": 2.398,
      "step": 18190
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00274070351758794,
      "loss": 2.4279,
      "step": 18200
    },
    {
      "epoch": 0.09105,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027405527638190955,
      "loss": 2.4415,
      "step": 18210
    },
    {
      "epoch": 0.0911,
      "grad_norm": 0.357421875,
      "learning_rate": 0.0027404020100502513,
      "loss": 2.4251,
      "step": 18220
    },
    {
      "epoch": 0.09115,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002740251256281407,
      "loss": 2.4478,
      "step": 18230
    },
    {
      "epoch": 0.0912,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002740100502512563,
      "loss": 2.4571,
      "step": 18240
    },
    {
      "epoch": 0.09125,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027399497487437187,
      "loss": 2.4197,
      "step": 18250
    },
    {
      "epoch": 0.0913,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002739798994974874,
      "loss": 2.4384,
      "step": 18260
    },
    {
      "epoch": 0.09135,
      "grad_norm": 0.359375,
      "learning_rate": 0.0027396482412060303,
      "loss": 2.4271,
      "step": 18270
    },
    {
      "epoch": 0.0914,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002739497487437186,
      "loss": 2.4279,
      "step": 18280
    },
    {
      "epoch": 0.09145,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0027393467336683415,
      "loss": 2.4285,
      "step": 18290
    },
    {
      "epoch": 0.0915,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0027391959798994977,
      "loss": 2.4296,
      "step": 18300
    },
    {
      "epoch": 0.09155,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002739045226130653,
      "loss": 2.4175,
      "step": 18310
    },
    {
      "epoch": 0.0916,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002738894472361809,
      "loss": 2.4399,
      "step": 18320
    },
    {
      "epoch": 0.09165,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002738743718592965,
      "loss": 2.473,
      "step": 18330
    },
    {
      "epoch": 0.0917,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0027385929648241205,
      "loss": 2.4514,
      "step": 18340
    },
    {
      "epoch": 0.09175,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027384422110552763,
      "loss": 2.4603,
      "step": 18350
    },
    {
      "epoch": 0.0918,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002738291457286432,
      "loss": 2.4202,
      "step": 18360
    },
    {
      "epoch": 0.09185,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002738140703517588,
      "loss": 2.4329,
      "step": 18370
    },
    {
      "epoch": 0.0919,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0027379899497487438,
      "loss": 2.4647,
      "step": 18380
    },
    {
      "epoch": 0.09195,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027378391959798996,
      "loss": 2.4095,
      "step": 18390
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0027376884422110554,
      "loss": 2.4261,
      "step": 18400
    },
    {
      "epoch": 0.09205,
      "grad_norm": 0.40625,
      "learning_rate": 0.002737537688442211,
      "loss": 2.4511,
      "step": 18410
    },
    {
      "epoch": 0.0921,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027373869346733666,
      "loss": 2.4116,
      "step": 18420
    },
    {
      "epoch": 0.09215,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002737236180904523,
      "loss": 2.4301,
      "step": 18430
    },
    {
      "epoch": 0.0922,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027370854271356786,
      "loss": 2.3906,
      "step": 18440
    },
    {
      "epoch": 0.09225,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002736934673366834,
      "loss": 2.3875,
      "step": 18450
    },
    {
      "epoch": 0.0923,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00273678391959799,
      "loss": 2.407,
      "step": 18460
    },
    {
      "epoch": 0.09235,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0027366331658291456,
      "loss": 2.4098,
      "step": 18470
    },
    {
      "epoch": 0.0924,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0027364824120603014,
      "loss": 2.4357,
      "step": 18480
    },
    {
      "epoch": 0.09245,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027363316582914576,
      "loss": 2.4443,
      "step": 18490
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002736180904522613,
      "loss": 2.4273,
      "step": 18500
    },
    {
      "epoch": 0.09255,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002736030150753769,
      "loss": 2.4486,
      "step": 18510
    },
    {
      "epoch": 0.0926,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0027358793969849246,
      "loss": 2.4582,
      "step": 18520
    },
    {
      "epoch": 0.09265,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0027357286432160804,
      "loss": 2.4328,
      "step": 18530
    },
    {
      "epoch": 0.0927,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027355778894472362,
      "loss": 2.3959,
      "step": 18540
    },
    {
      "epoch": 0.09275,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002735427135678392,
      "loss": 2.4507,
      "step": 18550
    },
    {
      "epoch": 0.0928,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002735276381909548,
      "loss": 2.4191,
      "step": 18560
    },
    {
      "epoch": 0.09285,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0027351256281407037,
      "loss": 2.4142,
      "step": 18570
    },
    {
      "epoch": 0.0929,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002734974874371859,
      "loss": 2.4222,
      "step": 18580
    },
    {
      "epoch": 0.09295,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0027348241206030153,
      "loss": 2.4309,
      "step": 18590
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002734673366834171,
      "loss": 2.4232,
      "step": 18600
    },
    {
      "epoch": 0.09305,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0027345226130653265,
      "loss": 2.4403,
      "step": 18610
    },
    {
      "epoch": 0.0931,
      "grad_norm": 0.373046875,
      "learning_rate": 0.0027343718592964827,
      "loss": 2.4066,
      "step": 18620
    },
    {
      "epoch": 0.09315,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002734221105527638,
      "loss": 2.397,
      "step": 18630
    },
    {
      "epoch": 0.0932,
      "grad_norm": 0.40625,
      "learning_rate": 0.002734070351758794,
      "loss": 2.3695,
      "step": 18640
    },
    {
      "epoch": 0.09325,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00273391959798995,
      "loss": 2.4005,
      "step": 18650
    },
    {
      "epoch": 0.0933,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0027337688442211055,
      "loss": 2.441,
      "step": 18660
    },
    {
      "epoch": 0.09335,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027336180904522613,
      "loss": 2.3888,
      "step": 18670
    },
    {
      "epoch": 0.0934,
      "grad_norm": 0.353515625,
      "learning_rate": 0.002733467336683417,
      "loss": 2.3998,
      "step": 18680
    },
    {
      "epoch": 0.09345,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002733316582914573,
      "loss": 2.4519,
      "step": 18690
    },
    {
      "epoch": 0.0935,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0027331658291457287,
      "loss": 2.4042,
      "step": 18700
    },
    {
      "epoch": 0.09355,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0027330150753768845,
      "loss": 2.4275,
      "step": 18710
    },
    {
      "epoch": 0.0936,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0027328643216080403,
      "loss": 2.4073,
      "step": 18720
    },
    {
      "epoch": 0.09365,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002732713567839196,
      "loss": 2.4291,
      "step": 18730
    },
    {
      "epoch": 0.0937,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0027325628140703515,
      "loss": 2.4344,
      "step": 18740
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0027324120603015077,
      "loss": 2.423,
      "step": 18750
    },
    {
      "epoch": 0.0938,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0027322613065326636,
      "loss": 2.4232,
      "step": 18760
    },
    {
      "epoch": 0.09385,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002732110552763819,
      "loss": 2.4342,
      "step": 18770
    },
    {
      "epoch": 0.0939,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002731959798994975,
      "loss": 2.4306,
      "step": 18780
    },
    {
      "epoch": 0.09395,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0027318090452261305,
      "loss": 2.4394,
      "step": 18790
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027316582914572863,
      "loss": 2.4578,
      "step": 18800
    },
    {
      "epoch": 0.09405,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0027315075376884426,
      "loss": 2.422,
      "step": 18810
    },
    {
      "epoch": 0.0941,
      "grad_norm": 0.359375,
      "learning_rate": 0.002731356783919598,
      "loss": 2.3888,
      "step": 18820
    },
    {
      "epoch": 0.09415,
      "grad_norm": 0.421875,
      "learning_rate": 0.0027312060301507538,
      "loss": 2.3917,
      "step": 18830
    },
    {
      "epoch": 0.0942,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027310552763819096,
      "loss": 2.4034,
      "step": 18840
    },
    {
      "epoch": 0.09425,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0027309045226130654,
      "loss": 2.389,
      "step": 18850
    },
    {
      "epoch": 0.0943,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002730753768844221,
      "loss": 2.501,
      "step": 18860
    },
    {
      "epoch": 0.09435,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002730603015075377,
      "loss": 2.42,
      "step": 18870
    },
    {
      "epoch": 0.0944,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002730452261306533,
      "loss": 2.4336,
      "step": 18880
    },
    {
      "epoch": 0.09445,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0027303015075376886,
      "loss": 2.4495,
      "step": 18890
    },
    {
      "epoch": 0.0945,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002730150753768844,
      "loss": 2.4201,
      "step": 18900
    },
    {
      "epoch": 0.09455,
      "grad_norm": 0.375,
      "learning_rate": 0.0027300000000000002,
      "loss": 2.3901,
      "step": 18910
    },
    {
      "epoch": 0.0946,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002729849246231156,
      "loss": 2.4002,
      "step": 18920
    },
    {
      "epoch": 0.09465,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0027296984924623114,
      "loss": 2.3961,
      "step": 18930
    },
    {
      "epoch": 0.0947,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027295477386934676,
      "loss": 2.3968,
      "step": 18940
    },
    {
      "epoch": 0.09475,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002729396984924623,
      "loss": 2.4237,
      "step": 18950
    },
    {
      "epoch": 0.0948,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002729246231155779,
      "loss": 2.3968,
      "step": 18960
    },
    {
      "epoch": 0.09485,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002729095477386935,
      "loss": 2.4123,
      "step": 18970
    },
    {
      "epoch": 0.0949,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027289447236180904,
      "loss": 2.395,
      "step": 18980
    },
    {
      "epoch": 0.09495,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0027287939698492462,
      "loss": 2.4239,
      "step": 18990
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002728643216080402,
      "loss": 2.418,
      "step": 19000
    },
    {
      "epoch": 0.09505,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002728492462311558,
      "loss": 2.3852,
      "step": 19010
    },
    {
      "epoch": 0.0951,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0027283417085427137,
      "loss": 2.4123,
      "step": 19020
    },
    {
      "epoch": 0.09515,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002728190954773869,
      "loss": 2.3138,
      "step": 19030
    },
    {
      "epoch": 0.0952,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0027280402010050253,
      "loss": 2.3937,
      "step": 19040
    },
    {
      "epoch": 0.09525,
      "grad_norm": 0.3671875,
      "learning_rate": 0.002727889447236181,
      "loss": 2.3394,
      "step": 19050
    },
    {
      "epoch": 0.0953,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0027277386934673365,
      "loss": 2.4161,
      "step": 19060
    },
    {
      "epoch": 0.09535,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027275879396984927,
      "loss": 2.4259,
      "step": 19070
    },
    {
      "epoch": 0.0954,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027274371859296485,
      "loss": 2.4154,
      "step": 19080
    },
    {
      "epoch": 0.09545,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002727286432160804,
      "loss": 2.366,
      "step": 19090
    },
    {
      "epoch": 0.0955,
      "grad_norm": 0.392578125,
      "learning_rate": 0.00272713567839196,
      "loss": 2.4156,
      "step": 19100
    },
    {
      "epoch": 0.09555,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0027269849246231155,
      "loss": 2.4362,
      "step": 19110
    },
    {
      "epoch": 0.0956,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0027268341708542713,
      "loss": 2.4296,
      "step": 19120
    },
    {
      "epoch": 0.09565,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0027266834170854275,
      "loss": 2.4126,
      "step": 19130
    },
    {
      "epoch": 0.0957,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002726532663316583,
      "loss": 2.3734,
      "step": 19140
    },
    {
      "epoch": 0.09575,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027263819095477387,
      "loss": 2.4195,
      "step": 19150
    },
    {
      "epoch": 0.0958,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0027262311557788945,
      "loss": 2.4443,
      "step": 19160
    },
    {
      "epoch": 0.09585,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027260804020100503,
      "loss": 2.3406,
      "step": 19170
    },
    {
      "epoch": 0.0959,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002725929648241206,
      "loss": 2.4312,
      "step": 19180
    },
    {
      "epoch": 0.09595,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0027257788944723615,
      "loss": 2.4022,
      "step": 19190
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0027256281407035178,
      "loss": 2.3935,
      "step": 19200
    },
    {
      "epoch": 0.09605,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0027254773869346736,
      "loss": 2.4072,
      "step": 19210
    },
    {
      "epoch": 0.0961,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002725326633165829,
      "loss": 2.355,
      "step": 19220
    },
    {
      "epoch": 0.09615,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002725175879396985,
      "loss": 2.4263,
      "step": 19230
    },
    {
      "epoch": 0.0962,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0027250251256281405,
      "loss": 2.368,
      "step": 19240
    },
    {
      "epoch": 0.09625,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027248743718592964,
      "loss": 2.3773,
      "step": 19250
    },
    {
      "epoch": 0.0963,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027247236180904526,
      "loss": 2.4132,
      "step": 19260
    },
    {
      "epoch": 0.09635,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002724572864321608,
      "loss": 2.3925,
      "step": 19270
    },
    {
      "epoch": 0.0964,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0027244221105527638,
      "loss": 2.4022,
      "step": 19280
    },
    {
      "epoch": 0.09645,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027242713567839196,
      "loss": 2.4246,
      "step": 19290
    },
    {
      "epoch": 0.0965,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0027241206030150754,
      "loss": 2.3808,
      "step": 19300
    },
    {
      "epoch": 0.09655,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002723969849246231,
      "loss": 2.4558,
      "step": 19310
    },
    {
      "epoch": 0.0966,
      "grad_norm": 0.421875,
      "learning_rate": 0.002723819095477387,
      "loss": 2.3131,
      "step": 19320
    },
    {
      "epoch": 0.09665,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002723668341708543,
      "loss": 2.4278,
      "step": 19330
    },
    {
      "epoch": 0.0967,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0027235175879396986,
      "loss": 2.3969,
      "step": 19340
    },
    {
      "epoch": 0.09675,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002723366834170854,
      "loss": 2.3657,
      "step": 19350
    },
    {
      "epoch": 0.0968,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0027232160804020102,
      "loss": 2.4189,
      "step": 19360
    },
    {
      "epoch": 0.09685,
      "grad_norm": 0.46875,
      "learning_rate": 0.002723065326633166,
      "loss": 2.3944,
      "step": 19370
    },
    {
      "epoch": 0.0969,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0027229145728643214,
      "loss": 2.3749,
      "step": 19380
    },
    {
      "epoch": 0.09695,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0027227638190954776,
      "loss": 2.4302,
      "step": 19390
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002722613065326633,
      "loss": 2.3556,
      "step": 19400
    },
    {
      "epoch": 0.09705,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002722462311557789,
      "loss": 2.4058,
      "step": 19410
    },
    {
      "epoch": 0.0971,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002722311557788945,
      "loss": 2.4294,
      "step": 19420
    },
    {
      "epoch": 0.09715,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0027221608040201004,
      "loss": 2.3599,
      "step": 19430
    },
    {
      "epoch": 0.0972,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0027220100502512562,
      "loss": 2.3847,
      "step": 19440
    },
    {
      "epoch": 0.09725,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002721859296482412,
      "loss": 2.3689,
      "step": 19450
    },
    {
      "epoch": 0.0973,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002721708542713568,
      "loss": 2.4037,
      "step": 19460
    },
    {
      "epoch": 0.09735,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0027215577889447237,
      "loss": 2.3952,
      "step": 19470
    },
    {
      "epoch": 0.0974,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0027214070351758795,
      "loss": 2.4036,
      "step": 19480
    },
    {
      "epoch": 0.09745,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0027212562814070353,
      "loss": 2.4652,
      "step": 19490
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002721105527638191,
      "loss": 2.3756,
      "step": 19500
    },
    {
      "epoch": 0.09755,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0027209547738693465,
      "loss": 2.4114,
      "step": 19510
    },
    {
      "epoch": 0.0976,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0027208040201005027,
      "loss": 2.3788,
      "step": 19520
    },
    {
      "epoch": 0.09765,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0027206532663316585,
      "loss": 2.342,
      "step": 19530
    },
    {
      "epoch": 0.0977,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002720502512562814,
      "loss": 2.3934,
      "step": 19540
    },
    {
      "epoch": 0.09775,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00272035175879397,
      "loss": 2.3724,
      "step": 19550
    },
    {
      "epoch": 0.0978,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0027202010050251255,
      "loss": 2.3739,
      "step": 19560
    },
    {
      "epoch": 0.09785,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027200502512562813,
      "loss": 2.3943,
      "step": 19570
    },
    {
      "epoch": 0.0979,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027198994974874375,
      "loss": 2.3142,
      "step": 19580
    },
    {
      "epoch": 0.09795,
      "grad_norm": 0.421875,
      "learning_rate": 0.002719748743718593,
      "loss": 2.3719,
      "step": 19590
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0027195979899497487,
      "loss": 2.3769,
      "step": 19600
    },
    {
      "epoch": 0.09805,
      "grad_norm": 0.34375,
      "learning_rate": 0.0027194472361809045,
      "loss": 2.4121,
      "step": 19610
    },
    {
      "epoch": 0.0981,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027192964824120603,
      "loss": 2.3845,
      "step": 19620
    },
    {
      "epoch": 0.09815,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002719145728643216,
      "loss": 2.3716,
      "step": 19630
    },
    {
      "epoch": 0.0982,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002718994974874372,
      "loss": 2.3901,
      "step": 19640
    },
    {
      "epoch": 0.09825,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027188442211055278,
      "loss": 2.3346,
      "step": 19650
    },
    {
      "epoch": 0.0983,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0027186934673366836,
      "loss": 2.4277,
      "step": 19660
    },
    {
      "epoch": 0.09835,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002718542713567839,
      "loss": 2.4014,
      "step": 19670
    },
    {
      "epoch": 0.0984,
      "grad_norm": 0.40625,
      "learning_rate": 0.002718391959798995,
      "loss": 2.3679,
      "step": 19680
    },
    {
      "epoch": 0.09845,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002718241206030151,
      "loss": 2.4158,
      "step": 19690
    },
    {
      "epoch": 0.0985,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027180904522613064,
      "loss": 2.3889,
      "step": 19700
    },
    {
      "epoch": 0.09855,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027179396984924626,
      "loss": 2.3607,
      "step": 19710
    },
    {
      "epoch": 0.0986,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002717788944723618,
      "loss": 2.3877,
      "step": 19720
    },
    {
      "epoch": 0.09865,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0027176381909547738,
      "loss": 2.3552,
      "step": 19730
    },
    {
      "epoch": 0.0987,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00271748743718593,
      "loss": 2.4573,
      "step": 19740
    },
    {
      "epoch": 0.09875,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0027173366834170854,
      "loss": 2.3291,
      "step": 19750
    },
    {
      "epoch": 0.0988,
      "grad_norm": 0.453125,
      "learning_rate": 0.002717185929648241,
      "loss": 2.3922,
      "step": 19760
    },
    {
      "epoch": 0.09885,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002717035175879397,
      "loss": 2.3906,
      "step": 19770
    },
    {
      "epoch": 0.0989,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002716884422110553,
      "loss": 2.3933,
      "step": 19780
    },
    {
      "epoch": 0.09895,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0027167336683417086,
      "loss": 2.4161,
      "step": 19790
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.421875,
      "learning_rate": 0.0027165829145728644,
      "loss": 2.3827,
      "step": 19800
    },
    {
      "epoch": 0.09905,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0027164321608040202,
      "loss": 2.4196,
      "step": 19810
    },
    {
      "epoch": 0.0991,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002716281407035176,
      "loss": 2.4252,
      "step": 19820
    },
    {
      "epoch": 0.09915,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0027161306532663314,
      "loss": 2.3608,
      "step": 19830
    },
    {
      "epoch": 0.0992,
      "grad_norm": 0.361328125,
      "learning_rate": 0.0027159798994974877,
      "loss": 2.4031,
      "step": 19840
    },
    {
      "epoch": 0.09925,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027158291457286435,
      "loss": 2.3422,
      "step": 19850
    },
    {
      "epoch": 0.0993,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002715678391959799,
      "loss": 2.4019,
      "step": 19860
    },
    {
      "epoch": 0.09935,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002715527638190955,
      "loss": 2.4057,
      "step": 19870
    },
    {
      "epoch": 0.0994,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027153768844221104,
      "loss": 2.3538,
      "step": 19880
    },
    {
      "epoch": 0.09945,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027152261306532663,
      "loss": 2.3692,
      "step": 19890
    },
    {
      "epoch": 0.0995,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0027150753768844225,
      "loss": 2.3534,
      "step": 19900
    },
    {
      "epoch": 0.09955,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002714924623115578,
      "loss": 2.4249,
      "step": 19910
    },
    {
      "epoch": 0.0996,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0027147738693467337,
      "loss": 2.3859,
      "step": 19920
    },
    {
      "epoch": 0.09965,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0027146231155778895,
      "loss": 2.359,
      "step": 19930
    },
    {
      "epoch": 0.0997,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027144723618090453,
      "loss": 2.3911,
      "step": 19940
    },
    {
      "epoch": 0.09975,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002714321608040201,
      "loss": 2.3674,
      "step": 19950
    },
    {
      "epoch": 0.0998,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0027141708542713565,
      "loss": 2.376,
      "step": 19960
    },
    {
      "epoch": 0.09985,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0027140201005025127,
      "loss": 2.337,
      "step": 19970
    },
    {
      "epoch": 0.0999,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027138693467336685,
      "loss": 2.3922,
      "step": 19980
    },
    {
      "epoch": 0.09995,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002713718592964824,
      "loss": 2.3997,
      "step": 19990
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00271356783919598,
      "loss": 2.3459,
      "step": 20000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.38995099067688,
      "eval_runtime": 47.5608,
      "eval_samples_per_second": 52.564,
      "eval_steps_per_second": 0.105,
      "step": 20000
    },
    {
      "epoch": 0.10005,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002713417085427136,
      "loss": 2.4293,
      "step": 20010
    },
    {
      "epoch": 0.1001,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0027132663316582913,
      "loss": 2.3415,
      "step": 20020
    },
    {
      "epoch": 0.10015,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0027131155778894476,
      "loss": 2.4522,
      "step": 20030
    },
    {
      "epoch": 0.1002,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002712964824120603,
      "loss": 2.4066,
      "step": 20040
    },
    {
      "epoch": 0.10025,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027128140703517587,
      "loss": 2.3317,
      "step": 20050
    },
    {
      "epoch": 0.1003,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002712663316582915,
      "loss": 2.3682,
      "step": 20060
    },
    {
      "epoch": 0.10035,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0027125125628140703,
      "loss": 2.3763,
      "step": 20070
    },
    {
      "epoch": 0.1004,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002712361809045226,
      "loss": 2.426,
      "step": 20080
    },
    {
      "epoch": 0.10045,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002712211055276382,
      "loss": 2.3476,
      "step": 20090
    },
    {
      "epoch": 0.1005,
      "grad_norm": 0.390625,
      "learning_rate": 0.0027120603015075378,
      "loss": 2.3996,
      "step": 20100
    },
    {
      "epoch": 0.10055,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0027119095477386936,
      "loss": 2.3711,
      "step": 20110
    },
    {
      "epoch": 0.1006,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002711758793969849,
      "loss": 2.3938,
      "step": 20120
    },
    {
      "epoch": 0.10065,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002711608040201005,
      "loss": 2.4364,
      "step": 20130
    },
    {
      "epoch": 0.1007,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002711457286432161,
      "loss": 2.3954,
      "step": 20140
    },
    {
      "epoch": 0.10075,
      "grad_norm": 0.4375,
      "learning_rate": 0.0027113065326633164,
      "loss": 2.4026,
      "step": 20150
    },
    {
      "epoch": 0.1008,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0027111557788944726,
      "loss": 2.3722,
      "step": 20160
    },
    {
      "epoch": 0.10085,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002711005025125628,
      "loss": 2.3429,
      "step": 20170
    },
    {
      "epoch": 0.1009,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002710854271356784,
      "loss": 2.3918,
      "step": 20180
    },
    {
      "epoch": 0.10095,
      "grad_norm": 0.353515625,
      "learning_rate": 0.00271070351758794,
      "loss": 2.3782,
      "step": 20190
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0027105527638190954,
      "loss": 2.3983,
      "step": 20200
    },
    {
      "epoch": 0.10105,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002710402010050251,
      "loss": 2.4178,
      "step": 20210
    },
    {
      "epoch": 0.1011,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002710251256281407,
      "loss": 2.3782,
      "step": 20220
    },
    {
      "epoch": 0.10115,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002710100502512563,
      "loss": 2.3748,
      "step": 20230
    },
    {
      "epoch": 0.1012,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0027099497487437186,
      "loss": 2.3716,
      "step": 20240
    },
    {
      "epoch": 0.10125,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0027097989949748744,
      "loss": 2.397,
      "step": 20250
    },
    {
      "epoch": 0.1013,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0027096482412060302,
      "loss": 2.3846,
      "step": 20260
    },
    {
      "epoch": 0.10135,
      "grad_norm": 0.40625,
      "learning_rate": 0.002709497487437186,
      "loss": 2.3904,
      "step": 20270
    },
    {
      "epoch": 0.1014,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0027093467336683414,
      "loss": 2.3282,
      "step": 20280
    },
    {
      "epoch": 0.10145,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0027091959798994977,
      "loss": 2.3619,
      "step": 20290
    },
    {
      "epoch": 0.1015,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0027090452261306535,
      "loss": 2.3878,
      "step": 20300
    },
    {
      "epoch": 0.10155,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002708894472361809,
      "loss": 2.3792,
      "step": 20310
    },
    {
      "epoch": 0.1016,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002708743718592965,
      "loss": 2.3747,
      "step": 20320
    },
    {
      "epoch": 0.10165,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0027085929648241205,
      "loss": 2.4145,
      "step": 20330
    },
    {
      "epoch": 0.1017,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0027084422110552763,
      "loss": 2.3784,
      "step": 20340
    },
    {
      "epoch": 0.10175,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0027082914572864325,
      "loss": 2.354,
      "step": 20350
    },
    {
      "epoch": 0.1018,
      "grad_norm": 0.421875,
      "learning_rate": 0.002708140703517588,
      "loss": 2.3784,
      "step": 20360
    },
    {
      "epoch": 0.10185,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0027079899497487437,
      "loss": 2.3811,
      "step": 20370
    },
    {
      "epoch": 0.1019,
      "grad_norm": 0.421875,
      "learning_rate": 0.0027078391959798995,
      "loss": 2.3447,
      "step": 20380
    },
    {
      "epoch": 0.10195,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027076884422110553,
      "loss": 2.4156,
      "step": 20390
    },
    {
      "epoch": 0.102,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002707537688442211,
      "loss": 2.3958,
      "step": 20400
    },
    {
      "epoch": 0.10205,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002707386934673367,
      "loss": 2.4135,
      "step": 20410
    },
    {
      "epoch": 0.1021,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0027072361809045227,
      "loss": 2.4286,
      "step": 20420
    },
    {
      "epoch": 0.10215,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0027070854271356785,
      "loss": 2.4177,
      "step": 20430
    },
    {
      "epoch": 0.1022,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002706934673366834,
      "loss": 2.4073,
      "step": 20440
    },
    {
      "epoch": 0.10225,
      "grad_norm": 0.3828125,
      "learning_rate": 0.00270678391959799,
      "loss": 2.3442,
      "step": 20450
    },
    {
      "epoch": 0.1023,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002706633165829146,
      "loss": 2.403,
      "step": 20460
    },
    {
      "epoch": 0.10235,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0027064824120603013,
      "loss": 2.3766,
      "step": 20470
    },
    {
      "epoch": 0.1024,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0027063316582914576,
      "loss": 2.3828,
      "step": 20480
    },
    {
      "epoch": 0.10245,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002706180904522613,
      "loss": 2.4105,
      "step": 20490
    },
    {
      "epoch": 0.1025,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027060301507537687,
      "loss": 2.4046,
      "step": 20500
    },
    {
      "epoch": 0.10255,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002705879396984925,
      "loss": 2.3918,
      "step": 20510
    },
    {
      "epoch": 0.1026,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027057286432160804,
      "loss": 2.3233,
      "step": 20520
    },
    {
      "epoch": 0.10265,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002705577889447236,
      "loss": 2.3926,
      "step": 20530
    },
    {
      "epoch": 0.1027,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002705427135678392,
      "loss": 2.3544,
      "step": 20540
    },
    {
      "epoch": 0.10275,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0027052763819095478,
      "loss": 2.3775,
      "step": 20550
    },
    {
      "epoch": 0.1028,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0027051256281407036,
      "loss": 2.3941,
      "step": 20560
    },
    {
      "epoch": 0.10285,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0027049748743718594,
      "loss": 2.3377,
      "step": 20570
    },
    {
      "epoch": 0.1029,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002704824120603015,
      "loss": 2.4089,
      "step": 20580
    },
    {
      "epoch": 0.10295,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002704673366834171,
      "loss": 2.3378,
      "step": 20590
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0027045226130653264,
      "loss": 2.3649,
      "step": 20600
    },
    {
      "epoch": 0.10305,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0027043718592964826,
      "loss": 2.3937,
      "step": 20610
    },
    {
      "epoch": 0.1031,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0027042211055276384,
      "loss": 2.3758,
      "step": 20620
    },
    {
      "epoch": 0.10315,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002704070351758794,
      "loss": 2.3664,
      "step": 20630
    },
    {
      "epoch": 0.1032,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00270391959798995,
      "loss": 2.3708,
      "step": 20640
    },
    {
      "epoch": 0.10325,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0027037688442211054,
      "loss": 2.4225,
      "step": 20650
    },
    {
      "epoch": 0.1033,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002703618090452261,
      "loss": 2.3486,
      "step": 20660
    },
    {
      "epoch": 0.10335,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0027034673366834175,
      "loss": 2.3532,
      "step": 20670
    },
    {
      "epoch": 0.1034,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002703316582914573,
      "loss": 2.3444,
      "step": 20680
    },
    {
      "epoch": 0.10345,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0027031658291457286,
      "loss": 2.3794,
      "step": 20690
    },
    {
      "epoch": 0.1035,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0027030150753768844,
      "loss": 2.3804,
      "step": 20700
    },
    {
      "epoch": 0.10355,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0027028643216080402,
      "loss": 2.3543,
      "step": 20710
    },
    {
      "epoch": 0.1036,
      "grad_norm": 0.40625,
      "learning_rate": 0.002702713567839196,
      "loss": 2.4039,
      "step": 20720
    },
    {
      "epoch": 0.10365,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002702562814070352,
      "loss": 2.3877,
      "step": 20730
    },
    {
      "epoch": 0.1037,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027024120603015077,
      "loss": 2.3761,
      "step": 20740
    },
    {
      "epoch": 0.10375,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027022613065326635,
      "loss": 2.418,
      "step": 20750
    },
    {
      "epoch": 0.1038,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002702110552763819,
      "loss": 2.3748,
      "step": 20760
    },
    {
      "epoch": 0.10385,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002701959798994975,
      "loss": 2.3908,
      "step": 20770
    },
    {
      "epoch": 0.1039,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002701809045226131,
      "loss": 2.3128,
      "step": 20780
    },
    {
      "epoch": 0.10395,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027016582914572863,
      "loss": 2.3869,
      "step": 20790
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0027015075376884425,
      "loss": 2.3132,
      "step": 20800
    },
    {
      "epoch": 0.10405,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002701356783919598,
      "loss": 2.3751,
      "step": 20810
    },
    {
      "epoch": 0.1041,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0027012060301507537,
      "loss": 2.3876,
      "step": 20820
    },
    {
      "epoch": 0.10415,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00270105527638191,
      "loss": 2.3348,
      "step": 20830
    },
    {
      "epoch": 0.1042,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0027009045226130653,
      "loss": 2.4149,
      "step": 20840
    },
    {
      "epoch": 0.10425,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002700753768844221,
      "loss": 2.3784,
      "step": 20850
    },
    {
      "epoch": 0.1043,
      "grad_norm": 0.40625,
      "learning_rate": 0.002700603015075377,
      "loss": 2.3752,
      "step": 20860
    },
    {
      "epoch": 0.10435,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0027004522613065327,
      "loss": 2.3593,
      "step": 20870
    },
    {
      "epoch": 0.1044,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0027003015075376885,
      "loss": 2.3812,
      "step": 20880
    },
    {
      "epoch": 0.10445,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002700150753768844,
      "loss": 2.3776,
      "step": 20890
    },
    {
      "epoch": 0.1045,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0027,
      "loss": 2.3842,
      "step": 20900
    },
    {
      "epoch": 0.10455,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002699849246231156,
      "loss": 2.3525,
      "step": 20910
    },
    {
      "epoch": 0.1046,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026996984924623113,
      "loss": 2.3557,
      "step": 20920
    },
    {
      "epoch": 0.10465,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026995477386934676,
      "loss": 2.3935,
      "step": 20930
    },
    {
      "epoch": 0.1047,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026993969849246234,
      "loss": 2.3977,
      "step": 20940
    },
    {
      "epoch": 0.10475,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0026992462311557787,
      "loss": 2.4234,
      "step": 20950
    },
    {
      "epoch": 0.1048,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002699095477386935,
      "loss": 2.386,
      "step": 20960
    },
    {
      "epoch": 0.10485,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0026989447236180904,
      "loss": 2.3567,
      "step": 20970
    },
    {
      "epoch": 0.1049,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002698793969849246,
      "loss": 2.3514,
      "step": 20980
    },
    {
      "epoch": 0.10495,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026986432160804024,
      "loss": 2.377,
      "step": 20990
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0026984924623115578,
      "loss": 2.3854,
      "step": 21000
    },
    {
      "epoch": 0.10505,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0026983417085427136,
      "loss": 2.3666,
      "step": 21010
    },
    {
      "epoch": 0.1051,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0026981909547738694,
      "loss": 2.3824,
      "step": 21020
    },
    {
      "epoch": 0.10515,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002698040201005025,
      "loss": 2.3353,
      "step": 21030
    },
    {
      "epoch": 0.1052,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002697889447236181,
      "loss": 2.4105,
      "step": 21040
    },
    {
      "epoch": 0.10525,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0026977386934673364,
      "loss": 2.3474,
      "step": 21050
    },
    {
      "epoch": 0.1053,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0026975879396984926,
      "loss": 2.3409,
      "step": 21060
    },
    {
      "epoch": 0.10535,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0026974371859296484,
      "loss": 2.382,
      "step": 21070
    },
    {
      "epoch": 0.1054,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002697286432160804,
      "loss": 2.3841,
      "step": 21080
    },
    {
      "epoch": 0.10545,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00269713567839196,
      "loss": 2.3734,
      "step": 21090
    },
    {
      "epoch": 0.1055,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026969849246231154,
      "loss": 2.3692,
      "step": 21100
    },
    {
      "epoch": 0.10555,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0026968341708542712,
      "loss": 2.3717,
      "step": 21110
    },
    {
      "epoch": 0.1056,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026966834170854275,
      "loss": 2.3491,
      "step": 21120
    },
    {
      "epoch": 0.10565,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002696532663316583,
      "loss": 2.3775,
      "step": 21130
    },
    {
      "epoch": 0.1057,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0026963819095477386,
      "loss": 2.3738,
      "step": 21140
    },
    {
      "epoch": 0.10575,
      "grad_norm": 0.4375,
      "learning_rate": 0.0026962311557788944,
      "loss": 2.3769,
      "step": 21150
    },
    {
      "epoch": 0.1058,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026960804020100503,
      "loss": 2.3818,
      "step": 21160
    },
    {
      "epoch": 0.10585,
      "grad_norm": 0.376953125,
      "learning_rate": 0.002695929648241206,
      "loss": 2.3467,
      "step": 21170
    },
    {
      "epoch": 0.1059,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002695778894472362,
      "loss": 2.3986,
      "step": 21180
    },
    {
      "epoch": 0.10595,
      "grad_norm": 0.390625,
      "learning_rate": 0.0026956281407035177,
      "loss": 2.2888,
      "step": 21190
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026954773869346735,
      "loss": 2.4076,
      "step": 21200
    },
    {
      "epoch": 0.10605,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002695326633165829,
      "loss": 2.3346,
      "step": 21210
    },
    {
      "epoch": 0.1061,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002695175879396985,
      "loss": 2.3694,
      "step": 21220
    },
    {
      "epoch": 0.10615,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002695025125628141,
      "loss": 2.3312,
      "step": 21230
    },
    {
      "epoch": 0.1062,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0026948743718592963,
      "loss": 2.3903,
      "step": 21240
    },
    {
      "epoch": 0.10625,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0026947236180904525,
      "loss": 2.4246,
      "step": 21250
    },
    {
      "epoch": 0.1063,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002694572864321608,
      "loss": 2.3376,
      "step": 21260
    },
    {
      "epoch": 0.10635,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026944221105527637,
      "loss": 2.3754,
      "step": 21270
    },
    {
      "epoch": 0.1064,
      "grad_norm": 0.423828125,
      "learning_rate": 0.00269427135678392,
      "loss": 2.3257,
      "step": 21280
    },
    {
      "epoch": 0.10645,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026941206030150753,
      "loss": 2.4732,
      "step": 21290
    },
    {
      "epoch": 0.1065,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002693969849246231,
      "loss": 2.4184,
      "step": 21300
    },
    {
      "epoch": 0.10655,
      "grad_norm": 0.37890625,
      "learning_rate": 0.002693819095477387,
      "loss": 2.3713,
      "step": 21310
    },
    {
      "epoch": 0.1066,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0026936683417085427,
      "loss": 2.3599,
      "step": 21320
    },
    {
      "epoch": 0.10665,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0026935175879396985,
      "loss": 2.366,
      "step": 21330
    },
    {
      "epoch": 0.1067,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026933668341708543,
      "loss": 2.3417,
      "step": 21340
    },
    {
      "epoch": 0.10675,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00269321608040201,
      "loss": 2.3154,
      "step": 21350
    },
    {
      "epoch": 0.1068,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002693065326633166,
      "loss": 2.3814,
      "step": 21360
    },
    {
      "epoch": 0.10685,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0026929145728643213,
      "loss": 2.3322,
      "step": 21370
    },
    {
      "epoch": 0.1069,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0026927638190954776,
      "loss": 2.3292,
      "step": 21380
    },
    {
      "epoch": 0.10695,
      "grad_norm": 0.359375,
      "learning_rate": 0.0026926130653266334,
      "loss": 2.3812,
      "step": 21390
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0026924623115577887,
      "loss": 2.3593,
      "step": 21400
    },
    {
      "epoch": 0.10705,
      "grad_norm": 0.373046875,
      "learning_rate": 0.002692311557788945,
      "loss": 2.3698,
      "step": 21410
    },
    {
      "epoch": 0.1071,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0026921608040201004,
      "loss": 2.3899,
      "step": 21420
    },
    {
      "epoch": 0.10715,
      "grad_norm": 0.515625,
      "learning_rate": 0.002692010050251256,
      "loss": 2.3908,
      "step": 21430
    },
    {
      "epoch": 0.1072,
      "grad_norm": 0.4375,
      "learning_rate": 0.0026918592964824124,
      "loss": 2.3509,
      "step": 21440
    },
    {
      "epoch": 0.10725,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002691708542713568,
      "loss": 2.429,
      "step": 21450
    },
    {
      "epoch": 0.1073,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026915577889447236,
      "loss": 2.341,
      "step": 21460
    },
    {
      "epoch": 0.10735,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026914070351758794,
      "loss": 2.3304,
      "step": 21470
    },
    {
      "epoch": 0.1074,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002691256281407035,
      "loss": 2.4124,
      "step": 21480
    },
    {
      "epoch": 0.10745,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002691105527638191,
      "loss": 2.3655,
      "step": 21490
    },
    {
      "epoch": 0.1075,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002690954773869347,
      "loss": 2.3531,
      "step": 21500
    },
    {
      "epoch": 0.10755,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0026908040201005026,
      "loss": 2.3809,
      "step": 21510
    },
    {
      "epoch": 0.1076,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026906532663316584,
      "loss": 2.4064,
      "step": 21520
    },
    {
      "epoch": 0.10765,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002690502512562814,
      "loss": 2.3825,
      "step": 21530
    },
    {
      "epoch": 0.1077,
      "grad_norm": 0.431640625,
      "learning_rate": 0.00269035175879397,
      "loss": 2.3321,
      "step": 21540
    },
    {
      "epoch": 0.10775,
      "grad_norm": 0.40625,
      "learning_rate": 0.002690201005025126,
      "loss": 2.3528,
      "step": 21550
    },
    {
      "epoch": 0.1078,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026900502512562812,
      "loss": 2.4076,
      "step": 21560
    },
    {
      "epoch": 0.10785,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0026898994974874375,
      "loss": 2.346,
      "step": 21570
    },
    {
      "epoch": 0.1079,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002689748743718593,
      "loss": 2.3676,
      "step": 21580
    },
    {
      "epoch": 0.10795,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0026895979899497486,
      "loss": 2.3986,
      "step": 21590
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002689447236180905,
      "loss": 2.288,
      "step": 21600
    },
    {
      "epoch": 0.10805,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026892964824120603,
      "loss": 2.3477,
      "step": 21610
    },
    {
      "epoch": 0.1081,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002689145728643216,
      "loss": 2.3494,
      "step": 21620
    },
    {
      "epoch": 0.10815,
      "grad_norm": 0.365234375,
      "learning_rate": 0.002688994974874372,
      "loss": 2.3464,
      "step": 21630
    },
    {
      "epoch": 0.1082,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0026888442211055277,
      "loss": 2.3966,
      "step": 21640
    },
    {
      "epoch": 0.10825,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026886934673366835,
      "loss": 2.4327,
      "step": 21650
    },
    {
      "epoch": 0.1083,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0026885427135678393,
      "loss": 2.3292,
      "step": 21660
    },
    {
      "epoch": 0.10835,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002688391959798995,
      "loss": 2.3346,
      "step": 21670
    },
    {
      "epoch": 0.1084,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002688241206030151,
      "loss": 2.3481,
      "step": 21680
    },
    {
      "epoch": 0.10845,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0026880904522613063,
      "loss": 2.3622,
      "step": 21690
    },
    {
      "epoch": 0.1085,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0026879396984924625,
      "loss": 2.3802,
      "step": 21700
    },
    {
      "epoch": 0.10855,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026877889447236183,
      "loss": 2.3639,
      "step": 21710
    },
    {
      "epoch": 0.1086,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026876381909547737,
      "loss": 2.3886,
      "step": 21720
    },
    {
      "epoch": 0.10865,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00268748743718593,
      "loss": 2.4069,
      "step": 21730
    },
    {
      "epoch": 0.1087,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026873366834170853,
      "loss": 2.3708,
      "step": 21740
    },
    {
      "epoch": 0.10875,
      "grad_norm": 0.4375,
      "learning_rate": 0.002687185929648241,
      "loss": 2.3392,
      "step": 21750
    },
    {
      "epoch": 0.1088,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026870351758793974,
      "loss": 2.3866,
      "step": 21760
    },
    {
      "epoch": 0.10885,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0026868844221105527,
      "loss": 2.3538,
      "step": 21770
    },
    {
      "epoch": 0.1089,
      "grad_norm": 0.353515625,
      "learning_rate": 0.0026867336683417085,
      "loss": 2.4048,
      "step": 21780
    },
    {
      "epoch": 0.10895,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0026865829145728643,
      "loss": 2.3921,
      "step": 21790
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.40625,
      "learning_rate": 0.00268643216080402,
      "loss": 2.3525,
      "step": 21800
    },
    {
      "epoch": 0.10905,
      "grad_norm": 0.40625,
      "learning_rate": 0.002686281407035176,
      "loss": 2.3211,
      "step": 21810
    },
    {
      "epoch": 0.1091,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0026861306532663318,
      "loss": 2.3885,
      "step": 21820
    },
    {
      "epoch": 0.10915,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0026859798994974876,
      "loss": 2.3562,
      "step": 21830
    },
    {
      "epoch": 0.1092,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026858291457286434,
      "loss": 2.3316,
      "step": 21840
    },
    {
      "epoch": 0.10925,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026856783919597988,
      "loss": 2.3544,
      "step": 21850
    },
    {
      "epoch": 0.1093,
      "grad_norm": 0.37109375,
      "learning_rate": 0.002685527638190955,
      "loss": 2.3486,
      "step": 21860
    },
    {
      "epoch": 0.10935,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002685376884422111,
      "loss": 2.3535,
      "step": 21870
    },
    {
      "epoch": 0.1094,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002685226130653266,
      "loss": 2.3336,
      "step": 21880
    },
    {
      "epoch": 0.10945,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026850753768844224,
      "loss": 2.4027,
      "step": 21890
    },
    {
      "epoch": 0.1095,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002684924623115578,
      "loss": 2.3852,
      "step": 21900
    },
    {
      "epoch": 0.10955,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026847738693467336,
      "loss": 2.4147,
      "step": 21910
    },
    {
      "epoch": 0.1096,
      "grad_norm": 0.453125,
      "learning_rate": 0.00268462311557789,
      "loss": 2.3457,
      "step": 21920
    },
    {
      "epoch": 0.10965,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002684472361809045,
      "loss": 2.3383,
      "step": 21930
    },
    {
      "epoch": 0.1097,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002684321608040201,
      "loss": 2.3748,
      "step": 21940
    },
    {
      "epoch": 0.10975,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002684170854271357,
      "loss": 2.3266,
      "step": 21950
    },
    {
      "epoch": 0.1098,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0026840201005025126,
      "loss": 2.3614,
      "step": 21960
    },
    {
      "epoch": 0.10985,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026838693467336684,
      "loss": 2.3774,
      "step": 21970
    },
    {
      "epoch": 0.1099,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002683718592964824,
      "loss": 2.3899,
      "step": 21980
    },
    {
      "epoch": 0.10995,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00268356783919598,
      "loss": 2.3558,
      "step": 21990
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002683417085427136,
      "loss": 2.3777,
      "step": 22000
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.359469175338745,
      "eval_runtime": 49.3279,
      "eval_samples_per_second": 50.681,
      "eval_steps_per_second": 0.101,
      "step": 22000
    },
    {
      "epoch": 0.11005,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0026832663316582912,
      "loss": 2.3239,
      "step": 22010
    },
    {
      "epoch": 0.1101,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0026831155778894475,
      "loss": 2.362,
      "step": 22020
    },
    {
      "epoch": 0.11015,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002682964824120603,
      "loss": 2.3798,
      "step": 22030
    },
    {
      "epoch": 0.1102,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0026828140703517587,
      "loss": 2.3531,
      "step": 22040
    },
    {
      "epoch": 0.11025,
      "grad_norm": 0.40625,
      "learning_rate": 0.002682663316582915,
      "loss": 2.3327,
      "step": 22050
    },
    {
      "epoch": 0.1103,
      "grad_norm": 0.3828125,
      "learning_rate": 0.0026825125628140703,
      "loss": 2.3757,
      "step": 22060
    },
    {
      "epoch": 0.11035,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002682361809045226,
      "loss": 2.3086,
      "step": 22070
    },
    {
      "epoch": 0.1104,
      "grad_norm": 0.390625,
      "learning_rate": 0.002682211055276382,
      "loss": 2.3895,
      "step": 22080
    },
    {
      "epoch": 0.11045,
      "grad_norm": 0.4375,
      "learning_rate": 0.0026820603015075377,
      "loss": 2.39,
      "step": 22090
    },
    {
      "epoch": 0.1105,
      "grad_norm": 0.375,
      "learning_rate": 0.0026819095477386935,
      "loss": 2.3759,
      "step": 22100
    },
    {
      "epoch": 0.11055,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0026817587939698493,
      "loss": 2.3759,
      "step": 22110
    },
    {
      "epoch": 0.1106,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002681608040201005,
      "loss": 2.4019,
      "step": 22120
    },
    {
      "epoch": 0.11065,
      "grad_norm": 0.390625,
      "learning_rate": 0.002681457286432161,
      "loss": 2.4214,
      "step": 22130
    },
    {
      "epoch": 0.1107,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0026813065326633163,
      "loss": 2.359,
      "step": 22140
    },
    {
      "epoch": 0.11075,
      "grad_norm": 0.5,
      "learning_rate": 0.0026811557788944725,
      "loss": 2.3653,
      "step": 22150
    },
    {
      "epoch": 0.1108,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0026810050251256283,
      "loss": 2.3165,
      "step": 22160
    },
    {
      "epoch": 0.11085,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0026808542713567837,
      "loss": 2.3585,
      "step": 22170
    },
    {
      "epoch": 0.1109,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00268070351758794,
      "loss": 2.3263,
      "step": 22180
    },
    {
      "epoch": 0.11095,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0026805527638190953,
      "loss": 2.3299,
      "step": 22190
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002680402010050251,
      "loss": 2.358,
      "step": 22200
    },
    {
      "epoch": 0.11105,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026802512562814074,
      "loss": 2.3961,
      "step": 22210
    },
    {
      "epoch": 0.1111,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0026801005025125627,
      "loss": 2.3795,
      "step": 22220
    },
    {
      "epoch": 0.11115,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0026799497487437185,
      "loss": 2.339,
      "step": 22230
    },
    {
      "epoch": 0.1112,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0026797989949748744,
      "loss": 2.3694,
      "step": 22240
    },
    {
      "epoch": 0.11125,
      "grad_norm": 0.375,
      "learning_rate": 0.00267964824120603,
      "loss": 2.3709,
      "step": 22250
    },
    {
      "epoch": 0.1113,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002679497487437186,
      "loss": 2.3629,
      "step": 22260
    },
    {
      "epoch": 0.11135,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026793467336683418,
      "loss": 2.3392,
      "step": 22270
    },
    {
      "epoch": 0.1114,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026791959798994976,
      "loss": 2.3634,
      "step": 22280
    },
    {
      "epoch": 0.11145,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026790452261306534,
      "loss": 2.4177,
      "step": 22290
    },
    {
      "epoch": 0.1115,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0026788944723618088,
      "loss": 2.4066,
      "step": 22300
    },
    {
      "epoch": 0.11155,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002678743718592965,
      "loss": 2.354,
      "step": 22310
    },
    {
      "epoch": 0.1116,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002678592964824121,
      "loss": 2.3191,
      "step": 22320
    },
    {
      "epoch": 0.11165,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002678442211055276,
      "loss": 2.3181,
      "step": 22330
    },
    {
      "epoch": 0.1117,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026782914572864324,
      "loss": 2.3948,
      "step": 22340
    },
    {
      "epoch": 0.11175,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002678140703517588,
      "loss": 2.3361,
      "step": 22350
    },
    {
      "epoch": 0.1118,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0026779899497487436,
      "loss": 2.3866,
      "step": 22360
    },
    {
      "epoch": 0.11185,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0026778391959799,
      "loss": 2.3378,
      "step": 22370
    },
    {
      "epoch": 0.1119,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0026776884422110552,
      "loss": 2.3398,
      "step": 22380
    },
    {
      "epoch": 0.11195,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002677537688442211,
      "loss": 2.3553,
      "step": 22390
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002677386934673367,
      "loss": 2.3868,
      "step": 22400
    },
    {
      "epoch": 0.11205,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0026772361809045226,
      "loss": 2.3889,
      "step": 22410
    },
    {
      "epoch": 0.1121,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026770854271356784,
      "loss": 2.3695,
      "step": 22420
    },
    {
      "epoch": 0.11215,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0026769346733668343,
      "loss": 2.3863,
      "step": 22430
    },
    {
      "epoch": 0.1122,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00267678391959799,
      "loss": 2.3548,
      "step": 22440
    },
    {
      "epoch": 0.11225,
      "grad_norm": 0.421875,
      "learning_rate": 0.002676633165829146,
      "loss": 2.4303,
      "step": 22450
    },
    {
      "epoch": 0.1123,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026764824120603012,
      "loss": 2.3184,
      "step": 22460
    },
    {
      "epoch": 0.11235,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0026763316582914575,
      "loss": 2.3632,
      "step": 22470
    },
    {
      "epoch": 0.1124,
      "grad_norm": 0.390625,
      "learning_rate": 0.0026761809045226133,
      "loss": 2.353,
      "step": 22480
    },
    {
      "epoch": 0.11245,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0026760301507537687,
      "loss": 2.3598,
      "step": 22490
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.40625,
      "learning_rate": 0.002675879396984925,
      "loss": 2.3219,
      "step": 22500
    },
    {
      "epoch": 0.11255,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0026757286432160803,
      "loss": 2.3665,
      "step": 22510
    },
    {
      "epoch": 0.1126,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002675577889447236,
      "loss": 2.3188,
      "step": 22520
    },
    {
      "epoch": 0.11265,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026754271356783923,
      "loss": 2.3546,
      "step": 22530
    },
    {
      "epoch": 0.1127,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026752763819095477,
      "loss": 2.3327,
      "step": 22540
    },
    {
      "epoch": 0.11275,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026751256281407035,
      "loss": 2.3802,
      "step": 22550
    },
    {
      "epoch": 0.1128,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0026749748743718593,
      "loss": 2.3998,
      "step": 22560
    },
    {
      "epoch": 0.11285,
      "grad_norm": 0.4375,
      "learning_rate": 0.002674824120603015,
      "loss": 2.3098,
      "step": 22570
    },
    {
      "epoch": 0.1129,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002674673366834171,
      "loss": 2.3463,
      "step": 22580
    },
    {
      "epoch": 0.11295,
      "grad_norm": 0.349609375,
      "learning_rate": 0.0026745226130653267,
      "loss": 2.3148,
      "step": 22590
    },
    {
      "epoch": 0.113,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0026743718592964825,
      "loss": 2.3969,
      "step": 22600
    },
    {
      "epoch": 0.11305,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0026742211055276383,
      "loss": 2.359,
      "step": 22610
    },
    {
      "epoch": 0.1131,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0026740703517587937,
      "loss": 2.4943,
      "step": 22620
    },
    {
      "epoch": 0.11315,
      "grad_norm": 0.453125,
      "learning_rate": 0.00267391959798995,
      "loss": 2.3604,
      "step": 22630
    },
    {
      "epoch": 0.1132,
      "grad_norm": 0.375,
      "learning_rate": 0.0026737688442211058,
      "loss": 2.2951,
      "step": 22640
    },
    {
      "epoch": 0.11325,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002673618090452261,
      "loss": 2.3529,
      "step": 22650
    },
    {
      "epoch": 0.1133,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0026734673366834174,
      "loss": 2.3178,
      "step": 22660
    },
    {
      "epoch": 0.11335,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0026733165829145727,
      "loss": 2.3287,
      "step": 22670
    },
    {
      "epoch": 0.1134,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0026731658291457286,
      "loss": 2.3766,
      "step": 22680
    },
    {
      "epoch": 0.11345,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002673015075376885,
      "loss": 2.3757,
      "step": 22690
    },
    {
      "epoch": 0.1135,
      "grad_norm": 0.37890625,
      "learning_rate": 0.00267286432160804,
      "loss": 2.3523,
      "step": 22700
    },
    {
      "epoch": 0.11355,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002672713567839196,
      "loss": 2.3282,
      "step": 22710
    },
    {
      "epoch": 0.1136,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0026725628140703518,
      "loss": 2.3417,
      "step": 22720
    },
    {
      "epoch": 0.11365,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0026724120603015076,
      "loss": 2.3873,
      "step": 22730
    },
    {
      "epoch": 0.1137,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026722613065326634,
      "loss": 2.3605,
      "step": 22740
    },
    {
      "epoch": 0.11375,
      "grad_norm": 0.421875,
      "learning_rate": 0.002672110552763819,
      "loss": 2.3345,
      "step": 22750
    },
    {
      "epoch": 0.1138,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002671959798994975,
      "loss": 2.3576,
      "step": 22760
    },
    {
      "epoch": 0.11385,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002671809045226131,
      "loss": 2.3999,
      "step": 22770
    },
    {
      "epoch": 0.1139,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002671658291457286,
      "loss": 2.3778,
      "step": 22780
    },
    {
      "epoch": 0.11395,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0026715075376884424,
      "loss": 2.38,
      "step": 22790
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026713567839195982,
      "loss": 2.3693,
      "step": 22800
    },
    {
      "epoch": 0.11405,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0026712060301507536,
      "loss": 2.4212,
      "step": 22810
    },
    {
      "epoch": 0.1141,
      "grad_norm": 0.40625,
      "learning_rate": 0.00267105527638191,
      "loss": 2.3164,
      "step": 22820
    },
    {
      "epoch": 0.11415,
      "grad_norm": 0.484375,
      "learning_rate": 0.0026709045226130652,
      "loss": 2.4293,
      "step": 22830
    },
    {
      "epoch": 0.1142,
      "grad_norm": 0.5,
      "learning_rate": 0.002670753768844221,
      "loss": 2.3348,
      "step": 22840
    },
    {
      "epoch": 0.11425,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0026706030150753773,
      "loss": 2.3853,
      "step": 22850
    },
    {
      "epoch": 0.1143,
      "grad_norm": 0.4375,
      "learning_rate": 0.0026704522613065326,
      "loss": 2.3472,
      "step": 22860
    },
    {
      "epoch": 0.11435,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026703015075376885,
      "loss": 2.3513,
      "step": 22870
    },
    {
      "epoch": 0.1144,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0026701507537688443,
      "loss": 2.3204,
      "step": 22880
    },
    {
      "epoch": 0.11445,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00267,
      "loss": 2.3518,
      "step": 22890
    },
    {
      "epoch": 0.1145,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002669849246231156,
      "loss": 2.3662,
      "step": 22900
    },
    {
      "epoch": 0.11455,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0026696984924623117,
      "loss": 2.3812,
      "step": 22910
    },
    {
      "epoch": 0.1146,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026695477386934675,
      "loss": 2.3916,
      "step": 22920
    },
    {
      "epoch": 0.11465,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026693969849246233,
      "loss": 2.3275,
      "step": 22930
    },
    {
      "epoch": 0.1147,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0026692462311557787,
      "loss": 2.3526,
      "step": 22940
    },
    {
      "epoch": 0.11475,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002669095477386935,
      "loss": 2.3255,
      "step": 22950
    },
    {
      "epoch": 0.1148,
      "grad_norm": 0.365234375,
      "learning_rate": 0.0026689447236180903,
      "loss": 2.3698,
      "step": 22960
    },
    {
      "epoch": 0.11485,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002668793969849246,
      "loss": 2.3193,
      "step": 22970
    },
    {
      "epoch": 0.1149,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0026686432160804023,
      "loss": 2.3145,
      "step": 22980
    },
    {
      "epoch": 0.11495,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0026684924623115577,
      "loss": 2.3946,
      "step": 22990
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0026683417085427135,
      "loss": 2.3647,
      "step": 23000
    },
    {
      "epoch": 0.11505,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026681909547738693,
      "loss": 2.3319,
      "step": 23010
    },
    {
      "epoch": 0.1151,
      "grad_norm": 0.5,
      "learning_rate": 0.002668040201005025,
      "loss": 2.3242,
      "step": 23020
    },
    {
      "epoch": 0.11515,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002667889447236181,
      "loss": 2.3185,
      "step": 23030
    },
    {
      "epoch": 0.1152,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0026677386934673367,
      "loss": 2.3907,
      "step": 23040
    },
    {
      "epoch": 0.11525,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026675879396984925,
      "loss": 2.329,
      "step": 23050
    },
    {
      "epoch": 0.1153,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026674371859296483,
      "loss": 2.3407,
      "step": 23060
    },
    {
      "epoch": 0.11535,
      "grad_norm": 0.375,
      "learning_rate": 0.0026672864321608037,
      "loss": 2.3293,
      "step": 23070
    },
    {
      "epoch": 0.1154,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00266713567839196,
      "loss": 2.3446,
      "step": 23080
    },
    {
      "epoch": 0.11545,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0026669849246231158,
      "loss": 2.3583,
      "step": 23090
    },
    {
      "epoch": 0.1155,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002666834170854271,
      "loss": 2.3841,
      "step": 23100
    },
    {
      "epoch": 0.11555,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0026666834170854274,
      "loss": 2.3748,
      "step": 23110
    },
    {
      "epoch": 0.1156,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0026665326633165828,
      "loss": 2.3719,
      "step": 23120
    },
    {
      "epoch": 0.11565,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0026663819095477386,
      "loss": 2.4109,
      "step": 23130
    },
    {
      "epoch": 0.1157,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002666231155778895,
      "loss": 2.3429,
      "step": 23140
    },
    {
      "epoch": 0.11575,
      "grad_norm": 0.38671875,
      "learning_rate": 0.00266608040201005,
      "loss": 2.3517,
      "step": 23150
    },
    {
      "epoch": 0.1158,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002665929648241206,
      "loss": 2.2947,
      "step": 23160
    },
    {
      "epoch": 0.11585,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002665778894472362,
      "loss": 2.4012,
      "step": 23170
    },
    {
      "epoch": 0.1159,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0026656281407035176,
      "loss": 2.3766,
      "step": 23180
    },
    {
      "epoch": 0.11595,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0026654773869346734,
      "loss": 2.3295,
      "step": 23190
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002665326633165829,
      "loss": 2.3021,
      "step": 23200
    },
    {
      "epoch": 0.11605,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002665175879396985,
      "loss": 2.3938,
      "step": 23210
    },
    {
      "epoch": 0.1161,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002665025125628141,
      "loss": 2.3712,
      "step": 23220
    },
    {
      "epoch": 0.11615,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002664874371859296,
      "loss": 2.3331,
      "step": 23230
    },
    {
      "epoch": 0.1162,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0026647236180904524,
      "loss": 2.336,
      "step": 23240
    },
    {
      "epoch": 0.11625,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026645728643216082,
      "loss": 2.4135,
      "step": 23250
    },
    {
      "epoch": 0.1163,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026644221105527636,
      "loss": 2.3591,
      "step": 23260
    },
    {
      "epoch": 0.11635,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00266427135678392,
      "loss": 2.329,
      "step": 23270
    },
    {
      "epoch": 0.1164,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0026641206030150752,
      "loss": 2.3387,
      "step": 23280
    },
    {
      "epoch": 0.11645,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002663969849246231,
      "loss": 2.3124,
      "step": 23290
    },
    {
      "epoch": 0.1165,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0026638190954773873,
      "loss": 2.3499,
      "step": 23300
    },
    {
      "epoch": 0.11655,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026636683417085427,
      "loss": 2.3302,
      "step": 23310
    },
    {
      "epoch": 0.1166,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026635175879396985,
      "loss": 2.3414,
      "step": 23320
    },
    {
      "epoch": 0.11665,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0026633668341708543,
      "loss": 2.3881,
      "step": 23330
    },
    {
      "epoch": 0.1167,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00266321608040201,
      "loss": 2.3713,
      "step": 23340
    },
    {
      "epoch": 0.11675,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002663065326633166,
      "loss": 2.3787,
      "step": 23350
    },
    {
      "epoch": 0.1168,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026629145728643217,
      "loss": 2.3714,
      "step": 23360
    },
    {
      "epoch": 0.11685,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026627638190954775,
      "loss": 2.3457,
      "step": 23370
    },
    {
      "epoch": 0.1169,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0026626130653266333,
      "loss": 2.3385,
      "step": 23380
    },
    {
      "epoch": 0.11695,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026624623115577887,
      "loss": 2.3377,
      "step": 23390
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002662311557788945,
      "loss": 2.3907,
      "step": 23400
    },
    {
      "epoch": 0.11705,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0026621608040201007,
      "loss": 2.3133,
      "step": 23410
    },
    {
      "epoch": 0.1171,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002662010050251256,
      "loss": 2.4087,
      "step": 23420
    },
    {
      "epoch": 0.11715,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026618592964824123,
      "loss": 2.3373,
      "step": 23430
    },
    {
      "epoch": 0.1172,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0026617085427135677,
      "loss": 2.3728,
      "step": 23440
    },
    {
      "epoch": 0.11725,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0026615577889447235,
      "loss": 2.3594,
      "step": 23450
    },
    {
      "epoch": 0.1173,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026614070351758798,
      "loss": 2.3874,
      "step": 23460
    },
    {
      "epoch": 0.11735,
      "grad_norm": 0.453125,
      "learning_rate": 0.002661256281407035,
      "loss": 2.3637,
      "step": 23470
    },
    {
      "epoch": 0.1174,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002661105527638191,
      "loss": 2.4211,
      "step": 23480
    },
    {
      "epoch": 0.11745,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026609547738693467,
      "loss": 2.3502,
      "step": 23490
    },
    {
      "epoch": 0.1175,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0026608040201005025,
      "loss": 2.3612,
      "step": 23500
    },
    {
      "epoch": 0.11755,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026606532663316584,
      "loss": 2.3158,
      "step": 23510
    },
    {
      "epoch": 0.1176,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002660502512562814,
      "loss": 2.385,
      "step": 23520
    },
    {
      "epoch": 0.11765,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00266035175879397,
      "loss": 2.3452,
      "step": 23530
    },
    {
      "epoch": 0.1177,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0026602010050251258,
      "loss": 2.4037,
      "step": 23540
    },
    {
      "epoch": 0.11775,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002660050251256281,
      "loss": 2.3342,
      "step": 23550
    },
    {
      "epoch": 0.1178,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026598994974874374,
      "loss": 2.355,
      "step": 23560
    },
    {
      "epoch": 0.11785,
      "grad_norm": 0.369140625,
      "learning_rate": 0.002659748743718593,
      "loss": 2.393,
      "step": 23570
    },
    {
      "epoch": 0.1179,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0026595979899497486,
      "loss": 2.3576,
      "step": 23580
    },
    {
      "epoch": 0.11795,
      "grad_norm": 0.421875,
      "learning_rate": 0.002659447236180905,
      "loss": 2.346,
      "step": 23590
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00265929648241206,
      "loss": 2.3406,
      "step": 23600
    },
    {
      "epoch": 0.11805,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002659145728643216,
      "loss": 2.3706,
      "step": 23610
    },
    {
      "epoch": 0.1181,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0026589949748743722,
      "loss": 2.3586,
      "step": 23620
    },
    {
      "epoch": 0.11815,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0026588442211055276,
      "loss": 2.3361,
      "step": 23630
    },
    {
      "epoch": 0.1182,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026586934673366834,
      "loss": 2.3179,
      "step": 23640
    },
    {
      "epoch": 0.11825,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002658542713567839,
      "loss": 2.3259,
      "step": 23650
    },
    {
      "epoch": 0.1183,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002658391959798995,
      "loss": 2.3398,
      "step": 23660
    },
    {
      "epoch": 0.11835,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002658241206030151,
      "loss": 2.3901,
      "step": 23670
    },
    {
      "epoch": 0.1184,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026580904522613066,
      "loss": 2.3097,
      "step": 23680
    },
    {
      "epoch": 0.11845,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0026579396984924624,
      "loss": 2.4165,
      "step": 23690
    },
    {
      "epoch": 0.1185,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0026577889447236182,
      "loss": 2.3332,
      "step": 23700
    },
    {
      "epoch": 0.11855,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0026576381909547736,
      "loss": 2.3657,
      "step": 23710
    },
    {
      "epoch": 0.1186,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00265748743718593,
      "loss": 2.3006,
      "step": 23720
    },
    {
      "epoch": 0.11865,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0026573366834170857,
      "loss": 2.399,
      "step": 23730
    },
    {
      "epoch": 0.1187,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002657185929648241,
      "loss": 2.3284,
      "step": 23740
    },
    {
      "epoch": 0.11875,
      "grad_norm": 0.380859375,
      "learning_rate": 0.0026570351758793973,
      "loss": 2.3916,
      "step": 23750
    },
    {
      "epoch": 0.1188,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0026568844221105527,
      "loss": 2.3582,
      "step": 23760
    },
    {
      "epoch": 0.11885,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0026567336683417085,
      "loss": 2.3542,
      "step": 23770
    },
    {
      "epoch": 0.1189,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026565829145728647,
      "loss": 2.3442,
      "step": 23780
    },
    {
      "epoch": 0.11895,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00265643216080402,
      "loss": 2.3652,
      "step": 23790
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002656281407035176,
      "loss": 2.3465,
      "step": 23800
    },
    {
      "epoch": 0.11905,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026561306532663317,
      "loss": 2.3824,
      "step": 23810
    },
    {
      "epoch": 0.1191,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026559798994974875,
      "loss": 2.3312,
      "step": 23820
    },
    {
      "epoch": 0.11915,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026558291457286433,
      "loss": 2.3567,
      "step": 23830
    },
    {
      "epoch": 0.1192,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002655678391959799,
      "loss": 2.3564,
      "step": 23840
    },
    {
      "epoch": 0.11925,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002655527638190955,
      "loss": 2.3534,
      "step": 23850
    },
    {
      "epoch": 0.1193,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0026553768844221107,
      "loss": 2.3471,
      "step": 23860
    },
    {
      "epoch": 0.11935,
      "grad_norm": 0.453125,
      "learning_rate": 0.002655226130653266,
      "loss": 2.3771,
      "step": 23870
    },
    {
      "epoch": 0.1194,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0026550753768844223,
      "loss": 2.3524,
      "step": 23880
    },
    {
      "epoch": 0.11945,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026549246231155777,
      "loss": 2.3517,
      "step": 23890
    },
    {
      "epoch": 0.1195,
      "grad_norm": 0.38671875,
      "learning_rate": 0.0026547738693467335,
      "loss": 2.2965,
      "step": 23900
    },
    {
      "epoch": 0.11955,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026546231155778898,
      "loss": 2.3446,
      "step": 23910
    },
    {
      "epoch": 0.1196,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002654472361809045,
      "loss": 2.3087,
      "step": 23920
    },
    {
      "epoch": 0.11965,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002654321608040201,
      "loss": 2.365,
      "step": 23930
    },
    {
      "epoch": 0.1197,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0026541708542713567,
      "loss": 2.3308,
      "step": 23940
    },
    {
      "epoch": 0.11975,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0026540201005025126,
      "loss": 2.3351,
      "step": 23950
    },
    {
      "epoch": 0.1198,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0026538693467336684,
      "loss": 2.3469,
      "step": 23960
    },
    {
      "epoch": 0.11985,
      "grad_norm": 0.4375,
      "learning_rate": 0.002653718592964824,
      "loss": 2.3183,
      "step": 23970
    },
    {
      "epoch": 0.1199,
      "grad_norm": 0.396484375,
      "learning_rate": 0.00265356783919598,
      "loss": 2.3326,
      "step": 23980
    },
    {
      "epoch": 0.11995,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026534170854271358,
      "loss": 2.3766,
      "step": 23990
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026532663316582916,
      "loss": 2.3644,
      "step": 24000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.333867311477661,
      "eval_runtime": 46.1355,
      "eval_samples_per_second": 54.188,
      "eval_steps_per_second": 0.108,
      "step": 24000
    },
    {
      "epoch": 0.12005,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0026531155778894474,
      "loss": 2.3191,
      "step": 24010
    },
    {
      "epoch": 0.1201,
      "grad_norm": 0.40625,
      "learning_rate": 0.002652964824120603,
      "loss": 2.336,
      "step": 24020
    },
    {
      "epoch": 0.12015,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026528140703517586,
      "loss": 2.3097,
      "step": 24030
    },
    {
      "epoch": 0.1202,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002652663316582915,
      "loss": 2.341,
      "step": 24040
    },
    {
      "epoch": 0.12025,
      "grad_norm": 0.490234375,
      "learning_rate": 0.00265251256281407,
      "loss": 2.325,
      "step": 24050
    },
    {
      "epoch": 0.1203,
      "grad_norm": 0.390625,
      "learning_rate": 0.002652361809045226,
      "loss": 2.3268,
      "step": 24060
    },
    {
      "epoch": 0.12035,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026522110552763822,
      "loss": 2.3464,
      "step": 24070
    },
    {
      "epoch": 0.1204,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026520603015075376,
      "loss": 2.3227,
      "step": 24080
    },
    {
      "epoch": 0.12045,
      "grad_norm": 0.390625,
      "learning_rate": 0.0026519095477386934,
      "loss": 2.3248,
      "step": 24090
    },
    {
      "epoch": 0.1205,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026517587939698492,
      "loss": 2.3603,
      "step": 24100
    },
    {
      "epoch": 0.12055,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002651608040201005,
      "loss": 2.3369,
      "step": 24110
    },
    {
      "epoch": 0.1206,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002651457286432161,
      "loss": 2.3675,
      "step": 24120
    },
    {
      "epoch": 0.12065,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0026513065326633166,
      "loss": 2.3256,
      "step": 24130
    },
    {
      "epoch": 0.1207,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0026511557788944724,
      "loss": 2.3636,
      "step": 24140
    },
    {
      "epoch": 0.12075,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026510050251256283,
      "loss": 2.2978,
      "step": 24150
    },
    {
      "epoch": 0.1208,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0026508542713567836,
      "loss": 2.3859,
      "step": 24160
    },
    {
      "epoch": 0.12085,
      "grad_norm": 0.498046875,
      "learning_rate": 0.00265070351758794,
      "loss": 2.3576,
      "step": 24170
    },
    {
      "epoch": 0.1209,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026505527638190957,
      "loss": 2.359,
      "step": 24180
    },
    {
      "epoch": 0.12095,
      "grad_norm": 0.46875,
      "learning_rate": 0.002650402010050251,
      "loss": 2.3761,
      "step": 24190
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.390625,
      "learning_rate": 0.0026502512562814073,
      "loss": 2.3496,
      "step": 24200
    },
    {
      "epoch": 0.12105,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026501005025125627,
      "loss": 2.3538,
      "step": 24210
    },
    {
      "epoch": 0.1211,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0026499497487437185,
      "loss": 2.3606,
      "step": 24220
    },
    {
      "epoch": 0.12115,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0026497989949748747,
      "loss": 2.3157,
      "step": 24230
    },
    {
      "epoch": 0.1212,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00264964824120603,
      "loss": 2.3834,
      "step": 24240
    },
    {
      "epoch": 0.12125,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002649497487437186,
      "loss": 2.3519,
      "step": 24250
    },
    {
      "epoch": 0.1213,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026493467336683417,
      "loss": 2.334,
      "step": 24260
    },
    {
      "epoch": 0.12135,
      "grad_norm": 0.46875,
      "learning_rate": 0.0026491959798994975,
      "loss": 2.3293,
      "step": 24270
    },
    {
      "epoch": 0.1214,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0026490452261306533,
      "loss": 2.3822,
      "step": 24280
    },
    {
      "epoch": 0.12145,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002648894472361809,
      "loss": 2.3356,
      "step": 24290
    },
    {
      "epoch": 0.1215,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002648743718592965,
      "loss": 2.3572,
      "step": 24300
    },
    {
      "epoch": 0.12155,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0026485929648241207,
      "loss": 2.3404,
      "step": 24310
    },
    {
      "epoch": 0.1216,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002648442211055276,
      "loss": 2.3095,
      "step": 24320
    },
    {
      "epoch": 0.12165,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026482914572864323,
      "loss": 2.3147,
      "step": 24330
    },
    {
      "epoch": 0.1217,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002648140703517588,
      "loss": 2.3555,
      "step": 24340
    },
    {
      "epoch": 0.12175,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0026479899497487435,
      "loss": 2.2974,
      "step": 24350
    },
    {
      "epoch": 0.1218,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0026478391959798998,
      "loss": 2.3816,
      "step": 24360
    },
    {
      "epoch": 0.12185,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002647688442211055,
      "loss": 2.3435,
      "step": 24370
    },
    {
      "epoch": 0.1219,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002647537688442211,
      "loss": 2.3608,
      "step": 24380
    },
    {
      "epoch": 0.12195,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002647386934673367,
      "loss": 2.3361,
      "step": 24390
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0026472361809045226,
      "loss": 2.3433,
      "step": 24400
    },
    {
      "epoch": 0.12205,
      "grad_norm": 0.515625,
      "learning_rate": 0.0026470854271356784,
      "loss": 2.3086,
      "step": 24410
    },
    {
      "epoch": 0.1221,
      "grad_norm": 0.380859375,
      "learning_rate": 0.002646934673366834,
      "loss": 2.3525,
      "step": 24420
    },
    {
      "epoch": 0.12215,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00264678391959799,
      "loss": 2.3256,
      "step": 24430
    },
    {
      "epoch": 0.1222,
      "grad_norm": 0.421875,
      "learning_rate": 0.002646633165829146,
      "loss": 2.4321,
      "step": 24440
    },
    {
      "epoch": 0.12225,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026464824120603016,
      "loss": 2.3184,
      "step": 24450
    },
    {
      "epoch": 0.1223,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026463316582914574,
      "loss": 2.3121,
      "step": 24460
    },
    {
      "epoch": 0.12235,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002646180904522613,
      "loss": 2.3361,
      "step": 24470
    },
    {
      "epoch": 0.1224,
      "grad_norm": 0.359375,
      "learning_rate": 0.0026460301507537686,
      "loss": 2.3914,
      "step": 24480
    },
    {
      "epoch": 0.12245,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002645879396984925,
      "loss": 2.3333,
      "step": 24490
    },
    {
      "epoch": 0.1225,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026457286432160806,
      "loss": 2.3303,
      "step": 24500
    },
    {
      "epoch": 0.12255,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002645577889447236,
      "loss": 2.3614,
      "step": 24510
    },
    {
      "epoch": 0.1226,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0026454271356783922,
      "loss": 2.3628,
      "step": 24520
    },
    {
      "epoch": 0.12265,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0026452763819095476,
      "loss": 2.3569,
      "step": 24530
    },
    {
      "epoch": 0.1227,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026451256281407034,
      "loss": 2.3246,
      "step": 24540
    },
    {
      "epoch": 0.12275,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026449748743718597,
      "loss": 2.3194,
      "step": 24550
    },
    {
      "epoch": 0.1228,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002644824120603015,
      "loss": 2.3642,
      "step": 24560
    },
    {
      "epoch": 0.12285,
      "grad_norm": 0.4375,
      "learning_rate": 0.002644673366834171,
      "loss": 2.2983,
      "step": 24570
    },
    {
      "epoch": 0.1229,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0026445226130653266,
      "loss": 2.3259,
      "step": 24580
    },
    {
      "epoch": 0.12295,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0026443718592964825,
      "loss": 2.3026,
      "step": 24590
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0026442211055276383,
      "loss": 2.3481,
      "step": 24600
    },
    {
      "epoch": 0.12305,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002644070351758794,
      "loss": 2.3449,
      "step": 24610
    },
    {
      "epoch": 0.1231,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00264391959798995,
      "loss": 2.3529,
      "step": 24620
    },
    {
      "epoch": 0.12315,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0026437688442211057,
      "loss": 2.3172,
      "step": 24630
    },
    {
      "epoch": 0.1232,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002643618090452261,
      "loss": 2.4065,
      "step": 24640
    },
    {
      "epoch": 0.12325,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026434673366834173,
      "loss": 2.3379,
      "step": 24650
    },
    {
      "epoch": 0.1233,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002643316582914573,
      "loss": 2.3499,
      "step": 24660
    },
    {
      "epoch": 0.12335,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0026431658291457285,
      "loss": 2.308,
      "step": 24670
    },
    {
      "epoch": 0.1234,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0026430150753768847,
      "loss": 2.3783,
      "step": 24680
    },
    {
      "epoch": 0.12345,
      "grad_norm": 0.515625,
      "learning_rate": 0.00264286432160804,
      "loss": 2.3152,
      "step": 24690
    },
    {
      "epoch": 0.1235,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002642713567839196,
      "loss": 2.3421,
      "step": 24700
    },
    {
      "epoch": 0.12355,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002642562814070352,
      "loss": 2.3145,
      "step": 24710
    },
    {
      "epoch": 0.1236,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0026424120603015075,
      "loss": 2.3756,
      "step": 24720
    },
    {
      "epoch": 0.12365,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0026422613065326633,
      "loss": 2.2963,
      "step": 24730
    },
    {
      "epoch": 0.1237,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002642110552763819,
      "loss": 2.3168,
      "step": 24740
    },
    {
      "epoch": 0.12375,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002641959798994975,
      "loss": 2.2618,
      "step": 24750
    },
    {
      "epoch": 0.1238,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0026418090452261307,
      "loss": 2.3746,
      "step": 24760
    },
    {
      "epoch": 0.12385,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0026416582914572865,
      "loss": 2.3464,
      "step": 24770
    },
    {
      "epoch": 0.1239,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026415075376884424,
      "loss": 2.3496,
      "step": 24780
    },
    {
      "epoch": 0.12395,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002641356783919598,
      "loss": 2.3087,
      "step": 24790
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026412060301507535,
      "loss": 2.3354,
      "step": 24800
    },
    {
      "epoch": 0.12405,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026410552763819098,
      "loss": 2.3178,
      "step": 24810
    },
    {
      "epoch": 0.1241,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002640904522613065,
      "loss": 2.3191,
      "step": 24820
    },
    {
      "epoch": 0.12415,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002640753768844221,
      "loss": 2.309,
      "step": 24830
    },
    {
      "epoch": 0.1242,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002640603015075377,
      "loss": 2.3363,
      "step": 24840
    },
    {
      "epoch": 0.12425,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0026404522613065326,
      "loss": 2.38,
      "step": 24850
    },
    {
      "epoch": 0.1243,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0026403015075376884,
      "loss": 2.3667,
      "step": 24860
    },
    {
      "epoch": 0.12435,
      "grad_norm": 0.515625,
      "learning_rate": 0.002640150753768844,
      "loss": 2.2705,
      "step": 24870
    },
    {
      "epoch": 0.1244,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00264,
      "loss": 2.358,
      "step": 24880
    },
    {
      "epoch": 0.12445,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002639849246231156,
      "loss": 2.3122,
      "step": 24890
    },
    {
      "epoch": 0.1245,
      "grad_norm": 0.4375,
      "learning_rate": 0.0026396984924623116,
      "loss": 2.3874,
      "step": 24900
    },
    {
      "epoch": 0.12455,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0026395477386934674,
      "loss": 2.3279,
      "step": 24910
    },
    {
      "epoch": 0.1246,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002639396984924623,
      "loss": 2.3854,
      "step": 24920
    },
    {
      "epoch": 0.12465,
      "grad_norm": 0.40625,
      "learning_rate": 0.002639246231155779,
      "loss": 2.3077,
      "step": 24930
    },
    {
      "epoch": 0.1247,
      "grad_norm": 0.421875,
      "learning_rate": 0.002639095477386935,
      "loss": 2.3575,
      "step": 24940
    },
    {
      "epoch": 0.12475,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026389447236180906,
      "loss": 2.31,
      "step": 24950
    },
    {
      "epoch": 0.1248,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002638793969849246,
      "loss": 2.3196,
      "step": 24960
    },
    {
      "epoch": 0.12485,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0026386432160804022,
      "loss": 2.321,
      "step": 24970
    },
    {
      "epoch": 0.1249,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0026384924623115576,
      "loss": 2.3669,
      "step": 24980
    },
    {
      "epoch": 0.12495,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0026383417085427134,
      "loss": 2.3223,
      "step": 24990
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026381909547738697,
      "loss": 2.3655,
      "step": 25000
    },
    {
      "epoch": 0.12505,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002638040201005025,
      "loss": 2.2914,
      "step": 25010
    },
    {
      "epoch": 0.1251,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002637889447236181,
      "loss": 2.3704,
      "step": 25020
    },
    {
      "epoch": 0.12515,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0026377386934673367,
      "loss": 2.313,
      "step": 25030
    },
    {
      "epoch": 0.1252,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026375879396984925,
      "loss": 2.3495,
      "step": 25040
    },
    {
      "epoch": 0.12525,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0026374371859296483,
      "loss": 2.2977,
      "step": 25050
    },
    {
      "epoch": 0.1253,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002637286432160804,
      "loss": 2.3612,
      "step": 25060
    },
    {
      "epoch": 0.12535,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00263713567839196,
      "loss": 2.3156,
      "step": 25070
    },
    {
      "epoch": 0.1254,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0026369849246231157,
      "loss": 2.3713,
      "step": 25080
    },
    {
      "epoch": 0.12545,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0026368341708542715,
      "loss": 2.298,
      "step": 25090
    },
    {
      "epoch": 0.1255,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0026366834170854273,
      "loss": 2.3683,
      "step": 25100
    },
    {
      "epoch": 0.12555,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002636532663316583,
      "loss": 2.3105,
      "step": 25110
    },
    {
      "epoch": 0.1256,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0026363819095477385,
      "loss": 2.3804,
      "step": 25120
    },
    {
      "epoch": 0.12565,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0026362311557788947,
      "loss": 2.3195,
      "step": 25130
    },
    {
      "epoch": 0.1257,
      "grad_norm": 0.390625,
      "learning_rate": 0.00263608040201005,
      "loss": 2.3418,
      "step": 25140
    },
    {
      "epoch": 0.12575,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002635929648241206,
      "loss": 2.2898,
      "step": 25150
    },
    {
      "epoch": 0.1258,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002635778894472362,
      "loss": 2.339,
      "step": 25160
    },
    {
      "epoch": 0.12585,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0026356281407035175,
      "loss": 2.2988,
      "step": 25170
    },
    {
      "epoch": 0.1259,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0026354773869346733,
      "loss": 2.3668,
      "step": 25180
    },
    {
      "epoch": 0.12595,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002635326633165829,
      "loss": 2.2873,
      "step": 25190
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002635175879396985,
      "loss": 2.3193,
      "step": 25200
    },
    {
      "epoch": 0.12605,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0026350251256281407,
      "loss": 2.291,
      "step": 25210
    },
    {
      "epoch": 0.1261,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0026348743718592966,
      "loss": 2.3509,
      "step": 25220
    },
    {
      "epoch": 0.12615,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0026347236180904524,
      "loss": 2.3186,
      "step": 25230
    },
    {
      "epoch": 0.1262,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002634572864321608,
      "loss": 2.3757,
      "step": 25240
    },
    {
      "epoch": 0.12625,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002634422110552764,
      "loss": 2.3546,
      "step": 25250
    },
    {
      "epoch": 0.1263,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026342713567839198,
      "loss": 2.3108,
      "step": 25260
    },
    {
      "epoch": 0.12635,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026341206030150756,
      "loss": 2.3528,
      "step": 25270
    },
    {
      "epoch": 0.1264,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002633969849246231,
      "loss": 2.336,
      "step": 25280
    },
    {
      "epoch": 0.12645,
      "grad_norm": 0.5,
      "learning_rate": 0.002633819095477387,
      "loss": 2.3443,
      "step": 25290
    },
    {
      "epoch": 0.1265,
      "grad_norm": 0.37109375,
      "learning_rate": 0.0026336683417085426,
      "loss": 2.3,
      "step": 25300
    },
    {
      "epoch": 0.12655,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0026335175879396984,
      "loss": 2.2955,
      "step": 25310
    },
    {
      "epoch": 0.1266,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0026333668341708546,
      "loss": 2.3256,
      "step": 25320
    },
    {
      "epoch": 0.12665,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00263321608040201,
      "loss": 2.3166,
      "step": 25330
    },
    {
      "epoch": 0.1267,
      "grad_norm": 0.421875,
      "learning_rate": 0.002633065326633166,
      "loss": 2.3043,
      "step": 25340
    },
    {
      "epoch": 0.12675,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0026329145728643216,
      "loss": 2.2628,
      "step": 25350
    },
    {
      "epoch": 0.1268,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0026327638190954774,
      "loss": 2.3335,
      "step": 25360
    },
    {
      "epoch": 0.12685,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0026326130653266332,
      "loss": 2.3416,
      "step": 25370
    },
    {
      "epoch": 0.1269,
      "grad_norm": 0.4375,
      "learning_rate": 0.002632462311557789,
      "loss": 2.3935,
      "step": 25380
    },
    {
      "epoch": 0.12695,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002632311557788945,
      "loss": 2.3379,
      "step": 25390
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026321608040201006,
      "loss": 2.3651,
      "step": 25400
    },
    {
      "epoch": 0.12705,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002632010050251256,
      "loss": 2.3505,
      "step": 25410
    },
    {
      "epoch": 0.1271,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0026318592964824123,
      "loss": 2.3084,
      "step": 25420
    },
    {
      "epoch": 0.12715,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002631708542713568,
      "loss": 2.3394,
      "step": 25430
    },
    {
      "epoch": 0.1272,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0026315577889447234,
      "loss": 2.3198,
      "step": 25440
    },
    {
      "epoch": 0.12725,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0026314070351758797,
      "loss": 2.3719,
      "step": 25450
    },
    {
      "epoch": 0.1273,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002631256281407035,
      "loss": 2.3263,
      "step": 25460
    },
    {
      "epoch": 0.12735,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002631105527638191,
      "loss": 2.363,
      "step": 25470
    },
    {
      "epoch": 0.1274,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002630954773869347,
      "loss": 2.3277,
      "step": 25480
    },
    {
      "epoch": 0.12745,
      "grad_norm": 0.369140625,
      "learning_rate": 0.0026308040201005025,
      "loss": 2.3094,
      "step": 25490
    },
    {
      "epoch": 0.1275,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0026306532663316583,
      "loss": 2.3531,
      "step": 25500
    },
    {
      "epoch": 0.12755,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002630502512562814,
      "loss": 2.3422,
      "step": 25510
    },
    {
      "epoch": 0.1276,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00263035175879397,
      "loss": 2.3452,
      "step": 25520
    },
    {
      "epoch": 0.12765,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0026302010050251257,
      "loss": 2.3414,
      "step": 25530
    },
    {
      "epoch": 0.1277,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026300502512562815,
      "loss": 2.3025,
      "step": 25540
    },
    {
      "epoch": 0.12775,
      "grad_norm": 0.5,
      "learning_rate": 0.0026298994974874373,
      "loss": 2.325,
      "step": 25550
    },
    {
      "epoch": 0.1278,
      "grad_norm": 0.40625,
      "learning_rate": 0.002629748743718593,
      "loss": 2.3215,
      "step": 25560
    },
    {
      "epoch": 0.12785,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0026295979899497485,
      "loss": 2.3391,
      "step": 25570
    },
    {
      "epoch": 0.1279,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0026294472361809047,
      "loss": 2.3027,
      "step": 25580
    },
    {
      "epoch": 0.12795,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0026292964824120605,
      "loss": 2.3525,
      "step": 25590
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002629145728643216,
      "loss": 2.2612,
      "step": 25600
    },
    {
      "epoch": 0.12805,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002628994974874372,
      "loss": 2.3717,
      "step": 25610
    },
    {
      "epoch": 0.1281,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026288442211055275,
      "loss": 2.2774,
      "step": 25620
    },
    {
      "epoch": 0.12815,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026286934673366833,
      "loss": 2.2948,
      "step": 25630
    },
    {
      "epoch": 0.1282,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026285427135678396,
      "loss": 2.2758,
      "step": 25640
    },
    {
      "epoch": 0.12825,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002628391959798995,
      "loss": 2.3441,
      "step": 25650
    },
    {
      "epoch": 0.1283,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026282412060301507,
      "loss": 2.2785,
      "step": 25660
    },
    {
      "epoch": 0.12835,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026280904522613066,
      "loss": 2.3129,
      "step": 25670
    },
    {
      "epoch": 0.1284,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0026279396984924624,
      "loss": 2.2825,
      "step": 25680
    },
    {
      "epoch": 0.12845,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002627788944723618,
      "loss": 2.3546,
      "step": 25690
    },
    {
      "epoch": 0.1285,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002627638190954774,
      "loss": 2.3136,
      "step": 25700
    },
    {
      "epoch": 0.12855,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00262748743718593,
      "loss": 2.3668,
      "step": 25710
    },
    {
      "epoch": 0.1286,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0026273366834170856,
      "loss": 2.301,
      "step": 25720
    },
    {
      "epoch": 0.12865,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002627185929648241,
      "loss": 2.3445,
      "step": 25730
    },
    {
      "epoch": 0.1287,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002627035175879397,
      "loss": 2.3391,
      "step": 25740
    },
    {
      "epoch": 0.12875,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0026268844221105526,
      "loss": 2.3193,
      "step": 25750
    },
    {
      "epoch": 0.1288,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0026267336683417084,
      "loss": 2.3239,
      "step": 25760
    },
    {
      "epoch": 0.12885,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026265829145728646,
      "loss": 2.3576,
      "step": 25770
    },
    {
      "epoch": 0.1289,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00262643216080402,
      "loss": 2.305,
      "step": 25780
    },
    {
      "epoch": 0.12895,
      "grad_norm": 0.384765625,
      "learning_rate": 0.002626281407035176,
      "loss": 2.3379,
      "step": 25790
    },
    {
      "epoch": 0.129,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0026261306532663316,
      "loss": 2.3243,
      "step": 25800
    },
    {
      "epoch": 0.12905,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026259798994974874,
      "loss": 2.324,
      "step": 25810
    },
    {
      "epoch": 0.1291,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026258291457286432,
      "loss": 2.3513,
      "step": 25820
    },
    {
      "epoch": 0.12915,
      "grad_norm": 0.4375,
      "learning_rate": 0.002625678391959799,
      "loss": 2.3624,
      "step": 25830
    },
    {
      "epoch": 0.1292,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002625527638190955,
      "loss": 2.3178,
      "step": 25840
    },
    {
      "epoch": 0.12925,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0026253768844221106,
      "loss": 2.3219,
      "step": 25850
    },
    {
      "epoch": 0.1293,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0026252261306532665,
      "loss": 2.3244,
      "step": 25860
    },
    {
      "epoch": 0.12935,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0026250753768844223,
      "loss": 2.3662,
      "step": 25870
    },
    {
      "epoch": 0.1294,
      "grad_norm": 0.421875,
      "learning_rate": 0.002624924623115578,
      "loss": 2.324,
      "step": 25880
    },
    {
      "epoch": 0.12945,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0026247738693467334,
      "loss": 2.271,
      "step": 25890
    },
    {
      "epoch": 0.1295,
      "grad_norm": 0.3671875,
      "learning_rate": 0.0026246231155778897,
      "loss": 2.313,
      "step": 25900
    },
    {
      "epoch": 0.12955,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002624472361809045,
      "loss": 2.3254,
      "step": 25910
    },
    {
      "epoch": 0.1296,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002624321608040201,
      "loss": 2.366,
      "step": 25920
    },
    {
      "epoch": 0.12965,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002624170854271357,
      "loss": 2.324,
      "step": 25930
    },
    {
      "epoch": 0.1297,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026240201005025125,
      "loss": 2.3416,
      "step": 25940
    },
    {
      "epoch": 0.12975,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0026238693467336683,
      "loss": 2.3108,
      "step": 25950
    },
    {
      "epoch": 0.1298,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002623718592964824,
      "loss": 2.3603,
      "step": 25960
    },
    {
      "epoch": 0.12985,
      "grad_norm": 0.404296875,
      "learning_rate": 0.00262356783919598,
      "loss": 2.2863,
      "step": 25970
    },
    {
      "epoch": 0.1299,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0026234170854271357,
      "loss": 2.3378,
      "step": 25980
    },
    {
      "epoch": 0.12995,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0026232663316582915,
      "loss": 2.3188,
      "step": 25990
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0026231155778894473,
      "loss": 2.345,
      "step": 26000
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.319103479385376,
      "eval_runtime": 46.8582,
      "eval_samples_per_second": 53.352,
      "eval_steps_per_second": 0.107,
      "step": 26000
    },
    {
      "epoch": 0.13005,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002622964824120603,
      "loss": 2.3333,
      "step": 26010
    },
    {
      "epoch": 0.1301,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002622814070351759,
      "loss": 2.3107,
      "step": 26020
    },
    {
      "epoch": 0.13015,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0026226633165829147,
      "loss": 2.2774,
      "step": 26030
    },
    {
      "epoch": 0.1302,
      "grad_norm": 0.4375,
      "learning_rate": 0.0026225125628140705,
      "loss": 2.3444,
      "step": 26040
    },
    {
      "epoch": 0.13025,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002622361809045226,
      "loss": 2.3558,
      "step": 26050
    },
    {
      "epoch": 0.1303,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002622211055276382,
      "loss": 2.3402,
      "step": 26060
    },
    {
      "epoch": 0.13035,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0026220603015075375,
      "loss": 2.3115,
      "step": 26070
    },
    {
      "epoch": 0.1304,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026219095477386933,
      "loss": 2.3107,
      "step": 26080
    },
    {
      "epoch": 0.13045,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026217587939698496,
      "loss": 2.3423,
      "step": 26090
    },
    {
      "epoch": 0.1305,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002621608040201005,
      "loss": 2.3299,
      "step": 26100
    },
    {
      "epoch": 0.13055,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026214572864321608,
      "loss": 2.3341,
      "step": 26110
    },
    {
      "epoch": 0.1306,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0026213065326633166,
      "loss": 2.3484,
      "step": 26120
    },
    {
      "epoch": 0.13065,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0026211557788944724,
      "loss": 2.3245,
      "step": 26130
    },
    {
      "epoch": 0.1307,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002621005025125628,
      "loss": 2.3593,
      "step": 26140
    },
    {
      "epoch": 0.13075,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002620854271356784,
      "loss": 2.362,
      "step": 26150
    },
    {
      "epoch": 0.1308,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00262070351758794,
      "loss": 2.293,
      "step": 26160
    },
    {
      "epoch": 0.13085,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0026205527638190956,
      "loss": 2.3376,
      "step": 26170
    },
    {
      "epoch": 0.1309,
      "grad_norm": 0.5,
      "learning_rate": 0.0026204020100502514,
      "loss": 2.3545,
      "step": 26180
    },
    {
      "epoch": 0.13095,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002620251256281407,
      "loss": 2.3044,
      "step": 26190
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002620100502512563,
      "loss": 2.3069,
      "step": 26200
    },
    {
      "epoch": 0.13105,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0026199497487437184,
      "loss": 2.272,
      "step": 26210
    },
    {
      "epoch": 0.1311,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0026197989949748746,
      "loss": 2.3439,
      "step": 26220
    },
    {
      "epoch": 0.13115,
      "grad_norm": 0.490234375,
      "learning_rate": 0.00261964824120603,
      "loss": 2.3707,
      "step": 26230
    },
    {
      "epoch": 0.1312,
      "grad_norm": 0.388671875,
      "learning_rate": 0.002619497487437186,
      "loss": 2.318,
      "step": 26240
    },
    {
      "epoch": 0.13125,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002619346733668342,
      "loss": 2.3042,
      "step": 26250
    },
    {
      "epoch": 0.1313,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0026191959798994974,
      "loss": 2.3368,
      "step": 26260
    },
    {
      "epoch": 0.13135,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026190452261306532,
      "loss": 2.3627,
      "step": 26270
    },
    {
      "epoch": 0.1314,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002618894472361809,
      "loss": 2.3436,
      "step": 26280
    },
    {
      "epoch": 0.13145,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002618743718592965,
      "loss": 2.409,
      "step": 26290
    },
    {
      "epoch": 0.1315,
      "grad_norm": 0.392578125,
      "learning_rate": 0.0026185929648241207,
      "loss": 2.2935,
      "step": 26300
    },
    {
      "epoch": 0.13155,
      "grad_norm": 0.388671875,
      "learning_rate": 0.0026184422110552765,
      "loss": 2.3404,
      "step": 26310
    },
    {
      "epoch": 0.1316,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0026182914572864323,
      "loss": 2.3226,
      "step": 26320
    },
    {
      "epoch": 0.13165,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002618140703517588,
      "loss": 2.2987,
      "step": 26330
    },
    {
      "epoch": 0.1317,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002617989949748744,
      "loss": 2.3302,
      "step": 26340
    },
    {
      "epoch": 0.13175,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0026178391959798997,
      "loss": 2.3596,
      "step": 26350
    },
    {
      "epoch": 0.1318,
      "grad_norm": 0.5625,
      "learning_rate": 0.0026176884422110555,
      "loss": 2.3588,
      "step": 26360
    },
    {
      "epoch": 0.13185,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002617537688442211,
      "loss": 2.4128,
      "step": 26370
    },
    {
      "epoch": 0.1319,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002617386934673367,
      "loss": 2.3285,
      "step": 26380
    },
    {
      "epoch": 0.13195,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0026172361809045225,
      "loss": 2.3362,
      "step": 26390
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0026170854271356783,
      "loss": 2.3662,
      "step": 26400
    },
    {
      "epoch": 0.13205,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026169346733668345,
      "loss": 2.3163,
      "step": 26410
    },
    {
      "epoch": 0.1321,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00261678391959799,
      "loss": 2.2714,
      "step": 26420
    },
    {
      "epoch": 0.13215,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0026166331658291457,
      "loss": 2.3537,
      "step": 26430
    },
    {
      "epoch": 0.1322,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026164824120603015,
      "loss": 2.3387,
      "step": 26440
    },
    {
      "epoch": 0.13225,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0026163316582914573,
      "loss": 2.3288,
      "step": 26450
    },
    {
      "epoch": 0.1323,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002616180904522613,
      "loss": 2.301,
      "step": 26460
    },
    {
      "epoch": 0.13235,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002616030150753769,
      "loss": 2.2768,
      "step": 26470
    },
    {
      "epoch": 0.1324,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0026158793969849247,
      "loss": 2.3319,
      "step": 26480
    },
    {
      "epoch": 0.13245,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0026157286432160805,
      "loss": 2.3639,
      "step": 26490
    },
    {
      "epoch": 0.1325,
      "grad_norm": 0.46875,
      "learning_rate": 0.002615577889447236,
      "loss": 2.3145,
      "step": 26500
    },
    {
      "epoch": 0.13255,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002615427135678392,
      "loss": 2.306,
      "step": 26510
    },
    {
      "epoch": 0.1326,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002615276381909548,
      "loss": 2.3426,
      "step": 26520
    },
    {
      "epoch": 0.13265,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0026151256281407033,
      "loss": 2.3201,
      "step": 26530
    },
    {
      "epoch": 0.1327,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0026149748743718596,
      "loss": 2.3177,
      "step": 26540
    },
    {
      "epoch": 0.13275,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002614824120603015,
      "loss": 2.3306,
      "step": 26550
    },
    {
      "epoch": 0.1328,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0026146733668341708,
      "loss": 2.3473,
      "step": 26560
    },
    {
      "epoch": 0.13285,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002614522613065327,
      "loss": 2.3453,
      "step": 26570
    },
    {
      "epoch": 0.1329,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0026143718592964824,
      "loss": 2.3558,
      "step": 26580
    },
    {
      "epoch": 0.13295,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002614221105527638,
      "loss": 2.33,
      "step": 26590
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002614070351758794,
      "loss": 2.3606,
      "step": 26600
    },
    {
      "epoch": 0.13305,
      "grad_norm": 0.453125,
      "learning_rate": 0.00261391959798995,
      "loss": 2.3062,
      "step": 26610
    },
    {
      "epoch": 0.1331,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0026137688442211056,
      "loss": 2.3673,
      "step": 26620
    },
    {
      "epoch": 0.13315,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0026136180904522614,
      "loss": 2.2936,
      "step": 26630
    },
    {
      "epoch": 0.1332,
      "grad_norm": 0.376953125,
      "learning_rate": 0.0026134673366834172,
      "loss": 2.3503,
      "step": 26640
    },
    {
      "epoch": 0.13325,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002613316582914573,
      "loss": 2.3473,
      "step": 26650
    },
    {
      "epoch": 0.1333,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0026131658291457284,
      "loss": 2.3119,
      "step": 26660
    },
    {
      "epoch": 0.13335,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0026130150753768846,
      "loss": 2.3241,
      "step": 26670
    },
    {
      "epoch": 0.1334,
      "grad_norm": 0.408203125,
      "learning_rate": 0.00261286432160804,
      "loss": 2.3172,
      "step": 26680
    },
    {
      "epoch": 0.13345,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002612713567839196,
      "loss": 2.3522,
      "step": 26690
    },
    {
      "epoch": 0.1335,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002612562814070352,
      "loss": 2.3224,
      "step": 26700
    },
    {
      "epoch": 0.13355,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0026124120603015074,
      "loss": 2.3078,
      "step": 26710
    },
    {
      "epoch": 0.1336,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026122613065326632,
      "loss": 2.3311,
      "step": 26720
    },
    {
      "epoch": 0.13365,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002612110552763819,
      "loss": 2.3,
      "step": 26730
    },
    {
      "epoch": 0.1337,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002611959798994975,
      "loss": 2.3098,
      "step": 26740
    },
    {
      "epoch": 0.13375,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0026118090452261307,
      "loss": 2.34,
      "step": 26750
    },
    {
      "epoch": 0.1338,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026116582914572865,
      "loss": 2.2869,
      "step": 26760
    },
    {
      "epoch": 0.13385,
      "grad_norm": 0.515625,
      "learning_rate": 0.0026115075376884423,
      "loss": 2.3138,
      "step": 26770
    },
    {
      "epoch": 0.1339,
      "grad_norm": 0.40625,
      "learning_rate": 0.002611356783919598,
      "loss": 2.277,
      "step": 26780
    },
    {
      "epoch": 0.13395,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002611206030150754,
      "loss": 2.3128,
      "step": 26790
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0026110552763819097,
      "loss": 2.3259,
      "step": 26800
    },
    {
      "epoch": 0.13405,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0026109045226130655,
      "loss": 2.3167,
      "step": 26810
    },
    {
      "epoch": 0.1341,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002610753768844221,
      "loss": 2.2632,
      "step": 26820
    },
    {
      "epoch": 0.13415,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002610603015075377,
      "loss": 2.3472,
      "step": 26830
    },
    {
      "epoch": 0.1342,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0026104522613065325,
      "loss": 2.3318,
      "step": 26840
    },
    {
      "epoch": 0.13425,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026103015075376883,
      "loss": 2.3306,
      "step": 26850
    },
    {
      "epoch": 0.1343,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0026101507537688445,
      "loss": 2.302,
      "step": 26860
    },
    {
      "epoch": 0.13435,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00261,
      "loss": 2.3377,
      "step": 26870
    },
    {
      "epoch": 0.1344,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0026098492462311557,
      "loss": 2.3183,
      "step": 26880
    },
    {
      "epoch": 0.13445,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026096984924623115,
      "loss": 2.3447,
      "step": 26890
    },
    {
      "epoch": 0.1345,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0026095477386934673,
      "loss": 2.3125,
      "step": 26900
    },
    {
      "epoch": 0.13455,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002609396984924623,
      "loss": 2.3635,
      "step": 26910
    },
    {
      "epoch": 0.1346,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002609246231155779,
      "loss": 2.2644,
      "step": 26920
    },
    {
      "epoch": 0.13465,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0026090954773869347,
      "loss": 2.3407,
      "step": 26930
    },
    {
      "epoch": 0.1347,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026089447236180906,
      "loss": 2.3817,
      "step": 26940
    },
    {
      "epoch": 0.13475,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0026087939698492464,
      "loss": 2.3716,
      "step": 26950
    },
    {
      "epoch": 0.1348,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002608643216080402,
      "loss": 2.3272,
      "step": 26960
    },
    {
      "epoch": 0.13485,
      "grad_norm": 0.40625,
      "learning_rate": 0.002608492462311558,
      "loss": 2.309,
      "step": 26970
    },
    {
      "epoch": 0.1349,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0026083417085427133,
      "loss": 2.3334,
      "step": 26980
    },
    {
      "epoch": 0.13495,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0026081909547738696,
      "loss": 2.3447,
      "step": 26990
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002608040201005025,
      "loss": 2.3724,
      "step": 27000
    },
    {
      "epoch": 0.13505,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0026078894472361808,
      "loss": 2.2974,
      "step": 27010
    },
    {
      "epoch": 0.1351,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002607738693467337,
      "loss": 2.3494,
      "step": 27020
    },
    {
      "epoch": 0.13515,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026075879396984924,
      "loss": 2.3114,
      "step": 27030
    },
    {
      "epoch": 0.1352,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002607437185929648,
      "loss": 2.3142,
      "step": 27040
    },
    {
      "epoch": 0.13525,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002607286432160804,
      "loss": 2.2832,
      "step": 27050
    },
    {
      "epoch": 0.1353,
      "grad_norm": 0.40234375,
      "learning_rate": 0.00260713567839196,
      "loss": 2.2949,
      "step": 27060
    },
    {
      "epoch": 0.13535,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0026069849246231156,
      "loss": 2.3276,
      "step": 27070
    },
    {
      "epoch": 0.1354,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0026068341708542714,
      "loss": 2.3372,
      "step": 27080
    },
    {
      "epoch": 0.13545,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0026066834170854272,
      "loss": 2.2791,
      "step": 27090
    },
    {
      "epoch": 0.1355,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002606532663316583,
      "loss": 2.3341,
      "step": 27100
    },
    {
      "epoch": 0.13555,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002606381909547739,
      "loss": 2.3051,
      "step": 27110
    },
    {
      "epoch": 0.1356,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0026062311557788946,
      "loss": 2.3512,
      "step": 27120
    },
    {
      "epoch": 0.13565,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0026060804020100505,
      "loss": 2.3492,
      "step": 27130
    },
    {
      "epoch": 0.1357,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002605929648241206,
      "loss": 2.2598,
      "step": 27140
    },
    {
      "epoch": 0.13575,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002605778894472362,
      "loss": 2.3432,
      "step": 27150
    },
    {
      "epoch": 0.1358,
      "grad_norm": 0.40625,
      "learning_rate": 0.0026056281407035174,
      "loss": 2.3074,
      "step": 27160
    },
    {
      "epoch": 0.13585,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0026054773869346732,
      "loss": 2.3354,
      "step": 27170
    },
    {
      "epoch": 0.1359,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0026053266331658295,
      "loss": 2.2521,
      "step": 27180
    },
    {
      "epoch": 0.13595,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002605175879396985,
      "loss": 2.3258,
      "step": 27190
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026050251256281407,
      "loss": 2.2963,
      "step": 27200
    },
    {
      "epoch": 0.13605,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0026048743718592965,
      "loss": 2.2833,
      "step": 27210
    },
    {
      "epoch": 0.1361,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0026047236180904523,
      "loss": 2.3001,
      "step": 27220
    },
    {
      "epoch": 0.13615,
      "grad_norm": 0.5625,
      "learning_rate": 0.002604572864321608,
      "loss": 2.3191,
      "step": 27230
    },
    {
      "epoch": 0.1362,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002604422110552764,
      "loss": 2.3047,
      "step": 27240
    },
    {
      "epoch": 0.13625,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0026042713567839197,
      "loss": 2.3538,
      "step": 27250
    },
    {
      "epoch": 0.1363,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026041206030150755,
      "loss": 2.286,
      "step": 27260
    },
    {
      "epoch": 0.13635,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026039698492462313,
      "loss": 2.3303,
      "step": 27270
    },
    {
      "epoch": 0.1364,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002603819095477387,
      "loss": 2.2806,
      "step": 27280
    },
    {
      "epoch": 0.13645,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002603668341708543,
      "loss": 2.2992,
      "step": 27290
    },
    {
      "epoch": 0.1365,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0026035175879396983,
      "loss": 2.3214,
      "step": 27300
    },
    {
      "epoch": 0.13655,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0026033668341708545,
      "loss": 2.3537,
      "step": 27310
    },
    {
      "epoch": 0.1366,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00260321608040201,
      "loss": 2.2816,
      "step": 27320
    },
    {
      "epoch": 0.13665,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0026030653266331657,
      "loss": 2.3562,
      "step": 27330
    },
    {
      "epoch": 0.1367,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002602914572864322,
      "loss": 2.3273,
      "step": 27340
    },
    {
      "epoch": 0.13675,
      "grad_norm": 0.4375,
      "learning_rate": 0.0026027638190954773,
      "loss": 2.3346,
      "step": 27350
    },
    {
      "epoch": 0.1368,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002602613065326633,
      "loss": 2.3462,
      "step": 27360
    },
    {
      "epoch": 0.13685,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002602462311557789,
      "loss": 2.2788,
      "step": 27370
    },
    {
      "epoch": 0.1369,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0026023115577889448,
      "loss": 2.3524,
      "step": 27380
    },
    {
      "epoch": 0.13695,
      "grad_norm": 0.421875,
      "learning_rate": 0.0026021608040201006,
      "loss": 2.292,
      "step": 27390
    },
    {
      "epoch": 0.137,
      "grad_norm": 0.453125,
      "learning_rate": 0.0026020100502512564,
      "loss": 2.3569,
      "step": 27400
    },
    {
      "epoch": 0.13705,
      "grad_norm": 0.40625,
      "learning_rate": 0.002601859296482412,
      "loss": 2.3255,
      "step": 27410
    },
    {
      "epoch": 0.1371,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002601708542713568,
      "loss": 2.336,
      "step": 27420
    },
    {
      "epoch": 0.13715,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002601557788944724,
      "loss": 2.3173,
      "step": 27430
    },
    {
      "epoch": 0.1372,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0026014070351758796,
      "loss": 2.3108,
      "step": 27440
    },
    {
      "epoch": 0.13725,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0026012562814070354,
      "loss": 2.302,
      "step": 27450
    },
    {
      "epoch": 0.1373,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0026011055276381908,
      "loss": 2.3074,
      "step": 27460
    },
    {
      "epoch": 0.13735,
      "grad_norm": 0.453125,
      "learning_rate": 0.002600954773869347,
      "loss": 2.3272,
      "step": 27470
    },
    {
      "epoch": 0.1374,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0026008040201005024,
      "loss": 2.3318,
      "step": 27480
    },
    {
      "epoch": 0.13745,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002600653266331658,
      "loss": 2.3823,
      "step": 27490
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0026005025125628144,
      "loss": 2.3097,
      "step": 27500
    },
    {
      "epoch": 0.13755,
      "grad_norm": 0.416015625,
      "learning_rate": 0.00260035175879397,
      "loss": 2.3128,
      "step": 27510
    },
    {
      "epoch": 0.1376,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0026002010050251256,
      "loss": 2.3228,
      "step": 27520
    },
    {
      "epoch": 0.13765,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0026000502512562814,
      "loss": 2.3385,
      "step": 27530
    },
    {
      "epoch": 0.1377,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025998994974874372,
      "loss": 2.3267,
      "step": 27540
    },
    {
      "epoch": 0.13775,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002599748743718593,
      "loss": 2.3343,
      "step": 27550
    },
    {
      "epoch": 0.1378,
      "grad_norm": 0.46875,
      "learning_rate": 0.002599597989949749,
      "loss": 2.3405,
      "step": 27560
    },
    {
      "epoch": 0.13785,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025994472361809047,
      "loss": 2.3947,
      "step": 27570
    },
    {
      "epoch": 0.1379,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025992964824120605,
      "loss": 2.3048,
      "step": 27580
    },
    {
      "epoch": 0.13795,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025991457286432163,
      "loss": 2.3069,
      "step": 27590
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002598994974874372,
      "loss": 2.3255,
      "step": 27600
    },
    {
      "epoch": 0.13805,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0025988442211055274,
      "loss": 2.2887,
      "step": 27610
    },
    {
      "epoch": 0.1381,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0025986934673366833,
      "loss": 2.2937,
      "step": 27620
    },
    {
      "epoch": 0.13815,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0025985427135678395,
      "loss": 2.3662,
      "step": 27630
    },
    {
      "epoch": 0.1382,
      "grad_norm": 0.4375,
      "learning_rate": 0.002598391959798995,
      "loss": 2.3452,
      "step": 27640
    },
    {
      "epoch": 0.13825,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0025982412060301507,
      "loss": 2.3155,
      "step": 27650
    },
    {
      "epoch": 0.1383,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0025980904522613065,
      "loss": 2.3189,
      "step": 27660
    },
    {
      "epoch": 0.13835,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0025979396984924623,
      "loss": 2.2651,
      "step": 27670
    },
    {
      "epoch": 0.1384,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002597788944723618,
      "loss": 2.3151,
      "step": 27680
    },
    {
      "epoch": 0.13845,
      "grad_norm": 0.4375,
      "learning_rate": 0.002597638190954774,
      "loss": 2.2994,
      "step": 27690
    },
    {
      "epoch": 0.1385,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0025974874371859297,
      "loss": 2.3544,
      "step": 27700
    },
    {
      "epoch": 0.13855,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025973366834170855,
      "loss": 2.3396,
      "step": 27710
    },
    {
      "epoch": 0.1386,
      "grad_norm": 0.46875,
      "learning_rate": 0.0025971859296482413,
      "loss": 2.3151,
      "step": 27720
    },
    {
      "epoch": 0.13865,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002597035175879397,
      "loss": 2.3172,
      "step": 27730
    },
    {
      "epoch": 0.1387,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002596884422110553,
      "loss": 2.3199,
      "step": 27740
    },
    {
      "epoch": 0.13875,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0025967336683417083,
      "loss": 2.3648,
      "step": 27750
    },
    {
      "epoch": 0.1388,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0025965829145728645,
      "loss": 2.3416,
      "step": 27760
    },
    {
      "epoch": 0.13885,
      "grad_norm": 0.5078125,
      "learning_rate": 0.00259643216080402,
      "loss": 2.3754,
      "step": 27770
    },
    {
      "epoch": 0.1389,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025962814070351757,
      "loss": 2.2829,
      "step": 27780
    },
    {
      "epoch": 0.13895,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002596130653266332,
      "loss": 2.3516,
      "step": 27790
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0025959798994974873,
      "loss": 2.3206,
      "step": 27800
    },
    {
      "epoch": 0.13905,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002595829145728643,
      "loss": 2.3336,
      "step": 27810
    },
    {
      "epoch": 0.1391,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002595678391959799,
      "loss": 2.3195,
      "step": 27820
    },
    {
      "epoch": 0.13915,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0025955276381909548,
      "loss": 2.3199,
      "step": 27830
    },
    {
      "epoch": 0.1392,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0025953768844221106,
      "loss": 2.296,
      "step": 27840
    },
    {
      "epoch": 0.13925,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0025952261306532664,
      "loss": 2.3471,
      "step": 27850
    },
    {
      "epoch": 0.1393,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002595075376884422,
      "loss": 2.3354,
      "step": 27860
    },
    {
      "epoch": 0.13935,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002594924623115578,
      "loss": 2.3159,
      "step": 27870
    },
    {
      "epoch": 0.1394,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002594773869346734,
      "loss": 2.2556,
      "step": 27880
    },
    {
      "epoch": 0.13945,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0025946231155778896,
      "loss": 2.3078,
      "step": 27890
    },
    {
      "epoch": 0.1395,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0025944723618090454,
      "loss": 2.3456,
      "step": 27900
    },
    {
      "epoch": 0.13955,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0025943216080402008,
      "loss": 2.3014,
      "step": 27910
    },
    {
      "epoch": 0.1396,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002594170854271357,
      "loss": 2.3665,
      "step": 27920
    },
    {
      "epoch": 0.13965,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025940201005025124,
      "loss": 2.2766,
      "step": 27930
    },
    {
      "epoch": 0.1397,
      "grad_norm": 0.4375,
      "learning_rate": 0.002593869346733668,
      "loss": 2.3058,
      "step": 27940
    },
    {
      "epoch": 0.13975,
      "grad_norm": 0.546875,
      "learning_rate": 0.0025937185929648244,
      "loss": 2.2761,
      "step": 27950
    },
    {
      "epoch": 0.1398,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00259356783919598,
      "loss": 2.2715,
      "step": 27960
    },
    {
      "epoch": 0.13985,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0025934170854271356,
      "loss": 2.2645,
      "step": 27970
    },
    {
      "epoch": 0.1399,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025932663316582914,
      "loss": 2.3022,
      "step": 27980
    },
    {
      "epoch": 0.13995,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0025931155778894472,
      "loss": 2.2642,
      "step": 27990
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4375,
      "learning_rate": 0.002592964824120603,
      "loss": 2.2934,
      "step": 28000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.301701784133911,
      "eval_runtime": 47.514,
      "eval_samples_per_second": 52.616,
      "eval_steps_per_second": 0.105,
      "step": 28000
    },
    {
      "epoch": 0.14005,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002592814070351759,
      "loss": 2.3146,
      "step": 28010
    },
    {
      "epoch": 0.1401,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0025926633165829147,
      "loss": 2.3191,
      "step": 28020
    },
    {
      "epoch": 0.14015,
      "grad_norm": 0.92578125,
      "learning_rate": 0.0025925125628140705,
      "loss": 2.3487,
      "step": 28030
    },
    {
      "epoch": 0.1402,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0025923618090452263,
      "loss": 2.2957,
      "step": 28040
    },
    {
      "epoch": 0.14025,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002592211055276382,
      "loss": 2.3767,
      "step": 28050
    },
    {
      "epoch": 0.1403,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002592060301507538,
      "loss": 2.3173,
      "step": 28060
    },
    {
      "epoch": 0.14035,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0025919095477386933,
      "loss": 2.3053,
      "step": 28070
    },
    {
      "epoch": 0.1404,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0025917587939698495,
      "loss": 2.3143,
      "step": 28080
    },
    {
      "epoch": 0.14045,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002591608040201005,
      "loss": 2.3156,
      "step": 28090
    },
    {
      "epoch": 0.1405,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025914572864321607,
      "loss": 2.3188,
      "step": 28100
    },
    {
      "epoch": 0.14055,
      "grad_norm": 0.5,
      "learning_rate": 0.002591306532663317,
      "loss": 2.3302,
      "step": 28110
    },
    {
      "epoch": 0.1406,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0025911557788944723,
      "loss": 2.3018,
      "step": 28120
    },
    {
      "epoch": 0.14065,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002591005025125628,
      "loss": 2.2873,
      "step": 28130
    },
    {
      "epoch": 0.1407,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002590854271356784,
      "loss": 2.3405,
      "step": 28140
    },
    {
      "epoch": 0.14075,
      "grad_norm": 0.515625,
      "learning_rate": 0.0025907035175879397,
      "loss": 2.2862,
      "step": 28150
    },
    {
      "epoch": 0.1408,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025905527638190955,
      "loss": 2.3175,
      "step": 28160
    },
    {
      "epoch": 0.14085,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0025904020100502513,
      "loss": 2.2544,
      "step": 28170
    },
    {
      "epoch": 0.1409,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002590251256281407,
      "loss": 2.2627,
      "step": 28180
    },
    {
      "epoch": 0.14095,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002590100502512563,
      "loss": 2.3334,
      "step": 28190
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025899497487437187,
      "loss": 2.2895,
      "step": 28200
    },
    {
      "epoch": 0.14105,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0025897989949748746,
      "loss": 2.3104,
      "step": 28210
    },
    {
      "epoch": 0.1411,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0025896482412060304,
      "loss": 2.2963,
      "step": 28220
    },
    {
      "epoch": 0.14115,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025894974874371857,
      "loss": 2.2748,
      "step": 28230
    },
    {
      "epoch": 0.1412,
      "grad_norm": 0.453125,
      "learning_rate": 0.002589346733668342,
      "loss": 2.2977,
      "step": 28240
    },
    {
      "epoch": 0.14125,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0025891959798994973,
      "loss": 2.3466,
      "step": 28250
    },
    {
      "epoch": 0.1413,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002589045226130653,
      "loss": 2.3029,
      "step": 28260
    },
    {
      "epoch": 0.14135,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0025888944723618094,
      "loss": 2.2967,
      "step": 28270
    },
    {
      "epoch": 0.1414,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025887437185929648,
      "loss": 2.3076,
      "step": 28280
    },
    {
      "epoch": 0.14145,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0025885929648241206,
      "loss": 2.3477,
      "step": 28290
    },
    {
      "epoch": 0.1415,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0025884422110552764,
      "loss": 2.3289,
      "step": 28300
    },
    {
      "epoch": 0.14155,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002588291457286432,
      "loss": 2.3527,
      "step": 28310
    },
    {
      "epoch": 0.1416,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002588140703517588,
      "loss": 2.2876,
      "step": 28320
    },
    {
      "epoch": 0.14165,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002587989949748744,
      "loss": 2.28,
      "step": 28330
    },
    {
      "epoch": 0.1417,
      "grad_norm": 0.5,
      "learning_rate": 0.0025878391959798996,
      "loss": 2.3136,
      "step": 28340
    },
    {
      "epoch": 0.14175,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0025876884422110554,
      "loss": 2.3126,
      "step": 28350
    },
    {
      "epoch": 0.1418,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0025875376884422112,
      "loss": 2.3531,
      "step": 28360
    },
    {
      "epoch": 0.14185,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002587386934673367,
      "loss": 2.3181,
      "step": 28370
    },
    {
      "epoch": 0.1419,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002587236180904523,
      "loss": 2.291,
      "step": 28380
    },
    {
      "epoch": 0.14195,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002587085427135678,
      "loss": 2.296,
      "step": 28390
    },
    {
      "epoch": 0.142,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0025869346733668344,
      "loss": 2.3323,
      "step": 28400
    },
    {
      "epoch": 0.14205,
      "grad_norm": 0.451171875,
      "learning_rate": 0.00258678391959799,
      "loss": 2.31,
      "step": 28410
    },
    {
      "epoch": 0.1421,
      "grad_norm": 0.5,
      "learning_rate": 0.0025866331658291456,
      "loss": 2.2841,
      "step": 28420
    },
    {
      "epoch": 0.14215,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002586482412060302,
      "loss": 2.2829,
      "step": 28430
    },
    {
      "epoch": 0.1422,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0025863316582914572,
      "loss": 2.2925,
      "step": 28440
    },
    {
      "epoch": 0.14225,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002586180904522613,
      "loss": 2.3659,
      "step": 28450
    },
    {
      "epoch": 0.1423,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002586030150753769,
      "loss": 2.2864,
      "step": 28460
    },
    {
      "epoch": 0.14235,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0025858793969849247,
      "loss": 2.3229,
      "step": 28470
    },
    {
      "epoch": 0.1424,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0025857286432160805,
      "loss": 2.2726,
      "step": 28480
    },
    {
      "epoch": 0.14245,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025855778894472363,
      "loss": 2.3274,
      "step": 28490
    },
    {
      "epoch": 0.1425,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002585427135678392,
      "loss": 2.3149,
      "step": 28500
    },
    {
      "epoch": 0.14255,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002585276381909548,
      "loss": 2.331,
      "step": 28510
    },
    {
      "epoch": 0.1426,
      "grad_norm": 0.484375,
      "learning_rate": 0.0025851256281407037,
      "loss": 2.2857,
      "step": 28520
    },
    {
      "epoch": 0.14265,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025849748743718595,
      "loss": 2.2964,
      "step": 28530
    },
    {
      "epoch": 0.1427,
      "grad_norm": 0.484375,
      "learning_rate": 0.002584824120603015,
      "loss": 2.3435,
      "step": 28540
    },
    {
      "epoch": 0.14275,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0025846733668341707,
      "loss": 2.2737,
      "step": 28550
    },
    {
      "epoch": 0.1428,
      "grad_norm": 0.400390625,
      "learning_rate": 0.002584522613065327,
      "loss": 2.3231,
      "step": 28560
    },
    {
      "epoch": 0.14285,
      "grad_norm": 0.46875,
      "learning_rate": 0.0025843718592964823,
      "loss": 2.2775,
      "step": 28570
    },
    {
      "epoch": 0.1429,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002584221105527638,
      "loss": 2.317,
      "step": 28580
    },
    {
      "epoch": 0.14295,
      "grad_norm": 0.38671875,
      "learning_rate": 0.002584070351758794,
      "loss": 2.305,
      "step": 28590
    },
    {
      "epoch": 0.143,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025839195979899497,
      "loss": 2.3819,
      "step": 28600
    },
    {
      "epoch": 0.14305,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0025837688442211055,
      "loss": 2.2703,
      "step": 28610
    },
    {
      "epoch": 0.1431,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025836180904522613,
      "loss": 2.3041,
      "step": 28620
    },
    {
      "epoch": 0.14315,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002583467336683417,
      "loss": 2.2871,
      "step": 28630
    },
    {
      "epoch": 0.1432,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002583316582914573,
      "loss": 2.2707,
      "step": 28640
    },
    {
      "epoch": 0.14325,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025831658291457288,
      "loss": 2.2398,
      "step": 28650
    },
    {
      "epoch": 0.1433,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0025830150753768846,
      "loss": 2.2988,
      "step": 28660
    },
    {
      "epoch": 0.14335,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0025828643216080404,
      "loss": 2.2944,
      "step": 28670
    },
    {
      "epoch": 0.1434,
      "grad_norm": 0.3828125,
      "learning_rate": 0.002582713567839196,
      "loss": 2.3087,
      "step": 28680
    },
    {
      "epoch": 0.14345,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002582562814070352,
      "loss": 2.34,
      "step": 28690
    },
    {
      "epoch": 0.1435,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0025824120603015074,
      "loss": 2.329,
      "step": 28700
    },
    {
      "epoch": 0.14355,
      "grad_norm": 0.421875,
      "learning_rate": 0.002582261306532663,
      "loss": 2.2931,
      "step": 28710
    },
    {
      "epoch": 0.1436,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0025821105527638194,
      "loss": 2.2866,
      "step": 28720
    },
    {
      "epoch": 0.14365,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0025819597989949748,
      "loss": 2.3058,
      "step": 28730
    },
    {
      "epoch": 0.1437,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0025818090452261306,
      "loss": 2.3025,
      "step": 28740
    },
    {
      "epoch": 0.14375,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0025816582914572864,
      "loss": 2.2945,
      "step": 28750
    },
    {
      "epoch": 0.1438,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002581507537688442,
      "loss": 2.3587,
      "step": 28760
    },
    {
      "epoch": 0.14385,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002581356783919598,
      "loss": 2.2913,
      "step": 28770
    },
    {
      "epoch": 0.1439,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002581206030150754,
      "loss": 2.3242,
      "step": 28780
    },
    {
      "epoch": 0.14395,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0025810552763819096,
      "loss": 2.2746,
      "step": 28790
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025809045226130654,
      "loss": 2.321,
      "step": 28800
    },
    {
      "epoch": 0.14405,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025807537688442212,
      "loss": 2.3007,
      "step": 28810
    },
    {
      "epoch": 0.1441,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002580603015075377,
      "loss": 2.2755,
      "step": 28820
    },
    {
      "epoch": 0.14415,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002580452261306533,
      "loss": 2.3134,
      "step": 28830
    },
    {
      "epoch": 0.1442,
      "grad_norm": 0.453125,
      "learning_rate": 0.002580301507537688,
      "loss": 2.3095,
      "step": 28840
    },
    {
      "epoch": 0.14425,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0025801507537688445,
      "loss": 2.275,
      "step": 28850
    },
    {
      "epoch": 0.1443,
      "grad_norm": 0.4453125,
      "learning_rate": 0.00258,
      "loss": 2.3148,
      "step": 28860
    },
    {
      "epoch": 0.14435,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0025798492462311556,
      "loss": 2.2984,
      "step": 28870
    },
    {
      "epoch": 0.1444,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002579698492462312,
      "loss": 2.2959,
      "step": 28880
    },
    {
      "epoch": 0.14445,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0025795477386934672,
      "loss": 2.322,
      "step": 28890
    },
    {
      "epoch": 0.1445,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002579396984924623,
      "loss": 2.2743,
      "step": 28900
    },
    {
      "epoch": 0.14455,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002579246231155779,
      "loss": 2.2993,
      "step": 28910
    },
    {
      "epoch": 0.1446,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025790954773869347,
      "loss": 2.3027,
      "step": 28920
    },
    {
      "epoch": 0.14465,
      "grad_norm": 0.419921875,
      "learning_rate": 0.0025789447236180905,
      "loss": 2.2816,
      "step": 28930
    },
    {
      "epoch": 0.1447,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025787939698492463,
      "loss": 2.3363,
      "step": 28940
    },
    {
      "epoch": 0.14475,
      "grad_norm": 0.484375,
      "learning_rate": 0.002578643216080402,
      "loss": 2.2955,
      "step": 28950
    },
    {
      "epoch": 0.1448,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002578492462311558,
      "loss": 2.3396,
      "step": 28960
    },
    {
      "epoch": 0.14485,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0025783417085427137,
      "loss": 2.269,
      "step": 28970
    },
    {
      "epoch": 0.1449,
      "grad_norm": 0.40625,
      "learning_rate": 0.0025781909547738695,
      "loss": 2.3037,
      "step": 28980
    },
    {
      "epoch": 0.14495,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025780402010050253,
      "loss": 2.2398,
      "step": 28990
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0025778894472361807,
      "loss": 2.3413,
      "step": 29000
    },
    {
      "epoch": 0.14505,
      "grad_norm": 0.390625,
      "learning_rate": 0.002577738693467337,
      "loss": 2.2857,
      "step": 29010
    },
    {
      "epoch": 0.1451,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025775879396984923,
      "loss": 2.28,
      "step": 29020
    },
    {
      "epoch": 0.14515,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002577437185929648,
      "loss": 2.2727,
      "step": 29030
    },
    {
      "epoch": 0.1452,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025772864321608044,
      "loss": 2.3383,
      "step": 29040
    },
    {
      "epoch": 0.14525,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025771356783919597,
      "loss": 2.3075,
      "step": 29050
    },
    {
      "epoch": 0.1453,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0025769849246231155,
      "loss": 2.2345,
      "step": 29060
    },
    {
      "epoch": 0.14535,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0025768341708542713,
      "loss": 2.3064,
      "step": 29070
    },
    {
      "epoch": 0.1454,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002576683417085427,
      "loss": 2.3238,
      "step": 29080
    },
    {
      "epoch": 0.14545,
      "grad_norm": 0.375,
      "learning_rate": 0.002576532663316583,
      "loss": 2.3085,
      "step": 29090
    },
    {
      "epoch": 0.1455,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0025763819095477388,
      "loss": 2.3287,
      "step": 29100
    },
    {
      "epoch": 0.14555,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0025762311557788946,
      "loss": 2.2576,
      "step": 29110
    },
    {
      "epoch": 0.1456,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025760804020100504,
      "loss": 2.3167,
      "step": 29120
    },
    {
      "epoch": 0.14565,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002575929648241206,
      "loss": 2.2845,
      "step": 29130
    },
    {
      "epoch": 0.1457,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002575778894472362,
      "loss": 2.3256,
      "step": 29140
    },
    {
      "epoch": 0.14575,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002575628140703518,
      "loss": 2.311,
      "step": 29150
    },
    {
      "epoch": 0.1458,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002575477386934673,
      "loss": 2.3263,
      "step": 29160
    },
    {
      "epoch": 0.14585,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0025753266331658294,
      "loss": 2.2962,
      "step": 29170
    },
    {
      "epoch": 0.1459,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0025751758793969848,
      "loss": 2.3112,
      "step": 29180
    },
    {
      "epoch": 0.14595,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0025750251256281406,
      "loss": 2.2804,
      "step": 29190
    },
    {
      "epoch": 0.146,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002574874371859297,
      "loss": 2.3182,
      "step": 29200
    },
    {
      "epoch": 0.14605,
      "grad_norm": 0.404296875,
      "learning_rate": 0.002574723618090452,
      "loss": 2.3258,
      "step": 29210
    },
    {
      "epoch": 0.1461,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002574572864321608,
      "loss": 2.2514,
      "step": 29220
    },
    {
      "epoch": 0.14615,
      "grad_norm": 0.5,
      "learning_rate": 0.002574422110552764,
      "loss": 2.3185,
      "step": 29230
    },
    {
      "epoch": 0.1462,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0025742713567839196,
      "loss": 2.2823,
      "step": 29240
    },
    {
      "epoch": 0.14625,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0025741206030150754,
      "loss": 2.3264,
      "step": 29250
    },
    {
      "epoch": 0.1463,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025739698492462312,
      "loss": 2.3416,
      "step": 29260
    },
    {
      "epoch": 0.14635,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002573819095477387,
      "loss": 2.2659,
      "step": 29270
    },
    {
      "epoch": 0.1464,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002573668341708543,
      "loss": 2.3181,
      "step": 29280
    },
    {
      "epoch": 0.14645,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0025735175879396987,
      "loss": 2.3713,
      "step": 29290
    },
    {
      "epoch": 0.1465,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0025733668341708545,
      "loss": 2.3317,
      "step": 29300
    },
    {
      "epoch": 0.14655,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00257321608040201,
      "loss": 2.3005,
      "step": 29310
    },
    {
      "epoch": 0.1466,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0025730653266331656,
      "loss": 2.3121,
      "step": 29320
    },
    {
      "epoch": 0.14665,
      "grad_norm": 0.515625,
      "learning_rate": 0.002572914572864322,
      "loss": 2.2475,
      "step": 29330
    },
    {
      "epoch": 0.1467,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0025727638190954773,
      "loss": 2.3071,
      "step": 29340
    },
    {
      "epoch": 0.14675,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002572613065326633,
      "loss": 2.3146,
      "step": 29350
    },
    {
      "epoch": 0.1468,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0025724623115577893,
      "loss": 2.252,
      "step": 29360
    },
    {
      "epoch": 0.14685,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025723115577889447,
      "loss": 2.3185,
      "step": 29370
    },
    {
      "epoch": 0.1469,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0025721608040201005,
      "loss": 2.2787,
      "step": 29380
    },
    {
      "epoch": 0.14695,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025720100502512563,
      "loss": 2.2978,
      "step": 29390
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.4375,
      "learning_rate": 0.002571859296482412,
      "loss": 2.2859,
      "step": 29400
    },
    {
      "epoch": 0.14705,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002571708542713568,
      "loss": 2.327,
      "step": 29410
    },
    {
      "epoch": 0.1471,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0025715577889447237,
      "loss": 2.307,
      "step": 29420
    },
    {
      "epoch": 0.14715,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0025714070351758795,
      "loss": 2.3486,
      "step": 29430
    },
    {
      "epoch": 0.1472,
      "grad_norm": 0.400390625,
      "learning_rate": 0.0025712562814070353,
      "loss": 2.3059,
      "step": 29440
    },
    {
      "epoch": 0.14725,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002571105527638191,
      "loss": 2.2947,
      "step": 29450
    },
    {
      "epoch": 0.1473,
      "grad_norm": 0.5,
      "learning_rate": 0.002570954773869347,
      "loss": 2.2924,
      "step": 29460
    },
    {
      "epoch": 0.14735,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0025708040201005023,
      "loss": 2.2947,
      "step": 29470
    },
    {
      "epoch": 0.1474,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002570653266331658,
      "loss": 2.2868,
      "step": 29480
    },
    {
      "epoch": 0.14745,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025705025125628144,
      "loss": 2.3081,
      "step": 29490
    },
    {
      "epoch": 0.1475,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025703517587939697,
      "loss": 2.3277,
      "step": 29500
    },
    {
      "epoch": 0.14755,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025702010050251255,
      "loss": 2.3146,
      "step": 29510
    },
    {
      "epoch": 0.1476,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0025700502512562813,
      "loss": 2.3292,
      "step": 29520
    },
    {
      "epoch": 0.14765,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002569899497487437,
      "loss": 2.3067,
      "step": 29530
    },
    {
      "epoch": 0.1477,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002569748743718593,
      "loss": 2.3705,
      "step": 29540
    },
    {
      "epoch": 0.14775,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025695979899497488,
      "loss": 2.3423,
      "step": 29550
    },
    {
      "epoch": 0.1478,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0025694472361809046,
      "loss": 2.3172,
      "step": 29560
    },
    {
      "epoch": 0.14785,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0025692964824120604,
      "loss": 2.3053,
      "step": 29570
    },
    {
      "epoch": 0.1479,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002569145728643216,
      "loss": 2.2802,
      "step": 29580
    },
    {
      "epoch": 0.14795,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002568994974874372,
      "loss": 2.2742,
      "step": 29590
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002568844221105528,
      "loss": 2.2827,
      "step": 29600
    },
    {
      "epoch": 0.14805,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025686934673366836,
      "loss": 2.2577,
      "step": 29610
    },
    {
      "epoch": 0.1481,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0025685427135678394,
      "loss": 2.3129,
      "step": 29620
    },
    {
      "epoch": 0.14815,
      "grad_norm": 0.484375,
      "learning_rate": 0.002568391959798995,
      "loss": 2.2794,
      "step": 29630
    },
    {
      "epoch": 0.1482,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0025682412060301506,
      "loss": 2.3343,
      "step": 29640
    },
    {
      "epoch": 0.14825,
      "grad_norm": 0.392578125,
      "learning_rate": 0.002568090452261307,
      "loss": 2.3098,
      "step": 29650
    },
    {
      "epoch": 0.1483,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002567939698492462,
      "loss": 2.307,
      "step": 29660
    },
    {
      "epoch": 0.14835,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002567788944723618,
      "loss": 2.2637,
      "step": 29670
    },
    {
      "epoch": 0.1484,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002567638190954774,
      "loss": 2.3061,
      "step": 29680
    },
    {
      "epoch": 0.14845,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025674874371859296,
      "loss": 2.3559,
      "step": 29690
    },
    {
      "epoch": 0.1485,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0025673366834170854,
      "loss": 2.3231,
      "step": 29700
    },
    {
      "epoch": 0.14855,
      "grad_norm": 0.40625,
      "learning_rate": 0.0025671859296482412,
      "loss": 2.3161,
      "step": 29710
    },
    {
      "epoch": 0.1486,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002567035175879397,
      "loss": 2.2858,
      "step": 29720
    },
    {
      "epoch": 0.14865,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002566884422110553,
      "loss": 2.2917,
      "step": 29730
    },
    {
      "epoch": 0.1487,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025667336683417087,
      "loss": 2.3169,
      "step": 29740
    },
    {
      "epoch": 0.14875,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0025665829145728645,
      "loss": 2.2965,
      "step": 29750
    },
    {
      "epoch": 0.1488,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025664321608040203,
      "loss": 2.2692,
      "step": 29760
    },
    {
      "epoch": 0.14885,
      "grad_norm": 0.5,
      "learning_rate": 0.002566281407035176,
      "loss": 2.3308,
      "step": 29770
    },
    {
      "epoch": 0.1489,
      "grad_norm": 0.39453125,
      "learning_rate": 0.002566130653266332,
      "loss": 2.3117,
      "step": 29780
    },
    {
      "epoch": 0.14895,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0025659798994974873,
      "loss": 2.2589,
      "step": 29790
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002565829145728643,
      "loss": 2.2962,
      "step": 29800
    },
    {
      "epoch": 0.14905,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0025656783919597993,
      "loss": 2.281,
      "step": 29810
    },
    {
      "epoch": 0.1491,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025655276381909547,
      "loss": 2.3149,
      "step": 29820
    },
    {
      "epoch": 0.14915,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0025653768844221105,
      "loss": 2.2629,
      "step": 29830
    },
    {
      "epoch": 0.1492,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025652261306532663,
      "loss": 2.3316,
      "step": 29840
    },
    {
      "epoch": 0.14925,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002565075376884422,
      "loss": 2.2993,
      "step": 29850
    },
    {
      "epoch": 0.1493,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002564924623115578,
      "loss": 2.3416,
      "step": 29860
    },
    {
      "epoch": 0.14935,
      "grad_norm": 0.37890625,
      "learning_rate": 0.0025647738693467337,
      "loss": 2.3331,
      "step": 29870
    },
    {
      "epoch": 0.1494,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0025646231155778895,
      "loss": 2.2976,
      "step": 29880
    },
    {
      "epoch": 0.14945,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0025644723618090453,
      "loss": 2.3032,
      "step": 29890
    },
    {
      "epoch": 0.1495,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002564321608040201,
      "loss": 2.2391,
      "step": 29900
    },
    {
      "epoch": 0.14955,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002564170854271357,
      "loss": 2.2679,
      "step": 29910
    },
    {
      "epoch": 0.1496,
      "grad_norm": 0.484375,
      "learning_rate": 0.0025640201005025128,
      "loss": 2.3015,
      "step": 29920
    },
    {
      "epoch": 0.14965,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002563869346733668,
      "loss": 2.318,
      "step": 29930
    },
    {
      "epoch": 0.1497,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0025637185929648244,
      "loss": 2.2518,
      "step": 29940
    },
    {
      "epoch": 0.14975,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0025635678391959797,
      "loss": 2.283,
      "step": 29950
    },
    {
      "epoch": 0.1498,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0025634170854271355,
      "loss": 2.3044,
      "step": 29960
    },
    {
      "epoch": 0.14985,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002563266331658292,
      "loss": 2.2348,
      "step": 29970
    },
    {
      "epoch": 0.1499,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002563115577889447,
      "loss": 2.3231,
      "step": 29980
    },
    {
      "epoch": 0.14995,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002562964824120603,
      "loss": 2.2391,
      "step": 29990
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0025628140703517588,
      "loss": 2.3176,
      "step": 30000
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.2881224155426025,
      "eval_runtime": 48.8161,
      "eval_samples_per_second": 51.213,
      "eval_steps_per_second": 0.102,
      "step": 30000
    },
    {
      "epoch": 0.15005,
      "grad_norm": 0.40625,
      "learning_rate": 0.0025626633165829146,
      "loss": 2.3148,
      "step": 30010
    },
    {
      "epoch": 0.1501,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025625125628140704,
      "loss": 2.3053,
      "step": 30020
    },
    {
      "epoch": 0.15015,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002562361809045226,
      "loss": 2.3026,
      "step": 30030
    },
    {
      "epoch": 0.1502,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002562211055276382,
      "loss": 2.2884,
      "step": 30040
    },
    {
      "epoch": 0.15025,
      "grad_norm": 0.5,
      "learning_rate": 0.002562060301507538,
      "loss": 2.3063,
      "step": 30050
    },
    {
      "epoch": 0.1503,
      "grad_norm": 0.484375,
      "learning_rate": 0.0025619095477386936,
      "loss": 2.3448,
      "step": 30060
    },
    {
      "epoch": 0.15035,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0025617587939698494,
      "loss": 2.3244,
      "step": 30070
    },
    {
      "epoch": 0.1504,
      "grad_norm": 0.484375,
      "learning_rate": 0.0025616080402010052,
      "loss": 2.2968,
      "step": 30080
    },
    {
      "epoch": 0.15045,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025614572864321606,
      "loss": 2.3265,
      "step": 30090
    },
    {
      "epoch": 0.1505,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002561306532663317,
      "loss": 2.3171,
      "step": 30100
    },
    {
      "epoch": 0.15055,
      "grad_norm": 0.640625,
      "learning_rate": 0.002561155778894472,
      "loss": 2.248,
      "step": 30110
    },
    {
      "epoch": 0.1506,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002561005025125628,
      "loss": 2.251,
      "step": 30120
    },
    {
      "epoch": 0.15065,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025608542713567843,
      "loss": 2.2753,
      "step": 30130
    },
    {
      "epoch": 0.1507,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0025607035175879396,
      "loss": 2.2893,
      "step": 30140
    },
    {
      "epoch": 0.15075,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0025605527638190954,
      "loss": 2.3249,
      "step": 30150
    },
    {
      "epoch": 0.1508,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025604020100502512,
      "loss": 2.2858,
      "step": 30160
    },
    {
      "epoch": 0.15085,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002560251256281407,
      "loss": 2.3025,
      "step": 30170
    },
    {
      "epoch": 0.1509,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002560100502512563,
      "loss": 2.2769,
      "step": 30180
    },
    {
      "epoch": 0.15095,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025599497487437187,
      "loss": 2.3066,
      "step": 30190
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0025597989949748745,
      "loss": 2.2836,
      "step": 30200
    },
    {
      "epoch": 0.15105,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025596482412060303,
      "loss": 2.2793,
      "step": 30210
    },
    {
      "epoch": 0.1511,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002559497487437186,
      "loss": 2.32,
      "step": 30220
    },
    {
      "epoch": 0.15115,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002559346733668342,
      "loss": 2.3092,
      "step": 30230
    },
    {
      "epoch": 0.1512,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0025591959798994973,
      "loss": 2.265,
      "step": 30240
    },
    {
      "epoch": 0.15125,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002559045226130653,
      "loss": 2.2566,
      "step": 30250
    },
    {
      "epoch": 0.1513,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0025588944723618093,
      "loss": 2.3162,
      "step": 30260
    },
    {
      "epoch": 0.15135,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0025587437185929647,
      "loss": 2.3129,
      "step": 30270
    },
    {
      "epoch": 0.1514,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0025585929648241205,
      "loss": 2.3123,
      "step": 30280
    },
    {
      "epoch": 0.15145,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025584422110552767,
      "loss": 2.3411,
      "step": 30290
    },
    {
      "epoch": 0.1515,
      "grad_norm": 0.4375,
      "learning_rate": 0.002558291457286432,
      "loss": 2.3234,
      "step": 30300
    },
    {
      "epoch": 0.15155,
      "grad_norm": 0.5,
      "learning_rate": 0.002558140703517588,
      "loss": 2.2801,
      "step": 30310
    },
    {
      "epoch": 0.1516,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0025579899497487437,
      "loss": 2.3339,
      "step": 30320
    },
    {
      "epoch": 0.15165,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0025578391959798995,
      "loss": 2.3088,
      "step": 30330
    },
    {
      "epoch": 0.1517,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0025576884422110553,
      "loss": 2.2789,
      "step": 30340
    },
    {
      "epoch": 0.15175,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002557537688442211,
      "loss": 2.3202,
      "step": 30350
    },
    {
      "epoch": 0.1518,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002557386934673367,
      "loss": 2.313,
      "step": 30360
    },
    {
      "epoch": 0.15185,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0025572361809045228,
      "loss": 2.3113,
      "step": 30370
    },
    {
      "epoch": 0.1519,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0025570854271356786,
      "loss": 2.3302,
      "step": 30380
    },
    {
      "epoch": 0.15195,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0025569346733668344,
      "loss": 2.311,
      "step": 30390
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0025567839195979897,
      "loss": 2.274,
      "step": 30400
    },
    {
      "epoch": 0.15205,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0025566331658291456,
      "loss": 2.2981,
      "step": 30410
    },
    {
      "epoch": 0.1521,
      "grad_norm": 0.5,
      "learning_rate": 0.002556482412060302,
      "loss": 2.3319,
      "step": 30420
    },
    {
      "epoch": 0.15215,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002556331658291457,
      "loss": 2.2968,
      "step": 30430
    },
    {
      "epoch": 0.1522,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002556180904522613,
      "loss": 2.3176,
      "step": 30440
    },
    {
      "epoch": 0.15225,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0025560301507537688,
      "loss": 2.3082,
      "step": 30450
    },
    {
      "epoch": 0.1523,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0025558793969849246,
      "loss": 2.3402,
      "step": 30460
    },
    {
      "epoch": 0.15235,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025557286432160804,
      "loss": 2.2864,
      "step": 30470
    },
    {
      "epoch": 0.1524,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002555577889447236,
      "loss": 2.2283,
      "step": 30480
    },
    {
      "epoch": 0.15245,
      "grad_norm": 0.515625,
      "learning_rate": 0.002555427135678392,
      "loss": 2.3087,
      "step": 30490
    },
    {
      "epoch": 0.1525,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002555276381909548,
      "loss": 2.3087,
      "step": 30500
    },
    {
      "epoch": 0.15255,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0025551256281407036,
      "loss": 2.2542,
      "step": 30510
    },
    {
      "epoch": 0.1526,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0025549748743718594,
      "loss": 2.3281,
      "step": 30520
    },
    {
      "epoch": 0.15265,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0025548241206030152,
      "loss": 2.3375,
      "step": 30530
    },
    {
      "epoch": 0.1527,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002554673366834171,
      "loss": 2.2665,
      "step": 30540
    },
    {
      "epoch": 0.15275,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002554522613065327,
      "loss": 2.3234,
      "step": 30550
    },
    {
      "epoch": 0.1528,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0025543718592964822,
      "loss": 2.3434,
      "step": 30560
    },
    {
      "epoch": 0.15285,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002554221105527638,
      "loss": 2.284,
      "step": 30570
    },
    {
      "epoch": 0.1529,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0025540703517587943,
      "loss": 2.3245,
      "step": 30580
    },
    {
      "epoch": 0.15295,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0025539195979899496,
      "loss": 2.287,
      "step": 30590
    },
    {
      "epoch": 0.153,
      "grad_norm": 0.515625,
      "learning_rate": 0.0025537688442211054,
      "loss": 2.2852,
      "step": 30600
    },
    {
      "epoch": 0.15305,
      "grad_norm": 0.5,
      "learning_rate": 0.0025536180904522613,
      "loss": 2.3334,
      "step": 30610
    },
    {
      "epoch": 0.1531,
      "grad_norm": 0.421875,
      "learning_rate": 0.002553467336683417,
      "loss": 2.2606,
      "step": 30620
    },
    {
      "epoch": 0.15315,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002553316582914573,
      "loss": 2.3221,
      "step": 30630
    },
    {
      "epoch": 0.1532,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025531658291457287,
      "loss": 2.2727,
      "step": 30640
    },
    {
      "epoch": 0.15325,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025530150753768845,
      "loss": 2.3384,
      "step": 30650
    },
    {
      "epoch": 0.1533,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025528643216080403,
      "loss": 2.3179,
      "step": 30660
    },
    {
      "epoch": 0.15335,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002552713567839196,
      "loss": 2.2861,
      "step": 30670
    },
    {
      "epoch": 0.1534,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002552562814070352,
      "loss": 2.3287,
      "step": 30680
    },
    {
      "epoch": 0.15345,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0025524120603015077,
      "loss": 2.3001,
      "step": 30690
    },
    {
      "epoch": 0.1535,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025522613065326635,
      "loss": 2.2742,
      "step": 30700
    },
    {
      "epoch": 0.15355,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0025521105527638193,
      "loss": 2.3006,
      "step": 30710
    },
    {
      "epoch": 0.1536,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025519597989949747,
      "loss": 2.281,
      "step": 30720
    },
    {
      "epoch": 0.15365,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025518090452261305,
      "loss": 2.2577,
      "step": 30730
    },
    {
      "epoch": 0.1537,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025516582914572867,
      "loss": 2.3156,
      "step": 30740
    },
    {
      "epoch": 0.15375,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002551507537688442,
      "loss": 2.3195,
      "step": 30750
    },
    {
      "epoch": 0.1538,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002551356783919598,
      "loss": 2.3111,
      "step": 30760
    },
    {
      "epoch": 0.15385,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025512060301507537,
      "loss": 2.2945,
      "step": 30770
    },
    {
      "epoch": 0.1539,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0025510552763819095,
      "loss": 2.2873,
      "step": 30780
    },
    {
      "epoch": 0.15395,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025509045226130653,
      "loss": 2.2803,
      "step": 30790
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002550753768844221,
      "loss": 2.315,
      "step": 30800
    },
    {
      "epoch": 0.15405,
      "grad_norm": 0.53125,
      "learning_rate": 0.002550603015075377,
      "loss": 2.2816,
      "step": 30810
    },
    {
      "epoch": 0.1541,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0025504522613065328,
      "loss": 2.2574,
      "step": 30820
    },
    {
      "epoch": 0.15415,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0025503015075376886,
      "loss": 2.2256,
      "step": 30830
    },
    {
      "epoch": 0.1542,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0025501507537688444,
      "loss": 2.2999,
      "step": 30840
    },
    {
      "epoch": 0.15425,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00255,
      "loss": 2.2938,
      "step": 30850
    },
    {
      "epoch": 0.1543,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002549849246231156,
      "loss": 2.2544,
      "step": 30860
    },
    {
      "epoch": 0.15435,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002549698492462312,
      "loss": 2.3009,
      "step": 30870
    },
    {
      "epoch": 0.1544,
      "grad_norm": 0.41015625,
      "learning_rate": 0.002549547738693467,
      "loss": 2.2776,
      "step": 30880
    },
    {
      "epoch": 0.15445,
      "grad_norm": 0.46875,
      "learning_rate": 0.002549396984924623,
      "loss": 2.2806,
      "step": 30890
    },
    {
      "epoch": 0.1545,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025492462311557792,
      "loss": 2.2575,
      "step": 30900
    },
    {
      "epoch": 0.15455,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0025490954773869346,
      "loss": 2.2867,
      "step": 30910
    },
    {
      "epoch": 0.1546,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025489447236180904,
      "loss": 2.2926,
      "step": 30920
    },
    {
      "epoch": 0.15465,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002548793969849246,
      "loss": 2.2672,
      "step": 30930
    },
    {
      "epoch": 0.1547,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002548643216080402,
      "loss": 2.2737,
      "step": 30940
    },
    {
      "epoch": 0.15475,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002548492462311558,
      "loss": 2.2672,
      "step": 30950
    },
    {
      "epoch": 0.1548,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025483417085427136,
      "loss": 2.2683,
      "step": 30960
    },
    {
      "epoch": 0.15485,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025481909547738694,
      "loss": 2.2644,
      "step": 30970
    },
    {
      "epoch": 0.1549,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0025480402010050252,
      "loss": 2.3076,
      "step": 30980
    },
    {
      "epoch": 0.15495,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002547889447236181,
      "loss": 2.2748,
      "step": 30990
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002547738693467337,
      "loss": 2.3132,
      "step": 31000
    },
    {
      "epoch": 0.15505,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025475879396984927,
      "loss": 2.319,
      "step": 31010
    },
    {
      "epoch": 0.1551,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0025474371859296485,
      "loss": 2.2834,
      "step": 31020
    },
    {
      "epoch": 0.15515,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025472864321608043,
      "loss": 2.2708,
      "step": 31030
    },
    {
      "epoch": 0.1552,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025471356783919596,
      "loss": 2.2993,
      "step": 31040
    },
    {
      "epoch": 0.15525,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025469849246231155,
      "loss": 2.3548,
      "step": 31050
    },
    {
      "epoch": 0.1553,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025468341708542717,
      "loss": 2.317,
      "step": 31060
    },
    {
      "epoch": 0.15535,
      "grad_norm": 0.453125,
      "learning_rate": 0.002546683417085427,
      "loss": 2.3142,
      "step": 31070
    },
    {
      "epoch": 0.1554,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002546532663316583,
      "loss": 2.3194,
      "step": 31080
    },
    {
      "epoch": 0.15545,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0025463819095477387,
      "loss": 2.2692,
      "step": 31090
    },
    {
      "epoch": 0.1555,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025462311557788945,
      "loss": 2.3175,
      "step": 31100
    },
    {
      "epoch": 0.15555,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025460804020100503,
      "loss": 2.2435,
      "step": 31110
    },
    {
      "epoch": 0.1556,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002545929648241206,
      "loss": 2.3198,
      "step": 31120
    },
    {
      "epoch": 0.15565,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002545778894472362,
      "loss": 2.3099,
      "step": 31130
    },
    {
      "epoch": 0.1557,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025456281407035177,
      "loss": 2.3015,
      "step": 31140
    },
    {
      "epoch": 0.15575,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0025454773869346735,
      "loss": 2.2711,
      "step": 31150
    },
    {
      "epoch": 0.1558,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025453266331658293,
      "loss": 2.2463,
      "step": 31160
    },
    {
      "epoch": 0.15585,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025451758793969847,
      "loss": 2.3045,
      "step": 31170
    },
    {
      "epoch": 0.1559,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0025450251256281405,
      "loss": 2.2977,
      "step": 31180
    },
    {
      "epoch": 0.15595,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025448743718592967,
      "loss": 2.2863,
      "step": 31190
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002544723618090452,
      "loss": 2.2649,
      "step": 31200
    },
    {
      "epoch": 0.15605,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002544572864321608,
      "loss": 2.2619,
      "step": 31210
    },
    {
      "epoch": 0.1561,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002544422110552764,
      "loss": 2.2991,
      "step": 31220
    },
    {
      "epoch": 0.15615,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025442713567839195,
      "loss": 2.2925,
      "step": 31230
    },
    {
      "epoch": 0.1562,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0025441206030150753,
      "loss": 2.295,
      "step": 31240
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002543969849246231,
      "loss": 2.2306,
      "step": 31250
    },
    {
      "epoch": 0.1563,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002543819095477387,
      "loss": 2.3547,
      "step": 31260
    },
    {
      "epoch": 0.15635,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025436683417085428,
      "loss": 2.2636,
      "step": 31270
    },
    {
      "epoch": 0.1564,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025435175879396986,
      "loss": 2.2525,
      "step": 31280
    },
    {
      "epoch": 0.15645,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0025433668341708544,
      "loss": 2.3091,
      "step": 31290
    },
    {
      "epoch": 0.1565,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00254321608040201,
      "loss": 2.2972,
      "step": 31300
    },
    {
      "epoch": 0.15655,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002543065326633166,
      "loss": 2.3027,
      "step": 31310
    },
    {
      "epoch": 0.1566,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002542914572864322,
      "loss": 2.2633,
      "step": 31320
    },
    {
      "epoch": 0.15665,
      "grad_norm": 0.484375,
      "learning_rate": 0.002542763819095477,
      "loss": 2.29,
      "step": 31330
    },
    {
      "epoch": 0.1567,
      "grad_norm": 0.46875,
      "learning_rate": 0.002542613065326633,
      "loss": 2.3282,
      "step": 31340
    },
    {
      "epoch": 0.15675,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0025424623115577892,
      "loss": 2.3196,
      "step": 31350
    },
    {
      "epoch": 0.1568,
      "grad_norm": 0.46875,
      "learning_rate": 0.0025423115577889446,
      "loss": 2.3095,
      "step": 31360
    },
    {
      "epoch": 0.15685,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025421608040201004,
      "loss": 2.3112,
      "step": 31370
    },
    {
      "epoch": 0.1569,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002542010050251256,
      "loss": 2.306,
      "step": 31380
    },
    {
      "epoch": 0.15695,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002541859296482412,
      "loss": 2.2869,
      "step": 31390
    },
    {
      "epoch": 0.157,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002541708542713568,
      "loss": 2.2214,
      "step": 31400
    },
    {
      "epoch": 0.15705,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0025415577889447236,
      "loss": 2.3206,
      "step": 31410
    },
    {
      "epoch": 0.1571,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0025414070351758794,
      "loss": 2.2713,
      "step": 31420
    },
    {
      "epoch": 0.15715,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0025412562814070352,
      "loss": 2.2925,
      "step": 31430
    },
    {
      "epoch": 0.1572,
      "grad_norm": 0.4375,
      "learning_rate": 0.002541105527638191,
      "loss": 2.3045,
      "step": 31440
    },
    {
      "epoch": 0.15725,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002540954773869347,
      "loss": 2.2621,
      "step": 31450
    },
    {
      "epoch": 0.1573,
      "grad_norm": 0.384765625,
      "learning_rate": 0.0025408040201005027,
      "loss": 2.2954,
      "step": 31460
    },
    {
      "epoch": 0.15735,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0025406532663316585,
      "loss": 2.2705,
      "step": 31470
    },
    {
      "epoch": 0.1574,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0025405025125628143,
      "loss": 2.2833,
      "step": 31480
    },
    {
      "epoch": 0.15745,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0025403517587939697,
      "loss": 2.3225,
      "step": 31490
    },
    {
      "epoch": 0.1575,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0025402010050251255,
      "loss": 2.3351,
      "step": 31500
    },
    {
      "epoch": 0.15755,
      "grad_norm": 0.390625,
      "learning_rate": 0.0025400502512562817,
      "loss": 2.3226,
      "step": 31510
    },
    {
      "epoch": 0.1576,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002539899497487437,
      "loss": 2.2873,
      "step": 31520
    },
    {
      "epoch": 0.15765,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002539748743718593,
      "loss": 2.2876,
      "step": 31530
    },
    {
      "epoch": 0.1577,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0025395979899497487,
      "loss": 2.3291,
      "step": 31540
    },
    {
      "epoch": 0.15775,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025394472361809045,
      "loss": 2.3335,
      "step": 31550
    },
    {
      "epoch": 0.1578,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0025392964824120603,
      "loss": 2.3225,
      "step": 31560
    },
    {
      "epoch": 0.15785,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002539145728643216,
      "loss": 2.3251,
      "step": 31570
    },
    {
      "epoch": 0.1579,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002538994974874372,
      "loss": 2.3106,
      "step": 31580
    },
    {
      "epoch": 0.15795,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0025388442211055277,
      "loss": 2.3166,
      "step": 31590
    },
    {
      "epoch": 0.158,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0025386934673366835,
      "loss": 2.3213,
      "step": 31600
    },
    {
      "epoch": 0.15805,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0025385427135678393,
      "loss": 2.3308,
      "step": 31610
    },
    {
      "epoch": 0.1581,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002538391959798995,
      "loss": 2.2883,
      "step": 31620
    },
    {
      "epoch": 0.15815,
      "grad_norm": 0.46875,
      "learning_rate": 0.002538241206030151,
      "loss": 2.3322,
      "step": 31630
    },
    {
      "epoch": 0.1582,
      "grad_norm": 0.546875,
      "learning_rate": 0.0025380904522613068,
      "loss": 2.2917,
      "step": 31640
    },
    {
      "epoch": 0.15825,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002537939698492462,
      "loss": 2.2623,
      "step": 31650
    },
    {
      "epoch": 0.1583,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002537788944723618,
      "loss": 2.2677,
      "step": 31660
    },
    {
      "epoch": 0.15835,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002537638190954774,
      "loss": 2.2614,
      "step": 31670
    },
    {
      "epoch": 0.1584,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0025374874371859295,
      "loss": 2.2871,
      "step": 31680
    },
    {
      "epoch": 0.15845,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025373366834170854,
      "loss": 2.3104,
      "step": 31690
    },
    {
      "epoch": 0.1585,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002537185929648241,
      "loss": 2.3126,
      "step": 31700
    },
    {
      "epoch": 0.15855,
      "grad_norm": 0.5,
      "learning_rate": 0.002537035175879397,
      "loss": 2.3024,
      "step": 31710
    },
    {
      "epoch": 0.1586,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0025368844221105528,
      "loss": 2.3155,
      "step": 31720
    },
    {
      "epoch": 0.15865,
      "grad_norm": 0.46875,
      "learning_rate": 0.0025367336683417086,
      "loss": 2.3071,
      "step": 31730
    },
    {
      "epoch": 0.1587,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0025365829145728644,
      "loss": 2.3088,
      "step": 31740
    },
    {
      "epoch": 0.15875,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00253643216080402,
      "loss": 2.257,
      "step": 31750
    },
    {
      "epoch": 0.1588,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002536281407035176,
      "loss": 2.3274,
      "step": 31760
    },
    {
      "epoch": 0.15885,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002536130653266332,
      "loss": 2.3205,
      "step": 31770
    },
    {
      "epoch": 0.1589,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0025359798994974876,
      "loss": 2.2943,
      "step": 31780
    },
    {
      "epoch": 0.15895,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0025358291457286434,
      "loss": 2.277,
      "step": 31790
    },
    {
      "epoch": 0.159,
      "grad_norm": 0.484375,
      "learning_rate": 0.0025356783919597992,
      "loss": 2.2976,
      "step": 31800
    },
    {
      "epoch": 0.15905,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0025355276381909546,
      "loss": 2.2597,
      "step": 31810
    },
    {
      "epoch": 0.1591,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025353768844221104,
      "loss": 2.3102,
      "step": 31820
    },
    {
      "epoch": 0.15915,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0025352261306532667,
      "loss": 2.2719,
      "step": 31830
    },
    {
      "epoch": 0.1592,
      "grad_norm": 0.412109375,
      "learning_rate": 0.002535075376884422,
      "loss": 2.2839,
      "step": 31840
    },
    {
      "epoch": 0.15925,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002534924623115578,
      "loss": 2.2409,
      "step": 31850
    },
    {
      "epoch": 0.1593,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025347738693467336,
      "loss": 2.2619,
      "step": 31860
    },
    {
      "epoch": 0.15935,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0025346231155778894,
      "loss": 2.2872,
      "step": 31870
    },
    {
      "epoch": 0.1594,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0025344723618090453,
      "loss": 2.3324,
      "step": 31880
    },
    {
      "epoch": 0.15945,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002534321608040201,
      "loss": 2.3433,
      "step": 31890
    },
    {
      "epoch": 0.1595,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002534170854271357,
      "loss": 2.3026,
      "step": 31900
    },
    {
      "epoch": 0.15955,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025340201005025127,
      "loss": 2.2896,
      "step": 31910
    },
    {
      "epoch": 0.1596,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0025338693467336685,
      "loss": 2.2698,
      "step": 31920
    },
    {
      "epoch": 0.15965,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0025337185929648243,
      "loss": 2.2778,
      "step": 31930
    },
    {
      "epoch": 0.1597,
      "grad_norm": 0.42578125,
      "learning_rate": 0.00253356783919598,
      "loss": 2.2958,
      "step": 31940
    },
    {
      "epoch": 0.15975,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002533417085427136,
      "loss": 2.316,
      "step": 31950
    },
    {
      "epoch": 0.1598,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025332663316582917,
      "loss": 2.2861,
      "step": 31960
    },
    {
      "epoch": 0.15985,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002533115577889447,
      "loss": 2.2566,
      "step": 31970
    },
    {
      "epoch": 0.1599,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002532964824120603,
      "loss": 2.2893,
      "step": 31980
    },
    {
      "epoch": 0.15995,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002532814070351759,
      "loss": 2.2892,
      "step": 31990
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025326633165829145,
      "loss": 2.3022,
      "step": 32000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.2819643020629883,
      "eval_runtime": 49.3298,
      "eval_samples_per_second": 50.679,
      "eval_steps_per_second": 0.101,
      "step": 32000
    },
    {
      "epoch": 0.16005,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0025325125628140703,
      "loss": 2.3349,
      "step": 32010
    },
    {
      "epoch": 0.1601,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002532361809045226,
      "loss": 2.3137,
      "step": 32020
    },
    {
      "epoch": 0.16015,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002532211055276382,
      "loss": 2.2918,
      "step": 32030
    },
    {
      "epoch": 0.1602,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0025320603015075377,
      "loss": 2.2851,
      "step": 32040
    },
    {
      "epoch": 0.16025,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025319095477386935,
      "loss": 2.2842,
      "step": 32050
    },
    {
      "epoch": 0.1603,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0025317587939698493,
      "loss": 2.295,
      "step": 32060
    },
    {
      "epoch": 0.16035,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002531608040201005,
      "loss": 2.3082,
      "step": 32070
    },
    {
      "epoch": 0.1604,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002531457286432161,
      "loss": 2.2852,
      "step": 32080
    },
    {
      "epoch": 0.16045,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0025313065326633168,
      "loss": 2.3116,
      "step": 32090
    },
    {
      "epoch": 0.1605,
      "grad_norm": 0.421875,
      "learning_rate": 0.002531155778894472,
      "loss": 2.2715,
      "step": 32100
    },
    {
      "epoch": 0.16055,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025310050251256284,
      "loss": 2.3041,
      "step": 32110
    },
    {
      "epoch": 0.1606,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002530854271356784,
      "loss": 2.2757,
      "step": 32120
    },
    {
      "epoch": 0.16065,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0025307035175879396,
      "loss": 2.2684,
      "step": 32130
    },
    {
      "epoch": 0.1607,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0025305527638190954,
      "loss": 2.2998,
      "step": 32140
    },
    {
      "epoch": 0.16075,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0025304020100502516,
      "loss": 2.2893,
      "step": 32150
    },
    {
      "epoch": 0.1608,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002530251256281407,
      "loss": 2.309,
      "step": 32160
    },
    {
      "epoch": 0.16085,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0025301005025125628,
      "loss": 2.3029,
      "step": 32170
    },
    {
      "epoch": 0.1609,
      "grad_norm": 0.484375,
      "learning_rate": 0.0025299497487437186,
      "loss": 2.3405,
      "step": 32180
    },
    {
      "epoch": 0.16095,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0025297989949748744,
      "loss": 2.2488,
      "step": 32190
    },
    {
      "epoch": 0.161,
      "grad_norm": 0.44140625,
      "learning_rate": 0.00252964824120603,
      "loss": 2.2558,
      "step": 32200
    },
    {
      "epoch": 0.16105,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002529497487437186,
      "loss": 2.2835,
      "step": 32210
    },
    {
      "epoch": 0.1611,
      "grad_norm": 0.4375,
      "learning_rate": 0.002529346733668342,
      "loss": 2.2855,
      "step": 32220
    },
    {
      "epoch": 0.16115,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0025291959798994976,
      "loss": 2.2716,
      "step": 32230
    },
    {
      "epoch": 0.1612,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0025290452261306534,
      "loss": 2.3385,
      "step": 32240
    },
    {
      "epoch": 0.16125,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0025288944723618092,
      "loss": 2.2429,
      "step": 32250
    },
    {
      "epoch": 0.1613,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0025287437185929646,
      "loss": 2.2827,
      "step": 32260
    },
    {
      "epoch": 0.16135,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025285929648241204,
      "loss": 2.2725,
      "step": 32270
    },
    {
      "epoch": 0.1614,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0025284422110552767,
      "loss": 2.2788,
      "step": 32280
    },
    {
      "epoch": 0.16145,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002528291457286432,
      "loss": 2.3267,
      "step": 32290
    },
    {
      "epoch": 0.1615,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002528140703517588,
      "loss": 2.2862,
      "step": 32300
    },
    {
      "epoch": 0.16155,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025279899497487436,
      "loss": 2.3001,
      "step": 32310
    },
    {
      "epoch": 0.1616,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025278391959798995,
      "loss": 2.2869,
      "step": 32320
    },
    {
      "epoch": 0.16165,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025276884422110553,
      "loss": 2.3209,
      "step": 32330
    },
    {
      "epoch": 0.1617,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002527537688442211,
      "loss": 2.3049,
      "step": 32340
    },
    {
      "epoch": 0.16175,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002527386934673367,
      "loss": 2.2926,
      "step": 32350
    },
    {
      "epoch": 0.1618,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0025272361809045227,
      "loss": 2.2622,
      "step": 32360
    },
    {
      "epoch": 0.16185,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0025270854271356785,
      "loss": 2.2869,
      "step": 32370
    },
    {
      "epoch": 0.1619,
      "grad_norm": 0.3984375,
      "learning_rate": 0.0025269346733668343,
      "loss": 2.2874,
      "step": 32380
    },
    {
      "epoch": 0.16195,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00252678391959799,
      "loss": 2.3454,
      "step": 32390
    },
    {
      "epoch": 0.162,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002526633165829146,
      "loss": 2.2422,
      "step": 32400
    },
    {
      "epoch": 0.16205,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025264824120603017,
      "loss": 2.3233,
      "step": 32410
    },
    {
      "epoch": 0.1621,
      "grad_norm": 0.5,
      "learning_rate": 0.002526331658291457,
      "loss": 2.2625,
      "step": 32420
    },
    {
      "epoch": 0.16215,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002526180904522613,
      "loss": 2.2901,
      "step": 32430
    },
    {
      "epoch": 0.1622,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002526030150753769,
      "loss": 2.272,
      "step": 32440
    },
    {
      "epoch": 0.16225,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0025258793969849245,
      "loss": 2.3198,
      "step": 32450
    },
    {
      "epoch": 0.1623,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025257286432160803,
      "loss": 2.3405,
      "step": 32460
    },
    {
      "epoch": 0.16235,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002525577889447236,
      "loss": 2.2717,
      "step": 32470
    },
    {
      "epoch": 0.1624,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002525427135678392,
      "loss": 2.2552,
      "step": 32480
    },
    {
      "epoch": 0.16245,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0025252763819095477,
      "loss": 2.2832,
      "step": 32490
    },
    {
      "epoch": 0.1625,
      "grad_norm": 0.546875,
      "learning_rate": 0.0025251256281407035,
      "loss": 2.27,
      "step": 32500
    },
    {
      "epoch": 0.16255,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025249748743718593,
      "loss": 2.2922,
      "step": 32510
    },
    {
      "epoch": 0.1626,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002524824120603015,
      "loss": 2.3031,
      "step": 32520
    },
    {
      "epoch": 0.16265,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002524673366834171,
      "loss": 2.3029,
      "step": 32530
    },
    {
      "epoch": 0.1627,
      "grad_norm": 0.5,
      "learning_rate": 0.0025245226130653268,
      "loss": 2.2757,
      "step": 32540
    },
    {
      "epoch": 0.16275,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025243718592964826,
      "loss": 2.2486,
      "step": 32550
    },
    {
      "epoch": 0.1628,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0025242211055276384,
      "loss": 2.2758,
      "step": 32560
    },
    {
      "epoch": 0.16285,
      "grad_norm": 0.408203125,
      "learning_rate": 0.002524070351758794,
      "loss": 2.2758,
      "step": 32570
    },
    {
      "epoch": 0.1629,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0025239195979899496,
      "loss": 2.2471,
      "step": 32580
    },
    {
      "epoch": 0.16295,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025237688442211054,
      "loss": 2.2778,
      "step": 32590
    },
    {
      "epoch": 0.163,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0025236180904522616,
      "loss": 2.2863,
      "step": 32600
    },
    {
      "epoch": 0.16305,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002523467336683417,
      "loss": 2.2754,
      "step": 32610
    },
    {
      "epoch": 0.1631,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002523316582914573,
      "loss": 2.2907,
      "step": 32620
    },
    {
      "epoch": 0.16315,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025231658291457286,
      "loss": 2.3126,
      "step": 32630
    },
    {
      "epoch": 0.1632,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0025230150753768844,
      "loss": 2.2842,
      "step": 32640
    },
    {
      "epoch": 0.16325,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00252286432160804,
      "loss": 2.3104,
      "step": 32650
    },
    {
      "epoch": 0.1633,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002522713567839196,
      "loss": 2.3346,
      "step": 32660
    },
    {
      "epoch": 0.16335,
      "grad_norm": 0.421875,
      "learning_rate": 0.002522562814070352,
      "loss": 2.2433,
      "step": 32670
    },
    {
      "epoch": 0.1634,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0025224120603015076,
      "loss": 2.3242,
      "step": 32680
    },
    {
      "epoch": 0.16345,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0025222613065326634,
      "loss": 2.2451,
      "step": 32690
    },
    {
      "epoch": 0.1635,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0025221105527638192,
      "loss": 2.2831,
      "step": 32700
    },
    {
      "epoch": 0.16355,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002521959798994975,
      "loss": 2.2878,
      "step": 32710
    },
    {
      "epoch": 0.1636,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002521809045226131,
      "loss": 2.2292,
      "step": 32720
    },
    {
      "epoch": 0.16365,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0025216582914572867,
      "loss": 2.3222,
      "step": 32730
    },
    {
      "epoch": 0.1637,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002521507537688442,
      "loss": 2.3146,
      "step": 32740
    },
    {
      "epoch": 0.16375,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002521356783919598,
      "loss": 2.2916,
      "step": 32750
    },
    {
      "epoch": 0.1638,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002521206030150754,
      "loss": 2.2968,
      "step": 32760
    },
    {
      "epoch": 0.16385,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0025210552763819095,
      "loss": 2.2895,
      "step": 32770
    },
    {
      "epoch": 0.1639,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0025209045226130653,
      "loss": 2.2918,
      "step": 32780
    },
    {
      "epoch": 0.16395,
      "grad_norm": 0.421875,
      "learning_rate": 0.002520753768844221,
      "loss": 2.3226,
      "step": 32790
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002520603015075377,
      "loss": 2.2459,
      "step": 32800
    },
    {
      "epoch": 0.16405,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025204522613065327,
      "loss": 2.2918,
      "step": 32810
    },
    {
      "epoch": 0.1641,
      "grad_norm": 0.484375,
      "learning_rate": 0.0025203015075376885,
      "loss": 2.2741,
      "step": 32820
    },
    {
      "epoch": 0.16415,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0025201507537688443,
      "loss": 2.3153,
      "step": 32830
    },
    {
      "epoch": 0.1642,
      "grad_norm": 0.4921875,
      "learning_rate": 0.00252,
      "loss": 2.26,
      "step": 32840
    },
    {
      "epoch": 0.16425,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002519849246231156,
      "loss": 2.2821,
      "step": 32850
    },
    {
      "epoch": 0.1643,
      "grad_norm": 0.5,
      "learning_rate": 0.0025196984924623117,
      "loss": 2.3249,
      "step": 32860
    },
    {
      "epoch": 0.16435,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025195477386934675,
      "loss": 2.2976,
      "step": 32870
    },
    {
      "epoch": 0.1644,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0025193969849246233,
      "loss": 2.3598,
      "step": 32880
    },
    {
      "epoch": 0.16445,
      "grad_norm": 0.4375,
      "learning_rate": 0.002519246231155779,
      "loss": 2.2661,
      "step": 32890
    },
    {
      "epoch": 0.1645,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025190954773869345,
      "loss": 2.256,
      "step": 32900
    },
    {
      "epoch": 0.16455,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0025189447236180903,
      "loss": 2.3013,
      "step": 32910
    },
    {
      "epoch": 0.1646,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025187939698492466,
      "loss": 2.2603,
      "step": 32920
    },
    {
      "epoch": 0.16465,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002518643216080402,
      "loss": 2.3063,
      "step": 32930
    },
    {
      "epoch": 0.1647,
      "grad_norm": 0.53125,
      "learning_rate": 0.0025184924623115577,
      "loss": 2.2873,
      "step": 32940
    },
    {
      "epoch": 0.16475,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025183417085427135,
      "loss": 2.3279,
      "step": 32950
    },
    {
      "epoch": 0.1648,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0025181909547738694,
      "loss": 2.3143,
      "step": 32960
    },
    {
      "epoch": 0.16485,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002518040201005025,
      "loss": 2.2613,
      "step": 32970
    },
    {
      "epoch": 0.1649,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002517889447236181,
      "loss": 2.2702,
      "step": 32980
    },
    {
      "epoch": 0.16495,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0025177386934673368,
      "loss": 2.3283,
      "step": 32990
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025175879396984926,
      "loss": 2.2464,
      "step": 33000
    },
    {
      "epoch": 0.16505,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0025174371859296484,
      "loss": 2.3027,
      "step": 33010
    },
    {
      "epoch": 0.1651,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002517286432160804,
      "loss": 2.2887,
      "step": 33020
    },
    {
      "epoch": 0.16515,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0025171356783919596,
      "loss": 2.2773,
      "step": 33030
    },
    {
      "epoch": 0.1652,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002516984924623116,
      "loss": 2.2938,
      "step": 33040
    },
    {
      "epoch": 0.16525,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0025168341708542716,
      "loss": 2.2975,
      "step": 33050
    },
    {
      "epoch": 0.1653,
      "grad_norm": 0.484375,
      "learning_rate": 0.002516683417085427,
      "loss": 2.2783,
      "step": 33060
    },
    {
      "epoch": 0.16535,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002516532663316583,
      "loss": 2.3145,
      "step": 33070
    },
    {
      "epoch": 0.1654,
      "grad_norm": 0.53125,
      "learning_rate": 0.002516381909547739,
      "loss": 2.2639,
      "step": 33080
    },
    {
      "epoch": 0.16545,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0025162311557788944,
      "loss": 2.2928,
      "step": 33090
    },
    {
      "epoch": 0.1655,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00251608040201005,
      "loss": 2.2845,
      "step": 33100
    },
    {
      "epoch": 0.16555,
      "grad_norm": 0.53125,
      "learning_rate": 0.002515929648241206,
      "loss": 2.253,
      "step": 33110
    },
    {
      "epoch": 0.1656,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002515778894472362,
      "loss": 2.2701,
      "step": 33120
    },
    {
      "epoch": 0.16565,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0025156281407035176,
      "loss": 2.2802,
      "step": 33130
    },
    {
      "epoch": 0.1657,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025154773869346734,
      "loss": 2.2759,
      "step": 33140
    },
    {
      "epoch": 0.16575,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0025153266331658292,
      "loss": 2.2932,
      "step": 33150
    },
    {
      "epoch": 0.1658,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002515175879396985,
      "loss": 2.262,
      "step": 33160
    },
    {
      "epoch": 0.16585,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002515025125628141,
      "loss": 2.2959,
      "step": 33170
    },
    {
      "epoch": 0.1659,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0025148743718592967,
      "loss": 2.2997,
      "step": 33180
    },
    {
      "epoch": 0.16595,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002514723618090452,
      "loss": 2.2872,
      "step": 33190
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025145728643216083,
      "loss": 2.2963,
      "step": 33200
    },
    {
      "epoch": 0.16605,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002514422110552764,
      "loss": 2.3014,
      "step": 33210
    },
    {
      "epoch": 0.1661,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025142713567839195,
      "loss": 2.2655,
      "step": 33220
    },
    {
      "epoch": 0.16615,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0025141206030150753,
      "loss": 2.2168,
      "step": 33230
    },
    {
      "epoch": 0.1662,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002513969849246231,
      "loss": 2.2729,
      "step": 33240
    },
    {
      "epoch": 0.16625,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002513819095477387,
      "loss": 2.2497,
      "step": 33250
    },
    {
      "epoch": 0.1663,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025136683417085427,
      "loss": 2.2873,
      "step": 33260
    },
    {
      "epoch": 0.16635,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0025135175879396985,
      "loss": 2.2933,
      "step": 33270
    },
    {
      "epoch": 0.1664,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0025133668341708543,
      "loss": 2.2865,
      "step": 33280
    },
    {
      "epoch": 0.16645,
      "grad_norm": 0.5,
      "learning_rate": 0.00251321608040201,
      "loss": 2.2681,
      "step": 33290
    },
    {
      "epoch": 0.1665,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002513065326633166,
      "loss": 2.3185,
      "step": 33300
    },
    {
      "epoch": 0.16655,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025129145728643217,
      "loss": 2.3029,
      "step": 33310
    },
    {
      "epoch": 0.1666,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0025127638190954775,
      "loss": 2.3137,
      "step": 33320
    },
    {
      "epoch": 0.16665,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025126130653266333,
      "loss": 2.298,
      "step": 33330
    },
    {
      "epoch": 0.1667,
      "grad_norm": 0.4375,
      "learning_rate": 0.002512462311557789,
      "loss": 2.2397,
      "step": 33340
    },
    {
      "epoch": 0.16675,
      "grad_norm": 0.515625,
      "learning_rate": 0.0025123115577889445,
      "loss": 2.2958,
      "step": 33350
    },
    {
      "epoch": 0.1668,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0025121608040201008,
      "loss": 2.2709,
      "step": 33360
    },
    {
      "epoch": 0.16685,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025120100502512566,
      "loss": 2.2729,
      "step": 33370
    },
    {
      "epoch": 0.1669,
      "grad_norm": 0.453125,
      "learning_rate": 0.002511859296482412,
      "loss": 2.2876,
      "step": 33380
    },
    {
      "epoch": 0.16695,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0025117085427135677,
      "loss": 2.2584,
      "step": 33390
    },
    {
      "epoch": 0.167,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0025115577889447236,
      "loss": 2.2608,
      "step": 33400
    },
    {
      "epoch": 0.16705,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0025114070351758794,
      "loss": 2.2802,
      "step": 33410
    },
    {
      "epoch": 0.1671,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002511256281407035,
      "loss": 2.2627,
      "step": 33420
    },
    {
      "epoch": 0.16715,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002511105527638191,
      "loss": 2.2801,
      "step": 33430
    },
    {
      "epoch": 0.1672,
      "grad_norm": 0.46875,
      "learning_rate": 0.0025109547738693468,
      "loss": 2.2965,
      "step": 33440
    },
    {
      "epoch": 0.16725,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025108040201005026,
      "loss": 2.3091,
      "step": 33450
    },
    {
      "epoch": 0.1673,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0025106532663316584,
      "loss": 2.2734,
      "step": 33460
    },
    {
      "epoch": 0.16735,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002510502512562814,
      "loss": 2.3043,
      "step": 33470
    },
    {
      "epoch": 0.1674,
      "grad_norm": 0.46875,
      "learning_rate": 0.00251035175879397,
      "loss": 2.2976,
      "step": 33480
    },
    {
      "epoch": 0.16745,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002510201005025126,
      "loss": 2.305,
      "step": 33490
    },
    {
      "epoch": 0.1675,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0025100502512562816,
      "loss": 2.2888,
      "step": 33500
    },
    {
      "epoch": 0.16755,
      "grad_norm": 0.419921875,
      "learning_rate": 0.002509899497487437,
      "loss": 2.2841,
      "step": 33510
    },
    {
      "epoch": 0.1676,
      "grad_norm": 0.484375,
      "learning_rate": 0.002509748743718593,
      "loss": 2.281,
      "step": 33520
    },
    {
      "epoch": 0.16765,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002509597989949749,
      "loss": 2.2547,
      "step": 33530
    },
    {
      "epoch": 0.1677,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0025094472361809044,
      "loss": 2.2433,
      "step": 33540
    },
    {
      "epoch": 0.16775,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0025092964824120602,
      "loss": 2.3062,
      "step": 33550
    },
    {
      "epoch": 0.1678,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002509145728643216,
      "loss": 2.2588,
      "step": 33560
    },
    {
      "epoch": 0.16785,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002508994974874372,
      "loss": 2.2567,
      "step": 33570
    },
    {
      "epoch": 0.1679,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025088442211055276,
      "loss": 2.3009,
      "step": 33580
    },
    {
      "epoch": 0.16795,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0025086934673366834,
      "loss": 2.2483,
      "step": 33590
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0025085427135678393,
      "loss": 2.2393,
      "step": 33600
    },
    {
      "epoch": 0.16805,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002508391959798995,
      "loss": 2.3042,
      "step": 33610
    },
    {
      "epoch": 0.1681,
      "grad_norm": 0.515625,
      "learning_rate": 0.002508241206030151,
      "loss": 2.2856,
      "step": 33620
    },
    {
      "epoch": 0.16815,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0025080904522613067,
      "loss": 2.2553,
      "step": 33630
    },
    {
      "epoch": 0.1682,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0025079396984924625,
      "loss": 2.3172,
      "step": 33640
    },
    {
      "epoch": 0.16825,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0025077889447236183,
      "loss": 2.2648,
      "step": 33650
    },
    {
      "epoch": 0.1683,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002507638190954774,
      "loss": 2.2481,
      "step": 33660
    },
    {
      "epoch": 0.16835,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0025074874371859295,
      "loss": 2.2901,
      "step": 33670
    },
    {
      "epoch": 0.1684,
      "grad_norm": 0.46875,
      "learning_rate": 0.0025073366834170853,
      "loss": 2.2424,
      "step": 33680
    },
    {
      "epoch": 0.16845,
      "grad_norm": 0.421875,
      "learning_rate": 0.0025071859296482415,
      "loss": 2.2625,
      "step": 33690
    },
    {
      "epoch": 0.1685,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002507035175879397,
      "loss": 2.2693,
      "step": 33700
    },
    {
      "epoch": 0.16855,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025068844221105527,
      "loss": 2.2474,
      "step": 33710
    },
    {
      "epoch": 0.1686,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0025067336683417085,
      "loss": 2.2671,
      "step": 33720
    },
    {
      "epoch": 0.16865,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0025065829145728643,
      "loss": 2.3232,
      "step": 33730
    },
    {
      "epoch": 0.1687,
      "grad_norm": 0.4140625,
      "learning_rate": 0.00250643216080402,
      "loss": 2.2287,
      "step": 33740
    },
    {
      "epoch": 0.16875,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002506281407035176,
      "loss": 2.2987,
      "step": 33750
    },
    {
      "epoch": 0.1688,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0025061306532663317,
      "loss": 2.2989,
      "step": 33760
    },
    {
      "epoch": 0.16885,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0025059798994974875,
      "loss": 2.2477,
      "step": 33770
    },
    {
      "epoch": 0.1689,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0025058291457286433,
      "loss": 2.3453,
      "step": 33780
    },
    {
      "epoch": 0.16895,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002505678391959799,
      "loss": 2.3064,
      "step": 33790
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.5,
      "learning_rate": 0.002505527638190955,
      "loss": 2.3177,
      "step": 33800
    },
    {
      "epoch": 0.16905,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0025053768844221108,
      "loss": 2.2415,
      "step": 33810
    },
    {
      "epoch": 0.1691,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0025052261306532666,
      "loss": 2.2815,
      "step": 33820
    },
    {
      "epoch": 0.16915,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002505075376884422,
      "loss": 2.2743,
      "step": 33830
    },
    {
      "epoch": 0.1692,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025049246231155778,
      "loss": 2.2832,
      "step": 33840
    },
    {
      "epoch": 0.16925,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002504773869346734,
      "loss": 2.2928,
      "step": 33850
    },
    {
      "epoch": 0.1693,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025046231155778894,
      "loss": 2.3327,
      "step": 33860
    },
    {
      "epoch": 0.16935,
      "grad_norm": 0.453125,
      "learning_rate": 0.002504472361809045,
      "loss": 2.254,
      "step": 33870
    },
    {
      "epoch": 0.1694,
      "grad_norm": 0.453125,
      "learning_rate": 0.002504321608040201,
      "loss": 2.3071,
      "step": 33880
    },
    {
      "epoch": 0.16945,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002504170854271357,
      "loss": 2.2597,
      "step": 33890
    },
    {
      "epoch": 0.1695,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0025040201005025126,
      "loss": 2.3023,
      "step": 33900
    },
    {
      "epoch": 0.16955,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0025038693467336684,
      "loss": 2.3063,
      "step": 33910
    },
    {
      "epoch": 0.1696,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002503718592964824,
      "loss": 2.2788,
      "step": 33920
    },
    {
      "epoch": 0.16965,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00250356783919598,
      "loss": 2.3148,
      "step": 33930
    },
    {
      "epoch": 0.1697,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002503417085427136,
      "loss": 2.229,
      "step": 33940
    },
    {
      "epoch": 0.16975,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025032663316582916,
      "loss": 2.2554,
      "step": 33950
    },
    {
      "epoch": 0.1698,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002503115577889447,
      "loss": 2.3149,
      "step": 33960
    },
    {
      "epoch": 0.16985,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0025029648241206032,
      "loss": 2.2393,
      "step": 33970
    },
    {
      "epoch": 0.1699,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002502814070351759,
      "loss": 2.2961,
      "step": 33980
    },
    {
      "epoch": 0.16995,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0025026633165829144,
      "loss": 2.2777,
      "step": 33990
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0025025125628140702,
      "loss": 2.2558,
      "step": 34000
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.2635066509246826,
      "eval_runtime": 48.353,
      "eval_samples_per_second": 51.703,
      "eval_steps_per_second": 0.103,
      "step": 34000
    },
    {
      "epoch": 0.17005,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0025023618090452265,
      "loss": 2.2434,
      "step": 34010
    },
    {
      "epoch": 0.1701,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002502211055276382,
      "loss": 2.2506,
      "step": 34020
    },
    {
      "epoch": 0.17015,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0025020603015075376,
      "loss": 2.2705,
      "step": 34030
    },
    {
      "epoch": 0.1702,
      "grad_norm": 0.515625,
      "learning_rate": 0.0025019095477386935,
      "loss": 2.2501,
      "step": 34040
    },
    {
      "epoch": 0.17025,
      "grad_norm": 0.453125,
      "learning_rate": 0.0025017587939698493,
      "loss": 2.2789,
      "step": 34050
    },
    {
      "epoch": 0.1703,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002501608040201005,
      "loss": 2.2584,
      "step": 34060
    },
    {
      "epoch": 0.17035,
      "grad_norm": 0.390625,
      "learning_rate": 0.002501457286432161,
      "loss": 2.2347,
      "step": 34070
    },
    {
      "epoch": 0.1704,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0025013065326633167,
      "loss": 2.3271,
      "step": 34080
    },
    {
      "epoch": 0.17045,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0025011557788944725,
      "loss": 2.3571,
      "step": 34090
    },
    {
      "epoch": 0.1705,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0025010050251256283,
      "loss": 2.2596,
      "step": 34100
    },
    {
      "epoch": 0.17055,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002500854271356784,
      "loss": 2.2891,
      "step": 34110
    },
    {
      "epoch": 0.1706,
      "grad_norm": 0.4375,
      "learning_rate": 0.0025007035175879395,
      "loss": 2.276,
      "step": 34120
    },
    {
      "epoch": 0.17065,
      "grad_norm": 0.484375,
      "learning_rate": 0.0025005527638190957,
      "loss": 2.2778,
      "step": 34130
    },
    {
      "epoch": 0.1707,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0025004020100502515,
      "loss": 2.2788,
      "step": 34140
    },
    {
      "epoch": 0.17075,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002500251256281407,
      "loss": 2.2577,
      "step": 34150
    },
    {
      "epoch": 0.1708,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0025001005025125627,
      "loss": 2.3382,
      "step": 34160
    },
    {
      "epoch": 0.17085,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0024999497487437185,
      "loss": 2.2796,
      "step": 34170
    },
    {
      "epoch": 0.1709,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0024997989949748743,
      "loss": 2.2321,
      "step": 34180
    },
    {
      "epoch": 0.17095,
      "grad_norm": 0.400390625,
      "learning_rate": 0.00249964824120603,
      "loss": 2.3046,
      "step": 34190
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002499497487437186,
      "loss": 2.2533,
      "step": 34200
    },
    {
      "epoch": 0.17105,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0024993467336683417,
      "loss": 2.2642,
      "step": 34210
    },
    {
      "epoch": 0.1711,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0024991959798994975,
      "loss": 2.2541,
      "step": 34220
    },
    {
      "epoch": 0.17115,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0024990452261306534,
      "loss": 2.2585,
      "step": 34230
    },
    {
      "epoch": 0.1712,
      "grad_norm": 0.40625,
      "learning_rate": 0.002498894472361809,
      "loss": 2.3331,
      "step": 34240
    },
    {
      "epoch": 0.17125,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002498743718592965,
      "loss": 2.2679,
      "step": 34250
    },
    {
      "epoch": 0.1713,
      "grad_norm": 0.396484375,
      "learning_rate": 0.0024985929648241208,
      "loss": 2.2646,
      "step": 34260
    },
    {
      "epoch": 0.17135,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0024984422110552766,
      "loss": 2.2452,
      "step": 34270
    },
    {
      "epoch": 0.1714,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002498291457286432,
      "loss": 2.2658,
      "step": 34280
    },
    {
      "epoch": 0.17145,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002498140703517588,
      "loss": 2.3214,
      "step": 34290
    },
    {
      "epoch": 0.1715,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002497989949748744,
      "loss": 2.2758,
      "step": 34300
    },
    {
      "epoch": 0.17155,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0024978391959798994,
      "loss": 2.3121,
      "step": 34310
    },
    {
      "epoch": 0.1716,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002497688442211055,
      "loss": 2.254,
      "step": 34320
    },
    {
      "epoch": 0.17165,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002497537688442211,
      "loss": 2.288,
      "step": 34330
    },
    {
      "epoch": 0.1717,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002497386934673367,
      "loss": 2.2936,
      "step": 34340
    },
    {
      "epoch": 0.17175,
      "grad_norm": 0.546875,
      "learning_rate": 0.0024972361809045226,
      "loss": 2.2563,
      "step": 34350
    },
    {
      "epoch": 0.1718,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0024970854271356784,
      "loss": 2.2691,
      "step": 34360
    },
    {
      "epoch": 0.17185,
      "grad_norm": 0.484375,
      "learning_rate": 0.002496934673366834,
      "loss": 2.282,
      "step": 34370
    },
    {
      "epoch": 0.1719,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00249678391959799,
      "loss": 2.2754,
      "step": 34380
    },
    {
      "epoch": 0.17195,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002496633165829146,
      "loss": 2.3047,
      "step": 34390
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.40625,
      "learning_rate": 0.0024964824120603016,
      "loss": 2.2309,
      "step": 34400
    },
    {
      "epoch": 0.17205,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0024963316582914574,
      "loss": 2.2807,
      "step": 34410
    },
    {
      "epoch": 0.1721,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0024961809045226132,
      "loss": 2.256,
      "step": 34420
    },
    {
      "epoch": 0.17215,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002496030150753769,
      "loss": 2.2808,
      "step": 34430
    },
    {
      "epoch": 0.1722,
      "grad_norm": 0.408203125,
      "learning_rate": 0.0024958793969849244,
      "loss": 2.2273,
      "step": 34440
    },
    {
      "epoch": 0.17225,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0024957286432160807,
      "loss": 2.2854,
      "step": 34450
    },
    {
      "epoch": 0.1723,
      "grad_norm": 0.4375,
      "learning_rate": 0.0024955778894472365,
      "loss": 2.274,
      "step": 34460
    },
    {
      "epoch": 0.17235,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002495427135678392,
      "loss": 2.2708,
      "step": 34470
    },
    {
      "epoch": 0.1724,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024952763819095477,
      "loss": 2.2953,
      "step": 34480
    },
    {
      "epoch": 0.17245,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024951256281407035,
      "loss": 2.2925,
      "step": 34490
    },
    {
      "epoch": 0.1725,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0024949748743718593,
      "loss": 2.2823,
      "step": 34500
    },
    {
      "epoch": 0.17255,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002494824120603015,
      "loss": 2.2219,
      "step": 34510
    },
    {
      "epoch": 0.1726,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002494673366834171,
      "loss": 2.2564,
      "step": 34520
    },
    {
      "epoch": 0.17265,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024945226130653267,
      "loss": 2.2271,
      "step": 34530
    },
    {
      "epoch": 0.1727,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024943718592964825,
      "loss": 2.2915,
      "step": 34540
    },
    {
      "epoch": 0.17275,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0024942211055276383,
      "loss": 2.3125,
      "step": 34550
    },
    {
      "epoch": 0.1728,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002494070351758794,
      "loss": 2.2665,
      "step": 34560
    },
    {
      "epoch": 0.17285,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00249391959798995,
      "loss": 2.3275,
      "step": 34570
    },
    {
      "epoch": 0.1729,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024937688442211057,
      "loss": 2.2234,
      "step": 34580
    },
    {
      "epoch": 0.17295,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024936180904522615,
      "loss": 2.238,
      "step": 34590
    },
    {
      "epoch": 0.173,
      "grad_norm": 0.5,
      "learning_rate": 0.002493467336683417,
      "loss": 2.2934,
      "step": 34600
    },
    {
      "epoch": 0.17305,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0024933165829145727,
      "loss": 2.2536,
      "step": 34610
    },
    {
      "epoch": 0.1731,
      "grad_norm": 0.453125,
      "learning_rate": 0.002493165829145729,
      "loss": 2.2923,
      "step": 34620
    },
    {
      "epoch": 0.17315,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0024930150753768843,
      "loss": 2.263,
      "step": 34630
    },
    {
      "epoch": 0.1732,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00249286432160804,
      "loss": 2.2636,
      "step": 34640
    },
    {
      "epoch": 0.17325,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002492713567839196,
      "loss": 2.3204,
      "step": 34650
    },
    {
      "epoch": 0.1733,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024925628140703517,
      "loss": 2.2638,
      "step": 34660
    },
    {
      "epoch": 0.17335,
      "grad_norm": 0.625,
      "learning_rate": 0.0024924120603015076,
      "loss": 2.2571,
      "step": 34670
    },
    {
      "epoch": 0.1734,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0024922613065326634,
      "loss": 2.2698,
      "step": 34680
    },
    {
      "epoch": 0.17345,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002492110552763819,
      "loss": 2.2299,
      "step": 34690
    },
    {
      "epoch": 0.1735,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002491959798994975,
      "loss": 2.2778,
      "step": 34700
    },
    {
      "epoch": 0.17355,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024918090452261308,
      "loss": 2.2529,
      "step": 34710
    },
    {
      "epoch": 0.1736,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0024916582914572866,
      "loss": 2.2702,
      "step": 34720
    },
    {
      "epoch": 0.17365,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024915075376884424,
      "loss": 2.2644,
      "step": 34730
    },
    {
      "epoch": 0.1737,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002491356783919598,
      "loss": 2.2048,
      "step": 34740
    },
    {
      "epoch": 0.17375,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002491206030150754,
      "loss": 2.2675,
      "step": 34750
    },
    {
      "epoch": 0.1738,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0024910552763819094,
      "loss": 2.246,
      "step": 34760
    },
    {
      "epoch": 0.17385,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002490904522613065,
      "loss": 2.2553,
      "step": 34770
    },
    {
      "epoch": 0.1739,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0024907537688442214,
      "loss": 2.2686,
      "step": 34780
    },
    {
      "epoch": 0.17395,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002490603015075377,
      "loss": 2.2852,
      "step": 34790
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0024904522613065326,
      "loss": 2.2635,
      "step": 34800
    },
    {
      "epoch": 0.17405,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0024903015075376884,
      "loss": 2.3196,
      "step": 34810
    },
    {
      "epoch": 0.1741,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0024901507537688442,
      "loss": 2.2488,
      "step": 34820
    },
    {
      "epoch": 0.17415,
      "grad_norm": 0.43359375,
      "learning_rate": 0.00249,
      "loss": 2.2542,
      "step": 34830
    },
    {
      "epoch": 0.1742,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002489849246231156,
      "loss": 2.1933,
      "step": 34840
    },
    {
      "epoch": 0.17425,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0024896984924623116,
      "loss": 2.2646,
      "step": 34850
    },
    {
      "epoch": 0.1743,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024895477386934674,
      "loss": 2.2861,
      "step": 34860
    },
    {
      "epoch": 0.17435,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0024893969849246233,
      "loss": 2.2927,
      "step": 34870
    },
    {
      "epoch": 0.1744,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002489246231155779,
      "loss": 2.2527,
      "step": 34880
    },
    {
      "epoch": 0.17445,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024890954773869344,
      "loss": 2.2864,
      "step": 34890
    },
    {
      "epoch": 0.1745,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0024889447236180907,
      "loss": 2.2472,
      "step": 34900
    },
    {
      "epoch": 0.17455,
      "grad_norm": 0.546875,
      "learning_rate": 0.0024887939698492465,
      "loss": 2.2545,
      "step": 34910
    },
    {
      "epoch": 0.1746,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002488643216080402,
      "loss": 2.256,
      "step": 34920
    },
    {
      "epoch": 0.17465,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024884924623115577,
      "loss": 2.2337,
      "step": 34930
    },
    {
      "epoch": 0.1747,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002488341708542714,
      "loss": 2.2985,
      "step": 34940
    },
    {
      "epoch": 0.17475,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0024881909547738693,
      "loss": 2.2667,
      "step": 34950
    },
    {
      "epoch": 0.1748,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002488040201005025,
      "loss": 2.2769,
      "step": 34960
    },
    {
      "epoch": 0.17485,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002487889447236181,
      "loss": 2.29,
      "step": 34970
    },
    {
      "epoch": 0.1749,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0024877386934673367,
      "loss": 2.2858,
      "step": 34980
    },
    {
      "epoch": 0.17495,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024875879396984925,
      "loss": 2.3013,
      "step": 34990
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0024874371859296483,
      "loss": 2.2883,
      "step": 35000
    },
    {
      "epoch": 0.17505,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002487286432160804,
      "loss": 2.2677,
      "step": 35010
    },
    {
      "epoch": 0.1751,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00248713567839196,
      "loss": 2.2693,
      "step": 35020
    },
    {
      "epoch": 0.17515,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0024869849246231157,
      "loss": 2.28,
      "step": 35030
    },
    {
      "epoch": 0.1752,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0024868341708542715,
      "loss": 2.2629,
      "step": 35040
    },
    {
      "epoch": 0.17525,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002486683417085427,
      "loss": 2.2784,
      "step": 35050
    },
    {
      "epoch": 0.1753,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002486532663316583,
      "loss": 2.2136,
      "step": 35060
    },
    {
      "epoch": 0.17535,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002486381909547739,
      "loss": 2.3004,
      "step": 35070
    },
    {
      "epoch": 0.1754,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0024862311557788943,
      "loss": 2.2789,
      "step": 35080
    },
    {
      "epoch": 0.17545,
      "grad_norm": 0.41796875,
      "learning_rate": 0.00248608040201005,
      "loss": 2.2889,
      "step": 35090
    },
    {
      "epoch": 0.1755,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002485929648241206,
      "loss": 2.304,
      "step": 35100
    },
    {
      "epoch": 0.17555,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0024857788944723617,
      "loss": 2.2917,
      "step": 35110
    },
    {
      "epoch": 0.1756,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024856281407035176,
      "loss": 2.302,
      "step": 35120
    },
    {
      "epoch": 0.17565,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0024854773869346734,
      "loss": 2.2363,
      "step": 35130
    },
    {
      "epoch": 0.1757,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002485326633165829,
      "loss": 2.2321,
      "step": 35140
    },
    {
      "epoch": 0.17575,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002485175879396985,
      "loss": 2.2901,
      "step": 35150
    },
    {
      "epoch": 0.1758,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002485025125628141,
      "loss": 2.2793,
      "step": 35160
    },
    {
      "epoch": 0.17585,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0024848743718592966,
      "loss": 2.2902,
      "step": 35170
    },
    {
      "epoch": 0.1759,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0024847236180904524,
      "loss": 2.2827,
      "step": 35180
    },
    {
      "epoch": 0.17595,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002484572864321608,
      "loss": 2.2599,
      "step": 35190
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002484422110552764,
      "loss": 2.286,
      "step": 35200
    },
    {
      "epoch": 0.17605,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0024842713567839194,
      "loss": 2.2768,
      "step": 35210
    },
    {
      "epoch": 0.1761,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0024841206030150756,
      "loss": 2.2673,
      "step": 35220
    },
    {
      "epoch": 0.17615,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024839698492462314,
      "loss": 2.3091,
      "step": 35230
    },
    {
      "epoch": 0.1762,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002483819095477387,
      "loss": 2.251,
      "step": 35240
    },
    {
      "epoch": 0.17625,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0024836683417085426,
      "loss": 2.2569,
      "step": 35250
    },
    {
      "epoch": 0.1763,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0024835175879396984,
      "loss": 2.2553,
      "step": 35260
    },
    {
      "epoch": 0.17635,
      "grad_norm": 0.40234375,
      "learning_rate": 0.0024833668341708542,
      "loss": 2.258,
      "step": 35270
    },
    {
      "epoch": 0.1764,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00248321608040201,
      "loss": 2.3105,
      "step": 35280
    },
    {
      "epoch": 0.17645,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002483065326633166,
      "loss": 2.3293,
      "step": 35290
    },
    {
      "epoch": 0.1765,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024829145728643216,
      "loss": 2.2505,
      "step": 35300
    },
    {
      "epoch": 0.17655,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0024827638190954775,
      "loss": 2.3069,
      "step": 35310
    },
    {
      "epoch": 0.1766,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024826130653266333,
      "loss": 2.2506,
      "step": 35320
    },
    {
      "epoch": 0.17665,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002482462311557789,
      "loss": 2.2546,
      "step": 35330
    },
    {
      "epoch": 0.1767,
      "grad_norm": 0.5,
      "learning_rate": 0.002482311557788945,
      "loss": 2.3005,
      "step": 35340
    },
    {
      "epoch": 0.17675,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024821608040201007,
      "loss": 2.2852,
      "step": 35350
    },
    {
      "epoch": 0.1768,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024820100502512565,
      "loss": 2.323,
      "step": 35360
    },
    {
      "epoch": 0.17685,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002481859296482412,
      "loss": 2.2746,
      "step": 35370
    },
    {
      "epoch": 0.1769,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002481708542713568,
      "loss": 2.2633,
      "step": 35380
    },
    {
      "epoch": 0.17695,
      "grad_norm": 0.53125,
      "learning_rate": 0.002481557788944724,
      "loss": 2.2568,
      "step": 35390
    },
    {
      "epoch": 0.177,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0024814070351758793,
      "loss": 2.2651,
      "step": 35400
    },
    {
      "epoch": 0.17705,
      "grad_norm": 0.546875,
      "learning_rate": 0.002481256281407035,
      "loss": 2.2913,
      "step": 35410
    },
    {
      "epoch": 0.1771,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002481105527638191,
      "loss": 2.248,
      "step": 35420
    },
    {
      "epoch": 0.17715,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0024809547738693467,
      "loss": 2.2599,
      "step": 35430
    },
    {
      "epoch": 0.1772,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024808040201005025,
      "loss": 2.2821,
      "step": 35440
    },
    {
      "epoch": 0.17725,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0024806532663316583,
      "loss": 2.2717,
      "step": 35450
    },
    {
      "epoch": 0.1773,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002480502512562814,
      "loss": 2.2538,
      "step": 35460
    },
    {
      "epoch": 0.17735,
      "grad_norm": 0.462890625,
      "learning_rate": 0.00248035175879397,
      "loss": 2.3328,
      "step": 35470
    },
    {
      "epoch": 0.1774,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024802010050251257,
      "loss": 2.2628,
      "step": 35480
    },
    {
      "epoch": 0.17745,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024800502512562815,
      "loss": 2.2606,
      "step": 35490
    },
    {
      "epoch": 0.1775,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024798994974874373,
      "loss": 2.2971,
      "step": 35500
    },
    {
      "epoch": 0.17755,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002479748743718593,
      "loss": 2.276,
      "step": 35510
    },
    {
      "epoch": 0.1776,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002479597989949749,
      "loss": 2.2478,
      "step": 35520
    },
    {
      "epoch": 0.17765,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0024794472361809043,
      "loss": 2.2581,
      "step": 35530
    },
    {
      "epoch": 0.1777,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0024792964824120606,
      "loss": 2.2864,
      "step": 35540
    },
    {
      "epoch": 0.17775,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0024791457286432164,
      "loss": 2.2475,
      "step": 35550
    },
    {
      "epoch": 0.1778,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0024789949748743718,
      "loss": 2.295,
      "step": 35560
    },
    {
      "epoch": 0.17785,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0024788442211055276,
      "loss": 2.2914,
      "step": 35570
    },
    {
      "epoch": 0.1779,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0024786934673366834,
      "loss": 2.2616,
      "step": 35580
    },
    {
      "epoch": 0.17795,
      "grad_norm": 0.453125,
      "learning_rate": 0.002478542713567839,
      "loss": 2.2257,
      "step": 35590
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002478391959798995,
      "loss": 2.2822,
      "step": 35600
    },
    {
      "epoch": 0.17805,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002478241206030151,
      "loss": 2.2503,
      "step": 35610
    },
    {
      "epoch": 0.1781,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024780904522613066,
      "loss": 2.2572,
      "step": 35620
    },
    {
      "epoch": 0.17815,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0024779396984924624,
      "loss": 2.2915,
      "step": 35630
    },
    {
      "epoch": 0.1782,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002477788944723618,
      "loss": 2.2709,
      "step": 35640
    },
    {
      "epoch": 0.17825,
      "grad_norm": 0.396484375,
      "learning_rate": 0.002477638190954774,
      "loss": 2.2673,
      "step": 35650
    },
    {
      "epoch": 0.1783,
      "grad_norm": 0.412109375,
      "learning_rate": 0.00247748743718593,
      "loss": 2.3427,
      "step": 35660
    },
    {
      "epoch": 0.17835,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0024773366834170856,
      "loss": 2.2379,
      "step": 35670
    },
    {
      "epoch": 0.1784,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024771859296482414,
      "loss": 2.2369,
      "step": 35680
    },
    {
      "epoch": 0.17845,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002477035175879397,
      "loss": 2.2904,
      "step": 35690
    },
    {
      "epoch": 0.1785,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002476884422110553,
      "loss": 2.2702,
      "step": 35700
    },
    {
      "epoch": 0.17855,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002476733668341709,
      "loss": 2.2524,
      "step": 35710
    },
    {
      "epoch": 0.1786,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0024765829145728642,
      "loss": 2.3222,
      "step": 35720
    },
    {
      "epoch": 0.17865,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00247643216080402,
      "loss": 2.2196,
      "step": 35730
    },
    {
      "epoch": 0.1787,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002476281407035176,
      "loss": 2.2605,
      "step": 35740
    },
    {
      "epoch": 0.17875,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024761306532663317,
      "loss": 2.2328,
      "step": 35750
    },
    {
      "epoch": 0.1788,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0024759798994974875,
      "loss": 2.3006,
      "step": 35760
    },
    {
      "epoch": 0.17885,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0024758291457286433,
      "loss": 2.2644,
      "step": 35770
    },
    {
      "epoch": 0.1789,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002475678391959799,
      "loss": 2.2339,
      "step": 35780
    },
    {
      "epoch": 0.17895,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002475527638190955,
      "loss": 2.2419,
      "step": 35790
    },
    {
      "epoch": 0.179,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024753768844221107,
      "loss": 2.2359,
      "step": 35800
    },
    {
      "epoch": 0.17905,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0024752261306532665,
      "loss": 2.272,
      "step": 35810
    },
    {
      "epoch": 0.1791,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002475075376884422,
      "loss": 2.2588,
      "step": 35820
    },
    {
      "epoch": 0.17915,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002474924623115578,
      "loss": 2.2496,
      "step": 35830
    },
    {
      "epoch": 0.1792,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002474773869346734,
      "loss": 2.2634,
      "step": 35840
    },
    {
      "epoch": 0.17925,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0024746231155778893,
      "loss": 2.286,
      "step": 35850
    },
    {
      "epoch": 0.1793,
      "grad_norm": 0.5,
      "learning_rate": 0.002474472361809045,
      "loss": 2.2048,
      "step": 35860
    },
    {
      "epoch": 0.17935,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0024743216080402013,
      "loss": 2.2619,
      "step": 35870
    },
    {
      "epoch": 0.1794,
      "grad_norm": 0.515625,
      "learning_rate": 0.0024741708542713567,
      "loss": 2.3172,
      "step": 35880
    },
    {
      "epoch": 0.17945,
      "grad_norm": 0.53125,
      "learning_rate": 0.0024740201005025125,
      "loss": 2.2628,
      "step": 35890
    },
    {
      "epoch": 0.1795,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0024738693467336683,
      "loss": 2.2856,
      "step": 35900
    },
    {
      "epoch": 0.17955,
      "grad_norm": 0.53125,
      "learning_rate": 0.002473718592964824,
      "loss": 2.2591,
      "step": 35910
    },
    {
      "epoch": 0.1796,
      "grad_norm": 0.4296875,
      "learning_rate": 0.00247356783919598,
      "loss": 2.2646,
      "step": 35920
    },
    {
      "epoch": 0.17965,
      "grad_norm": 0.39453125,
      "learning_rate": 0.0024734170854271357,
      "loss": 2.3122,
      "step": 35930
    },
    {
      "epoch": 0.1797,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0024732663316582915,
      "loss": 2.2487,
      "step": 35940
    },
    {
      "epoch": 0.17975,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024731155778894474,
      "loss": 2.2081,
      "step": 35950
    },
    {
      "epoch": 0.1798,
      "grad_norm": 0.5,
      "learning_rate": 0.002472964824120603,
      "loss": 2.2697,
      "step": 35960
    },
    {
      "epoch": 0.17985,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002472814070351759,
      "loss": 2.2886,
      "step": 35970
    },
    {
      "epoch": 0.1799,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0024726633165829143,
      "loss": 2.2728,
      "step": 35980
    },
    {
      "epoch": 0.17995,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0024725125628140706,
      "loss": 2.2695,
      "step": 35990
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0024723618090452264,
      "loss": 2.2835,
      "step": 36000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.248521327972412,
      "eval_runtime": 45.5746,
      "eval_samples_per_second": 54.855,
      "eval_steps_per_second": 0.11,
      "step": 36000
    },
    {
      "epoch": 0.18005,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0024722110552763818,
      "loss": 2.2992,
      "step": 36010
    },
    {
      "epoch": 0.1801,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0024720603015075376,
      "loss": 2.2627,
      "step": 36020
    },
    {
      "epoch": 0.18015,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024719095477386934,
      "loss": 2.2516,
      "step": 36030
    },
    {
      "epoch": 0.1802,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002471758793969849,
      "loss": 2.2647,
      "step": 36040
    },
    {
      "epoch": 0.18025,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002471608040201005,
      "loss": 2.2685,
      "step": 36050
    },
    {
      "epoch": 0.1803,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002471457286432161,
      "loss": 2.2968,
      "step": 36060
    },
    {
      "epoch": 0.18035,
      "grad_norm": 0.41015625,
      "learning_rate": 0.0024713065326633166,
      "loss": 2.2275,
      "step": 36070
    },
    {
      "epoch": 0.1804,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0024711557788944724,
      "loss": 2.2563,
      "step": 36080
    },
    {
      "epoch": 0.18045,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0024710050251256282,
      "loss": 2.246,
      "step": 36090
    },
    {
      "epoch": 0.1805,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002470854271356784,
      "loss": 2.237,
      "step": 36100
    },
    {
      "epoch": 0.18055,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00247070351758794,
      "loss": 2.2553,
      "step": 36110
    },
    {
      "epoch": 0.1806,
      "grad_norm": 0.404296875,
      "learning_rate": 0.0024705527638190956,
      "loss": 2.299,
      "step": 36120
    },
    {
      "epoch": 0.18065,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024704020100502514,
      "loss": 2.2571,
      "step": 36130
    },
    {
      "epoch": 0.1807,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002470251256281407,
      "loss": 2.2863,
      "step": 36140
    },
    {
      "epoch": 0.18075,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002470100502512563,
      "loss": 2.2647,
      "step": 36150
    },
    {
      "epoch": 0.1808,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002469949748743719,
      "loss": 2.2672,
      "step": 36160
    },
    {
      "epoch": 0.18085,
      "grad_norm": 0.5,
      "learning_rate": 0.0024697989949748742,
      "loss": 2.2809,
      "step": 36170
    },
    {
      "epoch": 0.1809,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00246964824120603,
      "loss": 2.2785,
      "step": 36180
    },
    {
      "epoch": 0.18095,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002469497487437186,
      "loss": 2.2202,
      "step": 36190
    },
    {
      "epoch": 0.181,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024693467336683417,
      "loss": 2.3105,
      "step": 36200
    },
    {
      "epoch": 0.18105,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0024691959798994975,
      "loss": 2.2948,
      "step": 36210
    },
    {
      "epoch": 0.1811,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0024690452261306533,
      "loss": 2.253,
      "step": 36220
    },
    {
      "epoch": 0.18115,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002468894472361809,
      "loss": 2.2704,
      "step": 36230
    },
    {
      "epoch": 0.1812,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002468743718592965,
      "loss": 2.2323,
      "step": 36240
    },
    {
      "epoch": 0.18125,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024685929648241207,
      "loss": 2.2682,
      "step": 36250
    },
    {
      "epoch": 0.1813,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0024684422110552765,
      "loss": 2.2804,
      "step": 36260
    },
    {
      "epoch": 0.18135,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0024682914572864323,
      "loss": 2.2674,
      "step": 36270
    },
    {
      "epoch": 0.1814,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002468140703517588,
      "loss": 2.2764,
      "step": 36280
    },
    {
      "epoch": 0.18145,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002467989949748744,
      "loss": 2.2849,
      "step": 36290
    },
    {
      "epoch": 0.1815,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0024678391959798993,
      "loss": 2.2386,
      "step": 36300
    },
    {
      "epoch": 0.18155,
      "grad_norm": 0.546875,
      "learning_rate": 0.0024676884422110555,
      "loss": 2.2666,
      "step": 36310
    },
    {
      "epoch": 0.1816,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0024675376884422113,
      "loss": 2.2099,
      "step": 36320
    },
    {
      "epoch": 0.18165,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024673869346733667,
      "loss": 2.2022,
      "step": 36330
    },
    {
      "epoch": 0.1817,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024672361809045225,
      "loss": 2.2784,
      "step": 36340
    },
    {
      "epoch": 0.18175,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0024670854271356783,
      "loss": 2.2178,
      "step": 36350
    },
    {
      "epoch": 0.1818,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002466934673366834,
      "loss": 2.2855,
      "step": 36360
    },
    {
      "epoch": 0.18185,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00246678391959799,
      "loss": 2.3087,
      "step": 36370
    },
    {
      "epoch": 0.1819,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0024666331658291457,
      "loss": 2.2393,
      "step": 36380
    },
    {
      "epoch": 0.18195,
      "grad_norm": 0.5,
      "learning_rate": 0.0024664824120603016,
      "loss": 2.2815,
      "step": 36390
    },
    {
      "epoch": 0.182,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024663316582914574,
      "loss": 2.2844,
      "step": 36400
    },
    {
      "epoch": 0.18205,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002466180904522613,
      "loss": 2.244,
      "step": 36410
    },
    {
      "epoch": 0.1821,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002466030150753769,
      "loss": 2.2906,
      "step": 36420
    },
    {
      "epoch": 0.18215,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0024658793969849248,
      "loss": 2.2594,
      "step": 36430
    },
    {
      "epoch": 0.1822,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024657286432160806,
      "loss": 2.2628,
      "step": 36440
    },
    {
      "epoch": 0.18225,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0024655778894472364,
      "loss": 2.3009,
      "step": 36450
    },
    {
      "epoch": 0.1823,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0024654271356783918,
      "loss": 2.2747,
      "step": 36460
    },
    {
      "epoch": 0.18235,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002465276381909548,
      "loss": 2.2939,
      "step": 36470
    },
    {
      "epoch": 0.1824,
      "grad_norm": 0.3984375,
      "learning_rate": 0.002465125628140704,
      "loss": 2.2208,
      "step": 36480
    },
    {
      "epoch": 0.18245,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002464974874371859,
      "loss": 2.2376,
      "step": 36490
    },
    {
      "epoch": 0.1825,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002464824120603015,
      "loss": 2.2825,
      "step": 36500
    },
    {
      "epoch": 0.18255,
      "grad_norm": 0.515625,
      "learning_rate": 0.002464673366834171,
      "loss": 2.2648,
      "step": 36510
    },
    {
      "epoch": 0.1826,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0024645226130653266,
      "loss": 2.2367,
      "step": 36520
    },
    {
      "epoch": 0.18265,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0024643718592964824,
      "loss": 2.2664,
      "step": 36530
    },
    {
      "epoch": 0.1827,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0024642211055276382,
      "loss": 2.3023,
      "step": 36540
    },
    {
      "epoch": 0.18275,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002464070351758794,
      "loss": 2.29,
      "step": 36550
    },
    {
      "epoch": 0.1828,
      "grad_norm": 0.421875,
      "learning_rate": 0.00246391959798995,
      "loss": 2.2252,
      "step": 36560
    },
    {
      "epoch": 0.18285,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0024637688442211056,
      "loss": 2.2364,
      "step": 36570
    },
    {
      "epoch": 0.1829,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0024636180904522615,
      "loss": 2.235,
      "step": 36580
    },
    {
      "epoch": 0.18295,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024634673366834173,
      "loss": 2.2671,
      "step": 36590
    },
    {
      "epoch": 0.183,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002463316582914573,
      "loss": 2.264,
      "step": 36600
    },
    {
      "epoch": 0.18305,
      "grad_norm": 0.4375,
      "learning_rate": 0.002463165829145729,
      "loss": 2.294,
      "step": 36610
    },
    {
      "epoch": 0.1831,
      "grad_norm": 0.515625,
      "learning_rate": 0.0024630150753768842,
      "loss": 2.225,
      "step": 36620
    },
    {
      "epoch": 0.18315,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024628643216080405,
      "loss": 2.2084,
      "step": 36630
    },
    {
      "epoch": 0.1832,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024627135678391963,
      "loss": 2.2474,
      "step": 36640
    },
    {
      "epoch": 0.18325,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024625628140703517,
      "loss": 2.2378,
      "step": 36650
    },
    {
      "epoch": 0.1833,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024624120603015075,
      "loss": 2.2477,
      "step": 36660
    },
    {
      "epoch": 0.18335,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024622613065326633,
      "loss": 2.3228,
      "step": 36670
    },
    {
      "epoch": 0.1834,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002462110552763819,
      "loss": 2.2455,
      "step": 36680
    },
    {
      "epoch": 0.18345,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002461959798994975,
      "loss": 2.2785,
      "step": 36690
    },
    {
      "epoch": 0.1835,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0024618090452261307,
      "loss": 2.2676,
      "step": 36700
    },
    {
      "epoch": 0.18355,
      "grad_norm": 0.546875,
      "learning_rate": 0.0024616582914572865,
      "loss": 2.2685,
      "step": 36710
    },
    {
      "epoch": 0.1836,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0024615075376884423,
      "loss": 2.3036,
      "step": 36720
    },
    {
      "epoch": 0.18365,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002461356783919598,
      "loss": 2.2223,
      "step": 36730
    },
    {
      "epoch": 0.1837,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002461206030150754,
      "loss": 2.2499,
      "step": 36740
    },
    {
      "epoch": 0.18375,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024610552763819093,
      "loss": 2.2205,
      "step": 36750
    },
    {
      "epoch": 0.1838,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024609045226130655,
      "loss": 2.2811,
      "step": 36760
    },
    {
      "epoch": 0.18385,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0024607537688442213,
      "loss": 2.2192,
      "step": 36770
    },
    {
      "epoch": 0.1839,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0024606030150753767,
      "loss": 2.2821,
      "step": 36780
    },
    {
      "epoch": 0.18395,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002460452261306533,
      "loss": 2.2709,
      "step": 36790
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0024603015075376888,
      "loss": 2.2265,
      "step": 36800
    },
    {
      "epoch": 0.18405,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002460150753768844,
      "loss": 2.2465,
      "step": 36810
    },
    {
      "epoch": 0.1841,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00246,
      "loss": 2.3177,
      "step": 36820
    },
    {
      "epoch": 0.18415,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024598492462311558,
      "loss": 2.299,
      "step": 36830
    },
    {
      "epoch": 0.1842,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024596984924623116,
      "loss": 2.2608,
      "step": 36840
    },
    {
      "epoch": 0.18425,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024595477386934674,
      "loss": 2.2731,
      "step": 36850
    },
    {
      "epoch": 0.1843,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002459396984924623,
      "loss": 2.2914,
      "step": 36860
    },
    {
      "epoch": 0.18435,
      "grad_norm": 0.453125,
      "learning_rate": 0.002459246231155779,
      "loss": 2.241,
      "step": 36870
    },
    {
      "epoch": 0.1844,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002459095477386935,
      "loss": 2.2475,
      "step": 36880
    },
    {
      "epoch": 0.18445,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024589447236180906,
      "loss": 2.2489,
      "step": 36890
    },
    {
      "epoch": 0.1845,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0024587939698492464,
      "loss": 2.2968,
      "step": 36900
    },
    {
      "epoch": 0.18455,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0024586432160804018,
      "loss": 2.1831,
      "step": 36910
    },
    {
      "epoch": 0.1846,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002458492462311558,
      "loss": 2.2412,
      "step": 36920
    },
    {
      "epoch": 0.18465,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002458341708542714,
      "loss": 2.2399,
      "step": 36930
    },
    {
      "epoch": 0.1847,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002458190954773869,
      "loss": 2.2641,
      "step": 36940
    },
    {
      "epoch": 0.18475,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002458040201005025,
      "loss": 2.3075,
      "step": 36950
    },
    {
      "epoch": 0.1848,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002457889447236181,
      "loss": 2.2718,
      "step": 36960
    },
    {
      "epoch": 0.18485,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0024577386934673366,
      "loss": 2.2671,
      "step": 36970
    },
    {
      "epoch": 0.1849,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0024575879396984924,
      "loss": 2.2284,
      "step": 36980
    },
    {
      "epoch": 0.18495,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0024574371859296482,
      "loss": 2.2207,
      "step": 36990
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.46875,
      "learning_rate": 0.002457286432160804,
      "loss": 2.2858,
      "step": 37000
    },
    {
      "epoch": 0.18505,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00245713567839196,
      "loss": 2.2659,
      "step": 37010
    },
    {
      "epoch": 0.1851,
      "grad_norm": 0.412109375,
      "learning_rate": 0.0024569849246231157,
      "loss": 2.2275,
      "step": 37020
    },
    {
      "epoch": 0.18515,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024568341708542715,
      "loss": 2.2475,
      "step": 37030
    },
    {
      "epoch": 0.1852,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0024566834170854273,
      "loss": 2.2479,
      "step": 37040
    },
    {
      "epoch": 0.18525,
      "grad_norm": 0.46875,
      "learning_rate": 0.002456532663316583,
      "loss": 2.2326,
      "step": 37050
    },
    {
      "epoch": 0.1853,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002456381909547739,
      "loss": 2.2108,
      "step": 37060
    },
    {
      "epoch": 0.18535,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0024562311557788943,
      "loss": 2.2683,
      "step": 37070
    },
    {
      "epoch": 0.1854,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024560804020100505,
      "loss": 2.2389,
      "step": 37080
    },
    {
      "epoch": 0.18545,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024559296482412063,
      "loss": 2.2912,
      "step": 37090
    },
    {
      "epoch": 0.1855,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0024557788944723617,
      "loss": 2.3158,
      "step": 37100
    },
    {
      "epoch": 0.18555,
      "grad_norm": 0.4140625,
      "learning_rate": 0.0024556281407035175,
      "loss": 2.2406,
      "step": 37110
    },
    {
      "epoch": 0.1856,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0024554773869346733,
      "loss": 2.2659,
      "step": 37120
    },
    {
      "epoch": 0.18565,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002455326633165829,
      "loss": 2.293,
      "step": 37130
    },
    {
      "epoch": 0.1857,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002455175879396985,
      "loss": 2.2423,
      "step": 37140
    },
    {
      "epoch": 0.18575,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0024550251256281407,
      "loss": 2.2792,
      "step": 37150
    },
    {
      "epoch": 0.1858,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0024548743718592965,
      "loss": 2.2076,
      "step": 37160
    },
    {
      "epoch": 0.18585,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0024547236180904523,
      "loss": 2.2341,
      "step": 37170
    },
    {
      "epoch": 0.1859,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002454572864321608,
      "loss": 2.272,
      "step": 37180
    },
    {
      "epoch": 0.18595,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002454422110552764,
      "loss": 2.232,
      "step": 37190
    },
    {
      "epoch": 0.186,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024542713567839197,
      "loss": 2.2319,
      "step": 37200
    },
    {
      "epoch": 0.18605,
      "grad_norm": 0.53125,
      "learning_rate": 0.0024541206030150755,
      "loss": 2.2694,
      "step": 37210
    },
    {
      "epoch": 0.1861,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0024539698492462314,
      "loss": 2.2322,
      "step": 37220
    },
    {
      "epoch": 0.18615,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0024538190954773867,
      "loss": 2.2414,
      "step": 37230
    },
    {
      "epoch": 0.1862,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002453668341708543,
      "loss": 2.2537,
      "step": 37240
    },
    {
      "epoch": 0.18625,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0024535175879396988,
      "loss": 2.2581,
      "step": 37250
    },
    {
      "epoch": 0.1863,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002453366834170854,
      "loss": 2.2971,
      "step": 37260
    },
    {
      "epoch": 0.18635,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00245321608040201,
      "loss": 2.2529,
      "step": 37270
    },
    {
      "epoch": 0.1864,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024530653266331658,
      "loss": 2.2551,
      "step": 37280
    },
    {
      "epoch": 0.18645,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0024529145728643216,
      "loss": 2.257,
      "step": 37290
    },
    {
      "epoch": 0.1865,
      "grad_norm": 0.53125,
      "learning_rate": 0.0024527638190954774,
      "loss": 2.2139,
      "step": 37300
    },
    {
      "epoch": 0.18655,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002452613065326633,
      "loss": 2.2637,
      "step": 37310
    },
    {
      "epoch": 0.1866,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002452462311557789,
      "loss": 2.2419,
      "step": 37320
    },
    {
      "epoch": 0.18665,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002452311557788945,
      "loss": 2.2982,
      "step": 37330
    },
    {
      "epoch": 0.1867,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0024521608040201006,
      "loss": 2.2909,
      "step": 37340
    },
    {
      "epoch": 0.18675,
      "grad_norm": 0.484375,
      "learning_rate": 0.0024520100502512564,
      "loss": 2.268,
      "step": 37350
    },
    {
      "epoch": 0.1868,
      "grad_norm": 0.453125,
      "learning_rate": 0.002451859296482412,
      "loss": 2.2127,
      "step": 37360
    },
    {
      "epoch": 0.18685,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002451708542713568,
      "loss": 2.258,
      "step": 37370
    },
    {
      "epoch": 0.1869,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002451557788944724,
      "loss": 2.2428,
      "step": 37380
    },
    {
      "epoch": 0.18695,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002451407035175879,
      "loss": 2.2938,
      "step": 37390
    },
    {
      "epoch": 0.187,
      "grad_norm": 0.546875,
      "learning_rate": 0.0024512562814070354,
      "loss": 2.2572,
      "step": 37400
    },
    {
      "epoch": 0.18705,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0024511055276381912,
      "loss": 2.2367,
      "step": 37410
    },
    {
      "epoch": 0.1871,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0024509547738693466,
      "loss": 2.2827,
      "step": 37420
    },
    {
      "epoch": 0.18715,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0024508040201005024,
      "loss": 2.2831,
      "step": 37430
    },
    {
      "epoch": 0.1872,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0024506532663316582,
      "loss": 2.2645,
      "step": 37440
    },
    {
      "epoch": 0.18725,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002450502512562814,
      "loss": 2.2328,
      "step": 37450
    },
    {
      "epoch": 0.1873,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00245035175879397,
      "loss": 2.3026,
      "step": 37460
    },
    {
      "epoch": 0.18735,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0024502010050251257,
      "loss": 2.2441,
      "step": 37470
    },
    {
      "epoch": 0.1874,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024500502512562815,
      "loss": 2.2775,
      "step": 37480
    },
    {
      "epoch": 0.18745,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024498994974874373,
      "loss": 2.2824,
      "step": 37490
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002449748743718593,
      "loss": 2.264,
      "step": 37500
    },
    {
      "epoch": 0.18755,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002449597989949749,
      "loss": 2.2442,
      "step": 37510
    },
    {
      "epoch": 0.1876,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0024494472361809047,
      "loss": 2.2595,
      "step": 37520
    },
    {
      "epoch": 0.18765,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0024492964824120605,
      "loss": 2.2417,
      "step": 37530
    },
    {
      "epoch": 0.1877,
      "grad_norm": 0.5,
      "learning_rate": 0.0024491457286432163,
      "loss": 2.2102,
      "step": 37540
    },
    {
      "epoch": 0.18775,
      "grad_norm": 0.53125,
      "learning_rate": 0.0024489949748743717,
      "loss": 2.275,
      "step": 37550
    },
    {
      "epoch": 0.1878,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002448844221105528,
      "loss": 2.2443,
      "step": 37560
    },
    {
      "epoch": 0.18785,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0024486934673366837,
      "loss": 2.2474,
      "step": 37570
    },
    {
      "epoch": 0.1879,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002448542713567839,
      "loss": 2.2466,
      "step": 37580
    },
    {
      "epoch": 0.18795,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002448391959798995,
      "loss": 2.2822,
      "step": 37590
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024482412060301507,
      "loss": 2.2569,
      "step": 37600
    },
    {
      "epoch": 0.18805,
      "grad_norm": 0.578125,
      "learning_rate": 0.0024480904522613065,
      "loss": 2.2389,
      "step": 37610
    },
    {
      "epoch": 0.1881,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0024479396984924623,
      "loss": 2.245,
      "step": 37620
    },
    {
      "epoch": 0.18815,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002447788944723618,
      "loss": 2.2712,
      "step": 37630
    },
    {
      "epoch": 0.1882,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002447638190954774,
      "loss": 2.2305,
      "step": 37640
    },
    {
      "epoch": 0.18825,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0024474874371859297,
      "loss": 2.2552,
      "step": 37650
    },
    {
      "epoch": 0.1883,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024473366834170856,
      "loss": 2.2546,
      "step": 37660
    },
    {
      "epoch": 0.18835,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0024471859296482414,
      "loss": 2.2559,
      "step": 37670
    },
    {
      "epoch": 0.1884,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0024470351758793967,
      "loss": 2.2358,
      "step": 37680
    },
    {
      "epoch": 0.18845,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002446884422110553,
      "loss": 2.2613,
      "step": 37690
    },
    {
      "epoch": 0.1885,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0024467336683417088,
      "loss": 2.2009,
      "step": 37700
    },
    {
      "epoch": 0.18855,
      "grad_norm": 0.484375,
      "learning_rate": 0.002446582914572864,
      "loss": 2.3174,
      "step": 37710
    },
    {
      "epoch": 0.1886,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024464321608040204,
      "loss": 2.2505,
      "step": 37720
    },
    {
      "epoch": 0.18865,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002446281407035176,
      "loss": 2.2403,
      "step": 37730
    },
    {
      "epoch": 0.1887,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024461306532663316,
      "loss": 2.2927,
      "step": 37740
    },
    {
      "epoch": 0.18875,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024459798994974874,
      "loss": 2.2716,
      "step": 37750
    },
    {
      "epoch": 0.1888,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002445829145728643,
      "loss": 2.256,
      "step": 37760
    },
    {
      "epoch": 0.18885,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002445678391959799,
      "loss": 2.2958,
      "step": 37770
    },
    {
      "epoch": 0.1889,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002445527638190955,
      "loss": 2.2611,
      "step": 37780
    },
    {
      "epoch": 0.18895,
      "grad_norm": 0.546875,
      "learning_rate": 0.0024453768844221106,
      "loss": 2.2395,
      "step": 37790
    },
    {
      "epoch": 0.189,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0024452261306532664,
      "loss": 2.2818,
      "step": 37800
    },
    {
      "epoch": 0.18905,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024450753768844222,
      "loss": 2.2254,
      "step": 37810
    },
    {
      "epoch": 0.1891,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002444924623115578,
      "loss": 2.2263,
      "step": 37820
    },
    {
      "epoch": 0.18915,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002444773869346734,
      "loss": 2.2569,
      "step": 37830
    },
    {
      "epoch": 0.1892,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002444623115577889,
      "loss": 2.2501,
      "step": 37840
    },
    {
      "epoch": 0.18925,
      "grad_norm": 0.416015625,
      "learning_rate": 0.0024444723618090454,
      "loss": 2.2375,
      "step": 37850
    },
    {
      "epoch": 0.1893,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0024443216080402013,
      "loss": 2.217,
      "step": 37860
    },
    {
      "epoch": 0.18935,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0024441708542713566,
      "loss": 2.2213,
      "step": 37870
    },
    {
      "epoch": 0.1894,
      "grad_norm": 0.53125,
      "learning_rate": 0.002444020100502513,
      "loss": 2.2398,
      "step": 37880
    },
    {
      "epoch": 0.18945,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024438693467336682,
      "loss": 2.2753,
      "step": 37890
    },
    {
      "epoch": 0.1895,
      "grad_norm": 0.453125,
      "learning_rate": 0.002443718592964824,
      "loss": 2.2494,
      "step": 37900
    },
    {
      "epoch": 0.18955,
      "grad_norm": 0.439453125,
      "learning_rate": 0.00244356783919598,
      "loss": 2.313,
      "step": 37910
    },
    {
      "epoch": 0.1896,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0024434170854271357,
      "loss": 2.1736,
      "step": 37920
    },
    {
      "epoch": 0.18965,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024432663316582915,
      "loss": 2.2954,
      "step": 37930
    },
    {
      "epoch": 0.1897,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024431155778894473,
      "loss": 2.2512,
      "step": 37940
    },
    {
      "epoch": 0.18975,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002442964824120603,
      "loss": 2.1504,
      "step": 37950
    },
    {
      "epoch": 0.1898,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002442814070351759,
      "loss": 2.2539,
      "step": 37960
    },
    {
      "epoch": 0.18985,
      "grad_norm": 0.5,
      "learning_rate": 0.0024426633165829147,
      "loss": 2.2528,
      "step": 37970
    },
    {
      "epoch": 0.1899,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0024425125628140705,
      "loss": 2.182,
      "step": 37980
    },
    {
      "epoch": 0.18995,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0024423618090452263,
      "loss": 2.2539,
      "step": 37990
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0024422110552763817,
      "loss": 2.2144,
      "step": 38000
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.2328991889953613,
      "eval_runtime": 47.2321,
      "eval_samples_per_second": 52.93,
      "eval_steps_per_second": 0.106,
      "step": 38000
    },
    {
      "epoch": 0.19005,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002442060301507538,
      "loss": 2.1583,
      "step": 38010
    },
    {
      "epoch": 0.1901,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024419095477386937,
      "loss": 2.2832,
      "step": 38020
    },
    {
      "epoch": 0.19015,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002441758793969849,
      "loss": 2.2321,
      "step": 38030
    },
    {
      "epoch": 0.1902,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002441608040201005,
      "loss": 2.2479,
      "step": 38040
    },
    {
      "epoch": 0.19025,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0024414572864321607,
      "loss": 2.2776,
      "step": 38050
    },
    {
      "epoch": 0.1903,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0024413065326633165,
      "loss": 2.2358,
      "step": 38060
    },
    {
      "epoch": 0.19035,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0024411557788944723,
      "loss": 2.2798,
      "step": 38070
    },
    {
      "epoch": 0.1904,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002441005025125628,
      "loss": 2.2278,
      "step": 38080
    },
    {
      "epoch": 0.19045,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002440854271356784,
      "loss": 2.1948,
      "step": 38090
    },
    {
      "epoch": 0.1905,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0024407035175879398,
      "loss": 2.2695,
      "step": 38100
    },
    {
      "epoch": 0.19055,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024405527638190956,
      "loss": 2.2356,
      "step": 38110
    },
    {
      "epoch": 0.1906,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024404020100502514,
      "loss": 2.2595,
      "step": 38120
    },
    {
      "epoch": 0.19065,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002440251256281407,
      "loss": 2.2609,
      "step": 38130
    },
    {
      "epoch": 0.1907,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002440100502512563,
      "loss": 2.1627,
      "step": 38140
    },
    {
      "epoch": 0.19075,
      "grad_norm": 0.5,
      "learning_rate": 0.002439949748743719,
      "loss": 2.2216,
      "step": 38150
    },
    {
      "epoch": 0.1908,
      "grad_norm": 0.62109375,
      "learning_rate": 0.002439798994974874,
      "loss": 2.2587,
      "step": 38160
    },
    {
      "epoch": 0.19085,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024396482412060304,
      "loss": 2.2094,
      "step": 38170
    },
    {
      "epoch": 0.1909,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002439497487437186,
      "loss": 2.2947,
      "step": 38180
    },
    {
      "epoch": 0.19095,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024393467336683416,
      "loss": 2.2313,
      "step": 38190
    },
    {
      "epoch": 0.191,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0024391959798994974,
      "loss": 2.2068,
      "step": 38200
    },
    {
      "epoch": 0.19105,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002439045226130653,
      "loss": 2.2577,
      "step": 38210
    },
    {
      "epoch": 0.1911,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002438894472361809,
      "loss": 2.2176,
      "step": 38220
    },
    {
      "epoch": 0.19115,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002438743718592965,
      "loss": 2.2869,
      "step": 38230
    },
    {
      "epoch": 0.1912,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0024385929648241206,
      "loss": 2.279,
      "step": 38240
    },
    {
      "epoch": 0.19125,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024384422110552764,
      "loss": 2.2286,
      "step": 38250
    },
    {
      "epoch": 0.1913,
      "grad_norm": 0.53125,
      "learning_rate": 0.0024382914572864322,
      "loss": 2.2397,
      "step": 38260
    },
    {
      "epoch": 0.19135,
      "grad_norm": 0.46875,
      "learning_rate": 0.002438140703517588,
      "loss": 2.2252,
      "step": 38270
    },
    {
      "epoch": 0.1914,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002437989949748744,
      "loss": 2.1809,
      "step": 38280
    },
    {
      "epoch": 0.19145,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024378391959798996,
      "loss": 2.2973,
      "step": 38290
    },
    {
      "epoch": 0.1915,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0024376884422110555,
      "loss": 2.2145,
      "step": 38300
    },
    {
      "epoch": 0.19155,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024375376884422113,
      "loss": 2.2494,
      "step": 38310
    },
    {
      "epoch": 0.1916,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0024373869346733666,
      "loss": 2.225,
      "step": 38320
    },
    {
      "epoch": 0.19165,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002437236180904523,
      "loss": 2.272,
      "step": 38330
    },
    {
      "epoch": 0.1917,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024370854271356787,
      "loss": 2.2876,
      "step": 38340
    },
    {
      "epoch": 0.19175,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002436934673366834,
      "loss": 2.2295,
      "step": 38350
    },
    {
      "epoch": 0.1918,
      "grad_norm": 0.5078125,
      "learning_rate": 0.00243678391959799,
      "loss": 2.2477,
      "step": 38360
    },
    {
      "epoch": 0.19185,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024366331658291457,
      "loss": 2.2913,
      "step": 38370
    },
    {
      "epoch": 0.1919,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024364824120603015,
      "loss": 2.2072,
      "step": 38380
    },
    {
      "epoch": 0.19195,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0024363316582914573,
      "loss": 2.2386,
      "step": 38390
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002436180904522613,
      "loss": 2.2511,
      "step": 38400
    },
    {
      "epoch": 0.19205,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002436030150753769,
      "loss": 2.1723,
      "step": 38410
    },
    {
      "epoch": 0.1921,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0024358793969849247,
      "loss": 2.3062,
      "step": 38420
    },
    {
      "epoch": 0.19215,
      "grad_norm": 0.5,
      "learning_rate": 0.0024357286432160805,
      "loss": 2.1866,
      "step": 38430
    },
    {
      "epoch": 0.1922,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0024355778894472363,
      "loss": 2.2435,
      "step": 38440
    },
    {
      "epoch": 0.19225,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002435427135678392,
      "loss": 2.2515,
      "step": 38450
    },
    {
      "epoch": 0.1923,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002435276381909548,
      "loss": 2.2046,
      "step": 38460
    },
    {
      "epoch": 0.19235,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024351256281407037,
      "loss": 2.3015,
      "step": 38470
    },
    {
      "epoch": 0.1924,
      "grad_norm": 0.46875,
      "learning_rate": 0.002434974874371859,
      "loss": 2.1958,
      "step": 38480
    },
    {
      "epoch": 0.19245,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024348241206030154,
      "loss": 2.2465,
      "step": 38490
    },
    {
      "epoch": 0.1925,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002434673366834171,
      "loss": 2.2953,
      "step": 38500
    },
    {
      "epoch": 0.19255,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0024345226130653265,
      "loss": 2.2403,
      "step": 38510
    },
    {
      "epoch": 0.1926,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024343718592964823,
      "loss": 2.2717,
      "step": 38520
    },
    {
      "epoch": 0.19265,
      "grad_norm": 0.4375,
      "learning_rate": 0.002434221105527638,
      "loss": 2.2525,
      "step": 38530
    },
    {
      "epoch": 0.1927,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002434070351758794,
      "loss": 2.1974,
      "step": 38540
    },
    {
      "epoch": 0.19275,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024339195979899498,
      "loss": 2.2608,
      "step": 38550
    },
    {
      "epoch": 0.1928,
      "grad_norm": 0.5,
      "learning_rate": 0.0024337688442211056,
      "loss": 2.2067,
      "step": 38560
    },
    {
      "epoch": 0.19285,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0024336180904522614,
      "loss": 2.2223,
      "step": 38570
    },
    {
      "epoch": 0.1929,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002433467336683417,
      "loss": 2.263,
      "step": 38580
    },
    {
      "epoch": 0.19295,
      "grad_norm": 0.46875,
      "learning_rate": 0.002433316582914573,
      "loss": 2.2287,
      "step": 38590
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.4375,
      "learning_rate": 0.002433165829145729,
      "loss": 2.2948,
      "step": 38600
    },
    {
      "epoch": 0.19305,
      "grad_norm": 0.515625,
      "learning_rate": 0.002433015075376884,
      "loss": 2.2445,
      "step": 38610
    },
    {
      "epoch": 0.1931,
      "grad_norm": 0.423828125,
      "learning_rate": 0.0024328643216080404,
      "loss": 2.2112,
      "step": 38620
    },
    {
      "epoch": 0.19315,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002432713567839196,
      "loss": 2.2644,
      "step": 38630
    },
    {
      "epoch": 0.1932,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024325628140703516,
      "loss": 2.1823,
      "step": 38640
    },
    {
      "epoch": 0.19325,
      "grad_norm": 0.46875,
      "learning_rate": 0.002432412060301508,
      "loss": 2.2747,
      "step": 38650
    },
    {
      "epoch": 0.1933,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0024322613065326636,
      "loss": 2.2655,
      "step": 38660
    },
    {
      "epoch": 0.19335,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002432110552763819,
      "loss": 2.2315,
      "step": 38670
    },
    {
      "epoch": 0.1934,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002431959798994975,
      "loss": 2.2736,
      "step": 38680
    },
    {
      "epoch": 0.19345,
      "grad_norm": 0.53125,
      "learning_rate": 0.0024318090452261306,
      "loss": 2.2428,
      "step": 38690
    },
    {
      "epoch": 0.1935,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0024316582914572864,
      "loss": 2.2825,
      "step": 38700
    },
    {
      "epoch": 0.19355,
      "grad_norm": 0.515625,
      "learning_rate": 0.0024315075376884422,
      "loss": 2.2214,
      "step": 38710
    },
    {
      "epoch": 0.1936,
      "grad_norm": 0.515625,
      "learning_rate": 0.002431356783919598,
      "loss": 2.1589,
      "step": 38720
    },
    {
      "epoch": 0.19365,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002431206030150754,
      "loss": 2.2477,
      "step": 38730
    },
    {
      "epoch": 0.1937,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0024310552763819097,
      "loss": 2.19,
      "step": 38740
    },
    {
      "epoch": 0.19375,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024309045226130655,
      "loss": 2.2463,
      "step": 38750
    },
    {
      "epoch": 0.1938,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0024307537688442213,
      "loss": 2.2766,
      "step": 38760
    },
    {
      "epoch": 0.19385,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0024306030150753766,
      "loss": 2.233,
      "step": 38770
    },
    {
      "epoch": 0.1939,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002430452261306533,
      "loss": 2.2197,
      "step": 38780
    },
    {
      "epoch": 0.19395,
      "grad_norm": 0.5,
      "learning_rate": 0.0024303015075376887,
      "loss": 2.2601,
      "step": 38790
    },
    {
      "epoch": 0.194,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002430150753768844,
      "loss": 2.2457,
      "step": 38800
    },
    {
      "epoch": 0.19405,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024300000000000003,
      "loss": 2.2617,
      "step": 38810
    },
    {
      "epoch": 0.1941,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0024298492462311557,
      "loss": 2.1817,
      "step": 38820
    },
    {
      "epoch": 0.19415,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0024296984924623115,
      "loss": 2.2494,
      "step": 38830
    },
    {
      "epoch": 0.1942,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0024295477386934673,
      "loss": 2.2013,
      "step": 38840
    },
    {
      "epoch": 0.19425,
      "grad_norm": 0.53125,
      "learning_rate": 0.002429396984924623,
      "loss": 2.1786,
      "step": 38850
    },
    {
      "epoch": 0.1943,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002429246231155779,
      "loss": 2.2919,
      "step": 38860
    },
    {
      "epoch": 0.19435,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0024290954773869347,
      "loss": 2.1806,
      "step": 38870
    },
    {
      "epoch": 0.1944,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0024289447236180905,
      "loss": 2.2595,
      "step": 38880
    },
    {
      "epoch": 0.19445,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024287939698492463,
      "loss": 2.2209,
      "step": 38890
    },
    {
      "epoch": 0.1945,
      "grad_norm": 0.46875,
      "learning_rate": 0.002428643216080402,
      "loss": 2.1983,
      "step": 38900
    },
    {
      "epoch": 0.19455,
      "grad_norm": 0.421875,
      "learning_rate": 0.002428492462311558,
      "loss": 2.2943,
      "step": 38910
    },
    {
      "epoch": 0.1946,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0024283417085427137,
      "loss": 2.2476,
      "step": 38920
    },
    {
      "epoch": 0.19465,
      "grad_norm": 0.4375,
      "learning_rate": 0.002428190954773869,
      "loss": 2.3037,
      "step": 38930
    },
    {
      "epoch": 0.1947,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0024280402010050254,
      "loss": 2.2539,
      "step": 38940
    },
    {
      "epoch": 0.19475,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002427889447236181,
      "loss": 2.2151,
      "step": 38950
    },
    {
      "epoch": 0.1948,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0024277386934673365,
      "loss": 2.2553,
      "step": 38960
    },
    {
      "epoch": 0.19485,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024275879396984928,
      "loss": 2.1973,
      "step": 38970
    },
    {
      "epoch": 0.1949,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002427437185929648,
      "loss": 2.2519,
      "step": 38980
    },
    {
      "epoch": 0.19495,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002427286432160804,
      "loss": 2.2328,
      "step": 38990
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.5,
      "learning_rate": 0.0024271356783919598,
      "loss": 2.183,
      "step": 39000
    },
    {
      "epoch": 0.19505,
      "grad_norm": 0.443359375,
      "learning_rate": 0.0024269849246231156,
      "loss": 2.3124,
      "step": 39010
    },
    {
      "epoch": 0.1951,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024268341708542714,
      "loss": 2.2181,
      "step": 39020
    },
    {
      "epoch": 0.19515,
      "grad_norm": 0.515625,
      "learning_rate": 0.002426683417085427,
      "loss": 2.2449,
      "step": 39030
    },
    {
      "epoch": 0.1952,
      "grad_norm": 0.443359375,
      "learning_rate": 0.002426532663316583,
      "loss": 2.2763,
      "step": 39040
    },
    {
      "epoch": 0.19525,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002426381909547739,
      "loss": 2.167,
      "step": 39050
    },
    {
      "epoch": 0.1953,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0024262311557788946,
      "loss": 2.2477,
      "step": 39060
    },
    {
      "epoch": 0.19535,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024260804020100504,
      "loss": 2.2007,
      "step": 39070
    },
    {
      "epoch": 0.1954,
      "grad_norm": 0.5,
      "learning_rate": 0.0024259296482412062,
      "loss": 2.2751,
      "step": 39080
    },
    {
      "epoch": 0.19545,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0024257788944723616,
      "loss": 2.2198,
      "step": 39090
    },
    {
      "epoch": 0.1955,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002425628140703518,
      "loss": 2.1959,
      "step": 39100
    },
    {
      "epoch": 0.19555,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024254773869346736,
      "loss": 2.2679,
      "step": 39110
    },
    {
      "epoch": 0.1956,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002425326633165829,
      "loss": 2.2398,
      "step": 39120
    },
    {
      "epoch": 0.19565,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0024251758793969853,
      "loss": 2.2218,
      "step": 39130
    },
    {
      "epoch": 0.1957,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024250251256281406,
      "loss": 2.2238,
      "step": 39140
    },
    {
      "epoch": 0.19575,
      "grad_norm": 0.53125,
      "learning_rate": 0.0024248743718592964,
      "loss": 2.1579,
      "step": 39150
    },
    {
      "epoch": 0.1958,
      "grad_norm": 0.5,
      "learning_rate": 0.0024247236180904522,
      "loss": 2.271,
      "step": 39160
    },
    {
      "epoch": 0.19585,
      "grad_norm": 0.484375,
      "learning_rate": 0.002424572864321608,
      "loss": 2.2273,
      "step": 39170
    },
    {
      "epoch": 0.1959,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002424422110552764,
      "loss": 2.208,
      "step": 39180
    },
    {
      "epoch": 0.19595,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024242713567839197,
      "loss": 2.2831,
      "step": 39190
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0024241206030150755,
      "loss": 2.2017,
      "step": 39200
    },
    {
      "epoch": 0.19605,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0024239698492462313,
      "loss": 2.3065,
      "step": 39210
    },
    {
      "epoch": 0.1961,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002423819095477387,
      "loss": 2.2345,
      "step": 39220
    },
    {
      "epoch": 0.19615,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002423668341708543,
      "loss": 2.2764,
      "step": 39230
    },
    {
      "epoch": 0.1962,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024235175879396987,
      "loss": 2.2613,
      "step": 39240
    },
    {
      "epoch": 0.19625,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002423366834170854,
      "loss": 2.1935,
      "step": 39250
    },
    {
      "epoch": 0.1963,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0024232160804020103,
      "loss": 2.2819,
      "step": 39260
    },
    {
      "epoch": 0.19635,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002423065326633166,
      "loss": 2.1855,
      "step": 39270
    },
    {
      "epoch": 0.1964,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0024229145728643215,
      "loss": 2.2274,
      "step": 39280
    },
    {
      "epoch": 0.19645,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024227638190954773,
      "loss": 2.2598,
      "step": 39290
    },
    {
      "epoch": 0.1965,
      "grad_norm": 0.435546875,
      "learning_rate": 0.002422613065326633,
      "loss": 2.2355,
      "step": 39300
    },
    {
      "epoch": 0.19655,
      "grad_norm": 0.546875,
      "learning_rate": 0.002422462311557789,
      "loss": 2.2847,
      "step": 39310
    },
    {
      "epoch": 0.1966,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0024223115577889447,
      "loss": 2.1876,
      "step": 39320
    },
    {
      "epoch": 0.19665,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024221608040201005,
      "loss": 2.2172,
      "step": 39330
    },
    {
      "epoch": 0.1967,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0024220100502512563,
      "loss": 2.2787,
      "step": 39340
    },
    {
      "epoch": 0.19675,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002421859296482412,
      "loss": 2.2306,
      "step": 39350
    },
    {
      "epoch": 0.1968,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002421708542713568,
      "loss": 2.2877,
      "step": 39360
    },
    {
      "epoch": 0.19685,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0024215577889447237,
      "loss": 2.2347,
      "step": 39370
    },
    {
      "epoch": 0.1969,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024214070351758796,
      "loss": 2.2486,
      "step": 39380
    },
    {
      "epoch": 0.19695,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0024212562814070354,
      "loss": 2.2267,
      "step": 39390
    },
    {
      "epoch": 0.197,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002421105527638191,
      "loss": 2.2258,
      "step": 39400
    },
    {
      "epoch": 0.19705,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0024209547738693465,
      "loss": 2.286,
      "step": 39410
    },
    {
      "epoch": 0.1971,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002420804020100503,
      "loss": 2.2266,
      "step": 39420
    },
    {
      "epoch": 0.19715,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0024206532663316586,
      "loss": 2.2501,
      "step": 39430
    },
    {
      "epoch": 0.1972,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002420502512562814,
      "loss": 2.289,
      "step": 39440
    },
    {
      "epoch": 0.19725,
      "grad_norm": 0.484375,
      "learning_rate": 0.0024203517587939698,
      "loss": 2.2288,
      "step": 39450
    },
    {
      "epoch": 0.1973,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024202010050251256,
      "loss": 2.2472,
      "step": 39460
    },
    {
      "epoch": 0.19735,
      "grad_norm": 0.5625,
      "learning_rate": 0.0024200502512562814,
      "loss": 2.248,
      "step": 39470
    },
    {
      "epoch": 0.1974,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002419899497487437,
      "loss": 2.2307,
      "step": 39480
    },
    {
      "epoch": 0.19745,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002419748743718593,
      "loss": 2.2269,
      "step": 39490
    },
    {
      "epoch": 0.1975,
      "grad_norm": 0.5,
      "learning_rate": 0.002419597989949749,
      "loss": 2.2336,
      "step": 39500
    },
    {
      "epoch": 0.19755,
      "grad_norm": 0.453125,
      "learning_rate": 0.0024194472361809046,
      "loss": 2.298,
      "step": 39510
    },
    {
      "epoch": 0.1976,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0024192964824120604,
      "loss": 2.2217,
      "step": 39520
    },
    {
      "epoch": 0.19765,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0024191457286432162,
      "loss": 2.2464,
      "step": 39530
    },
    {
      "epoch": 0.1977,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024189949748743716,
      "loss": 2.2477,
      "step": 39540
    },
    {
      "epoch": 0.19775,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002418844221105528,
      "loss": 2.262,
      "step": 39550
    },
    {
      "epoch": 0.1978,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0024186934673366836,
      "loss": 2.2596,
      "step": 39560
    },
    {
      "epoch": 0.19785,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002418542713567839,
      "loss": 2.2268,
      "step": 39570
    },
    {
      "epoch": 0.1979,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0024183919597989953,
      "loss": 2.2573,
      "step": 39580
    },
    {
      "epoch": 0.19795,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002418241206030151,
      "loss": 2.1977,
      "step": 39590
    },
    {
      "epoch": 0.198,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0024180904522613064,
      "loss": 2.2031,
      "step": 39600
    },
    {
      "epoch": 0.19805,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0024179396984924622,
      "loss": 2.2789,
      "step": 39610
    },
    {
      "epoch": 0.1981,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002417788944723618,
      "loss": 2.2557,
      "step": 39620
    },
    {
      "epoch": 0.19815,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002417638190954774,
      "loss": 2.2508,
      "step": 39630
    },
    {
      "epoch": 0.1982,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024174874371859297,
      "loss": 2.1935,
      "step": 39640
    },
    {
      "epoch": 0.19825,
      "grad_norm": 0.5,
      "learning_rate": 0.0024173366834170855,
      "loss": 2.2481,
      "step": 39650
    },
    {
      "epoch": 0.1983,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024171859296482413,
      "loss": 2.2693,
      "step": 39660
    },
    {
      "epoch": 0.19835,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002417035175879397,
      "loss": 2.2143,
      "step": 39670
    },
    {
      "epoch": 0.1984,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002416884422110553,
      "loss": 2.2491,
      "step": 39680
    },
    {
      "epoch": 0.19845,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0024167336683417087,
      "loss": 2.2302,
      "step": 39690
    },
    {
      "epoch": 0.1985,
      "grad_norm": 0.46875,
      "learning_rate": 0.002416582914572864,
      "loss": 2.1968,
      "step": 39700
    },
    {
      "epoch": 0.19855,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0024164321608040203,
      "loss": 2.2294,
      "step": 39710
    },
    {
      "epoch": 0.1986,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002416281407035176,
      "loss": 2.2197,
      "step": 39720
    },
    {
      "epoch": 0.19865,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024161306532663315,
      "loss": 2.251,
      "step": 39730
    },
    {
      "epoch": 0.1987,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0024159798994974877,
      "loss": 2.193,
      "step": 39740
    },
    {
      "epoch": 0.19875,
      "grad_norm": 0.453125,
      "learning_rate": 0.002415829145728643,
      "loss": 2.3052,
      "step": 39750
    },
    {
      "epoch": 0.1988,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002415678391959799,
      "loss": 2.2175,
      "step": 39760
    },
    {
      "epoch": 0.19885,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024155276381909547,
      "loss": 2.2002,
      "step": 39770
    },
    {
      "epoch": 0.1989,
      "grad_norm": 0.5,
      "learning_rate": 0.0024153768844221105,
      "loss": 2.2717,
      "step": 39780
    },
    {
      "epoch": 0.19895,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024152261306532663,
      "loss": 2.1833,
      "step": 39790
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002415075376884422,
      "loss": 2.2519,
      "step": 39800
    },
    {
      "epoch": 0.19905,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002414924623115578,
      "loss": 2.2587,
      "step": 39810
    },
    {
      "epoch": 0.1991,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024147738693467338,
      "loss": 2.2403,
      "step": 39820
    },
    {
      "epoch": 0.19915,
      "grad_norm": 0.53125,
      "learning_rate": 0.0024146231155778896,
      "loss": 2.2707,
      "step": 39830
    },
    {
      "epoch": 0.1992,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0024144723618090454,
      "loss": 2.2088,
      "step": 39840
    },
    {
      "epoch": 0.19925,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002414321608040201,
      "loss": 2.2591,
      "step": 39850
    },
    {
      "epoch": 0.1993,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0024141708542713565,
      "loss": 2.1985,
      "step": 39860
    },
    {
      "epoch": 0.19935,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002414020100502513,
      "loss": 2.2479,
      "step": 39870
    },
    {
      "epoch": 0.1994,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0024138693467336686,
      "loss": 2.1824,
      "step": 39880
    },
    {
      "epoch": 0.19945,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002413718592964824,
      "loss": 2.2338,
      "step": 39890
    },
    {
      "epoch": 0.1995,
      "grad_norm": 0.515625,
      "learning_rate": 0.00241356783919598,
      "loss": 2.2065,
      "step": 39900
    },
    {
      "epoch": 0.19955,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024134170854271356,
      "loss": 2.2331,
      "step": 39910
    },
    {
      "epoch": 0.1996,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0024132663316582914,
      "loss": 2.2749,
      "step": 39920
    },
    {
      "epoch": 0.19965,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002413115577889447,
      "loss": 2.2082,
      "step": 39930
    },
    {
      "epoch": 0.1997,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002412964824120603,
      "loss": 2.2216,
      "step": 39940
    },
    {
      "epoch": 0.19975,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002412814070351759,
      "loss": 2.2278,
      "step": 39950
    },
    {
      "epoch": 0.1998,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0024126633165829146,
      "loss": 2.2151,
      "step": 39960
    },
    {
      "epoch": 0.19985,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0024125125628140704,
      "loss": 2.2888,
      "step": 39970
    },
    {
      "epoch": 0.1999,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0024123618090452262,
      "loss": 2.2283,
      "step": 39980
    },
    {
      "epoch": 0.19995,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002412211055276382,
      "loss": 2.2559,
      "step": 39990
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002412060301507538,
      "loss": 2.2612,
      "step": 40000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.224686622619629,
      "eval_runtime": 48.7839,
      "eval_samples_per_second": 51.246,
      "eval_steps_per_second": 0.102,
      "step": 40000
    },
    {
      "epoch": 0.20005,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0024119095477386937,
      "loss": 2.2042,
      "step": 40010
    },
    {
      "epoch": 0.2001,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002411758793969849,
      "loss": 2.2364,
      "step": 40020
    },
    {
      "epoch": 0.20015,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0024116080402010053,
      "loss": 2.2247,
      "step": 40030
    },
    {
      "epoch": 0.2002,
      "grad_norm": 0.421875,
      "learning_rate": 0.002411457286432161,
      "loss": 2.251,
      "step": 40040
    },
    {
      "epoch": 0.20025,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0024113065326633164,
      "loss": 2.2162,
      "step": 40050
    },
    {
      "epoch": 0.2003,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0024111557788944727,
      "loss": 2.2132,
      "step": 40060
    },
    {
      "epoch": 0.20035,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002411005025125628,
      "loss": 2.257,
      "step": 40070
    },
    {
      "epoch": 0.2004,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002410854271356784,
      "loss": 2.2182,
      "step": 40080
    },
    {
      "epoch": 0.20045,
      "grad_norm": 0.41796875,
      "learning_rate": 0.0024107035175879397,
      "loss": 2.2641,
      "step": 40090
    },
    {
      "epoch": 0.2005,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0024105527638190955,
      "loss": 2.2451,
      "step": 40100
    },
    {
      "epoch": 0.20055,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0024104020100502513,
      "loss": 2.2055,
      "step": 40110
    },
    {
      "epoch": 0.2006,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002410251256281407,
      "loss": 2.2218,
      "step": 40120
    },
    {
      "epoch": 0.20065,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002410100502512563,
      "loss": 2.2137,
      "step": 40130
    },
    {
      "epoch": 0.2007,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0024099497487437187,
      "loss": 2.235,
      "step": 40140
    },
    {
      "epoch": 0.20075,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0024097989949748745,
      "loss": 2.2185,
      "step": 40150
    },
    {
      "epoch": 0.2008,
      "grad_norm": 0.46875,
      "learning_rate": 0.0024096482412060303,
      "loss": 2.2858,
      "step": 40160
    },
    {
      "epoch": 0.20085,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002409497487437186,
      "loss": 2.2549,
      "step": 40170
    },
    {
      "epoch": 0.2009,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024093467336683415,
      "loss": 2.2219,
      "step": 40180
    },
    {
      "epoch": 0.20095,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0024091959798994977,
      "loss": 2.2302,
      "step": 40190
    },
    {
      "epoch": 0.201,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0024090452261306535,
      "loss": 2.2317,
      "step": 40200
    },
    {
      "epoch": 0.20105,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002408894472361809,
      "loss": 2.234,
      "step": 40210
    },
    {
      "epoch": 0.2011,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002408743718592965,
      "loss": 2.2327,
      "step": 40220
    },
    {
      "epoch": 0.20115,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0024085929648241205,
      "loss": 2.2206,
      "step": 40230
    },
    {
      "epoch": 0.2012,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024084422110552763,
      "loss": 2.2528,
      "step": 40240
    },
    {
      "epoch": 0.20125,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002408291457286432,
      "loss": 2.2076,
      "step": 40250
    },
    {
      "epoch": 0.2013,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002408140703517588,
      "loss": 2.2659,
      "step": 40260
    },
    {
      "epoch": 0.20135,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0024079899497487438,
      "loss": 2.2242,
      "step": 40270
    },
    {
      "epoch": 0.2014,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0024078391959798996,
      "loss": 2.2506,
      "step": 40280
    },
    {
      "epoch": 0.20145,
      "grad_norm": 0.578125,
      "learning_rate": 0.0024076884422110554,
      "loss": 2.1892,
      "step": 40290
    },
    {
      "epoch": 0.2015,
      "grad_norm": 0.60546875,
      "learning_rate": 0.002407537688442211,
      "loss": 2.2415,
      "step": 40300
    },
    {
      "epoch": 0.20155,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002407386934673367,
      "loss": 2.2536,
      "step": 40310
    },
    {
      "epoch": 0.2016,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002407236180904523,
      "loss": 2.1922,
      "step": 40320
    },
    {
      "epoch": 0.20165,
      "grad_norm": 0.5,
      "learning_rate": 0.0024070854271356786,
      "loss": 2.2548,
      "step": 40330
    },
    {
      "epoch": 0.2017,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002406934673366834,
      "loss": 2.253,
      "step": 40340
    },
    {
      "epoch": 0.20175,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0024067839195979902,
      "loss": 2.2553,
      "step": 40350
    },
    {
      "epoch": 0.2018,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002406633165829146,
      "loss": 2.2053,
      "step": 40360
    },
    {
      "epoch": 0.20185,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0024064824120603014,
      "loss": 2.2097,
      "step": 40370
    },
    {
      "epoch": 0.2019,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002406331658291457,
      "loss": 2.2411,
      "step": 40380
    },
    {
      "epoch": 0.20195,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002406180904522613,
      "loss": 2.2114,
      "step": 40390
    },
    {
      "epoch": 0.202,
      "grad_norm": 0.5,
      "learning_rate": 0.002406030150753769,
      "loss": 2.2924,
      "step": 40400
    },
    {
      "epoch": 0.20205,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0024058793969849246,
      "loss": 2.1726,
      "step": 40410
    },
    {
      "epoch": 0.2021,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0024057286432160804,
      "loss": 2.2519,
      "step": 40420
    },
    {
      "epoch": 0.20215,
      "grad_norm": 0.546875,
      "learning_rate": 0.0024055778894472362,
      "loss": 2.193,
      "step": 40430
    },
    {
      "epoch": 0.2022,
      "grad_norm": 0.5,
      "learning_rate": 0.002405427135678392,
      "loss": 2.2159,
      "step": 40440
    },
    {
      "epoch": 0.20225,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002405276381909548,
      "loss": 2.3061,
      "step": 40450
    },
    {
      "epoch": 0.2023,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0024051256281407037,
      "loss": 2.2345,
      "step": 40460
    },
    {
      "epoch": 0.20235,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002404974874371859,
      "loss": 2.2894,
      "step": 40470
    },
    {
      "epoch": 0.2024,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0024048241206030153,
      "loss": 2.2438,
      "step": 40480
    },
    {
      "epoch": 0.20245,
      "grad_norm": 0.453125,
      "learning_rate": 0.002404673366834171,
      "loss": 2.274,
      "step": 40490
    },
    {
      "epoch": 0.2025,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024045226130653265,
      "loss": 2.2787,
      "step": 40500
    },
    {
      "epoch": 0.20255,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0024043718592964827,
      "loss": 2.208,
      "step": 40510
    },
    {
      "epoch": 0.2026,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0024042211055276385,
      "loss": 2.2242,
      "step": 40520
    },
    {
      "epoch": 0.20265,
      "grad_norm": 0.484375,
      "learning_rate": 0.002404070351758794,
      "loss": 2.2047,
      "step": 40530
    },
    {
      "epoch": 0.2027,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0024039195979899497,
      "loss": 2.2318,
      "step": 40540
    },
    {
      "epoch": 0.20275,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0024037688442211055,
      "loss": 2.2533,
      "step": 40550
    },
    {
      "epoch": 0.2028,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024036180904522613,
      "loss": 2.2604,
      "step": 40560
    },
    {
      "epoch": 0.20285,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002403467336683417,
      "loss": 2.2385,
      "step": 40570
    },
    {
      "epoch": 0.2029,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002403316582914573,
      "loss": 2.2333,
      "step": 40580
    },
    {
      "epoch": 0.20295,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0024031658291457287,
      "loss": 2.2797,
      "step": 40590
    },
    {
      "epoch": 0.203,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0024030150753768845,
      "loss": 2.2075,
      "step": 40600
    },
    {
      "epoch": 0.20305,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0024028643216080403,
      "loss": 2.2448,
      "step": 40610
    },
    {
      "epoch": 0.2031,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002402713567839196,
      "loss": 2.2559,
      "step": 40620
    },
    {
      "epoch": 0.20315,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0024025628140703515,
      "loss": 2.2622,
      "step": 40630
    },
    {
      "epoch": 0.2032,
      "grad_norm": 0.546875,
      "learning_rate": 0.0024024120603015077,
      "loss": 2.2325,
      "step": 40640
    },
    {
      "epoch": 0.20325,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0024022613065326636,
      "loss": 2.1843,
      "step": 40650
    },
    {
      "epoch": 0.2033,
      "grad_norm": 0.515625,
      "learning_rate": 0.002402110552763819,
      "loss": 2.2437,
      "step": 40660
    },
    {
      "epoch": 0.20335,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002401959798994975,
      "loss": 2.1957,
      "step": 40670
    },
    {
      "epoch": 0.2034,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0024018090452261305,
      "loss": 2.2858,
      "step": 40680
    },
    {
      "epoch": 0.20345,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024016582914572863,
      "loss": 2.2283,
      "step": 40690
    },
    {
      "epoch": 0.2035,
      "grad_norm": 0.515625,
      "learning_rate": 0.002401507537688442,
      "loss": 2.2717,
      "step": 40700
    },
    {
      "epoch": 0.20355,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002401356783919598,
      "loss": 2.2519,
      "step": 40710
    },
    {
      "epoch": 0.2036,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0024012060301507538,
      "loss": 2.1862,
      "step": 40720
    },
    {
      "epoch": 0.20365,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0024010552763819096,
      "loss": 2.2944,
      "step": 40730
    },
    {
      "epoch": 0.2037,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0024009045226130654,
      "loss": 2.2035,
      "step": 40740
    },
    {
      "epoch": 0.20375,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002400753768844221,
      "loss": 2.2394,
      "step": 40750
    },
    {
      "epoch": 0.2038,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002400603015075377,
      "loss": 2.187,
      "step": 40760
    },
    {
      "epoch": 0.20385,
      "grad_norm": 0.515625,
      "learning_rate": 0.002400452261306533,
      "loss": 2.247,
      "step": 40770
    },
    {
      "epoch": 0.2039,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0024003015075376886,
      "loss": 2.2322,
      "step": 40780
    },
    {
      "epoch": 0.20395,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002400150753768844,
      "loss": 2.2159,
      "step": 40790
    },
    {
      "epoch": 0.204,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0024000000000000002,
      "loss": 2.2643,
      "step": 40800
    },
    {
      "epoch": 0.20405,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002399849246231156,
      "loss": 2.2289,
      "step": 40810
    },
    {
      "epoch": 0.2041,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0023996984924623114,
      "loss": 2.2319,
      "step": 40820
    },
    {
      "epoch": 0.20415,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0023995477386934676,
      "loss": 2.1624,
      "step": 40830
    },
    {
      "epoch": 0.2042,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002399396984924623,
      "loss": 2.2405,
      "step": 40840
    },
    {
      "epoch": 0.20425,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002399246231155779,
      "loss": 2.2342,
      "step": 40850
    },
    {
      "epoch": 0.2043,
      "grad_norm": 0.5,
      "learning_rate": 0.0023990954773869346,
      "loss": 2.2386,
      "step": 40860
    },
    {
      "epoch": 0.20435,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023989447236180904,
      "loss": 2.2577,
      "step": 40870
    },
    {
      "epoch": 0.2044,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0023987939698492462,
      "loss": 2.196,
      "step": 40880
    },
    {
      "epoch": 0.20445,
      "grad_norm": 0.5625,
      "learning_rate": 0.002398643216080402,
      "loss": 2.2465,
      "step": 40890
    },
    {
      "epoch": 0.2045,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002398492462311558,
      "loss": 2.1923,
      "step": 40900
    },
    {
      "epoch": 0.20455,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023983417085427137,
      "loss": 2.215,
      "step": 40910
    },
    {
      "epoch": 0.2046,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0023981909547738695,
      "loss": 2.2372,
      "step": 40920
    },
    {
      "epoch": 0.20465,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023980402010050253,
      "loss": 2.1989,
      "step": 40930
    },
    {
      "epoch": 0.2047,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002397889447236181,
      "loss": 2.2864,
      "step": 40940
    },
    {
      "epoch": 0.20475,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0023977386934673365,
      "loss": 2.207,
      "step": 40950
    },
    {
      "epoch": 0.2048,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0023975879396984927,
      "loss": 2.2514,
      "step": 40960
    },
    {
      "epoch": 0.20485,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023974371859296485,
      "loss": 2.2077,
      "step": 40970
    },
    {
      "epoch": 0.2049,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002397286432160804,
      "loss": 2.2623,
      "step": 40980
    },
    {
      "epoch": 0.20495,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00239713567839196,
      "loss": 2.2287,
      "step": 40990
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023969849246231155,
      "loss": 2.2067,
      "step": 41000
    },
    {
      "epoch": 0.20505,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0023968341708542713,
      "loss": 2.2619,
      "step": 41010
    },
    {
      "epoch": 0.2051,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002396683417085427,
      "loss": 2.2107,
      "step": 41020
    },
    {
      "epoch": 0.20515,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002396532663316583,
      "loss": 2.2684,
      "step": 41030
    },
    {
      "epoch": 0.2052,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0023963819095477387,
      "loss": 2.2451,
      "step": 41040
    },
    {
      "epoch": 0.20525,
      "grad_norm": 0.53125,
      "learning_rate": 0.0023962311557788945,
      "loss": 2.2445,
      "step": 41050
    },
    {
      "epoch": 0.2053,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0023960804020100503,
      "loss": 2.237,
      "step": 41060
    },
    {
      "epoch": 0.20535,
      "grad_norm": 0.44140625,
      "learning_rate": 0.002395929648241206,
      "loss": 2.2075,
      "step": 41070
    },
    {
      "epoch": 0.2054,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002395778894472362,
      "loss": 2.2401,
      "step": 41080
    },
    {
      "epoch": 0.20545,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0023956281407035178,
      "loss": 2.1576,
      "step": 41090
    },
    {
      "epoch": 0.2055,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0023954773869346736,
      "loss": 2.2775,
      "step": 41100
    },
    {
      "epoch": 0.20555,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002395326633165829,
      "loss": 2.2003,
      "step": 41110
    },
    {
      "epoch": 0.2056,
      "grad_norm": 0.439453125,
      "learning_rate": 0.002395175879396985,
      "loss": 2.2629,
      "step": 41120
    },
    {
      "epoch": 0.20565,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002395025125628141,
      "loss": 2.2068,
      "step": 41130
    },
    {
      "epoch": 0.2057,
      "grad_norm": 0.5,
      "learning_rate": 0.0023948743718592964,
      "loss": 2.1848,
      "step": 41140
    },
    {
      "epoch": 0.20575,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0023947236180904526,
      "loss": 2.2302,
      "step": 41150
    },
    {
      "epoch": 0.2058,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002394572864321608,
      "loss": 2.2116,
      "step": 41160
    },
    {
      "epoch": 0.20585,
      "grad_norm": 0.43359375,
      "learning_rate": 0.0023944221105527638,
      "loss": 2.2728,
      "step": 41170
    },
    {
      "epoch": 0.2059,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0023942713567839196,
      "loss": 2.2063,
      "step": 41180
    },
    {
      "epoch": 0.20595,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0023941206030150754,
      "loss": 2.3344,
      "step": 41190
    },
    {
      "epoch": 0.206,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002393969849246231,
      "loss": 2.1786,
      "step": 41200
    },
    {
      "epoch": 0.20605,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002393819095477387,
      "loss": 2.22,
      "step": 41210
    },
    {
      "epoch": 0.2061,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002393668341708543,
      "loss": 2.2387,
      "step": 41220
    },
    {
      "epoch": 0.20615,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023935175879396986,
      "loss": 2.2186,
      "step": 41230
    },
    {
      "epoch": 0.2062,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0023933668341708544,
      "loss": 2.2676,
      "step": 41240
    },
    {
      "epoch": 0.20625,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0023932160804020102,
      "loss": 2.1854,
      "step": 41250
    },
    {
      "epoch": 0.2063,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002393065326633166,
      "loss": 2.2921,
      "step": 41260
    },
    {
      "epoch": 0.20635,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0023929145728643214,
      "loss": 2.207,
      "step": 41270
    },
    {
      "epoch": 0.2064,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0023927638190954777,
      "loss": 2.2686,
      "step": 41280
    },
    {
      "epoch": 0.20645,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0023926130653266335,
      "loss": 2.2404,
      "step": 41290
    },
    {
      "epoch": 0.2065,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002392462311557789,
      "loss": 2.2162,
      "step": 41300
    },
    {
      "epoch": 0.20655,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002392311557788945,
      "loss": 2.2436,
      "step": 41310
    },
    {
      "epoch": 0.2066,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0023921608040201004,
      "loss": 2.1907,
      "step": 41320
    },
    {
      "epoch": 0.20665,
      "grad_norm": 0.59375,
      "learning_rate": 0.0023920100502512563,
      "loss": 2.2701,
      "step": 41330
    },
    {
      "epoch": 0.2067,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002391859296482412,
      "loss": 2.2622,
      "step": 41340
    },
    {
      "epoch": 0.20675,
      "grad_norm": 0.4296875,
      "learning_rate": 0.002391708542713568,
      "loss": 2.2481,
      "step": 41350
    },
    {
      "epoch": 0.2068,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023915577889447237,
      "loss": 2.2322,
      "step": 41360
    },
    {
      "epoch": 0.20685,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0023914070351758795,
      "loss": 2.2415,
      "step": 41370
    },
    {
      "epoch": 0.2069,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0023912562814070353,
      "loss": 2.2864,
      "step": 41380
    },
    {
      "epoch": 0.20695,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002391105527638191,
      "loss": 2.2459,
      "step": 41390
    },
    {
      "epoch": 0.207,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023909547738693465,
      "loss": 2.2632,
      "step": 41400
    },
    {
      "epoch": 0.20705,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023908040201005027,
      "loss": 2.2385,
      "step": 41410
    },
    {
      "epoch": 0.2071,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023906532663316585,
      "loss": 2.2911,
      "step": 41420
    },
    {
      "epoch": 0.20715,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002390502512562814,
      "loss": 2.1923,
      "step": 41430
    },
    {
      "epoch": 0.2072,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00239035175879397,
      "loss": 2.2562,
      "step": 41440
    },
    {
      "epoch": 0.20725,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002390201005025126,
      "loss": 2.201,
      "step": 41450
    },
    {
      "epoch": 0.2073,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023900502512562813,
      "loss": 2.2001,
      "step": 41460
    },
    {
      "epoch": 0.20735,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0023898994974874375,
      "loss": 2.2501,
      "step": 41470
    },
    {
      "epoch": 0.2074,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002389748743718593,
      "loss": 2.1669,
      "step": 41480
    },
    {
      "epoch": 0.20745,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023895979899497487,
      "loss": 2.2848,
      "step": 41490
    },
    {
      "epoch": 0.2075,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0023894472361809045,
      "loss": 2.2506,
      "step": 41500
    },
    {
      "epoch": 0.20755,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023892964824120603,
      "loss": 2.2671,
      "step": 41510
    },
    {
      "epoch": 0.2076,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002389145728643216,
      "loss": 2.2442,
      "step": 41520
    },
    {
      "epoch": 0.20765,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002388994974874372,
      "loss": 2.2348,
      "step": 41530
    },
    {
      "epoch": 0.2077,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0023888442211055278,
      "loss": 2.2132,
      "step": 41540
    },
    {
      "epoch": 0.20775,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023886934673366836,
      "loss": 2.227,
      "step": 41550
    },
    {
      "epoch": 0.2078,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002388542713567839,
      "loss": 2.2519,
      "step": 41560
    },
    {
      "epoch": 0.20785,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002388391959798995,
      "loss": 2.1925,
      "step": 41570
    },
    {
      "epoch": 0.2079,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002388241206030151,
      "loss": 2.2862,
      "step": 41580
    },
    {
      "epoch": 0.20795,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0023880904522613064,
      "loss": 2.195,
      "step": 41590
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0023879396984924626,
      "loss": 2.2707,
      "step": 41600
    },
    {
      "epoch": 0.20805,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002387788944723618,
      "loss": 2.224,
      "step": 41610
    },
    {
      "epoch": 0.2081,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023876381909547738,
      "loss": 2.2352,
      "step": 41620
    },
    {
      "epoch": 0.20815,
      "grad_norm": 0.453125,
      "learning_rate": 0.0023874874371859296,
      "loss": 2.2436,
      "step": 41630
    },
    {
      "epoch": 0.2082,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0023873366834170854,
      "loss": 2.2369,
      "step": 41640
    },
    {
      "epoch": 0.20825,
      "grad_norm": 0.6328125,
      "learning_rate": 0.002387185929648241,
      "loss": 2.2323,
      "step": 41650
    },
    {
      "epoch": 0.2083,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002387035175879397,
      "loss": 2.1778,
      "step": 41660
    },
    {
      "epoch": 0.20835,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002386884422110553,
      "loss": 2.2979,
      "step": 41670
    },
    {
      "epoch": 0.2084,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023867336683417086,
      "loss": 2.2372,
      "step": 41680
    },
    {
      "epoch": 0.20845,
      "grad_norm": 0.5625,
      "learning_rate": 0.0023865829145728644,
      "loss": 2.2884,
      "step": 41690
    },
    {
      "epoch": 0.2085,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0023864321608040202,
      "loss": 2.1907,
      "step": 41700
    },
    {
      "epoch": 0.20855,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002386281407035176,
      "loss": 2.2165,
      "step": 41710
    },
    {
      "epoch": 0.2086,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0023861306532663314,
      "loss": 2.2259,
      "step": 41720
    },
    {
      "epoch": 0.20865,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023859798994974877,
      "loss": 2.1964,
      "step": 41730
    },
    {
      "epoch": 0.2087,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0023858291457286435,
      "loss": 2.2271,
      "step": 41740
    },
    {
      "epoch": 0.20875,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002385678391959799,
      "loss": 2.1663,
      "step": 41750
    },
    {
      "epoch": 0.2088,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002385527638190955,
      "loss": 2.2453,
      "step": 41760
    },
    {
      "epoch": 0.20885,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023853768844221105,
      "loss": 2.1603,
      "step": 41770
    },
    {
      "epoch": 0.2089,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0023852261306532663,
      "loss": 2.2278,
      "step": 41780
    },
    {
      "epoch": 0.20895,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002385075376884422,
      "loss": 2.2582,
      "step": 41790
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.423828125,
      "learning_rate": 0.002384924623115578,
      "loss": 2.2271,
      "step": 41800
    },
    {
      "epoch": 0.20905,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023847738693467337,
      "loss": 2.2139,
      "step": 41810
    },
    {
      "epoch": 0.2091,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0023846231155778895,
      "loss": 2.2507,
      "step": 41820
    },
    {
      "epoch": 0.20915,
      "grad_norm": 0.46875,
      "learning_rate": 0.0023844723618090453,
      "loss": 2.2821,
      "step": 41830
    },
    {
      "epoch": 0.2092,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002384321608040201,
      "loss": 2.2228,
      "step": 41840
    },
    {
      "epoch": 0.20925,
      "grad_norm": 0.63671875,
      "learning_rate": 0.002384170854271357,
      "loss": 2.2311,
      "step": 41850
    },
    {
      "epoch": 0.2093,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023840201005025127,
      "loss": 2.2186,
      "step": 41860
    },
    {
      "epoch": 0.20935,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023838693467336685,
      "loss": 2.2761,
      "step": 41870
    },
    {
      "epoch": 0.2094,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002383718592964824,
      "loss": 2.2278,
      "step": 41880
    },
    {
      "epoch": 0.20945,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00238356783919598,
      "loss": 2.2647,
      "step": 41890
    },
    {
      "epoch": 0.2095,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002383417085427136,
      "loss": 2.241,
      "step": 41900
    },
    {
      "epoch": 0.20955,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0023832663316582913,
      "loss": 2.241,
      "step": 41910
    },
    {
      "epoch": 0.2096,
      "grad_norm": 0.427734375,
      "learning_rate": 0.0023831155778894476,
      "loss": 2.246,
      "step": 41920
    },
    {
      "epoch": 0.20965,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002382964824120603,
      "loss": 2.2067,
      "step": 41930
    },
    {
      "epoch": 0.2097,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0023828140703517587,
      "loss": 2.2375,
      "step": 41940
    },
    {
      "epoch": 0.20975,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023826633165829145,
      "loss": 2.2626,
      "step": 41950
    },
    {
      "epoch": 0.2098,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0023825125628140703,
      "loss": 2.2268,
      "step": 41960
    },
    {
      "epoch": 0.20985,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002382361809045226,
      "loss": 2.1901,
      "step": 41970
    },
    {
      "epoch": 0.2099,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002382211055276382,
      "loss": 2.2568,
      "step": 41980
    },
    {
      "epoch": 0.20995,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0023820603015075378,
      "loss": 2.1859,
      "step": 41990
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023819095477386936,
      "loss": 2.2227,
      "step": 42000
    },
    {
      "epoch": 0.21,
      "eval_loss": 2.216071367263794,
      "eval_runtime": 48.3994,
      "eval_samples_per_second": 51.654,
      "eval_steps_per_second": 0.103,
      "step": 42000
    },
    {
      "epoch": 0.21005,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023817587939698494,
      "loss": 2.2299,
      "step": 42010
    },
    {
      "epoch": 0.2101,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002381608040201005,
      "loss": 2.2508,
      "step": 42020
    },
    {
      "epoch": 0.21015,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002381457286432161,
      "loss": 2.2617,
      "step": 42030
    },
    {
      "epoch": 0.2102,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023813065326633164,
      "loss": 2.2379,
      "step": 42040
    },
    {
      "epoch": 0.21025,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0023811557788944726,
      "loss": 2.2286,
      "step": 42050
    },
    {
      "epoch": 0.2103,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023810050251256284,
      "loss": 2.2136,
      "step": 42060
    },
    {
      "epoch": 0.21035,
      "grad_norm": 0.41796875,
      "learning_rate": 0.002380854271356784,
      "loss": 2.2362,
      "step": 42070
    },
    {
      "epoch": 0.2104,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00238070351758794,
      "loss": 2.2082,
      "step": 42080
    },
    {
      "epoch": 0.21045,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023805527638190954,
      "loss": 2.2368,
      "step": 42090
    },
    {
      "epoch": 0.2105,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002380402010050251,
      "loss": 2.2067,
      "step": 42100
    },
    {
      "epoch": 0.21055,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002380251256281407,
      "loss": 2.2096,
      "step": 42110
    },
    {
      "epoch": 0.2106,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002380100502512563,
      "loss": 2.2374,
      "step": 42120
    },
    {
      "epoch": 0.21065,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023799497487437186,
      "loss": 2.208,
      "step": 42130
    },
    {
      "epoch": 0.2107,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023797989949748744,
      "loss": 2.2529,
      "step": 42140
    },
    {
      "epoch": 0.21075,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023796482412060302,
      "loss": 2.1876,
      "step": 42150
    },
    {
      "epoch": 0.2108,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002379497487437186,
      "loss": 2.2831,
      "step": 42160
    },
    {
      "epoch": 0.21085,
      "grad_norm": 0.53125,
      "learning_rate": 0.002379346733668342,
      "loss": 2.2383,
      "step": 42170
    },
    {
      "epoch": 0.2109,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023791959798994977,
      "loss": 2.2585,
      "step": 42180
    },
    {
      "epoch": 0.21095,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0023790452261306535,
      "loss": 2.1884,
      "step": 42190
    },
    {
      "epoch": 0.211,
      "grad_norm": 0.46875,
      "learning_rate": 0.002378894472361809,
      "loss": 2.2312,
      "step": 42200
    },
    {
      "epoch": 0.21105,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002378743718592965,
      "loss": 2.2229,
      "step": 42210
    },
    {
      "epoch": 0.2111,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002378592964824121,
      "loss": 2.2276,
      "step": 42220
    },
    {
      "epoch": 0.21115,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0023784422110552763,
      "loss": 2.2478,
      "step": 42230
    },
    {
      "epoch": 0.2112,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0023782914572864325,
      "loss": 2.2296,
      "step": 42240
    },
    {
      "epoch": 0.21125,
      "grad_norm": 0.4375,
      "learning_rate": 0.002378140703517588,
      "loss": 2.2758,
      "step": 42250
    },
    {
      "epoch": 0.2113,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0023779899497487437,
      "loss": 2.1642,
      "step": 42260
    },
    {
      "epoch": 0.21135,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0023778391959798995,
      "loss": 2.2083,
      "step": 42270
    },
    {
      "epoch": 0.2114,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023776884422110553,
      "loss": 2.1771,
      "step": 42280
    },
    {
      "epoch": 0.21145,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002377537688442211,
      "loss": 2.235,
      "step": 42290
    },
    {
      "epoch": 0.2115,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002377386934673367,
      "loss": 2.1675,
      "step": 42300
    },
    {
      "epoch": 0.21155,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0023772361809045227,
      "loss": 2.2006,
      "step": 42310
    },
    {
      "epoch": 0.2116,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023770854271356785,
      "loss": 2.2145,
      "step": 42320
    },
    {
      "epoch": 0.21165,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002376934673366834,
      "loss": 2.2193,
      "step": 42330
    },
    {
      "epoch": 0.2117,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00237678391959799,
      "loss": 2.2367,
      "step": 42340
    },
    {
      "epoch": 0.21175,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002376633165829146,
      "loss": 2.2167,
      "step": 42350
    },
    {
      "epoch": 0.2118,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023764824120603013,
      "loss": 2.2686,
      "step": 42360
    },
    {
      "epoch": 0.21185,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023763316582914576,
      "loss": 2.186,
      "step": 42370
    },
    {
      "epoch": 0.2119,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0023761809045226134,
      "loss": 2.2728,
      "step": 42380
    },
    {
      "epoch": 0.21195,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0023760301507537687,
      "loss": 2.2345,
      "step": 42390
    },
    {
      "epoch": 0.212,
      "grad_norm": 0.546875,
      "learning_rate": 0.002375879396984925,
      "loss": 2.2661,
      "step": 42400
    },
    {
      "epoch": 0.21205,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0023757286432160804,
      "loss": 2.2121,
      "step": 42410
    },
    {
      "epoch": 0.2121,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002375577889447236,
      "loss": 2.2236,
      "step": 42420
    },
    {
      "epoch": 0.21215,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002375427135678392,
      "loss": 2.258,
      "step": 42430
    },
    {
      "epoch": 0.2122,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0023752763819095478,
      "loss": 2.2548,
      "step": 42440
    },
    {
      "epoch": 0.21225,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023751256281407036,
      "loss": 2.2527,
      "step": 42450
    },
    {
      "epoch": 0.2123,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0023749748743718594,
      "loss": 2.2315,
      "step": 42460
    },
    {
      "epoch": 0.21235,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002374824120603015,
      "loss": 2.2734,
      "step": 42470
    },
    {
      "epoch": 0.2124,
      "grad_norm": 0.43359375,
      "learning_rate": 0.002374673366834171,
      "loss": 2.1472,
      "step": 42480
    },
    {
      "epoch": 0.21245,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0023745226130653264,
      "loss": 2.1981,
      "step": 42490
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023743718592964826,
      "loss": 2.1997,
      "step": 42500
    },
    {
      "epoch": 0.21255,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023742211055276384,
      "loss": 2.1877,
      "step": 42510
    },
    {
      "epoch": 0.2126,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002374070351758794,
      "loss": 2.2236,
      "step": 42520
    },
    {
      "epoch": 0.21265,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00237391959798995,
      "loss": 2.2183,
      "step": 42530
    },
    {
      "epoch": 0.2127,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023737688442211054,
      "loss": 2.2449,
      "step": 42540
    },
    {
      "epoch": 0.21275,
      "grad_norm": 0.4375,
      "learning_rate": 0.002373618090452261,
      "loss": 2.246,
      "step": 42550
    },
    {
      "epoch": 0.2128,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023734673366834175,
      "loss": 2.201,
      "step": 42560
    },
    {
      "epoch": 0.21285,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002373316582914573,
      "loss": 2.2213,
      "step": 42570
    },
    {
      "epoch": 0.2129,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023731658291457286,
      "loss": 2.2505,
      "step": 42580
    },
    {
      "epoch": 0.21295,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023730150753768844,
      "loss": 2.199,
      "step": 42590
    },
    {
      "epoch": 0.213,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0023728643216080402,
      "loss": 2.2615,
      "step": 42600
    },
    {
      "epoch": 0.21305,
      "grad_norm": 0.484375,
      "learning_rate": 0.002372713567839196,
      "loss": 2.2494,
      "step": 42610
    },
    {
      "epoch": 0.2131,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002372562814070352,
      "loss": 2.294,
      "step": 42620
    },
    {
      "epoch": 0.21315,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0023724120603015077,
      "loss": 2.192,
      "step": 42630
    },
    {
      "epoch": 0.2132,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023722613065326635,
      "loss": 2.2705,
      "step": 42640
    },
    {
      "epoch": 0.21325,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002372110552763819,
      "loss": 2.2234,
      "step": 42650
    },
    {
      "epoch": 0.2133,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002371959798994975,
      "loss": 2.2803,
      "step": 42660
    },
    {
      "epoch": 0.21335,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002371809045226131,
      "loss": 2.1847,
      "step": 42670
    },
    {
      "epoch": 0.2134,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023716582914572863,
      "loss": 2.2601,
      "step": 42680
    },
    {
      "epoch": 0.21345,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023715075376884425,
      "loss": 2.2441,
      "step": 42690
    },
    {
      "epoch": 0.2135,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002371356783919598,
      "loss": 2.2071,
      "step": 42700
    },
    {
      "epoch": 0.21355,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023712060301507537,
      "loss": 2.2132,
      "step": 42710
    },
    {
      "epoch": 0.2136,
      "grad_norm": 0.5,
      "learning_rate": 0.0023710552763819095,
      "loss": 2.2182,
      "step": 42720
    },
    {
      "epoch": 0.21365,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0023709045226130653,
      "loss": 2.1939,
      "step": 42730
    },
    {
      "epoch": 0.2137,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002370753768844221,
      "loss": 2.1775,
      "step": 42740
    },
    {
      "epoch": 0.21375,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002370603015075377,
      "loss": 2.2319,
      "step": 42750
    },
    {
      "epoch": 0.2138,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0023704522613065327,
      "loss": 2.1862,
      "step": 42760
    },
    {
      "epoch": 0.21385,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0023703015075376885,
      "loss": 2.2387,
      "step": 42770
    },
    {
      "epoch": 0.2139,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023701507537688443,
      "loss": 2.1995,
      "step": 42780
    },
    {
      "epoch": 0.21395,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00237,
      "loss": 2.2194,
      "step": 42790
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.453125,
      "learning_rate": 0.002369849246231156,
      "loss": 2.2165,
      "step": 42800
    },
    {
      "epoch": 0.21405,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0023696984924623113,
      "loss": 2.1951,
      "step": 42810
    },
    {
      "epoch": 0.2141,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023695477386934676,
      "loss": 2.337,
      "step": 42820
    },
    {
      "epoch": 0.21415,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0023693969849246234,
      "loss": 2.1838,
      "step": 42830
    },
    {
      "epoch": 0.2142,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023692462311557787,
      "loss": 2.2169,
      "step": 42840
    },
    {
      "epoch": 0.21425,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002369095477386935,
      "loss": 2.2053,
      "step": 42850
    },
    {
      "epoch": 0.2143,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023689447236180904,
      "loss": 2.246,
      "step": 42860
    },
    {
      "epoch": 0.21435,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002368793969849246,
      "loss": 2.2086,
      "step": 42870
    },
    {
      "epoch": 0.2144,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002368643216080402,
      "loss": 2.225,
      "step": 42880
    },
    {
      "epoch": 0.21445,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023684924623115578,
      "loss": 2.2418,
      "step": 42890
    },
    {
      "epoch": 0.2145,
      "grad_norm": 0.435546875,
      "learning_rate": 0.0023683417085427136,
      "loss": 2.2563,
      "step": 42900
    },
    {
      "epoch": 0.21455,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023681909547738694,
      "loss": 2.2309,
      "step": 42910
    },
    {
      "epoch": 0.2146,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002368040201005025,
      "loss": 2.2647,
      "step": 42920
    },
    {
      "epoch": 0.21465,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002367889447236181,
      "loss": 2.1902,
      "step": 42930
    },
    {
      "epoch": 0.2147,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002367738693467337,
      "loss": 2.2087,
      "step": 42940
    },
    {
      "epoch": 0.21475,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023675879396984926,
      "loss": 2.2737,
      "step": 42950
    },
    {
      "epoch": 0.2148,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023674371859296484,
      "loss": 2.2077,
      "step": 42960
    },
    {
      "epoch": 0.21485,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002367286432160804,
      "loss": 2.2583,
      "step": 42970
    },
    {
      "epoch": 0.2149,
      "grad_norm": 0.515625,
      "learning_rate": 0.00236713567839196,
      "loss": 2.1655,
      "step": 42980
    },
    {
      "epoch": 0.21495,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002366984924623116,
      "loss": 2.1865,
      "step": 42990
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023668341708542712,
      "loss": 2.2204,
      "step": 43000
    },
    {
      "epoch": 0.21505,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0023666834170854275,
      "loss": 2.2178,
      "step": 43010
    },
    {
      "epoch": 0.2151,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002366532663316583,
      "loss": 2.2099,
      "step": 43020
    },
    {
      "epoch": 0.21515,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023663819095477386,
      "loss": 2.2427,
      "step": 43030
    },
    {
      "epoch": 0.2152,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0023662311557788944,
      "loss": 2.1939,
      "step": 43040
    },
    {
      "epoch": 0.21525,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023660804020100503,
      "loss": 2.279,
      "step": 43050
    },
    {
      "epoch": 0.2153,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002365929648241206,
      "loss": 2.1176,
      "step": 43060
    },
    {
      "epoch": 0.21535,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002365778894472362,
      "loss": 2.2446,
      "step": 43070
    },
    {
      "epoch": 0.2154,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023656281407035177,
      "loss": 2.2226,
      "step": 43080
    },
    {
      "epoch": 0.21545,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0023654773869346735,
      "loss": 2.1924,
      "step": 43090
    },
    {
      "epoch": 0.2155,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0023653266331658293,
      "loss": 2.1726,
      "step": 43100
    },
    {
      "epoch": 0.21555,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002365175879396985,
      "loss": 2.2133,
      "step": 43110
    },
    {
      "epoch": 0.2156,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002365025125628141,
      "loss": 2.2728,
      "step": 43120
    },
    {
      "epoch": 0.21565,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0023648743718592963,
      "loss": 2.2103,
      "step": 43130
    },
    {
      "epoch": 0.2157,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0023647236180904525,
      "loss": 2.2698,
      "step": 43140
    },
    {
      "epoch": 0.21575,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0023645728643216083,
      "loss": 2.2262,
      "step": 43150
    },
    {
      "epoch": 0.2158,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023644221105527637,
      "loss": 2.2318,
      "step": 43160
    },
    {
      "epoch": 0.21585,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00236427135678392,
      "loss": 2.2091,
      "step": 43170
    },
    {
      "epoch": 0.2159,
      "grad_norm": 0.578125,
      "learning_rate": 0.0023641206030150753,
      "loss": 2.2448,
      "step": 43180
    },
    {
      "epoch": 0.21595,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002363969849246231,
      "loss": 2.2253,
      "step": 43190
    },
    {
      "epoch": 0.216,
      "grad_norm": 0.46875,
      "learning_rate": 0.002363819095477387,
      "loss": 2.1989,
      "step": 43200
    },
    {
      "epoch": 0.21605,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023636683417085427,
      "loss": 2.2111,
      "step": 43210
    },
    {
      "epoch": 0.2161,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023635175879396985,
      "loss": 2.2004,
      "step": 43220
    },
    {
      "epoch": 0.21615,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0023633668341708543,
      "loss": 2.1902,
      "step": 43230
    },
    {
      "epoch": 0.2162,
      "grad_norm": 0.494140625,
      "learning_rate": 0.00236321608040201,
      "loss": 2.218,
      "step": 43240
    },
    {
      "epoch": 0.21625,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002363065326633166,
      "loss": 2.2647,
      "step": 43250
    },
    {
      "epoch": 0.2163,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023629145728643213,
      "loss": 2.2237,
      "step": 43260
    },
    {
      "epoch": 0.21635,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023627638190954776,
      "loss": 2.2434,
      "step": 43270
    },
    {
      "epoch": 0.2164,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023626130653266334,
      "loss": 2.1969,
      "step": 43280
    },
    {
      "epoch": 0.21645,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0023624623115577888,
      "loss": 2.1928,
      "step": 43290
    },
    {
      "epoch": 0.2165,
      "grad_norm": 0.5625,
      "learning_rate": 0.002362311557788945,
      "loss": 2.1814,
      "step": 43300
    },
    {
      "epoch": 0.21655,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002362160804020101,
      "loss": 2.2442,
      "step": 43310
    },
    {
      "epoch": 0.2166,
      "grad_norm": 0.578125,
      "learning_rate": 0.002362010050251256,
      "loss": 2.1627,
      "step": 43320
    },
    {
      "epoch": 0.21665,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0023618592964824124,
      "loss": 2.2177,
      "step": 43330
    },
    {
      "epoch": 0.2167,
      "grad_norm": 0.515625,
      "learning_rate": 0.002361708542713568,
      "loss": 2.2458,
      "step": 43340
    },
    {
      "epoch": 0.21675,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0023615577889447236,
      "loss": 2.2682,
      "step": 43350
    },
    {
      "epoch": 0.2168,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0023614070351758794,
      "loss": 2.1908,
      "step": 43360
    },
    {
      "epoch": 0.21685,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002361256281407035,
      "loss": 2.2349,
      "step": 43370
    },
    {
      "epoch": 0.2169,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002361105527638191,
      "loss": 2.1724,
      "step": 43380
    },
    {
      "epoch": 0.21695,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002360954773869347,
      "loss": 2.2558,
      "step": 43390
    },
    {
      "epoch": 0.217,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0023608040201005026,
      "loss": 2.2138,
      "step": 43400
    },
    {
      "epoch": 0.21705,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023606532663316584,
      "loss": 2.207,
      "step": 43410
    },
    {
      "epoch": 0.2171,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002360502512562814,
      "loss": 2.2324,
      "step": 43420
    },
    {
      "epoch": 0.21715,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00236035175879397,
      "loss": 2.2366,
      "step": 43430
    },
    {
      "epoch": 0.2172,
      "grad_norm": 0.53125,
      "learning_rate": 0.002360201005025126,
      "loss": 2.1976,
      "step": 43440
    },
    {
      "epoch": 0.21725,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0023600502512562812,
      "loss": 2.2218,
      "step": 43450
    },
    {
      "epoch": 0.2173,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023598994974874375,
      "loss": 2.2412,
      "step": 43460
    },
    {
      "epoch": 0.21735,
      "grad_norm": 0.42578125,
      "learning_rate": 0.002359748743718593,
      "loss": 2.1975,
      "step": 43470
    },
    {
      "epoch": 0.2174,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023595979899497486,
      "loss": 2.2605,
      "step": 43480
    },
    {
      "epoch": 0.21745,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002359447236180905,
      "loss": 2.1982,
      "step": 43490
    },
    {
      "epoch": 0.2175,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0023592964824120603,
      "loss": 2.2443,
      "step": 43500
    },
    {
      "epoch": 0.21755,
      "grad_norm": 0.515625,
      "learning_rate": 0.002359145728643216,
      "loss": 2.2135,
      "step": 43510
    },
    {
      "epoch": 0.2176,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002358994974874372,
      "loss": 2.2952,
      "step": 43520
    },
    {
      "epoch": 0.21765,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023588442211055277,
      "loss": 2.1832,
      "step": 43530
    },
    {
      "epoch": 0.2177,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023586934673366835,
      "loss": 2.2107,
      "step": 43540
    },
    {
      "epoch": 0.21775,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0023585427135678393,
      "loss": 2.2456,
      "step": 43550
    },
    {
      "epoch": 0.2178,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002358391959798995,
      "loss": 2.1893,
      "step": 43560
    },
    {
      "epoch": 0.21785,
      "grad_norm": 0.4140625,
      "learning_rate": 0.002358241206030151,
      "loss": 2.2583,
      "step": 43570
    },
    {
      "epoch": 0.2179,
      "grad_norm": 0.46875,
      "learning_rate": 0.0023580904522613063,
      "loss": 2.2127,
      "step": 43580
    },
    {
      "epoch": 0.21795,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023579396984924625,
      "loss": 2.267,
      "step": 43590
    },
    {
      "epoch": 0.218,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023577889447236183,
      "loss": 2.2079,
      "step": 43600
    },
    {
      "epoch": 0.21805,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0023576381909547737,
      "loss": 2.2456,
      "step": 43610
    },
    {
      "epoch": 0.2181,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00235748743718593,
      "loss": 2.215,
      "step": 43620
    },
    {
      "epoch": 0.21815,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0023573366834170853,
      "loss": 2.2009,
      "step": 43630
    },
    {
      "epoch": 0.2182,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002357185929648241,
      "loss": 2.1854,
      "step": 43640
    },
    {
      "epoch": 0.21825,
      "grad_norm": 0.5,
      "learning_rate": 0.0023570351758793974,
      "loss": 2.263,
      "step": 43650
    },
    {
      "epoch": 0.2183,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023568844221105527,
      "loss": 2.2006,
      "step": 43660
    },
    {
      "epoch": 0.21835,
      "grad_norm": 0.5,
      "learning_rate": 0.0023567336683417085,
      "loss": 2.2654,
      "step": 43670
    },
    {
      "epoch": 0.2184,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023565829145728644,
      "loss": 2.1947,
      "step": 43680
    },
    {
      "epoch": 0.21845,
      "grad_norm": 0.546875,
      "learning_rate": 0.00235643216080402,
      "loss": 2.2599,
      "step": 43690
    },
    {
      "epoch": 0.2185,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002356281407035176,
      "loss": 2.2324,
      "step": 43700
    },
    {
      "epoch": 0.21855,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0023561306532663318,
      "loss": 2.1951,
      "step": 43710
    },
    {
      "epoch": 0.2186,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0023559798994974876,
      "loss": 2.2718,
      "step": 43720
    },
    {
      "epoch": 0.21865,
      "grad_norm": 0.4296875,
      "learning_rate": 0.0023558291457286434,
      "loss": 2.192,
      "step": 43730
    },
    {
      "epoch": 0.2187,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023556783919597988,
      "loss": 2.197,
      "step": 43740
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002355527638190955,
      "loss": 2.2095,
      "step": 43750
    },
    {
      "epoch": 0.2188,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002355376884422111,
      "loss": 2.26,
      "step": 43760
    },
    {
      "epoch": 0.21885,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002355226130653266,
      "loss": 2.2234,
      "step": 43770
    },
    {
      "epoch": 0.2189,
      "grad_norm": 0.5,
      "learning_rate": 0.0023550753768844224,
      "loss": 2.2179,
      "step": 43780
    },
    {
      "epoch": 0.21895,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002354924623115578,
      "loss": 2.1905,
      "step": 43790
    },
    {
      "epoch": 0.219,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023547738693467336,
      "loss": 2.202,
      "step": 43800
    },
    {
      "epoch": 0.21905,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0023546231155778894,
      "loss": 2.1843,
      "step": 43810
    },
    {
      "epoch": 0.2191,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002354472361809045,
      "loss": 2.2707,
      "step": 43820
    },
    {
      "epoch": 0.21915,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002354321608040201,
      "loss": 2.2052,
      "step": 43830
    },
    {
      "epoch": 0.2192,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002354170854271357,
      "loss": 2.2926,
      "step": 43840
    },
    {
      "epoch": 0.21925,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023540201005025126,
      "loss": 2.1798,
      "step": 43850
    },
    {
      "epoch": 0.2193,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0023538693467336684,
      "loss": 2.2622,
      "step": 43860
    },
    {
      "epoch": 0.21935,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023537185929648242,
      "loss": 2.2186,
      "step": 43870
    },
    {
      "epoch": 0.2194,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00235356783919598,
      "loss": 2.222,
      "step": 43880
    },
    {
      "epoch": 0.21945,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002353417085427136,
      "loss": 2.2278,
      "step": 43890
    },
    {
      "epoch": 0.2195,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023532663316582912,
      "loss": 2.2429,
      "step": 43900
    },
    {
      "epoch": 0.21955,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0023531155778894475,
      "loss": 2.2229,
      "step": 43910
    },
    {
      "epoch": 0.2196,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0023529648241206033,
      "loss": 2.2155,
      "step": 43920
    },
    {
      "epoch": 0.21965,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023528140703517587,
      "loss": 2.2375,
      "step": 43930
    },
    {
      "epoch": 0.2197,
      "grad_norm": 0.451171875,
      "learning_rate": 0.002352663316582915,
      "loss": 2.2194,
      "step": 43940
    },
    {
      "epoch": 0.21975,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0023525125628140703,
      "loss": 2.2148,
      "step": 43950
    },
    {
      "epoch": 0.2198,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002352361809045226,
      "loss": 2.1859,
      "step": 43960
    },
    {
      "epoch": 0.21985,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002352211055276382,
      "loss": 2.2446,
      "step": 43970
    },
    {
      "epoch": 0.2199,
      "grad_norm": 0.5,
      "learning_rate": 0.0023520603015075377,
      "loss": 2.1823,
      "step": 43980
    },
    {
      "epoch": 0.21995,
      "grad_norm": 0.453125,
      "learning_rate": 0.0023519095477386935,
      "loss": 2.2464,
      "step": 43990
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023517587939698493,
      "loss": 2.1869,
      "step": 44000
    },
    {
      "epoch": 0.22,
      "eval_loss": 2.204159736633301,
      "eval_runtime": 47.5911,
      "eval_samples_per_second": 52.531,
      "eval_steps_per_second": 0.105,
      "step": 44000
    },
    {
      "epoch": 0.22005,
      "grad_norm": 0.53125,
      "learning_rate": 0.002351608040201005,
      "loss": 2.2534,
      "step": 44010
    },
    {
      "epoch": 0.2201,
      "grad_norm": 0.546875,
      "learning_rate": 0.002351457286432161,
      "loss": 2.2425,
      "step": 44020
    },
    {
      "epoch": 0.22015,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023513065326633167,
      "loss": 2.2477,
      "step": 44030
    },
    {
      "epoch": 0.2202,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023511557788944725,
      "loss": 2.196,
      "step": 44040
    },
    {
      "epoch": 0.22025,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023510050251256283,
      "loss": 2.2629,
      "step": 44050
    },
    {
      "epoch": 0.2203,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023508542713567837,
      "loss": 2.1983,
      "step": 44060
    },
    {
      "epoch": 0.22035,
      "grad_norm": 0.498046875,
      "learning_rate": 0.00235070351758794,
      "loss": 2.2371,
      "step": 44070
    },
    {
      "epoch": 0.2204,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023505527638190958,
      "loss": 2.1667,
      "step": 44080
    },
    {
      "epoch": 0.22045,
      "grad_norm": 0.416015625,
      "learning_rate": 0.002350402010050251,
      "loss": 2.2608,
      "step": 44090
    },
    {
      "epoch": 0.2205,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023502512562814074,
      "loss": 2.2443,
      "step": 44100
    },
    {
      "epoch": 0.22055,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023501005025125627,
      "loss": 2.2489,
      "step": 44110
    },
    {
      "epoch": 0.2206,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023499497487437186,
      "loss": 2.2081,
      "step": 44120
    },
    {
      "epoch": 0.22065,
      "grad_norm": 0.546875,
      "learning_rate": 0.0023497989949748744,
      "loss": 2.1775,
      "step": 44130
    },
    {
      "epoch": 0.2207,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00234964824120603,
      "loss": 2.2115,
      "step": 44140
    },
    {
      "epoch": 0.22075,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002349497487437186,
      "loss": 2.1694,
      "step": 44150
    },
    {
      "epoch": 0.2208,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0023493467336683418,
      "loss": 2.2548,
      "step": 44160
    },
    {
      "epoch": 0.22085,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023491959798994976,
      "loss": 2.151,
      "step": 44170
    },
    {
      "epoch": 0.2209,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023490452261306534,
      "loss": 2.2554,
      "step": 44180
    },
    {
      "epoch": 0.22095,
      "grad_norm": 0.59375,
      "learning_rate": 0.0023488944723618088,
      "loss": 2.2324,
      "step": 44190
    },
    {
      "epoch": 0.221,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002348743718592965,
      "loss": 2.219,
      "step": 44200
    },
    {
      "epoch": 0.22105,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002348592964824121,
      "loss": 2.226,
      "step": 44210
    },
    {
      "epoch": 0.2211,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002348442211055276,
      "loss": 2.2928,
      "step": 44220
    },
    {
      "epoch": 0.22115,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023482914572864324,
      "loss": 2.209,
      "step": 44230
    },
    {
      "epoch": 0.2212,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0023481407035175882,
      "loss": 2.2145,
      "step": 44240
    },
    {
      "epoch": 0.22125,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023479899497487436,
      "loss": 2.1995,
      "step": 44250
    },
    {
      "epoch": 0.2213,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023478391959799,
      "loss": 2.243,
      "step": 44260
    },
    {
      "epoch": 0.22135,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0023476884422110552,
      "loss": 2.265,
      "step": 44270
    },
    {
      "epoch": 0.2214,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002347537688442211,
      "loss": 2.1912,
      "step": 44280
    },
    {
      "epoch": 0.22145,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002347386934673367,
      "loss": 2.166,
      "step": 44290
    },
    {
      "epoch": 0.2215,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023472361809045226,
      "loss": 2.2207,
      "step": 44300
    },
    {
      "epoch": 0.22155,
      "grad_norm": 0.546875,
      "learning_rate": 0.0023470854271356784,
      "loss": 2.2308,
      "step": 44310
    },
    {
      "epoch": 0.2216,
      "grad_norm": 0.46875,
      "learning_rate": 0.0023469346733668343,
      "loss": 2.2122,
      "step": 44320
    },
    {
      "epoch": 0.22165,
      "grad_norm": 0.46484375,
      "learning_rate": 0.00234678391959799,
      "loss": 2.2161,
      "step": 44330
    },
    {
      "epoch": 0.2217,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002346633165829146,
      "loss": 2.2097,
      "step": 44340
    },
    {
      "epoch": 0.22175,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0023464824120603012,
      "loss": 2.2352,
      "step": 44350
    },
    {
      "epoch": 0.2218,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023463316582914575,
      "loss": 2.1869,
      "step": 44360
    },
    {
      "epoch": 0.22185,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023461809045226133,
      "loss": 2.1831,
      "step": 44370
    },
    {
      "epoch": 0.2219,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0023460301507537687,
      "loss": 2.1769,
      "step": 44380
    },
    {
      "epoch": 0.22195,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002345879396984925,
      "loss": 2.2385,
      "step": 44390
    },
    {
      "epoch": 0.222,
      "grad_norm": 0.46875,
      "learning_rate": 0.0023457286432160803,
      "loss": 2.1853,
      "step": 44400
    },
    {
      "epoch": 0.22205,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002345577889447236,
      "loss": 2.2519,
      "step": 44410
    },
    {
      "epoch": 0.2221,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023454271356783923,
      "loss": 2.1786,
      "step": 44420
    },
    {
      "epoch": 0.22215,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023452763819095477,
      "loss": 2.2633,
      "step": 44430
    },
    {
      "epoch": 0.2222,
      "grad_norm": 0.5,
      "learning_rate": 0.0023451256281407035,
      "loss": 2.1868,
      "step": 44440
    },
    {
      "epoch": 0.22225,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023449748743718593,
      "loss": 2.2367,
      "step": 44450
    },
    {
      "epoch": 0.2223,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002344824120603015,
      "loss": 2.1866,
      "step": 44460
    },
    {
      "epoch": 0.22235,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002344673366834171,
      "loss": 2.2529,
      "step": 44470
    },
    {
      "epoch": 0.2224,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023445226130653267,
      "loss": 2.2063,
      "step": 44480
    },
    {
      "epoch": 0.22245,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0023443718592964825,
      "loss": 2.2288,
      "step": 44490
    },
    {
      "epoch": 0.2225,
      "grad_norm": 0.53125,
      "learning_rate": 0.0023442211055276383,
      "loss": 2.2201,
      "step": 44500
    },
    {
      "epoch": 0.22255,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0023440703517587937,
      "loss": 2.1749,
      "step": 44510
    },
    {
      "epoch": 0.2226,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00234391959798995,
      "loss": 2.1748,
      "step": 44520
    },
    {
      "epoch": 0.22265,
      "grad_norm": 0.53125,
      "learning_rate": 0.0023437688442211058,
      "loss": 2.233,
      "step": 44530
    },
    {
      "epoch": 0.2227,
      "grad_norm": 0.625,
      "learning_rate": 0.002343618090452261,
      "loss": 2.2151,
      "step": 44540
    },
    {
      "epoch": 0.22275,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0023434673366834174,
      "loss": 2.2061,
      "step": 44550
    },
    {
      "epoch": 0.2228,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023433165829145727,
      "loss": 2.2402,
      "step": 44560
    },
    {
      "epoch": 0.22285,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023431658291457286,
      "loss": 2.2211,
      "step": 44570
    },
    {
      "epoch": 0.2229,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002343015075376885,
      "loss": 2.1893,
      "step": 44580
    },
    {
      "epoch": 0.22295,
      "grad_norm": 0.484375,
      "learning_rate": 0.00234286432160804,
      "loss": 2.1731,
      "step": 44590
    },
    {
      "epoch": 0.223,
      "grad_norm": 0.5,
      "learning_rate": 0.002342713567839196,
      "loss": 2.2571,
      "step": 44600
    },
    {
      "epoch": 0.22305,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002342562814070352,
      "loss": 2.2203,
      "step": 44610
    },
    {
      "epoch": 0.2231,
      "grad_norm": 0.5,
      "learning_rate": 0.0023424120603015076,
      "loss": 2.2314,
      "step": 44620
    },
    {
      "epoch": 0.22315,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0023422613065326634,
      "loss": 2.2344,
      "step": 44630
    },
    {
      "epoch": 0.2232,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002342110552763819,
      "loss": 2.2156,
      "step": 44640
    },
    {
      "epoch": 0.22325,
      "grad_norm": 0.5,
      "learning_rate": 0.002341959798994975,
      "loss": 2.2183,
      "step": 44650
    },
    {
      "epoch": 0.2233,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002341809045226131,
      "loss": 2.2575,
      "step": 44660
    },
    {
      "epoch": 0.22335,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002341658291457286,
      "loss": 2.2002,
      "step": 44670
    },
    {
      "epoch": 0.2234,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0023415075376884424,
      "loss": 2.2601,
      "step": 44680
    },
    {
      "epoch": 0.22345,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023413567839195982,
      "loss": 2.1606,
      "step": 44690
    },
    {
      "epoch": 0.2235,
      "grad_norm": 0.4375,
      "learning_rate": 0.0023412060301507536,
      "loss": 2.2697,
      "step": 44700
    },
    {
      "epoch": 0.22355,
      "grad_norm": 0.484375,
      "learning_rate": 0.00234105527638191,
      "loss": 2.1945,
      "step": 44710
    },
    {
      "epoch": 0.2236,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023409045226130652,
      "loss": 2.2672,
      "step": 44720
    },
    {
      "epoch": 0.22365,
      "grad_norm": 0.515625,
      "learning_rate": 0.002340753768844221,
      "loss": 2.1808,
      "step": 44730
    },
    {
      "epoch": 0.2237,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023406030150753773,
      "loss": 2.2117,
      "step": 44740
    },
    {
      "epoch": 0.22375,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023404522613065326,
      "loss": 2.1841,
      "step": 44750
    },
    {
      "epoch": 0.2238,
      "grad_norm": 0.546875,
      "learning_rate": 0.0023403015075376885,
      "loss": 2.2444,
      "step": 44760
    },
    {
      "epoch": 0.22385,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023401507537688443,
      "loss": 2.207,
      "step": 44770
    },
    {
      "epoch": 0.2239,
      "grad_norm": 0.48046875,
      "learning_rate": 0.00234,
      "loss": 2.2126,
      "step": 44780
    },
    {
      "epoch": 0.22395,
      "grad_norm": 0.484375,
      "learning_rate": 0.002339849246231156,
      "loss": 2.1993,
      "step": 44790
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023396984924623117,
      "loss": 2.2262,
      "step": 44800
    },
    {
      "epoch": 0.22405,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0023395477386934675,
      "loss": 2.1678,
      "step": 44810
    },
    {
      "epoch": 0.2241,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0023393969849246233,
      "loss": 2.2728,
      "step": 44820
    },
    {
      "epoch": 0.22415,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0023392462311557787,
      "loss": 2.2627,
      "step": 44830
    },
    {
      "epoch": 0.2242,
      "grad_norm": 0.515625,
      "learning_rate": 0.002339095477386935,
      "loss": 2.2246,
      "step": 44840
    },
    {
      "epoch": 0.22425,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023389447236180907,
      "loss": 2.2431,
      "step": 44850
    },
    {
      "epoch": 0.2243,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002338793969849246,
      "loss": 2.1963,
      "step": 44860
    },
    {
      "epoch": 0.22435,
      "grad_norm": 0.5,
      "learning_rate": 0.0023386432160804023,
      "loss": 2.2549,
      "step": 44870
    },
    {
      "epoch": 0.2244,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023384924623115577,
      "loss": 2.1848,
      "step": 44880
    },
    {
      "epoch": 0.22445,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0023383417085427135,
      "loss": 2.2092,
      "step": 44890
    },
    {
      "epoch": 0.2245,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0023381909547738697,
      "loss": 2.242,
      "step": 44900
    },
    {
      "epoch": 0.22455,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002338040201005025,
      "loss": 2.2357,
      "step": 44910
    },
    {
      "epoch": 0.2246,
      "grad_norm": 0.53125,
      "learning_rate": 0.002337889447236181,
      "loss": 2.2327,
      "step": 44920
    },
    {
      "epoch": 0.22465,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0023377386934673367,
      "loss": 2.2278,
      "step": 44930
    },
    {
      "epoch": 0.2247,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023375879396984925,
      "loss": 2.2251,
      "step": 44940
    },
    {
      "epoch": 0.22475,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023374371859296483,
      "loss": 2.2452,
      "step": 44950
    },
    {
      "epoch": 0.2248,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002337286432160804,
      "loss": 2.2282,
      "step": 44960
    },
    {
      "epoch": 0.22485,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00233713567839196,
      "loss": 2.2337,
      "step": 44970
    },
    {
      "epoch": 0.2249,
      "grad_norm": 0.46875,
      "learning_rate": 0.0023369849246231158,
      "loss": 2.2269,
      "step": 44980
    },
    {
      "epoch": 0.22495,
      "grad_norm": 0.40234375,
      "learning_rate": 0.002336834170854271,
      "loss": 2.2789,
      "step": 44990
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.5,
      "learning_rate": 0.0023366834170854274,
      "loss": 2.235,
      "step": 45000
    },
    {
      "epoch": 0.22505,
      "grad_norm": 0.546875,
      "learning_rate": 0.002336532663316583,
      "loss": 2.2485,
      "step": 45010
    },
    {
      "epoch": 0.2251,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023363819095477386,
      "loss": 2.2232,
      "step": 45020
    },
    {
      "epoch": 0.22515,
      "grad_norm": 0.484375,
      "learning_rate": 0.002336231155778895,
      "loss": 2.2434,
      "step": 45030
    },
    {
      "epoch": 0.2252,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00233608040201005,
      "loss": 2.2313,
      "step": 45040
    },
    {
      "epoch": 0.22525,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002335929648241206,
      "loss": 2.3018,
      "step": 45050
    },
    {
      "epoch": 0.2253,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002335778894472362,
      "loss": 2.1879,
      "step": 45060
    },
    {
      "epoch": 0.22535,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0023356281407035176,
      "loss": 2.278,
      "step": 45070
    },
    {
      "epoch": 0.2254,
      "grad_norm": 0.53125,
      "learning_rate": 0.0023354773869346734,
      "loss": 2.2243,
      "step": 45080
    },
    {
      "epoch": 0.22545,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002335326633165829,
      "loss": 2.2342,
      "step": 45090
    },
    {
      "epoch": 0.2255,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002335175879396985,
      "loss": 2.1995,
      "step": 45100
    },
    {
      "epoch": 0.22555,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002335025125628141,
      "loss": 2.2115,
      "step": 45110
    },
    {
      "epoch": 0.2256,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002334874371859296,
      "loss": 2.1884,
      "step": 45120
    },
    {
      "epoch": 0.22565,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023347236180904524,
      "loss": 2.2383,
      "step": 45130
    },
    {
      "epoch": 0.2257,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023345728643216082,
      "loss": 2.1762,
      "step": 45140
    },
    {
      "epoch": 0.22575,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023344221105527636,
      "loss": 2.2259,
      "step": 45150
    },
    {
      "epoch": 0.2258,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00233427135678392,
      "loss": 2.2263,
      "step": 45160
    },
    {
      "epoch": 0.22585,
      "grad_norm": 0.5625,
      "learning_rate": 0.0023341206030150757,
      "loss": 2.228,
      "step": 45170
    },
    {
      "epoch": 0.2259,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002333969849246231,
      "loss": 2.2561,
      "step": 45180
    },
    {
      "epoch": 0.22595,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023338190954773873,
      "loss": 2.2169,
      "step": 45190
    },
    {
      "epoch": 0.226,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023336683417085427,
      "loss": 2.1894,
      "step": 45200
    },
    {
      "epoch": 0.22605,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0023335175879396985,
      "loss": 2.2744,
      "step": 45210
    },
    {
      "epoch": 0.2261,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023333668341708543,
      "loss": 2.2322,
      "step": 45220
    },
    {
      "epoch": 0.22615,
      "grad_norm": 0.53125,
      "learning_rate": 0.00233321608040201,
      "loss": 2.2026,
      "step": 45230
    },
    {
      "epoch": 0.2262,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002333065326633166,
      "loss": 2.1765,
      "step": 45240
    },
    {
      "epoch": 0.22625,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0023329145728643217,
      "loss": 2.2096,
      "step": 45250
    },
    {
      "epoch": 0.2263,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0023327638190954775,
      "loss": 2.1663,
      "step": 45260
    },
    {
      "epoch": 0.22635,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0023326130653266333,
      "loss": 2.2189,
      "step": 45270
    },
    {
      "epoch": 0.2264,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0023324623115577887,
      "loss": 2.1809,
      "step": 45280
    },
    {
      "epoch": 0.22645,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002332311557788945,
      "loss": 2.2179,
      "step": 45290
    },
    {
      "epoch": 0.2265,
      "grad_norm": 0.609375,
      "learning_rate": 0.0023321608040201007,
      "loss": 2.1695,
      "step": 45300
    },
    {
      "epoch": 0.22655,
      "grad_norm": 0.453125,
      "learning_rate": 0.002332010050251256,
      "loss": 2.1781,
      "step": 45310
    },
    {
      "epoch": 0.2266,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0023318592964824123,
      "loss": 2.2434,
      "step": 45320
    },
    {
      "epoch": 0.22665,
      "grad_norm": 0.5,
      "learning_rate": 0.0023317085427135677,
      "loss": 2.2006,
      "step": 45330
    },
    {
      "epoch": 0.2267,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0023315577889447235,
      "loss": 2.2445,
      "step": 45340
    },
    {
      "epoch": 0.22675,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023314070351758798,
      "loss": 2.2351,
      "step": 45350
    },
    {
      "epoch": 0.2268,
      "grad_norm": 0.5,
      "learning_rate": 0.002331256281407035,
      "loss": 2.1671,
      "step": 45360
    },
    {
      "epoch": 0.22685,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002331105527638191,
      "loss": 2.2296,
      "step": 45370
    },
    {
      "epoch": 0.2269,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023309547738693467,
      "loss": 2.1835,
      "step": 45380
    },
    {
      "epoch": 0.22695,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0023308040201005025,
      "loss": 2.1838,
      "step": 45390
    },
    {
      "epoch": 0.227,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0023306532663316584,
      "loss": 2.2726,
      "step": 45400
    },
    {
      "epoch": 0.22705,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002330502512562814,
      "loss": 2.1961,
      "step": 45410
    },
    {
      "epoch": 0.2271,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00233035175879397,
      "loss": 2.2242,
      "step": 45420
    },
    {
      "epoch": 0.22715,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0023302010050251258,
      "loss": 2.2138,
      "step": 45430
    },
    {
      "epoch": 0.2272,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002330050251256281,
      "loss": 2.1997,
      "step": 45440
    },
    {
      "epoch": 0.22725,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0023298994974874374,
      "loss": 2.1664,
      "step": 45450
    },
    {
      "epoch": 0.2273,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002329748743718593,
      "loss": 2.265,
      "step": 45460
    },
    {
      "epoch": 0.22735,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0023295979899497486,
      "loss": 2.2121,
      "step": 45470
    },
    {
      "epoch": 0.2274,
      "grad_norm": 0.484375,
      "learning_rate": 0.002329447236180905,
      "loss": 2.229,
      "step": 45480
    },
    {
      "epoch": 0.22745,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00232929648241206,
      "loss": 2.2031,
      "step": 45490
    },
    {
      "epoch": 0.2275,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002329145728643216,
      "loss": 2.2478,
      "step": 45500
    },
    {
      "epoch": 0.22755,
      "grad_norm": 0.5,
      "learning_rate": 0.0023289949748743722,
      "loss": 2.1975,
      "step": 45510
    },
    {
      "epoch": 0.2276,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0023288442211055276,
      "loss": 2.2727,
      "step": 45520
    },
    {
      "epoch": 0.22765,
      "grad_norm": 0.5,
      "learning_rate": 0.0023286934673366834,
      "loss": 2.1696,
      "step": 45530
    },
    {
      "epoch": 0.2277,
      "grad_norm": 0.515625,
      "learning_rate": 0.002328542713567839,
      "loss": 2.2355,
      "step": 45540
    },
    {
      "epoch": 0.22775,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002328391959798995,
      "loss": 2.2178,
      "step": 45550
    },
    {
      "epoch": 0.2278,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002328241206030151,
      "loss": 2.2471,
      "step": 45560
    },
    {
      "epoch": 0.22785,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023280904522613066,
      "loss": 2.2166,
      "step": 45570
    },
    {
      "epoch": 0.2279,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0023279396984924624,
      "loss": 2.2448,
      "step": 45580
    },
    {
      "epoch": 0.22795,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023277889447236183,
      "loss": 2.1813,
      "step": 45590
    },
    {
      "epoch": 0.228,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023276381909547736,
      "loss": 2.2277,
      "step": 45600
    },
    {
      "epoch": 0.22805,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00232748743718593,
      "loss": 2.1929,
      "step": 45610
    },
    {
      "epoch": 0.2281,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023273366834170857,
      "loss": 2.2095,
      "step": 45620
    },
    {
      "epoch": 0.22815,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002327185929648241,
      "loss": 2.1508,
      "step": 45630
    },
    {
      "epoch": 0.2282,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023270351758793973,
      "loss": 2.2198,
      "step": 45640
    },
    {
      "epoch": 0.22825,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023268844221105527,
      "loss": 2.1659,
      "step": 45650
    },
    {
      "epoch": 0.2283,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023267336683417085,
      "loss": 2.2625,
      "step": 45660
    },
    {
      "epoch": 0.22835,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023265829145728647,
      "loss": 2.1711,
      "step": 45670
    },
    {
      "epoch": 0.2284,
      "grad_norm": 0.455078125,
      "learning_rate": 0.00232643216080402,
      "loss": 2.2349,
      "step": 45680
    },
    {
      "epoch": 0.22845,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002326281407035176,
      "loss": 2.2443,
      "step": 45690
    },
    {
      "epoch": 0.2285,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023261306532663317,
      "loss": 2.2544,
      "step": 45700
    },
    {
      "epoch": 0.22855,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023259798994974875,
      "loss": 2.1895,
      "step": 45710
    },
    {
      "epoch": 0.2286,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023258291457286433,
      "loss": 2.2725,
      "step": 45720
    },
    {
      "epoch": 0.22865,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002325678391959799,
      "loss": 2.1301,
      "step": 45730
    },
    {
      "epoch": 0.2287,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002325527638190955,
      "loss": 2.2096,
      "step": 45740
    },
    {
      "epoch": 0.22875,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023253768844221107,
      "loss": 2.1485,
      "step": 45750
    },
    {
      "epoch": 0.2288,
      "grad_norm": 0.546875,
      "learning_rate": 0.002325226130653266,
      "loss": 2.1958,
      "step": 45760
    },
    {
      "epoch": 0.22885,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023250753768844223,
      "loss": 2.1896,
      "step": 45770
    },
    {
      "epoch": 0.2289,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002324924623115578,
      "loss": 2.2186,
      "step": 45780
    },
    {
      "epoch": 0.22895,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023247738693467335,
      "loss": 2.2115,
      "step": 45790
    },
    {
      "epoch": 0.229,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0023246231155778898,
      "loss": 2.2077,
      "step": 45800
    },
    {
      "epoch": 0.22905,
      "grad_norm": 0.427734375,
      "learning_rate": 0.002324472361809045,
      "loss": 2.2059,
      "step": 45810
    },
    {
      "epoch": 0.2291,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002324321608040201,
      "loss": 2.2238,
      "step": 45820
    },
    {
      "epoch": 0.22915,
      "grad_norm": 0.578125,
      "learning_rate": 0.002324170854271357,
      "loss": 2.1641,
      "step": 45830
    },
    {
      "epoch": 0.2292,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0023240201005025126,
      "loss": 2.2833,
      "step": 45840
    },
    {
      "epoch": 0.22925,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023238693467336684,
      "loss": 2.1697,
      "step": 45850
    },
    {
      "epoch": 0.2293,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002323718592964824,
      "loss": 2.2317,
      "step": 45860
    },
    {
      "epoch": 0.22935,
      "grad_norm": 0.5625,
      "learning_rate": 0.00232356783919598,
      "loss": 2.1739,
      "step": 45870
    },
    {
      "epoch": 0.2294,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0023234170854271358,
      "loss": 2.2698,
      "step": 45880
    },
    {
      "epoch": 0.22945,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0023232663316582916,
      "loss": 2.232,
      "step": 45890
    },
    {
      "epoch": 0.2295,
      "grad_norm": 0.5,
      "learning_rate": 0.0023231155778894474,
      "loss": 2.2595,
      "step": 45900
    },
    {
      "epoch": 0.22955,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002322964824120603,
      "loss": 2.2009,
      "step": 45910
    },
    {
      "epoch": 0.2296,
      "grad_norm": 0.42578125,
      "learning_rate": 0.0023228140703517586,
      "loss": 2.2466,
      "step": 45920
    },
    {
      "epoch": 0.22965,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002322663316582915,
      "loss": 2.1992,
      "step": 45930
    },
    {
      "epoch": 0.2297,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0023225125628140706,
      "loss": 2.2179,
      "step": 45940
    },
    {
      "epoch": 0.22975,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002322361809045226,
      "loss": 2.1837,
      "step": 45950
    },
    {
      "epoch": 0.2298,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0023222110552763822,
      "loss": 2.1945,
      "step": 45960
    },
    {
      "epoch": 0.22985,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0023220603015075376,
      "loss": 2.1972,
      "step": 45970
    },
    {
      "epoch": 0.2299,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023219095477386934,
      "loss": 2.231,
      "step": 45980
    },
    {
      "epoch": 0.22995,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0023217587939698497,
      "loss": 2.1791,
      "step": 45990
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.515625,
      "learning_rate": 0.002321608040201005,
      "loss": 2.2506,
      "step": 46000
    },
    {
      "epoch": 0.23,
      "eval_loss": 2.1978235244750977,
      "eval_runtime": 48.8889,
      "eval_samples_per_second": 51.136,
      "eval_steps_per_second": 0.102,
      "step": 46000
    },
    {
      "epoch": 0.23005,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002321457286432161,
      "loss": 2.2193,
      "step": 46010
    },
    {
      "epoch": 0.2301,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023213065326633166,
      "loss": 2.2168,
      "step": 46020
    },
    {
      "epoch": 0.23015,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023211557788944725,
      "loss": 2.1571,
      "step": 46030
    },
    {
      "epoch": 0.2302,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023210050251256283,
      "loss": 2.2156,
      "step": 46040
    },
    {
      "epoch": 0.23025,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0023208542713567836,
      "loss": 2.1706,
      "step": 46050
    },
    {
      "epoch": 0.2303,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00232070351758794,
      "loss": 2.2294,
      "step": 46060
    },
    {
      "epoch": 0.23035,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023205527638190957,
      "loss": 2.1644,
      "step": 46070
    },
    {
      "epoch": 0.2304,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002320402010050251,
      "loss": 2.2511,
      "step": 46080
    },
    {
      "epoch": 0.23045,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023202512562814073,
      "loss": 2.1737,
      "step": 46090
    },
    {
      "epoch": 0.2305,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002320100502512563,
      "loss": 2.2113,
      "step": 46100
    },
    {
      "epoch": 0.23055,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023199497487437185,
      "loss": 2.2241,
      "step": 46110
    },
    {
      "epoch": 0.2306,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0023197989949748747,
      "loss": 2.2326,
      "step": 46120
    },
    {
      "epoch": 0.23065,
      "grad_norm": 0.486328125,
      "learning_rate": 0.00231964824120603,
      "loss": 2.184,
      "step": 46130
    },
    {
      "epoch": 0.2307,
      "grad_norm": 0.484375,
      "learning_rate": 0.002319497487437186,
      "loss": 2.2585,
      "step": 46140
    },
    {
      "epoch": 0.23075,
      "grad_norm": 0.546875,
      "learning_rate": 0.0023193467336683417,
      "loss": 2.1848,
      "step": 46150
    },
    {
      "epoch": 0.2308,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023191959798994975,
      "loss": 2.2165,
      "step": 46160
    },
    {
      "epoch": 0.23085,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023190452261306533,
      "loss": 2.1867,
      "step": 46170
    },
    {
      "epoch": 0.2309,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002318894472361809,
      "loss": 2.2317,
      "step": 46180
    },
    {
      "epoch": 0.23095,
      "grad_norm": 0.53125,
      "learning_rate": 0.002318743718592965,
      "loss": 2.2122,
      "step": 46190
    },
    {
      "epoch": 0.231,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023185929648241207,
      "loss": 2.2791,
      "step": 46200
    },
    {
      "epoch": 0.23105,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002318442211055276,
      "loss": 2.1769,
      "step": 46210
    },
    {
      "epoch": 0.2311,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023182914572864323,
      "loss": 2.1999,
      "step": 46220
    },
    {
      "epoch": 0.23115,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002318140703517588,
      "loss": 2.1662,
      "step": 46230
    },
    {
      "epoch": 0.2312,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023179899497487435,
      "loss": 2.2929,
      "step": 46240
    },
    {
      "epoch": 0.23125,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023178391959798998,
      "loss": 2.2083,
      "step": 46250
    },
    {
      "epoch": 0.2313,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002317688442211055,
      "loss": 2.2501,
      "step": 46260
    },
    {
      "epoch": 0.23135,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002317537688442211,
      "loss": 2.1345,
      "step": 46270
    },
    {
      "epoch": 0.2314,
      "grad_norm": 0.455078125,
      "learning_rate": 0.002317386934673367,
      "loss": 2.1933,
      "step": 46280
    },
    {
      "epoch": 0.23145,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023172361809045226,
      "loss": 2.1942,
      "step": 46290
    },
    {
      "epoch": 0.2315,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0023170854271356784,
      "loss": 2.2333,
      "step": 46300
    },
    {
      "epoch": 0.23155,
      "grad_norm": 0.5625,
      "learning_rate": 0.002316934673366834,
      "loss": 2.1933,
      "step": 46310
    },
    {
      "epoch": 0.2316,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00231678391959799,
      "loss": 2.2427,
      "step": 46320
    },
    {
      "epoch": 0.23165,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002316633165829146,
      "loss": 2.1941,
      "step": 46330
    },
    {
      "epoch": 0.2317,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023164824120603016,
      "loss": 2.2383,
      "step": 46340
    },
    {
      "epoch": 0.23175,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0023163316582914574,
      "loss": 2.2063,
      "step": 46350
    },
    {
      "epoch": 0.2318,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002316180904522613,
      "loss": 2.2154,
      "step": 46360
    },
    {
      "epoch": 0.23185,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023160301507537686,
      "loss": 2.2088,
      "step": 46370
    },
    {
      "epoch": 0.2319,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002315879396984925,
      "loss": 2.2486,
      "step": 46380
    },
    {
      "epoch": 0.23195,
      "grad_norm": 0.609375,
      "learning_rate": 0.0023157286432160806,
      "loss": 2.1528,
      "step": 46390
    },
    {
      "epoch": 0.232,
      "grad_norm": 0.62890625,
      "learning_rate": 0.002315577889447236,
      "loss": 2.2352,
      "step": 46400
    },
    {
      "epoch": 0.23205,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023154271356783922,
      "loss": 2.1926,
      "step": 46410
    },
    {
      "epoch": 0.2321,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0023152763819095476,
      "loss": 2.2428,
      "step": 46420
    },
    {
      "epoch": 0.23215,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023151256281407034,
      "loss": 2.1692,
      "step": 46430
    },
    {
      "epoch": 0.2322,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0023149748743718597,
      "loss": 2.2272,
      "step": 46440
    },
    {
      "epoch": 0.23225,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002314824120603015,
      "loss": 2.1688,
      "step": 46450
    },
    {
      "epoch": 0.2323,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002314673366834171,
      "loss": 2.218,
      "step": 46460
    },
    {
      "epoch": 0.23235,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023145226130653266,
      "loss": 2.1806,
      "step": 46470
    },
    {
      "epoch": 0.2324,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0023143718592964825,
      "loss": 2.1818,
      "step": 46480
    },
    {
      "epoch": 0.23245,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023142211055276383,
      "loss": 2.2116,
      "step": 46490
    },
    {
      "epoch": 0.2325,
      "grad_norm": 0.484375,
      "learning_rate": 0.002314070351758794,
      "loss": 2.2139,
      "step": 46500
    },
    {
      "epoch": 0.23255,
      "grad_norm": 0.515625,
      "learning_rate": 0.00231391959798995,
      "loss": 2.231,
      "step": 46510
    },
    {
      "epoch": 0.2326,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0023137688442211057,
      "loss": 2.1987,
      "step": 46520
    },
    {
      "epoch": 0.23265,
      "grad_norm": 0.5625,
      "learning_rate": 0.002313618090452261,
      "loss": 2.2001,
      "step": 46530
    },
    {
      "epoch": 0.2327,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023134673366834173,
      "loss": 2.2131,
      "step": 46540
    },
    {
      "epoch": 0.23275,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002313316582914573,
      "loss": 2.2235,
      "step": 46550
    },
    {
      "epoch": 0.2328,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023131658291457285,
      "loss": 2.2097,
      "step": 46560
    },
    {
      "epoch": 0.23285,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023130150753768847,
      "loss": 2.178,
      "step": 46570
    },
    {
      "epoch": 0.2329,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00231286432160804,
      "loss": 2.1869,
      "step": 46580
    },
    {
      "epoch": 0.23295,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002312713567839196,
      "loss": 2.2066,
      "step": 46590
    },
    {
      "epoch": 0.233,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002312562814070352,
      "loss": 2.1941,
      "step": 46600
    },
    {
      "epoch": 0.23305,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0023124120603015075,
      "loss": 2.2413,
      "step": 46610
    },
    {
      "epoch": 0.2331,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0023122613065326633,
      "loss": 2.2163,
      "step": 46620
    },
    {
      "epoch": 0.23315,
      "grad_norm": 0.5,
      "learning_rate": 0.002312110552763819,
      "loss": 2.2038,
      "step": 46630
    },
    {
      "epoch": 0.2332,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002311959798994975,
      "loss": 2.1983,
      "step": 46640
    },
    {
      "epoch": 0.23325,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023118090452261307,
      "loss": 2.2035,
      "step": 46650
    },
    {
      "epoch": 0.2333,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0023116582914572865,
      "loss": 2.1631,
      "step": 46660
    },
    {
      "epoch": 0.23335,
      "grad_norm": 0.53125,
      "learning_rate": 0.0023115075376884424,
      "loss": 2.1796,
      "step": 46670
    },
    {
      "epoch": 0.2334,
      "grad_norm": 0.65234375,
      "learning_rate": 0.002311356783919598,
      "loss": 2.182,
      "step": 46680
    },
    {
      "epoch": 0.23345,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023112060301507535,
      "loss": 2.2081,
      "step": 46690
    },
    {
      "epoch": 0.2335,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0023110552763819098,
      "loss": 2.227,
      "step": 46700
    },
    {
      "epoch": 0.23355,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023109045226130656,
      "loss": 2.1942,
      "step": 46710
    },
    {
      "epoch": 0.2336,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002310753768844221,
      "loss": 2.1792,
      "step": 46720
    },
    {
      "epoch": 0.23365,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002310603015075377,
      "loss": 2.1687,
      "step": 46730
    },
    {
      "epoch": 0.2337,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0023104522613065326,
      "loss": 2.2644,
      "step": 46740
    },
    {
      "epoch": 0.23375,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0023103015075376884,
      "loss": 2.2225,
      "step": 46750
    },
    {
      "epoch": 0.2338,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0023101507537688446,
      "loss": 2.1775,
      "step": 46760
    },
    {
      "epoch": 0.23385,
      "grad_norm": 0.443359375,
      "learning_rate": 0.00231,
      "loss": 2.278,
      "step": 46770
    },
    {
      "epoch": 0.2339,
      "grad_norm": 0.60546875,
      "learning_rate": 0.002309849246231156,
      "loss": 2.1947,
      "step": 46780
    },
    {
      "epoch": 0.23395,
      "grad_norm": 0.53125,
      "learning_rate": 0.0023096984924623116,
      "loss": 2.2178,
      "step": 46790
    },
    {
      "epoch": 0.234,
      "grad_norm": 0.5,
      "learning_rate": 0.0023095477386934674,
      "loss": 2.1623,
      "step": 46800
    },
    {
      "epoch": 0.23405,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002309396984924623,
      "loss": 2.1672,
      "step": 46810
    },
    {
      "epoch": 0.2341,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002309246231155779,
      "loss": 2.1997,
      "step": 46820
    },
    {
      "epoch": 0.23415,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002309095477386935,
      "loss": 2.2481,
      "step": 46830
    },
    {
      "epoch": 0.2342,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0023089447236180906,
      "loss": 2.2027,
      "step": 46840
    },
    {
      "epoch": 0.23425,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002308793969849246,
      "loss": 2.2209,
      "step": 46850
    },
    {
      "epoch": 0.2343,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0023086432160804022,
      "loss": 2.181,
      "step": 46860
    },
    {
      "epoch": 0.23435,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002308492462311558,
      "loss": 2.1606,
      "step": 46870
    },
    {
      "epoch": 0.2344,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0023083417085427134,
      "loss": 2.2075,
      "step": 46880
    },
    {
      "epoch": 0.23445,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023081909547738697,
      "loss": 2.2411,
      "step": 46890
    },
    {
      "epoch": 0.2345,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002308040201005025,
      "loss": 2.1838,
      "step": 46900
    },
    {
      "epoch": 0.23455,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002307889447236181,
      "loss": 2.23,
      "step": 46910
    },
    {
      "epoch": 0.2346,
      "grad_norm": 0.53125,
      "learning_rate": 0.002307738693467337,
      "loss": 2.182,
      "step": 46920
    },
    {
      "epoch": 0.23465,
      "grad_norm": 0.53125,
      "learning_rate": 0.0023075879396984925,
      "loss": 2.2504,
      "step": 46930
    },
    {
      "epoch": 0.2347,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0023074371859296483,
      "loss": 2.1519,
      "step": 46940
    },
    {
      "epoch": 0.23475,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002307286432160804,
      "loss": 2.2112,
      "step": 46950
    },
    {
      "epoch": 0.2348,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00230713567839196,
      "loss": 2.2002,
      "step": 46960
    },
    {
      "epoch": 0.23485,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023069849246231157,
      "loss": 2.2091,
      "step": 46970
    },
    {
      "epoch": 0.2349,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002306834170854271,
      "loss": 2.1863,
      "step": 46980
    },
    {
      "epoch": 0.23495,
      "grad_norm": 0.453125,
      "learning_rate": 0.0023066834170854273,
      "loss": 2.2235,
      "step": 46990
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.515625,
      "learning_rate": 0.002306532663316583,
      "loss": 2.2394,
      "step": 47000
    },
    {
      "epoch": 0.23505,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023063819095477385,
      "loss": 2.2397,
      "step": 47010
    },
    {
      "epoch": 0.2351,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0023062311557788947,
      "loss": 2.1922,
      "step": 47020
    },
    {
      "epoch": 0.23515,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0023060804020100505,
      "loss": 2.235,
      "step": 47030
    },
    {
      "epoch": 0.2352,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002305929648241206,
      "loss": 2.1934,
      "step": 47040
    },
    {
      "epoch": 0.23525,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002305778894472362,
      "loss": 2.2445,
      "step": 47050
    },
    {
      "epoch": 0.2353,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023056281407035175,
      "loss": 2.1893,
      "step": 47060
    },
    {
      "epoch": 0.23535,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0023054773869346733,
      "loss": 2.2234,
      "step": 47070
    },
    {
      "epoch": 0.2354,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0023053266331658296,
      "loss": 2.1659,
      "step": 47080
    },
    {
      "epoch": 0.23545,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002305175879396985,
      "loss": 2.2109,
      "step": 47090
    },
    {
      "epoch": 0.2355,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0023050251256281407,
      "loss": 2.1926,
      "step": 47100
    },
    {
      "epoch": 0.23555,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023048743718592966,
      "loss": 2.2338,
      "step": 47110
    },
    {
      "epoch": 0.2356,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0023047236180904524,
      "loss": 2.1977,
      "step": 47120
    },
    {
      "epoch": 0.23565,
      "grad_norm": 0.4453125,
      "learning_rate": 0.002304572864321608,
      "loss": 2.2323,
      "step": 47130
    },
    {
      "epoch": 0.2357,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023044221105527635,
      "loss": 2.194,
      "step": 47140
    },
    {
      "epoch": 0.23575,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023042713567839198,
      "loss": 2.2044,
      "step": 47150
    },
    {
      "epoch": 0.2358,
      "grad_norm": 0.546875,
      "learning_rate": 0.0023041206030150756,
      "loss": 2.2291,
      "step": 47160
    },
    {
      "epoch": 0.23585,
      "grad_norm": 0.515625,
      "learning_rate": 0.002303969849246231,
      "loss": 2.2302,
      "step": 47170
    },
    {
      "epoch": 0.2359,
      "grad_norm": 0.60546875,
      "learning_rate": 0.002303819095477387,
      "loss": 2.2658,
      "step": 47180
    },
    {
      "epoch": 0.23595,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0023036683417085426,
      "loss": 2.2505,
      "step": 47190
    },
    {
      "epoch": 0.236,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023035175879396984,
      "loss": 2.2269,
      "step": 47200
    },
    {
      "epoch": 0.23605,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023033668341708546,
      "loss": 2.1597,
      "step": 47210
    },
    {
      "epoch": 0.2361,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00230321608040201,
      "loss": 2.2408,
      "step": 47220
    },
    {
      "epoch": 0.23615,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002303065326633166,
      "loss": 2.1891,
      "step": 47230
    },
    {
      "epoch": 0.2362,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0023029145728643216,
      "loss": 2.197,
      "step": 47240
    },
    {
      "epoch": 0.23625,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0023027638190954774,
      "loss": 2.1673,
      "step": 47250
    },
    {
      "epoch": 0.2363,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0023026130653266332,
      "loss": 2.2862,
      "step": 47260
    },
    {
      "epoch": 0.23635,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002302462311557789,
      "loss": 2.2068,
      "step": 47270
    },
    {
      "epoch": 0.2364,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002302311557788945,
      "loss": 2.2405,
      "step": 47280
    },
    {
      "epoch": 0.23645,
      "grad_norm": 0.515625,
      "learning_rate": 0.0023021608040201006,
      "loss": 2.1578,
      "step": 47290
    },
    {
      "epoch": 0.2365,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002302010050251256,
      "loss": 2.2556,
      "step": 47300
    },
    {
      "epoch": 0.23655,
      "grad_norm": 0.484375,
      "learning_rate": 0.0023018592964824123,
      "loss": 2.1748,
      "step": 47310
    },
    {
      "epoch": 0.2366,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002301708542713568,
      "loss": 2.2242,
      "step": 47320
    },
    {
      "epoch": 0.23665,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0023015577889447234,
      "loss": 2.1688,
      "step": 47330
    },
    {
      "epoch": 0.2367,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0023014070351758797,
      "loss": 2.2049,
      "step": 47340
    },
    {
      "epoch": 0.23675,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002301256281407035,
      "loss": 2.1675,
      "step": 47350
    },
    {
      "epoch": 0.2368,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002301105527638191,
      "loss": 2.2119,
      "step": 47360
    },
    {
      "epoch": 0.23685,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002300954773869347,
      "loss": 2.1655,
      "step": 47370
    },
    {
      "epoch": 0.2369,
      "grad_norm": 0.546875,
      "learning_rate": 0.0023008040201005025,
      "loss": 2.212,
      "step": 47380
    },
    {
      "epoch": 0.23695,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0023006532663316583,
      "loss": 2.1845,
      "step": 47390
    },
    {
      "epoch": 0.237,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002300502512562814,
      "loss": 2.2213,
      "step": 47400
    },
    {
      "epoch": 0.23705,
      "grad_norm": 0.515625,
      "learning_rate": 0.00230035175879397,
      "loss": 2.2243,
      "step": 47410
    },
    {
      "epoch": 0.2371,
      "grad_norm": 0.431640625,
      "learning_rate": 0.0023002010050251257,
      "loss": 2.2387,
      "step": 47420
    },
    {
      "epoch": 0.23715,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0023000502512562815,
      "loss": 2.2118,
      "step": 47430
    },
    {
      "epoch": 0.2372,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022998994974874373,
      "loss": 2.2195,
      "step": 47440
    },
    {
      "epoch": 0.23725,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002299748743718593,
      "loss": 2.1603,
      "step": 47450
    },
    {
      "epoch": 0.2373,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0022995979899497485,
      "loss": 2.2397,
      "step": 47460
    },
    {
      "epoch": 0.23735,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022994472361809047,
      "loss": 2.1933,
      "step": 47470
    },
    {
      "epoch": 0.2374,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022992964824120605,
      "loss": 2.2795,
      "step": 47480
    },
    {
      "epoch": 0.23745,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002299145728643216,
      "loss": 2.2112,
      "step": 47490
    },
    {
      "epoch": 0.2375,
      "grad_norm": 0.447265625,
      "learning_rate": 0.002298994974874372,
      "loss": 2.1576,
      "step": 47500
    },
    {
      "epoch": 0.23755,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022988442211055275,
      "loss": 2.1733,
      "step": 47510
    },
    {
      "epoch": 0.2376,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0022986934673366833,
      "loss": 2.2228,
      "step": 47520
    },
    {
      "epoch": 0.23765,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022985427135678396,
      "loss": 2.2048,
      "step": 47530
    },
    {
      "epoch": 0.2377,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002298391959798995,
      "loss": 2.1824,
      "step": 47540
    },
    {
      "epoch": 0.23775,
      "grad_norm": 0.46875,
      "learning_rate": 0.0022982412060301508,
      "loss": 2.2463,
      "step": 47550
    },
    {
      "epoch": 0.2378,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022980904522613066,
      "loss": 2.2469,
      "step": 47560
    },
    {
      "epoch": 0.23785,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0022979396984924624,
      "loss": 2.2414,
      "step": 47570
    },
    {
      "epoch": 0.2379,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002297788944723618,
      "loss": 2.1817,
      "step": 47580
    },
    {
      "epoch": 0.23795,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002297638190954774,
      "loss": 2.2424,
      "step": 47590
    },
    {
      "epoch": 0.238,
      "grad_norm": 0.47265625,
      "learning_rate": 0.00229748743718593,
      "loss": 2.1722,
      "step": 47600
    },
    {
      "epoch": 0.23805,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0022973366834170856,
      "loss": 2.2327,
      "step": 47610
    },
    {
      "epoch": 0.2381,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002297185929648241,
      "loss": 2.1594,
      "step": 47620
    },
    {
      "epoch": 0.23815,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002297035175879397,
      "loss": 2.211,
      "step": 47630
    },
    {
      "epoch": 0.2382,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002296884422110553,
      "loss": 2.1658,
      "step": 47640
    },
    {
      "epoch": 0.23825,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022967336683417084,
      "loss": 2.2521,
      "step": 47650
    },
    {
      "epoch": 0.2383,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0022965829145728646,
      "loss": 2.1456,
      "step": 47660
    },
    {
      "epoch": 0.23835,
      "grad_norm": 0.53125,
      "learning_rate": 0.00229643216080402,
      "loss": 2.1707,
      "step": 47670
    },
    {
      "epoch": 0.2384,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002296281407035176,
      "loss": 2.1522,
      "step": 47680
    },
    {
      "epoch": 0.23845,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002296130653266332,
      "loss": 2.2575,
      "step": 47690
    },
    {
      "epoch": 0.2385,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022959798994974874,
      "loss": 2.1829,
      "step": 47700
    },
    {
      "epoch": 0.23855,
      "grad_norm": 0.578125,
      "learning_rate": 0.0022958291457286432,
      "loss": 2.2176,
      "step": 47710
    },
    {
      "epoch": 0.2386,
      "grad_norm": 0.5625,
      "learning_rate": 0.002295678391959799,
      "loss": 2.2055,
      "step": 47720
    },
    {
      "epoch": 0.23865,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002295527638190955,
      "loss": 2.242,
      "step": 47730
    },
    {
      "epoch": 0.2387,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0022953768844221106,
      "loss": 2.1958,
      "step": 47740
    },
    {
      "epoch": 0.23875,
      "grad_norm": 0.5,
      "learning_rate": 0.0022952261306532665,
      "loss": 2.2736,
      "step": 47750
    },
    {
      "epoch": 0.2388,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0022950753768844223,
      "loss": 2.1885,
      "step": 47760
    },
    {
      "epoch": 0.23885,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002294924623115578,
      "loss": 2.2139,
      "step": 47770
    },
    {
      "epoch": 0.2389,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0022947738693467334,
      "loss": 2.1917,
      "step": 47780
    },
    {
      "epoch": 0.23895,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022946231155778897,
      "loss": 2.2855,
      "step": 47790
    },
    {
      "epoch": 0.239,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022944723618090455,
      "loss": 2.1952,
      "step": 47800
    },
    {
      "epoch": 0.23905,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002294321608040201,
      "loss": 2.2495,
      "step": 47810
    },
    {
      "epoch": 0.2391,
      "grad_norm": 0.6015625,
      "learning_rate": 0.002294170854271357,
      "loss": 2.1777,
      "step": 47820
    },
    {
      "epoch": 0.23915,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0022940201005025125,
      "loss": 2.175,
      "step": 47830
    },
    {
      "epoch": 0.2392,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022938693467336683,
      "loss": 2.1998,
      "step": 47840
    },
    {
      "epoch": 0.23925,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022937185929648245,
      "loss": 2.2265,
      "step": 47850
    },
    {
      "epoch": 0.2393,
      "grad_norm": 0.490234375,
      "learning_rate": 0.00229356783919598,
      "loss": 2.2032,
      "step": 47860
    },
    {
      "epoch": 0.23935,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0022934170854271357,
      "loss": 2.2167,
      "step": 47870
    },
    {
      "epoch": 0.2394,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0022932663316582915,
      "loss": 2.195,
      "step": 47880
    },
    {
      "epoch": 0.23945,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022931155778894473,
      "loss": 2.1614,
      "step": 47890
    },
    {
      "epoch": 0.2395,
      "grad_norm": 0.5,
      "learning_rate": 0.002292964824120603,
      "loss": 2.2153,
      "step": 47900
    },
    {
      "epoch": 0.23955,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0022928140703517585,
      "loss": 2.2016,
      "step": 47910
    },
    {
      "epoch": 0.2396,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022926633165829147,
      "loss": 2.2495,
      "step": 47920
    },
    {
      "epoch": 0.23965,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022925125628140705,
      "loss": 2.1824,
      "step": 47930
    },
    {
      "epoch": 0.2397,
      "grad_norm": 0.546875,
      "learning_rate": 0.002292361809045226,
      "loss": 2.2099,
      "step": 47940
    },
    {
      "epoch": 0.23975,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002292211055276382,
      "loss": 2.239,
      "step": 47950
    },
    {
      "epoch": 0.2398,
      "grad_norm": 0.515625,
      "learning_rate": 0.002292060301507538,
      "loss": 2.2251,
      "step": 47960
    },
    {
      "epoch": 0.23985,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022919095477386933,
      "loss": 2.2031,
      "step": 47970
    },
    {
      "epoch": 0.2399,
      "grad_norm": 0.439453125,
      "learning_rate": 0.0022917587939698496,
      "loss": 2.2387,
      "step": 47980
    },
    {
      "epoch": 0.23995,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002291608040201005,
      "loss": 2.1215,
      "step": 47990
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0022914572864321608,
      "loss": 2.2751,
      "step": 48000
    },
    {
      "epoch": 0.24,
      "eval_loss": 2.186269760131836,
      "eval_runtime": 48.921,
      "eval_samples_per_second": 51.103,
      "eval_steps_per_second": 0.102,
      "step": 48000
    },
    {
      "epoch": 0.24005,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002291306532663317,
      "loss": 2.1989,
      "step": 48010
    },
    {
      "epoch": 0.2401,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0022911557788944724,
      "loss": 2.2717,
      "step": 48020
    },
    {
      "epoch": 0.24015,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002291005025125628,
      "loss": 2.2285,
      "step": 48030
    },
    {
      "epoch": 0.2402,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002290854271356784,
      "loss": 2.2896,
      "step": 48040
    },
    {
      "epoch": 0.24025,
      "grad_norm": 0.5,
      "learning_rate": 0.00229070351758794,
      "loss": 2.1812,
      "step": 48050
    },
    {
      "epoch": 0.2403,
      "grad_norm": 0.5,
      "learning_rate": 0.0022905527638190956,
      "loss": 2.2261,
      "step": 48060
    },
    {
      "epoch": 0.24035,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002290402010050251,
      "loss": 2.2142,
      "step": 48070
    },
    {
      "epoch": 0.2404,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002290251256281407,
      "loss": 2.2099,
      "step": 48080
    },
    {
      "epoch": 0.24045,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002290100502512563,
      "loss": 2.2777,
      "step": 48090
    },
    {
      "epoch": 0.2405,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0022899497487437184,
      "loss": 2.2075,
      "step": 48100
    },
    {
      "epoch": 0.24055,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022897989949748746,
      "loss": 2.2381,
      "step": 48110
    },
    {
      "epoch": 0.2406,
      "grad_norm": 0.53125,
      "learning_rate": 0.00228964824120603,
      "loss": 2.2373,
      "step": 48120
    },
    {
      "epoch": 0.24065,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002289497487437186,
      "loss": 2.2391,
      "step": 48130
    },
    {
      "epoch": 0.2407,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002289346733668342,
      "loss": 2.2266,
      "step": 48140
    },
    {
      "epoch": 0.24075,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022891959798994974,
      "loss": 2.1927,
      "step": 48150
    },
    {
      "epoch": 0.2408,
      "grad_norm": 0.447265625,
      "learning_rate": 0.0022890452261306532,
      "loss": 2.1677,
      "step": 48160
    },
    {
      "epoch": 0.24085,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002288894472361809,
      "loss": 2.224,
      "step": 48170
    },
    {
      "epoch": 0.2409,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002288743718592965,
      "loss": 2.201,
      "step": 48180
    },
    {
      "epoch": 0.24095,
      "grad_norm": 0.625,
      "learning_rate": 0.0022885929648241207,
      "loss": 2.2128,
      "step": 48190
    },
    {
      "epoch": 0.241,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0022884422110552765,
      "loss": 2.1776,
      "step": 48200
    },
    {
      "epoch": 0.24105,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0022882914572864323,
      "loss": 2.2482,
      "step": 48210
    },
    {
      "epoch": 0.2411,
      "grad_norm": 0.53125,
      "learning_rate": 0.002288140703517588,
      "loss": 2.2044,
      "step": 48220
    },
    {
      "epoch": 0.24115,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022879899497487434,
      "loss": 2.2484,
      "step": 48230
    },
    {
      "epoch": 0.2412,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022878391959798997,
      "loss": 2.2151,
      "step": 48240
    },
    {
      "epoch": 0.24125,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022876884422110555,
      "loss": 2.2143,
      "step": 48250
    },
    {
      "epoch": 0.2413,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002287537688442211,
      "loss": 2.1912,
      "step": 48260
    },
    {
      "epoch": 0.24135,
      "grad_norm": 0.6796875,
      "learning_rate": 0.002287386934673367,
      "loss": 2.2015,
      "step": 48270
    },
    {
      "epoch": 0.2414,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022872361809045225,
      "loss": 2.1881,
      "step": 48280
    },
    {
      "epoch": 0.24145,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0022870854271356783,
      "loss": 2.2688,
      "step": 48290
    },
    {
      "epoch": 0.2415,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022869346733668345,
      "loss": 2.1664,
      "step": 48300
    },
    {
      "epoch": 0.24155,
      "grad_norm": 0.478515625,
      "learning_rate": 0.00228678391959799,
      "loss": 2.2239,
      "step": 48310
    },
    {
      "epoch": 0.2416,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0022866331658291457,
      "loss": 2.2265,
      "step": 48320
    },
    {
      "epoch": 0.24165,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0022864824120603015,
      "loss": 2.2019,
      "step": 48330
    },
    {
      "epoch": 0.2417,
      "grad_norm": 0.609375,
      "learning_rate": 0.0022863316582914573,
      "loss": 2.1889,
      "step": 48340
    },
    {
      "epoch": 0.24175,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002286180904522613,
      "loss": 2.1914,
      "step": 48350
    },
    {
      "epoch": 0.2418,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002286030150753769,
      "loss": 2.2058,
      "step": 48360
    },
    {
      "epoch": 0.24185,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0022858793969849247,
      "loss": 2.229,
      "step": 48370
    },
    {
      "epoch": 0.2419,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022857286432160806,
      "loss": 2.211,
      "step": 48380
    },
    {
      "epoch": 0.24195,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002285577889447236,
      "loss": 2.1935,
      "step": 48390
    },
    {
      "epoch": 0.242,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002285427135678392,
      "loss": 2.2406,
      "step": 48400
    },
    {
      "epoch": 0.24205,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002285276381909548,
      "loss": 2.1503,
      "step": 48410
    },
    {
      "epoch": 0.2421,
      "grad_norm": 0.484375,
      "learning_rate": 0.0022851256281407033,
      "loss": 2.204,
      "step": 48420
    },
    {
      "epoch": 0.24215,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0022849748743718596,
      "loss": 2.2074,
      "step": 48430
    },
    {
      "epoch": 0.2422,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002284824120603015,
      "loss": 2.2069,
      "step": 48440
    },
    {
      "epoch": 0.24225,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0022846733668341708,
      "loss": 2.1603,
      "step": 48450
    },
    {
      "epoch": 0.2423,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002284522613065327,
      "loss": 2.2007,
      "step": 48460
    },
    {
      "epoch": 0.24235,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022843718592964824,
      "loss": 2.2022,
      "step": 48470
    },
    {
      "epoch": 0.2424,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002284221105527638,
      "loss": 2.2774,
      "step": 48480
    },
    {
      "epoch": 0.24245,
      "grad_norm": 0.53125,
      "learning_rate": 0.002284070351758794,
      "loss": 2.1711,
      "step": 48490
    },
    {
      "epoch": 0.2425,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00228391959798995,
      "loss": 2.2314,
      "step": 48500
    },
    {
      "epoch": 0.24255,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0022837688442211056,
      "loss": 2.1761,
      "step": 48510
    },
    {
      "epoch": 0.2426,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0022836180904522614,
      "loss": 2.1987,
      "step": 48520
    },
    {
      "epoch": 0.24265,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022834673366834172,
      "loss": 2.1835,
      "step": 48530
    },
    {
      "epoch": 0.2427,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002283316582914573,
      "loss": 2.2138,
      "step": 48540
    },
    {
      "epoch": 0.24275,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022831658291457284,
      "loss": 2.1974,
      "step": 48550
    },
    {
      "epoch": 0.2428,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022830150753768846,
      "loss": 2.2021,
      "step": 48560
    },
    {
      "epoch": 0.24285,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022828643216080404,
      "loss": 2.2112,
      "step": 48570
    },
    {
      "epoch": 0.2429,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002282713567839196,
      "loss": 2.2299,
      "step": 48580
    },
    {
      "epoch": 0.24295,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002282562814070352,
      "loss": 2.2213,
      "step": 48590
    },
    {
      "epoch": 0.243,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022824120603015074,
      "loss": 2.1835,
      "step": 48600
    },
    {
      "epoch": 0.24305,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022822613065326632,
      "loss": 2.208,
      "step": 48610
    },
    {
      "epoch": 0.2431,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0022821105527638195,
      "loss": 2.2098,
      "step": 48620
    },
    {
      "epoch": 0.24315,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002281959798994975,
      "loss": 2.2184,
      "step": 48630
    },
    {
      "epoch": 0.2432,
      "grad_norm": 0.578125,
      "learning_rate": 0.0022818090452261307,
      "loss": 2.2289,
      "step": 48640
    },
    {
      "epoch": 0.24325,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022816582914572865,
      "loss": 2.2052,
      "step": 48650
    },
    {
      "epoch": 0.2433,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022815075376884423,
      "loss": 2.186,
      "step": 48660
    },
    {
      "epoch": 0.24335,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002281356783919598,
      "loss": 2.1297,
      "step": 48670
    },
    {
      "epoch": 0.2434,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002281206030150754,
      "loss": 2.2493,
      "step": 48680
    },
    {
      "epoch": 0.24345,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022810552763819097,
      "loss": 2.204,
      "step": 48690
    },
    {
      "epoch": 0.2435,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022809045226130655,
      "loss": 2.161,
      "step": 48700
    },
    {
      "epoch": 0.24355,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002280753768844221,
      "loss": 2.1985,
      "step": 48710
    },
    {
      "epoch": 0.2436,
      "grad_norm": 0.431640625,
      "learning_rate": 0.002280603015075377,
      "loss": 2.2306,
      "step": 48720
    },
    {
      "epoch": 0.24365,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002280452261306533,
      "loss": 2.1907,
      "step": 48730
    },
    {
      "epoch": 0.2437,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022803015075376883,
      "loss": 2.1809,
      "step": 48740
    },
    {
      "epoch": 0.24375,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022801507537688445,
      "loss": 2.1551,
      "step": 48750
    },
    {
      "epoch": 0.2438,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00228,
      "loss": 2.1619,
      "step": 48760
    },
    {
      "epoch": 0.24385,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022798492462311557,
      "loss": 2.1983,
      "step": 48770
    },
    {
      "epoch": 0.2439,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002279698492462312,
      "loss": 2.2306,
      "step": 48780
    },
    {
      "epoch": 0.24395,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022795477386934673,
      "loss": 2.165,
      "step": 48790
    },
    {
      "epoch": 0.244,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002279396984924623,
      "loss": 2.2042,
      "step": 48800
    },
    {
      "epoch": 0.24405,
      "grad_norm": 0.515625,
      "learning_rate": 0.002279246231155779,
      "loss": 2.2089,
      "step": 48810
    },
    {
      "epoch": 0.2441,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0022790954773869347,
      "loss": 2.1992,
      "step": 48820
    },
    {
      "epoch": 0.24415,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022789447236180906,
      "loss": 2.1626,
      "step": 48830
    },
    {
      "epoch": 0.2442,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002278793969849246,
      "loss": 2.2482,
      "step": 48840
    },
    {
      "epoch": 0.24425,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002278643216080402,
      "loss": 2.2015,
      "step": 48850
    },
    {
      "epoch": 0.2443,
      "grad_norm": 0.53125,
      "learning_rate": 0.002278492462311558,
      "loss": 2.2245,
      "step": 48860
    },
    {
      "epoch": 0.24435,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022783417085427134,
      "loss": 2.1852,
      "step": 48870
    },
    {
      "epoch": 0.2444,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022781909547738696,
      "loss": 2.2131,
      "step": 48880
    },
    {
      "epoch": 0.24445,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0022780402010050254,
      "loss": 2.1841,
      "step": 48890
    },
    {
      "epoch": 0.2445,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0022778894472361808,
      "loss": 2.2324,
      "step": 48900
    },
    {
      "epoch": 0.24455,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002277738693467337,
      "loss": 2.1802,
      "step": 48910
    },
    {
      "epoch": 0.2446,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0022775879396984924,
      "loss": 2.2233,
      "step": 48920
    },
    {
      "epoch": 0.24465,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002277437185929648,
      "loss": 2.2223,
      "step": 48930
    },
    {
      "epoch": 0.2447,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022772864321608044,
      "loss": 2.1961,
      "step": 48940
    },
    {
      "epoch": 0.24475,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00227713567839196,
      "loss": 2.2749,
      "step": 48950
    },
    {
      "epoch": 0.2448,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022769849246231156,
      "loss": 2.1549,
      "step": 48960
    },
    {
      "epoch": 0.24485,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022768341708542714,
      "loss": 2.2776,
      "step": 48970
    },
    {
      "epoch": 0.2449,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022766834170854272,
      "loss": 2.1662,
      "step": 48980
    },
    {
      "epoch": 0.24495,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002276532663316583,
      "loss": 2.2513,
      "step": 48990
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022763819095477384,
      "loss": 2.1837,
      "step": 49000
    },
    {
      "epoch": 0.24505,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022762311557788946,
      "loss": 2.2168,
      "step": 49010
    },
    {
      "epoch": 0.2451,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022760804020100505,
      "loss": 2.1922,
      "step": 49020
    },
    {
      "epoch": 0.24515,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002275929648241206,
      "loss": 2.2081,
      "step": 49030
    },
    {
      "epoch": 0.2452,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002275778894472362,
      "loss": 2.1498,
      "step": 49040
    },
    {
      "epoch": 0.24525,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0022756281407035174,
      "loss": 2.2113,
      "step": 49050
    },
    {
      "epoch": 0.2453,
      "grad_norm": 0.44921875,
      "learning_rate": 0.0022754773869346732,
      "loss": 2.2058,
      "step": 49060
    },
    {
      "epoch": 0.24535,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022753266331658295,
      "loss": 2.234,
      "step": 49070
    },
    {
      "epoch": 0.2454,
      "grad_norm": 0.5,
      "learning_rate": 0.002275175879396985,
      "loss": 2.183,
      "step": 49080
    },
    {
      "epoch": 0.24545,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0022750251256281407,
      "loss": 2.1891,
      "step": 49090
    },
    {
      "epoch": 0.2455,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0022748743718592965,
      "loss": 2.1832,
      "step": 49100
    },
    {
      "epoch": 0.24555,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0022747236180904523,
      "loss": 2.1742,
      "step": 49110
    },
    {
      "epoch": 0.2456,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002274572864321608,
      "loss": 2.2482,
      "step": 49120
    },
    {
      "epoch": 0.24565,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002274422110552764,
      "loss": 2.1786,
      "step": 49130
    },
    {
      "epoch": 0.2457,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022742713567839197,
      "loss": 2.1973,
      "step": 49140
    },
    {
      "epoch": 0.24575,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022741206030150755,
      "loss": 2.1687,
      "step": 49150
    },
    {
      "epoch": 0.2458,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002273969849246231,
      "loss": 2.2464,
      "step": 49160
    },
    {
      "epoch": 0.24585,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002273819095477387,
      "loss": 2.2394,
      "step": 49170
    },
    {
      "epoch": 0.2459,
      "grad_norm": 0.46875,
      "learning_rate": 0.002273668341708543,
      "loss": 2.2325,
      "step": 49180
    },
    {
      "epoch": 0.24595,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022735175879396983,
      "loss": 2.2093,
      "step": 49190
    },
    {
      "epoch": 0.246,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0022733668341708545,
      "loss": 2.2447,
      "step": 49200
    },
    {
      "epoch": 0.24605,
      "grad_norm": 0.515625,
      "learning_rate": 0.00227321608040201,
      "loss": 2.2393,
      "step": 49210
    },
    {
      "epoch": 0.2461,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022730653266331657,
      "loss": 2.2011,
      "step": 49220
    },
    {
      "epoch": 0.24615,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002272914572864322,
      "loss": 2.2182,
      "step": 49230
    },
    {
      "epoch": 0.2462,
      "grad_norm": 0.578125,
      "learning_rate": 0.0022727638190954773,
      "loss": 2.1738,
      "step": 49240
    },
    {
      "epoch": 0.24625,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002272613065326633,
      "loss": 2.2057,
      "step": 49250
    },
    {
      "epoch": 0.2463,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002272462311557789,
      "loss": 2.1961,
      "step": 49260
    },
    {
      "epoch": 0.24635,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022723115577889448,
      "loss": 2.2233,
      "step": 49270
    },
    {
      "epoch": 0.2464,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022721608040201006,
      "loss": 2.2084,
      "step": 49280
    },
    {
      "epoch": 0.24645,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022720100502512564,
      "loss": 2.2144,
      "step": 49290
    },
    {
      "epoch": 0.2465,
      "grad_norm": 0.46875,
      "learning_rate": 0.002271859296482412,
      "loss": 2.1761,
      "step": 49300
    },
    {
      "epoch": 0.24655,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002271708542713568,
      "loss": 2.1961,
      "step": 49310
    },
    {
      "epoch": 0.2466,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022715577889447234,
      "loss": 2.2109,
      "step": 49320
    },
    {
      "epoch": 0.24665,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0022714070351758796,
      "loss": 2.1879,
      "step": 49330
    },
    {
      "epoch": 0.2467,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022712562814070354,
      "loss": 2.1801,
      "step": 49340
    },
    {
      "epoch": 0.24675,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022711055276381908,
      "loss": 2.2383,
      "step": 49350
    },
    {
      "epoch": 0.2468,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002270954773869347,
      "loss": 2.1686,
      "step": 49360
    },
    {
      "epoch": 0.24685,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022708040201005024,
      "loss": 2.2257,
      "step": 49370
    },
    {
      "epoch": 0.2469,
      "grad_norm": 0.46875,
      "learning_rate": 0.002270653266331658,
      "loss": 2.1981,
      "step": 49380
    },
    {
      "epoch": 0.24695,
      "grad_norm": 0.71875,
      "learning_rate": 0.0022705025125628144,
      "loss": 2.1506,
      "step": 49390
    },
    {
      "epoch": 0.247,
      "grad_norm": 0.5,
      "learning_rate": 0.00227035175879397,
      "loss": 2.2111,
      "step": 49400
    },
    {
      "epoch": 0.24705,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0022702010050251256,
      "loss": 2.166,
      "step": 49410
    },
    {
      "epoch": 0.2471,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022700502512562814,
      "loss": 2.2783,
      "step": 49420
    },
    {
      "epoch": 0.24715,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0022698994974874372,
      "loss": 2.1607,
      "step": 49430
    },
    {
      "epoch": 0.2472,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002269748743718593,
      "loss": 2.2294,
      "step": 49440
    },
    {
      "epoch": 0.24725,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002269597989949749,
      "loss": 2.1498,
      "step": 49450
    },
    {
      "epoch": 0.2473,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022694472361809047,
      "loss": 2.172,
      "step": 49460
    },
    {
      "epoch": 0.24735,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0022692964824120605,
      "loss": 2.2087,
      "step": 49470
    },
    {
      "epoch": 0.2474,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002269145728643216,
      "loss": 2.198,
      "step": 49480
    },
    {
      "epoch": 0.24745,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002268994974874372,
      "loss": 2.2117,
      "step": 49490
    },
    {
      "epoch": 0.2475,
      "grad_norm": 0.609375,
      "learning_rate": 0.002268844221105528,
      "loss": 2.2088,
      "step": 49500
    },
    {
      "epoch": 0.24755,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022686934673366833,
      "loss": 2.1998,
      "step": 49510
    },
    {
      "epoch": 0.2476,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022685427135678395,
      "loss": 2.1493,
      "step": 49520
    },
    {
      "epoch": 0.24765,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002268391959798995,
      "loss": 2.2143,
      "step": 49530
    },
    {
      "epoch": 0.2477,
      "grad_norm": 0.46484375,
      "learning_rate": 0.0022682412060301507,
      "loss": 2.212,
      "step": 49540
    },
    {
      "epoch": 0.24775,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002268090452261307,
      "loss": 2.2087,
      "step": 49550
    },
    {
      "epoch": 0.2478,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0022679396984924623,
      "loss": 2.1473,
      "step": 49560
    },
    {
      "epoch": 0.24785,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002267788944723618,
      "loss": 2.1849,
      "step": 49570
    },
    {
      "epoch": 0.2479,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002267638190954774,
      "loss": 2.1698,
      "step": 49580
    },
    {
      "epoch": 0.24795,
      "grad_norm": 0.4453125,
      "learning_rate": 0.0022674874371859297,
      "loss": 2.2225,
      "step": 49590
    },
    {
      "epoch": 0.248,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022673366834170855,
      "loss": 2.2082,
      "step": 49600
    },
    {
      "epoch": 0.24805,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0022671859296482413,
      "loss": 2.2397,
      "step": 49610
    },
    {
      "epoch": 0.2481,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002267035175879397,
      "loss": 2.2366,
      "step": 49620
    },
    {
      "epoch": 0.24815,
      "grad_norm": 0.515625,
      "learning_rate": 0.002266884422110553,
      "loss": 2.1613,
      "step": 49630
    },
    {
      "epoch": 0.2482,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0022667336683417083,
      "loss": 2.259,
      "step": 49640
    },
    {
      "epoch": 0.24825,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0022665829145728645,
      "loss": 2.1931,
      "step": 49650
    },
    {
      "epoch": 0.2483,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022664321608040204,
      "loss": 2.2365,
      "step": 49660
    },
    {
      "epoch": 0.24835,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022662814070351757,
      "loss": 2.1912,
      "step": 49670
    },
    {
      "epoch": 0.2484,
      "grad_norm": 0.53125,
      "learning_rate": 0.002266130653266332,
      "loss": 2.2408,
      "step": 49680
    },
    {
      "epoch": 0.24845,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022659798994974873,
      "loss": 2.1784,
      "step": 49690
    },
    {
      "epoch": 0.2485,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002265829145728643,
      "loss": 2.203,
      "step": 49700
    },
    {
      "epoch": 0.24855,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022656783919597994,
      "loss": 2.202,
      "step": 49710
    },
    {
      "epoch": 0.2486,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022655276381909548,
      "loss": 2.2316,
      "step": 49720
    },
    {
      "epoch": 0.24865,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022653768844221106,
      "loss": 2.2445,
      "step": 49730
    },
    {
      "epoch": 0.2487,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022652261306532664,
      "loss": 2.1679,
      "step": 49740
    },
    {
      "epoch": 0.24875,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002265075376884422,
      "loss": 2.2391,
      "step": 49750
    },
    {
      "epoch": 0.2488,
      "grad_norm": 0.53125,
      "learning_rate": 0.002264924623115578,
      "loss": 2.1359,
      "step": 49760
    },
    {
      "epoch": 0.24885,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022647738693467334,
      "loss": 2.2058,
      "step": 49770
    },
    {
      "epoch": 0.2489,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022646231155778896,
      "loss": 2.1735,
      "step": 49780
    },
    {
      "epoch": 0.24895,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0022644723618090454,
      "loss": 2.2454,
      "step": 49790
    },
    {
      "epoch": 0.249,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002264321608040201,
      "loss": 2.2015,
      "step": 49800
    },
    {
      "epoch": 0.24905,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002264170854271357,
      "loss": 2.1985,
      "step": 49810
    },
    {
      "epoch": 0.2491,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002264020100502513,
      "loss": 2.1667,
      "step": 49820
    },
    {
      "epoch": 0.24915,
      "grad_norm": 0.484375,
      "learning_rate": 0.002263869346733668,
      "loss": 2.2745,
      "step": 49830
    },
    {
      "epoch": 0.2492,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022637185929648244,
      "loss": 2.1766,
      "step": 49840
    },
    {
      "epoch": 0.24925,
      "grad_norm": 0.5,
      "learning_rate": 0.00226356783919598,
      "loss": 2.1637,
      "step": 49850
    },
    {
      "epoch": 0.2493,
      "grad_norm": 0.484375,
      "learning_rate": 0.0022634170854271356,
      "loss": 2.2027,
      "step": 49860
    },
    {
      "epoch": 0.24935,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002263266331658292,
      "loss": 2.2027,
      "step": 49870
    },
    {
      "epoch": 0.2494,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022631155778894472,
      "loss": 2.2193,
      "step": 49880
    },
    {
      "epoch": 0.24945,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002262964824120603,
      "loss": 2.1692,
      "step": 49890
    },
    {
      "epoch": 0.2495,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002262814070351759,
      "loss": 2.2433,
      "step": 49900
    },
    {
      "epoch": 0.24955,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022626633165829147,
      "loss": 2.2238,
      "step": 49910
    },
    {
      "epoch": 0.2496,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0022625125628140705,
      "loss": 2.2005,
      "step": 49920
    },
    {
      "epoch": 0.24965,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002262361809045226,
      "loss": 2.2227,
      "step": 49930
    },
    {
      "epoch": 0.2497,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002262211055276382,
      "loss": 2.2527,
      "step": 49940
    },
    {
      "epoch": 0.24975,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002262060301507538,
      "loss": 2.2176,
      "step": 49950
    },
    {
      "epoch": 0.2498,
      "grad_norm": 0.5,
      "learning_rate": 0.0022619095477386933,
      "loss": 2.2745,
      "step": 49960
    },
    {
      "epoch": 0.24985,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0022617587939698495,
      "loss": 2.2131,
      "step": 49970
    },
    {
      "epoch": 0.2499,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002261608040201005,
      "loss": 2.1834,
      "step": 49980
    },
    {
      "epoch": 0.24995,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022614572864321607,
      "loss": 2.1669,
      "step": 49990
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002261306532663317,
      "loss": 2.1744,
      "step": 50000
    },
    {
      "epoch": 0.25,
      "eval_loss": 2.192904472351074,
      "eval_runtime": 47.8266,
      "eval_samples_per_second": 52.272,
      "eval_steps_per_second": 0.105,
      "step": 50000
    },
    {
      "epoch": 0.25005,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022611557788944723,
      "loss": 2.2776,
      "step": 50010
    },
    {
      "epoch": 0.2501,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002261005025125628,
      "loss": 2.1868,
      "step": 50020
    },
    {
      "epoch": 0.25015,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002260854271356784,
      "loss": 2.1957,
      "step": 50030
    },
    {
      "epoch": 0.2502,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022607035175879397,
      "loss": 2.1822,
      "step": 50040
    },
    {
      "epoch": 0.25025,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022605527638190955,
      "loss": 2.25,
      "step": 50050
    },
    {
      "epoch": 0.2503,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022604020100502513,
      "loss": 2.2231,
      "step": 50060
    },
    {
      "epoch": 0.25035,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002260251256281407,
      "loss": 2.1921,
      "step": 50070
    },
    {
      "epoch": 0.2504,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002260100502512563,
      "loss": 2.235,
      "step": 50080
    },
    {
      "epoch": 0.25045,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022599497487437183,
      "loss": 2.1276,
      "step": 50090
    },
    {
      "epoch": 0.2505,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022597989949748746,
      "loss": 2.2187,
      "step": 50100
    },
    {
      "epoch": 0.25055,
      "grad_norm": 0.46875,
      "learning_rate": 0.0022596482412060304,
      "loss": 2.2203,
      "step": 50110
    },
    {
      "epoch": 0.2506,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0022594974874371857,
      "loss": 2.2082,
      "step": 50120
    },
    {
      "epoch": 0.25065,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002259346733668342,
      "loss": 2.2195,
      "step": 50130
    },
    {
      "epoch": 0.2507,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0022591959798994973,
      "loss": 2.2607,
      "step": 50140
    },
    {
      "epoch": 0.25075,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002259045226130653,
      "loss": 2.1702,
      "step": 50150
    },
    {
      "epoch": 0.2508,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022588944723618094,
      "loss": 2.1827,
      "step": 50160
    },
    {
      "epoch": 0.25085,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022587437185929648,
      "loss": 2.1514,
      "step": 50170
    },
    {
      "epoch": 0.2509,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022585929648241206,
      "loss": 2.2335,
      "step": 50180
    },
    {
      "epoch": 0.25095,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022584422110552764,
      "loss": 2.1879,
      "step": 50190
    },
    {
      "epoch": 0.251,
      "grad_norm": 0.62890625,
      "learning_rate": 0.002258291457286432,
      "loss": 2.1853,
      "step": 50200
    },
    {
      "epoch": 0.25105,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002258140703517588,
      "loss": 2.1882,
      "step": 50210
    },
    {
      "epoch": 0.2511,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002257989949748744,
      "loss": 2.2282,
      "step": 50220
    },
    {
      "epoch": 0.25115,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022578391959798996,
      "loss": 2.2302,
      "step": 50230
    },
    {
      "epoch": 0.2512,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022576884422110554,
      "loss": 2.1487,
      "step": 50240
    },
    {
      "epoch": 0.25125,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002257537688442211,
      "loss": 2.2227,
      "step": 50250
    },
    {
      "epoch": 0.2513,
      "grad_norm": 0.5625,
      "learning_rate": 0.002257386934673367,
      "loss": 2.2371,
      "step": 50260
    },
    {
      "epoch": 0.25135,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002257236180904523,
      "loss": 2.2353,
      "step": 50270
    },
    {
      "epoch": 0.2514,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002257085427135678,
      "loss": 2.1998,
      "step": 50280
    },
    {
      "epoch": 0.25145,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022569346733668345,
      "loss": 2.211,
      "step": 50290
    },
    {
      "epoch": 0.2515,
      "grad_norm": 0.53125,
      "learning_rate": 0.00225678391959799,
      "loss": 2.259,
      "step": 50300
    },
    {
      "epoch": 0.25155,
      "grad_norm": 0.484375,
      "learning_rate": 0.0022566331658291456,
      "loss": 2.1731,
      "step": 50310
    },
    {
      "epoch": 0.2516,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002256482412060302,
      "loss": 2.2112,
      "step": 50320
    },
    {
      "epoch": 0.25165,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0022563316582914572,
      "loss": 2.1453,
      "step": 50330
    },
    {
      "epoch": 0.2517,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002256180904522613,
      "loss": 2.2511,
      "step": 50340
    },
    {
      "epoch": 0.25175,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002256030150753769,
      "loss": 2.1906,
      "step": 50350
    },
    {
      "epoch": 0.2518,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022558793969849247,
      "loss": 2.215,
      "step": 50360
    },
    {
      "epoch": 0.25185,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0022557286432160805,
      "loss": 2.18,
      "step": 50370
    },
    {
      "epoch": 0.2519,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022555778894472363,
      "loss": 2.2489,
      "step": 50380
    },
    {
      "epoch": 0.25195,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002255427135678392,
      "loss": 2.215,
      "step": 50390
    },
    {
      "epoch": 0.252,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002255276381909548,
      "loss": 2.204,
      "step": 50400
    },
    {
      "epoch": 0.25205,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0022551256281407033,
      "loss": 2.1842,
      "step": 50410
    },
    {
      "epoch": 0.2521,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022549748743718595,
      "loss": 2.2023,
      "step": 50420
    },
    {
      "epoch": 0.25215,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0022548241206030153,
      "loss": 2.2459,
      "step": 50430
    },
    {
      "epoch": 0.2522,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022546733668341707,
      "loss": 2.2167,
      "step": 50440
    },
    {
      "epoch": 0.25225,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002254522613065327,
      "loss": 2.213,
      "step": 50450
    },
    {
      "epoch": 0.2523,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022543718592964823,
      "loss": 2.1544,
      "step": 50460
    },
    {
      "epoch": 0.25235,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002254221105527638,
      "loss": 2.188,
      "step": 50470
    },
    {
      "epoch": 0.2524,
      "grad_norm": 0.5,
      "learning_rate": 0.0022540703517587943,
      "loss": 2.2022,
      "step": 50480
    },
    {
      "epoch": 0.25245,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022539195979899497,
      "loss": 2.2093,
      "step": 50490
    },
    {
      "epoch": 0.2525,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022537688442211055,
      "loss": 2.2126,
      "step": 50500
    },
    {
      "epoch": 0.25255,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022536180904522613,
      "loss": 2.1723,
      "step": 50510
    },
    {
      "epoch": 0.2526,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002253467336683417,
      "loss": 2.1818,
      "step": 50520
    },
    {
      "epoch": 0.25265,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002253316582914573,
      "loss": 2.1871,
      "step": 50530
    },
    {
      "epoch": 0.2527,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022531658291457288,
      "loss": 2.1908,
      "step": 50540
    },
    {
      "epoch": 0.25275,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022530150753768846,
      "loss": 2.1522,
      "step": 50550
    },
    {
      "epoch": 0.2528,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022528643216080404,
      "loss": 2.1827,
      "step": 50560
    },
    {
      "epoch": 0.25285,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0022527135678391957,
      "loss": 2.1808,
      "step": 50570
    },
    {
      "epoch": 0.2529,
      "grad_norm": 0.59375,
      "learning_rate": 0.002252562814070352,
      "loss": 2.2251,
      "step": 50580
    },
    {
      "epoch": 0.25295,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002252412060301508,
      "loss": 2.1606,
      "step": 50590
    },
    {
      "epoch": 0.253,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002252261306532663,
      "loss": 2.2028,
      "step": 50600
    },
    {
      "epoch": 0.25305,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022521105527638194,
      "loss": 2.2224,
      "step": 50610
    },
    {
      "epoch": 0.2531,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022519597989949748,
      "loss": 2.1959,
      "step": 50620
    },
    {
      "epoch": 0.25315,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022518090452261306,
      "loss": 2.2015,
      "step": 50630
    },
    {
      "epoch": 0.2532,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002251658291457287,
      "loss": 2.207,
      "step": 50640
    },
    {
      "epoch": 0.25325,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002251507537688442,
      "loss": 2.2221,
      "step": 50650
    },
    {
      "epoch": 0.2533,
      "grad_norm": 0.6015625,
      "learning_rate": 0.002251356783919598,
      "loss": 2.1576,
      "step": 50660
    },
    {
      "epoch": 0.25335,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002251206030150754,
      "loss": 2.2057,
      "step": 50670
    },
    {
      "epoch": 0.2534,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022510552763819096,
      "loss": 2.1813,
      "step": 50680
    },
    {
      "epoch": 0.25345,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022509045226130654,
      "loss": 2.1733,
      "step": 50690
    },
    {
      "epoch": 0.2535,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002250753768844221,
      "loss": 2.1646,
      "step": 50700
    },
    {
      "epoch": 0.25355,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002250603015075377,
      "loss": 2.1901,
      "step": 50710
    },
    {
      "epoch": 0.2536,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002250452261306533,
      "loss": 2.2305,
      "step": 50720
    },
    {
      "epoch": 0.25365,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002250301507537688,
      "loss": 2.1773,
      "step": 50730
    },
    {
      "epoch": 0.2537,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0022501507537688445,
      "loss": 2.1877,
      "step": 50740
    },
    {
      "epoch": 0.25375,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0022500000000000003,
      "loss": 2.1712,
      "step": 50750
    },
    {
      "epoch": 0.2538,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0022498492462311556,
      "loss": 2.2284,
      "step": 50760
    },
    {
      "epoch": 0.25385,
      "grad_norm": 0.625,
      "learning_rate": 0.002249698492462312,
      "loss": 2.1873,
      "step": 50770
    },
    {
      "epoch": 0.2539,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022495477386934673,
      "loss": 2.2628,
      "step": 50780
    },
    {
      "epoch": 0.25395,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002249396984924623,
      "loss": 2.1982,
      "step": 50790
    },
    {
      "epoch": 0.254,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0022492462311557793,
      "loss": 2.2088,
      "step": 50800
    },
    {
      "epoch": 0.25405,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022490954773869347,
      "loss": 2.2306,
      "step": 50810
    },
    {
      "epoch": 0.2541,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0022489447236180905,
      "loss": 2.2368,
      "step": 50820
    },
    {
      "epoch": 0.25415,
      "grad_norm": 0.6875,
      "learning_rate": 0.0022487939698492463,
      "loss": 2.2661,
      "step": 50830
    },
    {
      "epoch": 0.2542,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002248643216080402,
      "loss": 2.1626,
      "step": 50840
    },
    {
      "epoch": 0.25425,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002248492462311558,
      "loss": 2.235,
      "step": 50850
    },
    {
      "epoch": 0.2543,
      "grad_norm": 0.578125,
      "learning_rate": 0.0022483417085427133,
      "loss": 2.1348,
      "step": 50860
    },
    {
      "epoch": 0.25435,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022481909547738695,
      "loss": 2.2141,
      "step": 50870
    },
    {
      "epoch": 0.2544,
      "grad_norm": 0.453125,
      "learning_rate": 0.0022480402010050253,
      "loss": 2.2103,
      "step": 50880
    },
    {
      "epoch": 0.25445,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022478894472361807,
      "loss": 2.1802,
      "step": 50890
    },
    {
      "epoch": 0.2545,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002247738693467337,
      "loss": 2.2343,
      "step": 50900
    },
    {
      "epoch": 0.25455,
      "grad_norm": 0.462890625,
      "learning_rate": 0.0022475879396984923,
      "loss": 2.2016,
      "step": 50910
    },
    {
      "epoch": 0.2546,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002247437185929648,
      "loss": 2.2423,
      "step": 50920
    },
    {
      "epoch": 0.25465,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022472864321608044,
      "loss": 2.1969,
      "step": 50930
    },
    {
      "epoch": 0.2547,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0022471356783919597,
      "loss": 2.1771,
      "step": 50940
    },
    {
      "epoch": 0.25475,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0022469849246231155,
      "loss": 2.1345,
      "step": 50950
    },
    {
      "epoch": 0.2548,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022468341708542713,
      "loss": 2.1996,
      "step": 50960
    },
    {
      "epoch": 0.25485,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002246683417085427,
      "loss": 2.1526,
      "step": 50970
    },
    {
      "epoch": 0.2549,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002246532663316583,
      "loss": 2.2085,
      "step": 50980
    },
    {
      "epoch": 0.25495,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022463819095477388,
      "loss": 2.1636,
      "step": 50990
    },
    {
      "epoch": 0.255,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022462311557788946,
      "loss": 2.187,
      "step": 51000
    },
    {
      "epoch": 0.25505,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0022460804020100504,
      "loss": 2.2204,
      "step": 51010
    },
    {
      "epoch": 0.2551,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022459296482412057,
      "loss": 2.1484,
      "step": 51020
    },
    {
      "epoch": 0.25515,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002245778894472362,
      "loss": 2.2011,
      "step": 51030
    },
    {
      "epoch": 0.2552,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002245628140703518,
      "loss": 2.178,
      "step": 51040
    },
    {
      "epoch": 0.25525,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002245477386934673,
      "loss": 2.2053,
      "step": 51050
    },
    {
      "epoch": 0.2553,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022453266331658294,
      "loss": 2.1714,
      "step": 51060
    },
    {
      "epoch": 0.25535,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022451758793969848,
      "loss": 2.2217,
      "step": 51070
    },
    {
      "epoch": 0.2554,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0022450251256281406,
      "loss": 2.1856,
      "step": 51080
    },
    {
      "epoch": 0.25545,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002244874371859297,
      "loss": 2.2664,
      "step": 51090
    },
    {
      "epoch": 0.2555,
      "grad_norm": 0.5625,
      "learning_rate": 0.002244723618090452,
      "loss": 2.2379,
      "step": 51100
    },
    {
      "epoch": 0.25555,
      "grad_norm": 0.640625,
      "learning_rate": 0.002244572864321608,
      "loss": 2.2183,
      "step": 51110
    },
    {
      "epoch": 0.2556,
      "grad_norm": 0.6484375,
      "learning_rate": 0.002244422110552764,
      "loss": 2.1812,
      "step": 51120
    },
    {
      "epoch": 0.25565,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022442713567839196,
      "loss": 2.1939,
      "step": 51130
    },
    {
      "epoch": 0.2557,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0022441206030150754,
      "loss": 2.221,
      "step": 51140
    },
    {
      "epoch": 0.25575,
      "grad_norm": 0.484375,
      "learning_rate": 0.0022439698492462312,
      "loss": 2.2067,
      "step": 51150
    },
    {
      "epoch": 0.2558,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002243819095477387,
      "loss": 2.253,
      "step": 51160
    },
    {
      "epoch": 0.25585,
      "grad_norm": 0.6015625,
      "learning_rate": 0.002243668341708543,
      "loss": 2.1946,
      "step": 51170
    },
    {
      "epoch": 0.2559,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022435175879396982,
      "loss": 2.1935,
      "step": 51180
    },
    {
      "epoch": 0.25595,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022433668341708545,
      "loss": 2.1606,
      "step": 51190
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022432160804020103,
      "loss": 2.172,
      "step": 51200
    },
    {
      "epoch": 0.25605,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022430653266331656,
      "loss": 2.2699,
      "step": 51210
    },
    {
      "epoch": 0.2561,
      "grad_norm": 0.515625,
      "learning_rate": 0.002242914572864322,
      "loss": 2.1745,
      "step": 51220
    },
    {
      "epoch": 0.25615,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022427638190954773,
      "loss": 2.232,
      "step": 51230
    },
    {
      "epoch": 0.2562,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002242613065326633,
      "loss": 2.1705,
      "step": 51240
    },
    {
      "epoch": 0.25625,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022424623115577893,
      "loss": 2.2199,
      "step": 51250
    },
    {
      "epoch": 0.2563,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022423115577889447,
      "loss": 2.1911,
      "step": 51260
    },
    {
      "epoch": 0.25635,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022421608040201005,
      "loss": 2.19,
      "step": 51270
    },
    {
      "epoch": 0.2564,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0022420100502512563,
      "loss": 2.2297,
      "step": 51280
    },
    {
      "epoch": 0.25645,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002241859296482412,
      "loss": 2.2164,
      "step": 51290
    },
    {
      "epoch": 0.2565,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002241708542713568,
      "loss": 2.1836,
      "step": 51300
    },
    {
      "epoch": 0.25655,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0022415577889447237,
      "loss": 2.1504,
      "step": 51310
    },
    {
      "epoch": 0.2566,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022414070351758795,
      "loss": 2.2287,
      "step": 51320
    },
    {
      "epoch": 0.25665,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022412562814070353,
      "loss": 2.1251,
      "step": 51330
    },
    {
      "epoch": 0.2567,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022411055276381907,
      "loss": 2.2155,
      "step": 51340
    },
    {
      "epoch": 0.25675,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002240954773869347,
      "loss": 2.2025,
      "step": 51350
    },
    {
      "epoch": 0.2568,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0022408040201005027,
      "loss": 2.2075,
      "step": 51360
    },
    {
      "epoch": 0.25685,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002240653266331658,
      "loss": 2.1534,
      "step": 51370
    },
    {
      "epoch": 0.2569,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022405025125628144,
      "loss": 2.226,
      "step": 51380
    },
    {
      "epoch": 0.25695,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022403517587939697,
      "loss": 2.1968,
      "step": 51390
    },
    {
      "epoch": 0.257,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022402010050251255,
      "loss": 2.1364,
      "step": 51400
    },
    {
      "epoch": 0.25705,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022400502512562818,
      "loss": 2.202,
      "step": 51410
    },
    {
      "epoch": 0.2571,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002239899497487437,
      "loss": 2.1922,
      "step": 51420
    },
    {
      "epoch": 0.25715,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002239748743718593,
      "loss": 2.1962,
      "step": 51430
    },
    {
      "epoch": 0.2572,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0022395979899497488,
      "loss": 2.1582,
      "step": 51440
    },
    {
      "epoch": 0.25725,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022394472361809046,
      "loss": 2.1651,
      "step": 51450
    },
    {
      "epoch": 0.2573,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022392964824120604,
      "loss": 2.1899,
      "step": 51460
    },
    {
      "epoch": 0.25735,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002239145728643216,
      "loss": 2.2158,
      "step": 51470
    },
    {
      "epoch": 0.2574,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002238994974874372,
      "loss": 2.194,
      "step": 51480
    },
    {
      "epoch": 0.25745,
      "grad_norm": 0.484375,
      "learning_rate": 0.002238844221105528,
      "loss": 2.1468,
      "step": 51490
    },
    {
      "epoch": 0.2575,
      "grad_norm": 0.44921875,
      "learning_rate": 0.002238693467336683,
      "loss": 2.2578,
      "step": 51500
    },
    {
      "epoch": 0.25755,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022385427135678394,
      "loss": 2.192,
      "step": 51510
    },
    {
      "epoch": 0.2576,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0022383919597989952,
      "loss": 2.2504,
      "step": 51520
    },
    {
      "epoch": 0.25765,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0022382412060301506,
      "loss": 2.1679,
      "step": 51530
    },
    {
      "epoch": 0.2577,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002238090452261307,
      "loss": 2.2633,
      "step": 51540
    },
    {
      "epoch": 0.25775,
      "grad_norm": 0.578125,
      "learning_rate": 0.002237939698492462,
      "loss": 2.2057,
      "step": 51550
    },
    {
      "epoch": 0.2578,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002237788944723618,
      "loss": 2.2262,
      "step": 51560
    },
    {
      "epoch": 0.25785,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022376381909547743,
      "loss": 2.1674,
      "step": 51570
    },
    {
      "epoch": 0.2579,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022374874371859296,
      "loss": 2.1595,
      "step": 51580
    },
    {
      "epoch": 0.25795,
      "grad_norm": 0.609375,
      "learning_rate": 0.0022373366834170854,
      "loss": 2.2283,
      "step": 51590
    },
    {
      "epoch": 0.258,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022371859296482412,
      "loss": 2.1788,
      "step": 51600
    },
    {
      "epoch": 0.25805,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002237035175879397,
      "loss": 2.222,
      "step": 51610
    },
    {
      "epoch": 0.2581,
      "grad_norm": 0.515625,
      "learning_rate": 0.002236884422110553,
      "loss": 2.1731,
      "step": 51620
    },
    {
      "epoch": 0.25815,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022367336683417082,
      "loss": 2.1833,
      "step": 51630
    },
    {
      "epoch": 0.2582,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0022365829145728645,
      "loss": 2.1988,
      "step": 51640
    },
    {
      "epoch": 0.25825,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0022364321608040203,
      "loss": 2.2149,
      "step": 51650
    },
    {
      "epoch": 0.2583,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022362814070351756,
      "loss": 2.1669,
      "step": 51660
    },
    {
      "epoch": 0.25835,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002236130653266332,
      "loss": 2.1831,
      "step": 51670
    },
    {
      "epoch": 0.2584,
      "grad_norm": 0.59375,
      "learning_rate": 0.0022359798994974873,
      "loss": 2.2385,
      "step": 51680
    },
    {
      "epoch": 0.25845,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002235829145728643,
      "loss": 2.1535,
      "step": 51690
    },
    {
      "epoch": 0.2585,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022356783919597993,
      "loss": 2.1954,
      "step": 51700
    },
    {
      "epoch": 0.25855,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022355276381909547,
      "loss": 2.1855,
      "step": 51710
    },
    {
      "epoch": 0.2586,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022353768844221105,
      "loss": 2.2053,
      "step": 51720
    },
    {
      "epoch": 0.25865,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0022352261306532667,
      "loss": 2.2058,
      "step": 51730
    },
    {
      "epoch": 0.2587,
      "grad_norm": 0.6328125,
      "learning_rate": 0.002235075376884422,
      "loss": 2.1656,
      "step": 51740
    },
    {
      "epoch": 0.25875,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002234924623115578,
      "loss": 2.2321,
      "step": 51750
    },
    {
      "epoch": 0.2588,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0022347738693467337,
      "loss": 2.1819,
      "step": 51760
    },
    {
      "epoch": 0.25885,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022346231155778895,
      "loss": 2.2029,
      "step": 51770
    },
    {
      "epoch": 0.2589,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022344723618090453,
      "loss": 2.1596,
      "step": 51780
    },
    {
      "epoch": 0.25895,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022343216080402007,
      "loss": 2.1837,
      "step": 51790
    },
    {
      "epoch": 0.259,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002234170854271357,
      "loss": 2.2028,
      "step": 51800
    },
    {
      "epoch": 0.25905,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022340201005025128,
      "loss": 2.228,
      "step": 51810
    },
    {
      "epoch": 0.2591,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002233869346733668,
      "loss": 2.2456,
      "step": 51820
    },
    {
      "epoch": 0.25915,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022337185929648244,
      "loss": 2.1888,
      "step": 51830
    },
    {
      "epoch": 0.2592,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022335678391959797,
      "loss": 2.1656,
      "step": 51840
    },
    {
      "epoch": 0.25925,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022334170854271355,
      "loss": 2.1624,
      "step": 51850
    },
    {
      "epoch": 0.2593,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002233266331658292,
      "loss": 2.2309,
      "step": 51860
    },
    {
      "epoch": 0.25935,
      "grad_norm": 0.53125,
      "learning_rate": 0.002233115577889447,
      "loss": 2.1479,
      "step": 51870
    },
    {
      "epoch": 0.2594,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002232964824120603,
      "loss": 2.2461,
      "step": 51880
    },
    {
      "epoch": 0.25945,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0022328140703517588,
      "loss": 2.1341,
      "step": 51890
    },
    {
      "epoch": 0.2595,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022326633165829146,
      "loss": 2.221,
      "step": 51900
    },
    {
      "epoch": 0.25955,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022325125628140704,
      "loss": 2.2654,
      "step": 51910
    },
    {
      "epoch": 0.2596,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002232361809045226,
      "loss": 2.1575,
      "step": 51920
    },
    {
      "epoch": 0.25965,
      "grad_norm": 0.59765625,
      "learning_rate": 0.002232211055276382,
      "loss": 2.2571,
      "step": 51930
    },
    {
      "epoch": 0.2597,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002232060301507538,
      "loss": 2.1388,
      "step": 51940
    },
    {
      "epoch": 0.25975,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002231909547738693,
      "loss": 2.2051,
      "step": 51950
    },
    {
      "epoch": 0.2598,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022317587939698494,
      "loss": 2.2141,
      "step": 51960
    },
    {
      "epoch": 0.25985,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0022316080402010052,
      "loss": 2.1958,
      "step": 51970
    },
    {
      "epoch": 0.2599,
      "grad_norm": 0.46875,
      "learning_rate": 0.0022314572864321606,
      "loss": 2.2115,
      "step": 51980
    },
    {
      "epoch": 0.25995,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002231306532663317,
      "loss": 2.1436,
      "step": 51990
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002231155778894472,
      "loss": 2.2121,
      "step": 52000
    },
    {
      "epoch": 0.26,
      "eval_loss": 2.175077438354492,
      "eval_runtime": 46.2644,
      "eval_samples_per_second": 54.037,
      "eval_steps_per_second": 0.108,
      "step": 52000
    },
    {
      "epoch": 0.26005,
      "grad_norm": 0.58984375,
      "learning_rate": 0.002231005025125628,
      "loss": 2.1768,
      "step": 52010
    },
    {
      "epoch": 0.2601,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022308542713567843,
      "loss": 2.2338,
      "step": 52020
    },
    {
      "epoch": 0.26015,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0022307035175879396,
      "loss": 2.157,
      "step": 52030
    },
    {
      "epoch": 0.2602,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0022305527638190954,
      "loss": 2.2218,
      "step": 52040
    },
    {
      "epoch": 0.26025,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022304020100502512,
      "loss": 2.1613,
      "step": 52050
    },
    {
      "epoch": 0.2603,
      "grad_norm": 0.515625,
      "learning_rate": 0.002230251256281407,
      "loss": 2.2111,
      "step": 52060
    },
    {
      "epoch": 0.26035,
      "grad_norm": 0.484375,
      "learning_rate": 0.002230100502512563,
      "loss": 2.2528,
      "step": 52070
    },
    {
      "epoch": 0.2604,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022299497487437187,
      "loss": 2.1414,
      "step": 52080
    },
    {
      "epoch": 0.26045,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022297989949748745,
      "loss": 2.2189,
      "step": 52090
    },
    {
      "epoch": 0.2605,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022296482412060303,
      "loss": 2.1672,
      "step": 52100
    },
    {
      "epoch": 0.26055,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022294974874371857,
      "loss": 2.1997,
      "step": 52110
    },
    {
      "epoch": 0.2606,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002229346733668342,
      "loss": 2.2243,
      "step": 52120
    },
    {
      "epoch": 0.26065,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0022291959798994977,
      "loss": 2.2229,
      "step": 52130
    },
    {
      "epoch": 0.2607,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002229045226130653,
      "loss": 2.228,
      "step": 52140
    },
    {
      "epoch": 0.26075,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022288944723618093,
      "loss": 2.2153,
      "step": 52150
    },
    {
      "epoch": 0.2608,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022287437185929647,
      "loss": 2.2471,
      "step": 52160
    },
    {
      "epoch": 0.26085,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022285929648241205,
      "loss": 2.1326,
      "step": 52170
    },
    {
      "epoch": 0.2609,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022284422110552767,
      "loss": 2.2241,
      "step": 52180
    },
    {
      "epoch": 0.26095,
      "grad_norm": 0.5625,
      "learning_rate": 0.002228291457286432,
      "loss": 2.1846,
      "step": 52190
    },
    {
      "epoch": 0.261,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002228140703517588,
      "loss": 2.2224,
      "step": 52200
    },
    {
      "epoch": 0.26105,
      "grad_norm": 0.609375,
      "learning_rate": 0.0022279899497487437,
      "loss": 2.2043,
      "step": 52210
    },
    {
      "epoch": 0.2611,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022278391959798995,
      "loss": 2.2257,
      "step": 52220
    },
    {
      "epoch": 0.26115,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022276884422110553,
      "loss": 2.2116,
      "step": 52230
    },
    {
      "epoch": 0.2612,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002227537688442211,
      "loss": 2.2201,
      "step": 52240
    },
    {
      "epoch": 0.26125,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002227386934673367,
      "loss": 2.2327,
      "step": 52250
    },
    {
      "epoch": 0.2613,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0022272361809045228,
      "loss": 2.231,
      "step": 52260
    },
    {
      "epoch": 0.26135,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002227085427135678,
      "loss": 2.2012,
      "step": 52270
    },
    {
      "epoch": 0.2614,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022269346733668344,
      "loss": 2.2126,
      "step": 52280
    },
    {
      "epoch": 0.26145,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00222678391959799,
      "loss": 2.1992,
      "step": 52290
    },
    {
      "epoch": 0.2615,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0022266331658291456,
      "loss": 2.2091,
      "step": 52300
    },
    {
      "epoch": 0.26155,
      "grad_norm": 0.53125,
      "learning_rate": 0.002226482412060302,
      "loss": 2.2503,
      "step": 52310
    },
    {
      "epoch": 0.2616,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002226331658291457,
      "loss": 2.2032,
      "step": 52320
    },
    {
      "epoch": 0.26165,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002226180904522613,
      "loss": 2.207,
      "step": 52330
    },
    {
      "epoch": 0.2617,
      "grad_norm": 0.484375,
      "learning_rate": 0.002226030150753769,
      "loss": 2.2368,
      "step": 52340
    },
    {
      "epoch": 0.26175,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0022258793969849246,
      "loss": 2.1297,
      "step": 52350
    },
    {
      "epoch": 0.2618,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022257286432160804,
      "loss": 2.1822,
      "step": 52360
    },
    {
      "epoch": 0.26185,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002225577889447236,
      "loss": 2.1674,
      "step": 52370
    },
    {
      "epoch": 0.2619,
      "grad_norm": 0.578125,
      "learning_rate": 0.002225427135678392,
      "loss": 2.1943,
      "step": 52380
    },
    {
      "epoch": 0.26195,
      "grad_norm": 0.671875,
      "learning_rate": 0.002225276381909548,
      "loss": 2.1702,
      "step": 52390
    },
    {
      "epoch": 0.262,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022251256281407036,
      "loss": 2.1939,
      "step": 52400
    },
    {
      "epoch": 0.26205,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0022249748743718594,
      "loss": 2.1972,
      "step": 52410
    },
    {
      "epoch": 0.2621,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022248241206030152,
      "loss": 2.1523,
      "step": 52420
    },
    {
      "epoch": 0.26215,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022246733668341706,
      "loss": 2.2728,
      "step": 52430
    },
    {
      "epoch": 0.2622,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002224522613065327,
      "loss": 2.2135,
      "step": 52440
    },
    {
      "epoch": 0.26225,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022243718592964827,
      "loss": 2.2354,
      "step": 52450
    },
    {
      "epoch": 0.2623,
      "grad_norm": 0.5,
      "learning_rate": 0.002224221105527638,
      "loss": 2.2436,
      "step": 52460
    },
    {
      "epoch": 0.26235,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022240703517587943,
      "loss": 2.1676,
      "step": 52470
    },
    {
      "epoch": 0.2624,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022239195979899496,
      "loss": 2.2365,
      "step": 52480
    },
    {
      "epoch": 0.26245,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022237688442211054,
      "loss": 2.1849,
      "step": 52490
    },
    {
      "epoch": 0.2625,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022236180904522617,
      "loss": 2.1987,
      "step": 52500
    },
    {
      "epoch": 0.26255,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002223467336683417,
      "loss": 2.1642,
      "step": 52510
    },
    {
      "epoch": 0.2626,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002223316582914573,
      "loss": 2.2498,
      "step": 52520
    },
    {
      "epoch": 0.26265,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0022231658291457287,
      "loss": 2.2227,
      "step": 52530
    },
    {
      "epoch": 0.2627,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022230150753768845,
      "loss": 2.2146,
      "step": 52540
    },
    {
      "epoch": 0.26275,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0022228643216080403,
      "loss": 2.2176,
      "step": 52550
    },
    {
      "epoch": 0.2628,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022227135678391957,
      "loss": 2.1998,
      "step": 52560
    },
    {
      "epoch": 0.26285,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002222562814070352,
      "loss": 2.2515,
      "step": 52570
    },
    {
      "epoch": 0.2629,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022224120603015077,
      "loss": 2.1753,
      "step": 52580
    },
    {
      "epoch": 0.26295,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002222261306532663,
      "loss": 2.1828,
      "step": 52590
    },
    {
      "epoch": 0.263,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022221105527638193,
      "loss": 2.1554,
      "step": 52600
    },
    {
      "epoch": 0.26305,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022219597989949747,
      "loss": 2.1947,
      "step": 52610
    },
    {
      "epoch": 0.2631,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0022218090452261305,
      "loss": 2.2145,
      "step": 52620
    },
    {
      "epoch": 0.26315,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0022216582914572867,
      "loss": 2.1664,
      "step": 52630
    },
    {
      "epoch": 0.2632,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002221507537688442,
      "loss": 2.131,
      "step": 52640
    },
    {
      "epoch": 0.26325,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002221356783919598,
      "loss": 2.1786,
      "step": 52650
    },
    {
      "epoch": 0.2633,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002221206030150754,
      "loss": 2.2137,
      "step": 52660
    },
    {
      "epoch": 0.26335,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0022210552763819095,
      "loss": 2.2286,
      "step": 52670
    },
    {
      "epoch": 0.2634,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0022209045226130653,
      "loss": 2.1844,
      "step": 52680
    },
    {
      "epoch": 0.26345,
      "grad_norm": 0.484375,
      "learning_rate": 0.002220753768844221,
      "loss": 2.2176,
      "step": 52690
    },
    {
      "epoch": 0.2635,
      "grad_norm": 0.6484375,
      "learning_rate": 0.002220603015075377,
      "loss": 2.1693,
      "step": 52700
    },
    {
      "epoch": 0.26355,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022204522613065328,
      "loss": 2.211,
      "step": 52710
    },
    {
      "epoch": 0.2636,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002220301507537688,
      "loss": 2.1693,
      "step": 52720
    },
    {
      "epoch": 0.26365,
      "grad_norm": 0.44140625,
      "learning_rate": 0.0022201507537688444,
      "loss": 2.2278,
      "step": 52730
    },
    {
      "epoch": 0.2637,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00222,
      "loss": 2.1461,
      "step": 52740
    },
    {
      "epoch": 0.26375,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0022198492462311556,
      "loss": 2.198,
      "step": 52750
    },
    {
      "epoch": 0.2638,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002219698492462312,
      "loss": 2.196,
      "step": 52760
    },
    {
      "epoch": 0.26385,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002219547738693467,
      "loss": 2.1054,
      "step": 52770
    },
    {
      "epoch": 0.2639,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002219396984924623,
      "loss": 2.1997,
      "step": 52780
    },
    {
      "epoch": 0.26395,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022192462311557792,
      "loss": 2.2283,
      "step": 52790
    },
    {
      "epoch": 0.264,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0022190954773869346,
      "loss": 2.2136,
      "step": 52800
    },
    {
      "epoch": 0.26405,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022189447236180904,
      "loss": 2.1646,
      "step": 52810
    },
    {
      "epoch": 0.2641,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002218793969849246,
      "loss": 2.1984,
      "step": 52820
    },
    {
      "epoch": 0.26415,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002218643216080402,
      "loss": 2.2035,
      "step": 52830
    },
    {
      "epoch": 0.2642,
      "grad_norm": 0.46484375,
      "learning_rate": 0.002218492462311558,
      "loss": 2.187,
      "step": 52840
    },
    {
      "epoch": 0.26425,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022183417085427136,
      "loss": 2.1711,
      "step": 52850
    },
    {
      "epoch": 0.2643,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0022181909547738694,
      "loss": 2.1994,
      "step": 52860
    },
    {
      "epoch": 0.26435,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022180402010050252,
      "loss": 2.234,
      "step": 52870
    },
    {
      "epoch": 0.2644,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022178894472361806,
      "loss": 2.2249,
      "step": 52880
    },
    {
      "epoch": 0.26445,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002217738693467337,
      "loss": 2.2104,
      "step": 52890
    },
    {
      "epoch": 0.2645,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0022175879396984927,
      "loss": 2.235,
      "step": 52900
    },
    {
      "epoch": 0.26455,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002217437185929648,
      "loss": 2.2297,
      "step": 52910
    },
    {
      "epoch": 0.2646,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022172864321608043,
      "loss": 2.2394,
      "step": 52920
    },
    {
      "epoch": 0.26465,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0022171356783919596,
      "loss": 2.1435,
      "step": 52930
    },
    {
      "epoch": 0.2647,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022169849246231155,
      "loss": 2.1825,
      "step": 52940
    },
    {
      "epoch": 0.26475,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022168341708542717,
      "loss": 2.2237,
      "step": 52950
    },
    {
      "epoch": 0.2648,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002216683417085427,
      "loss": 2.1992,
      "step": 52960
    },
    {
      "epoch": 0.26485,
      "grad_norm": 0.515625,
      "learning_rate": 0.002216532663316583,
      "loss": 2.1779,
      "step": 52970
    },
    {
      "epoch": 0.2649,
      "grad_norm": 0.578125,
      "learning_rate": 0.0022163819095477387,
      "loss": 2.1509,
      "step": 52980
    },
    {
      "epoch": 0.26495,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022162311557788945,
      "loss": 2.2082,
      "step": 52990
    },
    {
      "epoch": 0.265,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022160804020100503,
      "loss": 2.1829,
      "step": 53000
    },
    {
      "epoch": 0.26505,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002215929648241206,
      "loss": 2.1821,
      "step": 53010
    },
    {
      "epoch": 0.2651,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002215778894472362,
      "loss": 2.1953,
      "step": 53020
    },
    {
      "epoch": 0.26515,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022156281407035177,
      "loss": 2.1838,
      "step": 53030
    },
    {
      "epoch": 0.2652,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002215477386934673,
      "loss": 2.188,
      "step": 53040
    },
    {
      "epoch": 0.26525,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022153266331658293,
      "loss": 2.1444,
      "step": 53050
    },
    {
      "epoch": 0.2653,
      "grad_norm": 0.5625,
      "learning_rate": 0.002215175879396985,
      "loss": 2.1845,
      "step": 53060
    },
    {
      "epoch": 0.26535,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0022150251256281405,
      "loss": 2.1743,
      "step": 53070
    },
    {
      "epoch": 0.2654,
      "grad_norm": 0.484375,
      "learning_rate": 0.0022148743718592967,
      "loss": 2.2119,
      "step": 53080
    },
    {
      "epoch": 0.26545,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002214723618090452,
      "loss": 2.1699,
      "step": 53090
    },
    {
      "epoch": 0.2655,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002214572864321608,
      "loss": 2.1882,
      "step": 53100
    },
    {
      "epoch": 0.26555,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002214422110552764,
      "loss": 2.2414,
      "step": 53110
    },
    {
      "epoch": 0.2656,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022142713567839195,
      "loss": 2.1973,
      "step": 53120
    },
    {
      "epoch": 0.26565,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0022141206030150754,
      "loss": 2.2244,
      "step": 53130
    },
    {
      "epoch": 0.2657,
      "grad_norm": 0.484375,
      "learning_rate": 0.002213969849246231,
      "loss": 2.1521,
      "step": 53140
    },
    {
      "epoch": 0.26575,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002213819095477387,
      "loss": 2.2328,
      "step": 53150
    },
    {
      "epoch": 0.2658,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022136683417085428,
      "loss": 2.1779,
      "step": 53160
    },
    {
      "epoch": 0.26585,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022135175879396986,
      "loss": 2.2038,
      "step": 53170
    },
    {
      "epoch": 0.2659,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0022133668341708544,
      "loss": 2.2259,
      "step": 53180
    },
    {
      "epoch": 0.26595,
      "grad_norm": 0.470703125,
      "learning_rate": 0.00221321608040201,
      "loss": 2.1532,
      "step": 53190
    },
    {
      "epoch": 0.266,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0022130653266331656,
      "loss": 2.21,
      "step": 53200
    },
    {
      "epoch": 0.26605,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002212914572864322,
      "loss": 2.1641,
      "step": 53210
    },
    {
      "epoch": 0.2661,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0022127638190954776,
      "loss": 2.2015,
      "step": 53220
    },
    {
      "epoch": 0.26615,
      "grad_norm": 0.53125,
      "learning_rate": 0.002212613065326633,
      "loss": 2.1538,
      "step": 53230
    },
    {
      "epoch": 0.2662,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022124623115577892,
      "loss": 2.2388,
      "step": 53240
    },
    {
      "epoch": 0.26625,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0022123115577889446,
      "loss": 2.2125,
      "step": 53250
    },
    {
      "epoch": 0.2663,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022121608040201004,
      "loss": 2.1913,
      "step": 53260
    },
    {
      "epoch": 0.26635,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0022120100502512566,
      "loss": 2.2313,
      "step": 53270
    },
    {
      "epoch": 0.2664,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002211859296482412,
      "loss": 2.2128,
      "step": 53280
    },
    {
      "epoch": 0.26645,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002211708542713568,
      "loss": 2.2013,
      "step": 53290
    },
    {
      "epoch": 0.2665,
      "grad_norm": 0.484375,
      "learning_rate": 0.0022115577889447236,
      "loss": 2.1755,
      "step": 53300
    },
    {
      "epoch": 0.26655,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0022114070351758794,
      "loss": 2.176,
      "step": 53310
    },
    {
      "epoch": 0.2666,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022112562814070352,
      "loss": 2.2454,
      "step": 53320
    },
    {
      "epoch": 0.26665,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002211105527638191,
      "loss": 2.1375,
      "step": 53330
    },
    {
      "epoch": 0.2667,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002210954773869347,
      "loss": 2.2571,
      "step": 53340
    },
    {
      "epoch": 0.26675,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0022108040201005027,
      "loss": 2.1206,
      "step": 53350
    },
    {
      "epoch": 0.2668,
      "grad_norm": 0.6484375,
      "learning_rate": 0.002210653266331658,
      "loss": 2.1983,
      "step": 53360
    },
    {
      "epoch": 0.26685,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022105025125628143,
      "loss": 2.2429,
      "step": 53370
    },
    {
      "epoch": 0.2669,
      "grad_norm": 0.53125,
      "learning_rate": 0.00221035175879397,
      "loss": 2.2117,
      "step": 53380
    },
    {
      "epoch": 0.26695,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0022102010050251255,
      "loss": 2.2109,
      "step": 53390
    },
    {
      "epoch": 0.267,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022100502512562817,
      "loss": 2.1885,
      "step": 53400
    },
    {
      "epoch": 0.26705,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002209899497487437,
      "loss": 2.2009,
      "step": 53410
    },
    {
      "epoch": 0.2671,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002209748743718593,
      "loss": 2.1653,
      "step": 53420
    },
    {
      "epoch": 0.26715,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002209597989949749,
      "loss": 2.1959,
      "step": 53430
    },
    {
      "epoch": 0.2672,
      "grad_norm": 0.5625,
      "learning_rate": 0.0022094472361809045,
      "loss": 2.2137,
      "step": 53440
    },
    {
      "epoch": 0.26725,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022092964824120603,
      "loss": 2.1694,
      "step": 53450
    },
    {
      "epoch": 0.2673,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002209145728643216,
      "loss": 2.1935,
      "step": 53460
    },
    {
      "epoch": 0.26735,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002208994974874372,
      "loss": 2.1748,
      "step": 53470
    },
    {
      "epoch": 0.2674,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022088442211055277,
      "loss": 2.1749,
      "step": 53480
    },
    {
      "epoch": 0.26745,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002208693467336683,
      "loss": 2.1574,
      "step": 53490
    },
    {
      "epoch": 0.2675,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0022085427135678393,
      "loss": 2.1945,
      "step": 53500
    },
    {
      "epoch": 0.26755,
      "grad_norm": 0.46875,
      "learning_rate": 0.002208391959798995,
      "loss": 2.2209,
      "step": 53510
    },
    {
      "epoch": 0.2676,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022082412060301505,
      "loss": 2.1757,
      "step": 53520
    },
    {
      "epoch": 0.26765,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0022080904522613068,
      "loss": 2.1985,
      "step": 53530
    },
    {
      "epoch": 0.2677,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002207939698492462,
      "loss": 2.2331,
      "step": 53540
    },
    {
      "epoch": 0.26775,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002207788944723618,
      "loss": 2.2226,
      "step": 53550
    },
    {
      "epoch": 0.2678,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002207638190954774,
      "loss": 2.1269,
      "step": 53560
    },
    {
      "epoch": 0.26785,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0022074874371859295,
      "loss": 2.2055,
      "step": 53570
    },
    {
      "epoch": 0.2679,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0022073366834170854,
      "loss": 2.1977,
      "step": 53580
    },
    {
      "epoch": 0.26795,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022071859296482416,
      "loss": 2.1711,
      "step": 53590
    },
    {
      "epoch": 0.268,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002207035175879397,
      "loss": 2.2034,
      "step": 53600
    },
    {
      "epoch": 0.26805,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022068844221105528,
      "loss": 2.1677,
      "step": 53610
    },
    {
      "epoch": 0.2681,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0022067336683417086,
      "loss": 2.2454,
      "step": 53620
    },
    {
      "epoch": 0.26815,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0022065829145728644,
      "loss": 2.2203,
      "step": 53630
    },
    {
      "epoch": 0.2682,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00220643216080402,
      "loss": 2.2091,
      "step": 53640
    },
    {
      "epoch": 0.26825,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0022062814070351756,
      "loss": 2.198,
      "step": 53650
    },
    {
      "epoch": 0.2683,
      "grad_norm": 0.578125,
      "learning_rate": 0.002206130653266332,
      "loss": 2.2047,
      "step": 53660
    },
    {
      "epoch": 0.26835,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0022059798994974876,
      "loss": 2.2201,
      "step": 53670
    },
    {
      "epoch": 0.2684,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002205829145728643,
      "loss": 2.1674,
      "step": 53680
    },
    {
      "epoch": 0.26845,
      "grad_norm": 0.4609375,
      "learning_rate": 0.0022056783919597992,
      "loss": 2.2128,
      "step": 53690
    },
    {
      "epoch": 0.2685,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0022055276381909546,
      "loss": 2.2085,
      "step": 53700
    },
    {
      "epoch": 0.26855,
      "grad_norm": 0.546875,
      "learning_rate": 0.0022053768844221104,
      "loss": 2.1876,
      "step": 53710
    },
    {
      "epoch": 0.2686,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0022052261306532667,
      "loss": 2.2177,
      "step": 53720
    },
    {
      "epoch": 0.26865,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002205075376884422,
      "loss": 2.2553,
      "step": 53730
    },
    {
      "epoch": 0.2687,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002204924623115578,
      "loss": 2.2086,
      "step": 53740
    },
    {
      "epoch": 0.26875,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0022047738693467336,
      "loss": 2.1883,
      "step": 53750
    },
    {
      "epoch": 0.2688,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0022046231155778894,
      "loss": 2.2062,
      "step": 53760
    },
    {
      "epoch": 0.26885,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022044723618090453,
      "loss": 2.2003,
      "step": 53770
    },
    {
      "epoch": 0.2689,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002204321608040201,
      "loss": 2.2148,
      "step": 53780
    },
    {
      "epoch": 0.26895,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002204170854271357,
      "loss": 2.223,
      "step": 53790
    },
    {
      "epoch": 0.269,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022040201005025127,
      "loss": 2.2156,
      "step": 53800
    },
    {
      "epoch": 0.26905,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002203869346733668,
      "loss": 2.2554,
      "step": 53810
    },
    {
      "epoch": 0.2691,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0022037185929648243,
      "loss": 2.1803,
      "step": 53820
    },
    {
      "epoch": 0.26915,
      "grad_norm": 0.44921875,
      "learning_rate": 0.00220356783919598,
      "loss": 2.2153,
      "step": 53830
    },
    {
      "epoch": 0.2692,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0022034170854271355,
      "loss": 2.2348,
      "step": 53840
    },
    {
      "epoch": 0.26925,
      "grad_norm": 0.515625,
      "learning_rate": 0.0022032663316582917,
      "loss": 2.2275,
      "step": 53850
    },
    {
      "epoch": 0.2693,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002203115577889447,
      "loss": 2.2377,
      "step": 53860
    },
    {
      "epoch": 0.26935,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002202964824120603,
      "loss": 2.1719,
      "step": 53870
    },
    {
      "epoch": 0.2694,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002202814070351759,
      "loss": 2.202,
      "step": 53880
    },
    {
      "epoch": 0.26945,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0022026633165829145,
      "loss": 2.1928,
      "step": 53890
    },
    {
      "epoch": 0.2695,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022025125628140703,
      "loss": 2.1634,
      "step": 53900
    },
    {
      "epoch": 0.26955,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002202361809045226,
      "loss": 2.1939,
      "step": 53910
    },
    {
      "epoch": 0.2696,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002202211055276382,
      "loss": 2.1668,
      "step": 53920
    },
    {
      "epoch": 0.26965,
      "grad_norm": 0.53125,
      "learning_rate": 0.0022020603015075377,
      "loss": 2.2583,
      "step": 53930
    },
    {
      "epoch": 0.2697,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0022019095477386935,
      "loss": 2.2059,
      "step": 53940
    },
    {
      "epoch": 0.26975,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0022017587939698493,
      "loss": 2.1984,
      "step": 53950
    },
    {
      "epoch": 0.2698,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002201608040201005,
      "loss": 2.1797,
      "step": 53960
    },
    {
      "epoch": 0.26985,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0022014572864321605,
      "loss": 2.1922,
      "step": 53970
    },
    {
      "epoch": 0.2699,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0022013065326633168,
      "loss": 2.2297,
      "step": 53980
    },
    {
      "epoch": 0.26995,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0022011557788944726,
      "loss": 2.1769,
      "step": 53990
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002201005025125628,
      "loss": 2.1978,
      "step": 54000
    },
    {
      "epoch": 0.27,
      "eval_loss": 2.1719510555267334,
      "eval_runtime": 46.3158,
      "eval_samples_per_second": 53.977,
      "eval_steps_per_second": 0.108,
      "step": 54000
    },
    {
      "epoch": 0.27005,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002200854271356784,
      "loss": 2.2084,
      "step": 54010
    },
    {
      "epoch": 0.2701,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0022007035175879396,
      "loss": 2.2293,
      "step": 54020
    },
    {
      "epoch": 0.27015,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0022005527638190954,
      "loss": 2.2485,
      "step": 54030
    },
    {
      "epoch": 0.2702,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0022004020100502516,
      "loss": 2.1722,
      "step": 54040
    },
    {
      "epoch": 0.27025,
      "grad_norm": 0.47265625,
      "learning_rate": 0.002200251256281407,
      "loss": 2.2168,
      "step": 54050
    },
    {
      "epoch": 0.2703,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002200100502512563,
      "loss": 2.1896,
      "step": 54060
    },
    {
      "epoch": 0.27035,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021999497487437186,
      "loss": 2.2488,
      "step": 54070
    },
    {
      "epoch": 0.2704,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0021997989949748744,
      "loss": 2.2028,
      "step": 54080
    },
    {
      "epoch": 0.27045,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00219964824120603,
      "loss": 2.1763,
      "step": 54090
    },
    {
      "epoch": 0.2705,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002199497487437186,
      "loss": 2.2036,
      "step": 54100
    },
    {
      "epoch": 0.27055,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002199346733668342,
      "loss": 2.1792,
      "step": 54110
    },
    {
      "epoch": 0.2706,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021991959798994976,
      "loss": 2.2495,
      "step": 54120
    },
    {
      "epoch": 0.27065,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002199045226130653,
      "loss": 2.1994,
      "step": 54130
    },
    {
      "epoch": 0.2707,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021988944723618092,
      "loss": 2.2061,
      "step": 54140
    },
    {
      "epoch": 0.27075,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002198743718592965,
      "loss": 2.2133,
      "step": 54150
    },
    {
      "epoch": 0.2708,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021985929648241204,
      "loss": 2.2068,
      "step": 54160
    },
    {
      "epoch": 0.27085,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021984422110552767,
      "loss": 2.1609,
      "step": 54170
    },
    {
      "epoch": 0.2709,
      "grad_norm": 0.62890625,
      "learning_rate": 0.002198291457286432,
      "loss": 2.1821,
      "step": 54180
    },
    {
      "epoch": 0.27095,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002198140703517588,
      "loss": 2.2105,
      "step": 54190
    },
    {
      "epoch": 0.271,
      "grad_norm": 0.5,
      "learning_rate": 0.002197989949748744,
      "loss": 2.2044,
      "step": 54200
    },
    {
      "epoch": 0.27105,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021978391959798995,
      "loss": 2.2336,
      "step": 54210
    },
    {
      "epoch": 0.2711,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0021976884422110553,
      "loss": 2.1807,
      "step": 54220
    },
    {
      "epoch": 0.27115,
      "grad_norm": 0.5625,
      "learning_rate": 0.002197537688442211,
      "loss": 2.1527,
      "step": 54230
    },
    {
      "epoch": 0.2712,
      "grad_norm": 0.515625,
      "learning_rate": 0.002197386934673367,
      "loss": 2.1676,
      "step": 54240
    },
    {
      "epoch": 0.27125,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021972361809045227,
      "loss": 2.1698,
      "step": 54250
    },
    {
      "epoch": 0.2713,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021970854271356785,
      "loss": 2.1801,
      "step": 54260
    },
    {
      "epoch": 0.27135,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021969346733668343,
      "loss": 2.2459,
      "step": 54270
    },
    {
      "epoch": 0.2714,
      "grad_norm": 0.466796875,
      "learning_rate": 0.00219678391959799,
      "loss": 2.1566,
      "step": 54280
    },
    {
      "epoch": 0.27145,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021966331658291455,
      "loss": 2.2079,
      "step": 54290
    },
    {
      "epoch": 0.2715,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021964824120603017,
      "loss": 2.1687,
      "step": 54300
    },
    {
      "epoch": 0.27155,
      "grad_norm": 0.5,
      "learning_rate": 0.0021963316582914575,
      "loss": 2.2202,
      "step": 54310
    },
    {
      "epoch": 0.2716,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002196180904522613,
      "loss": 2.2026,
      "step": 54320
    },
    {
      "epoch": 0.27165,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002196030150753769,
      "loss": 2.1812,
      "step": 54330
    },
    {
      "epoch": 0.2717,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021958793969849245,
      "loss": 2.1747,
      "step": 54340
    },
    {
      "epoch": 0.27175,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021957286432160803,
      "loss": 2.2018,
      "step": 54350
    },
    {
      "epoch": 0.2718,
      "grad_norm": 0.47265625,
      "learning_rate": 0.0021955778894472366,
      "loss": 2.2375,
      "step": 54360
    },
    {
      "epoch": 0.27185,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002195427135678392,
      "loss": 2.1887,
      "step": 54370
    },
    {
      "epoch": 0.2719,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0021952763819095477,
      "loss": 2.1966,
      "step": 54380
    },
    {
      "epoch": 0.27195,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021951256281407035,
      "loss": 2.2252,
      "step": 54390
    },
    {
      "epoch": 0.272,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021949748743718593,
      "loss": 2.1569,
      "step": 54400
    },
    {
      "epoch": 0.27205,
      "grad_norm": 0.458984375,
      "learning_rate": 0.002194824120603015,
      "loss": 2.198,
      "step": 54410
    },
    {
      "epoch": 0.2721,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021946733668341705,
      "loss": 2.1959,
      "step": 54420
    },
    {
      "epoch": 0.27215,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021945226130653268,
      "loss": 2.1898,
      "step": 54430
    },
    {
      "epoch": 0.2722,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021943718592964826,
      "loss": 2.2002,
      "step": 54440
    },
    {
      "epoch": 0.27225,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002194221105527638,
      "loss": 2.1606,
      "step": 54450
    },
    {
      "epoch": 0.2723,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002194070351758794,
      "loss": 2.1642,
      "step": 54460
    },
    {
      "epoch": 0.27235,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021939195979899496,
      "loss": 2.2081,
      "step": 54470
    },
    {
      "epoch": 0.2724,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0021937688442211054,
      "loss": 2.1994,
      "step": 54480
    },
    {
      "epoch": 0.27245,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021936180904522616,
      "loss": 2.242,
      "step": 54490
    },
    {
      "epoch": 0.2725,
      "grad_norm": 0.5625,
      "learning_rate": 0.002193467336683417,
      "loss": 2.2061,
      "step": 54500
    },
    {
      "epoch": 0.27255,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002193316582914573,
      "loss": 2.2504,
      "step": 54510
    },
    {
      "epoch": 0.2726,
      "grad_norm": 0.5,
      "learning_rate": 0.002193165829145729,
      "loss": 2.1845,
      "step": 54520
    },
    {
      "epoch": 0.27265,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0021930150753768844,
      "loss": 2.17,
      "step": 54530
    },
    {
      "epoch": 0.2727,
      "grad_norm": 0.49609375,
      "learning_rate": 0.00219286432160804,
      "loss": 2.1667,
      "step": 54540
    },
    {
      "epoch": 0.27275,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002192713567839196,
      "loss": 2.1991,
      "step": 54550
    },
    {
      "epoch": 0.2728,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002192562814070352,
      "loss": 2.1758,
      "step": 54560
    },
    {
      "epoch": 0.27285,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0021924120603015076,
      "loss": 2.1835,
      "step": 54570
    },
    {
      "epoch": 0.2729,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002192261306532663,
      "loss": 2.2121,
      "step": 54580
    },
    {
      "epoch": 0.27295,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0021921105527638192,
      "loss": 2.2069,
      "step": 54590
    },
    {
      "epoch": 0.273,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002191959798994975,
      "loss": 2.2302,
      "step": 54600
    },
    {
      "epoch": 0.27305,
      "grad_norm": 0.48046875,
      "learning_rate": 0.0021918090452261304,
      "loss": 2.2405,
      "step": 54610
    },
    {
      "epoch": 0.2731,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021916582914572867,
      "loss": 2.2289,
      "step": 54620
    },
    {
      "epoch": 0.27315,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002191507537688442,
      "loss": 2.2005,
      "step": 54630
    },
    {
      "epoch": 0.2732,
      "grad_norm": 0.515625,
      "learning_rate": 0.002191356783919598,
      "loss": 2.161,
      "step": 54640
    },
    {
      "epoch": 0.27325,
      "grad_norm": 0.609375,
      "learning_rate": 0.002191206030150754,
      "loss": 2.2117,
      "step": 54650
    },
    {
      "epoch": 0.2733,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021910552763819095,
      "loss": 2.2163,
      "step": 54660
    },
    {
      "epoch": 0.27335,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021909045226130653,
      "loss": 2.2544,
      "step": 54670
    },
    {
      "epoch": 0.2734,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002190753768844221,
      "loss": 2.202,
      "step": 54680
    },
    {
      "epoch": 0.27345,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002190603015075377,
      "loss": 2.2023,
      "step": 54690
    },
    {
      "epoch": 0.2735,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021904522613065327,
      "loss": 2.2121,
      "step": 54700
    },
    {
      "epoch": 0.27355,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021903015075376885,
      "loss": 2.2047,
      "step": 54710
    },
    {
      "epoch": 0.2736,
      "grad_norm": 0.5625,
      "learning_rate": 0.0021901507537688443,
      "loss": 2.1944,
      "step": 54720
    },
    {
      "epoch": 0.27365,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00219,
      "loss": 2.2,
      "step": 54730
    },
    {
      "epoch": 0.2737,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021898492462311555,
      "loss": 2.1551,
      "step": 54740
    },
    {
      "epoch": 0.27375,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021896984924623117,
      "loss": 2.2323,
      "step": 54750
    },
    {
      "epoch": 0.2738,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021895477386934675,
      "loss": 2.1675,
      "step": 54760
    },
    {
      "epoch": 0.27385,
      "grad_norm": 0.515625,
      "learning_rate": 0.002189396984924623,
      "loss": 2.2097,
      "step": 54770
    },
    {
      "epoch": 0.2739,
      "grad_norm": 0.53125,
      "learning_rate": 0.002189246231155779,
      "loss": 2.1739,
      "step": 54780
    },
    {
      "epoch": 0.27395,
      "grad_norm": 0.466796875,
      "learning_rate": 0.0021890954773869345,
      "loss": 2.1365,
      "step": 54790
    },
    {
      "epoch": 0.274,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021889447236180903,
      "loss": 2.2036,
      "step": 54800
    },
    {
      "epoch": 0.27405,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021887939698492466,
      "loss": 2.1822,
      "step": 54810
    },
    {
      "epoch": 0.2741,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002188643216080402,
      "loss": 2.192,
      "step": 54820
    },
    {
      "epoch": 0.27415,
      "grad_norm": 0.486328125,
      "learning_rate": 0.0021884924623115577,
      "loss": 2.2273,
      "step": 54830
    },
    {
      "epoch": 0.2742,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021883417085427135,
      "loss": 2.1494,
      "step": 54840
    },
    {
      "epoch": 0.27425,
      "grad_norm": 0.5625,
      "learning_rate": 0.0021881909547738694,
      "loss": 2.2409,
      "step": 54850
    },
    {
      "epoch": 0.2743,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002188040201005025,
      "loss": 2.1011,
      "step": 54860
    },
    {
      "epoch": 0.27435,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002187889447236181,
      "loss": 2.2402,
      "step": 54870
    },
    {
      "epoch": 0.2744,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0021877386934673368,
      "loss": 2.1877,
      "step": 54880
    },
    {
      "epoch": 0.27445,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021875879396984926,
      "loss": 2.2123,
      "step": 54890
    },
    {
      "epoch": 0.2745,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002187437185929648,
      "loss": 2.1887,
      "step": 54900
    },
    {
      "epoch": 0.27455,
      "grad_norm": 0.515625,
      "learning_rate": 0.002187286432160804,
      "loss": 2.1628,
      "step": 54910
    },
    {
      "epoch": 0.2746,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00218713567839196,
      "loss": 2.196,
      "step": 54920
    },
    {
      "epoch": 0.27465,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021869849246231154,
      "loss": 2.1874,
      "step": 54930
    },
    {
      "epoch": 0.2747,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021868341708542716,
      "loss": 2.174,
      "step": 54940
    },
    {
      "epoch": 0.27475,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002186683417085427,
      "loss": 2.1922,
      "step": 54950
    },
    {
      "epoch": 0.2748,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002186532663316583,
      "loss": 2.1816,
      "step": 54960
    },
    {
      "epoch": 0.27485,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002186381909547739,
      "loss": 2.1927,
      "step": 54970
    },
    {
      "epoch": 0.2749,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0021862311557788944,
      "loss": 2.1624,
      "step": 54980
    },
    {
      "epoch": 0.27495,
      "grad_norm": 0.484375,
      "learning_rate": 0.00218608040201005,
      "loss": 2.1889,
      "step": 54990
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.62109375,
      "learning_rate": 0.002185929648241206,
      "loss": 2.1906,
      "step": 55000
    },
    {
      "epoch": 0.27505,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002185778894472362,
      "loss": 2.2198,
      "step": 55010
    },
    {
      "epoch": 0.2751,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021856281407035176,
      "loss": 2.2002,
      "step": 55020
    },
    {
      "epoch": 0.27515,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021854773869346734,
      "loss": 2.1754,
      "step": 55030
    },
    {
      "epoch": 0.2752,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021853266331658293,
      "loss": 2.2054,
      "step": 55040
    },
    {
      "epoch": 0.27525,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002185175879396985,
      "loss": 2.1459,
      "step": 55050
    },
    {
      "epoch": 0.2753,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021850251256281404,
      "loss": 2.1881,
      "step": 55060
    },
    {
      "epoch": 0.27535,
      "grad_norm": 0.578125,
      "learning_rate": 0.0021848743718592967,
      "loss": 2.1776,
      "step": 55070
    },
    {
      "epoch": 0.2754,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021847236180904525,
      "loss": 2.1542,
      "step": 55080
    },
    {
      "epoch": 0.27545,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002184572864321608,
      "loss": 2.2044,
      "step": 55090
    },
    {
      "epoch": 0.2755,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002184422110552764,
      "loss": 2.1635,
      "step": 55100
    },
    {
      "epoch": 0.27555,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021842713567839195,
      "loss": 2.2036,
      "step": 55110
    },
    {
      "epoch": 0.2756,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021841206030150753,
      "loss": 2.2123,
      "step": 55120
    },
    {
      "epoch": 0.27565,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021839698492462315,
      "loss": 2.1844,
      "step": 55130
    },
    {
      "epoch": 0.2757,
      "grad_norm": 0.484375,
      "learning_rate": 0.002183819095477387,
      "loss": 2.1921,
      "step": 55140
    },
    {
      "epoch": 0.27575,
      "grad_norm": 0.5625,
      "learning_rate": 0.0021836683417085427,
      "loss": 2.1536,
      "step": 55150
    },
    {
      "epoch": 0.2758,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0021835175879396985,
      "loss": 2.239,
      "step": 55160
    },
    {
      "epoch": 0.27585,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021833668341708543,
      "loss": 2.2246,
      "step": 55170
    },
    {
      "epoch": 0.2759,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00218321608040201,
      "loss": 2.2078,
      "step": 55180
    },
    {
      "epoch": 0.27595,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002183065326633166,
      "loss": 2.1886,
      "step": 55190
    },
    {
      "epoch": 0.276,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021829145728643217,
      "loss": 2.1684,
      "step": 55200
    },
    {
      "epoch": 0.27605,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021827638190954775,
      "loss": 2.2018,
      "step": 55210
    },
    {
      "epoch": 0.2761,
      "grad_norm": 0.515625,
      "learning_rate": 0.002182613065326633,
      "loss": 2.2041,
      "step": 55220
    },
    {
      "epoch": 0.27615,
      "grad_norm": 0.59375,
      "learning_rate": 0.002182462311557789,
      "loss": 2.1149,
      "step": 55230
    },
    {
      "epoch": 0.2762,
      "grad_norm": 0.546875,
      "learning_rate": 0.002182311557788945,
      "loss": 2.1803,
      "step": 55240
    },
    {
      "epoch": 0.27625,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0021821608040201003,
      "loss": 2.1533,
      "step": 55250
    },
    {
      "epoch": 0.2763,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021820100502512566,
      "loss": 2.2,
      "step": 55260
    },
    {
      "epoch": 0.27635,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002181859296482412,
      "loss": 2.2246,
      "step": 55270
    },
    {
      "epoch": 0.2764,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021817085427135677,
      "loss": 2.1788,
      "step": 55280
    },
    {
      "epoch": 0.27645,
      "grad_norm": 0.45703125,
      "learning_rate": 0.002181557788944724,
      "loss": 2.1595,
      "step": 55290
    },
    {
      "epoch": 0.2765,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0021814070351758794,
      "loss": 2.1729,
      "step": 55300
    },
    {
      "epoch": 0.27655,
      "grad_norm": 0.49609375,
      "learning_rate": 0.002181256281407035,
      "loss": 2.2388,
      "step": 55310
    },
    {
      "epoch": 0.2766,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002181105527638191,
      "loss": 2.1866,
      "step": 55320
    },
    {
      "epoch": 0.27665,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0021809547738693468,
      "loss": 2.1805,
      "step": 55330
    },
    {
      "epoch": 0.2767,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0021808040201005026,
      "loss": 2.2458,
      "step": 55340
    },
    {
      "epoch": 0.27675,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021806532663316584,
      "loss": 2.1859,
      "step": 55350
    },
    {
      "epoch": 0.2768,
      "grad_norm": 0.53125,
      "learning_rate": 0.002180502512562814,
      "loss": 2.1844,
      "step": 55360
    },
    {
      "epoch": 0.27685,
      "grad_norm": 0.53125,
      "learning_rate": 0.00218035175879397,
      "loss": 2.2105,
      "step": 55370
    },
    {
      "epoch": 0.2769,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0021802010050251254,
      "loss": 2.1662,
      "step": 55380
    },
    {
      "epoch": 0.27695,
      "grad_norm": 0.5,
      "learning_rate": 0.0021800502512562816,
      "loss": 2.1853,
      "step": 55390
    },
    {
      "epoch": 0.277,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002179899497487437,
      "loss": 2.1457,
      "step": 55400
    },
    {
      "epoch": 0.27705,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002179748743718593,
      "loss": 2.2415,
      "step": 55410
    },
    {
      "epoch": 0.2771,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002179597989949749,
      "loss": 2.2477,
      "step": 55420
    },
    {
      "epoch": 0.27715,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021794472361809044,
      "loss": 2.2329,
      "step": 55430
    },
    {
      "epoch": 0.2772,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021792964824120602,
      "loss": 2.2042,
      "step": 55440
    },
    {
      "epoch": 0.27725,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021791457286432165,
      "loss": 2.1726,
      "step": 55450
    },
    {
      "epoch": 0.2773,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002178994974874372,
      "loss": 2.2333,
      "step": 55460
    },
    {
      "epoch": 0.27735,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021788442211055276,
      "loss": 2.2167,
      "step": 55470
    },
    {
      "epoch": 0.2774,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021786934673366835,
      "loss": 2.1853,
      "step": 55480
    },
    {
      "epoch": 0.27745,
      "grad_norm": 0.451171875,
      "learning_rate": 0.0021785427135678393,
      "loss": 2.1559,
      "step": 55490
    },
    {
      "epoch": 0.2775,
      "grad_norm": 0.546875,
      "learning_rate": 0.002178391959798995,
      "loss": 2.1539,
      "step": 55500
    },
    {
      "epoch": 0.27755,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0021782412060301504,
      "loss": 2.2435,
      "step": 55510
    },
    {
      "epoch": 0.2776,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0021780904522613067,
      "loss": 2.1809,
      "step": 55520
    },
    {
      "epoch": 0.27765,
      "grad_norm": 0.455078125,
      "learning_rate": 0.0021779396984924625,
      "loss": 2.2041,
      "step": 55530
    },
    {
      "epoch": 0.2777,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002177788944723618,
      "loss": 2.2291,
      "step": 55540
    },
    {
      "epoch": 0.27775,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002177638190954774,
      "loss": 2.1623,
      "step": 55550
    },
    {
      "epoch": 0.2778,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021774874371859295,
      "loss": 2.2333,
      "step": 55560
    },
    {
      "epoch": 0.27785,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021773366834170853,
      "loss": 2.2137,
      "step": 55570
    },
    {
      "epoch": 0.2779,
      "grad_norm": 0.5,
      "learning_rate": 0.0021771859296482415,
      "loss": 2.1851,
      "step": 55580
    },
    {
      "epoch": 0.27795,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002177035175879397,
      "loss": 2.203,
      "step": 55590
    },
    {
      "epoch": 0.278,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021768844221105527,
      "loss": 2.1649,
      "step": 55600
    },
    {
      "epoch": 0.27805,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021767336683417085,
      "loss": 2.22,
      "step": 55610
    },
    {
      "epoch": 0.2781,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0021765829145728643,
      "loss": 2.1417,
      "step": 55620
    },
    {
      "epoch": 0.27815,
      "grad_norm": 0.578125,
      "learning_rate": 0.00217643216080402,
      "loss": 2.1785,
      "step": 55630
    },
    {
      "epoch": 0.2782,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002176281407035176,
      "loss": 2.2004,
      "step": 55640
    },
    {
      "epoch": 0.27825,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021761306532663317,
      "loss": 2.174,
      "step": 55650
    },
    {
      "epoch": 0.2783,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021759798994974875,
      "loss": 2.2031,
      "step": 55660
    },
    {
      "epoch": 0.27835,
      "grad_norm": 0.515625,
      "learning_rate": 0.002175829145728643,
      "loss": 2.1986,
      "step": 55670
    },
    {
      "epoch": 0.2784,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002175678391959799,
      "loss": 2.1349,
      "step": 55680
    },
    {
      "epoch": 0.27845,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002175527638190955,
      "loss": 2.2111,
      "step": 55690
    },
    {
      "epoch": 0.2785,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021753768844221103,
      "loss": 2.1669,
      "step": 55700
    },
    {
      "epoch": 0.27855,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021752261306532666,
      "loss": 2.2001,
      "step": 55710
    },
    {
      "epoch": 0.2786,
      "grad_norm": 0.5625,
      "learning_rate": 0.002175075376884422,
      "loss": 2.1537,
      "step": 55720
    },
    {
      "epoch": 0.27865,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021749246231155778,
      "loss": 2.2015,
      "step": 55730
    },
    {
      "epoch": 0.2787,
      "grad_norm": 0.546875,
      "learning_rate": 0.002174773869346734,
      "loss": 2.2186,
      "step": 55740
    },
    {
      "epoch": 0.27875,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021746231155778894,
      "loss": 2.1727,
      "step": 55750
    },
    {
      "epoch": 0.2788,
      "grad_norm": 0.59765625,
      "learning_rate": 0.002174472361809045,
      "loss": 2.2326,
      "step": 55760
    },
    {
      "epoch": 0.27885,
      "grad_norm": 0.515625,
      "learning_rate": 0.002174321608040201,
      "loss": 2.1774,
      "step": 55770
    },
    {
      "epoch": 0.2789,
      "grad_norm": 0.515625,
      "learning_rate": 0.002174170854271357,
      "loss": 2.1874,
      "step": 55780
    },
    {
      "epoch": 0.27895,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021740201005025126,
      "loss": 2.1652,
      "step": 55790
    },
    {
      "epoch": 0.279,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021738693467336684,
      "loss": 2.1924,
      "step": 55800
    },
    {
      "epoch": 0.27905,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002173718592964824,
      "loss": 2.2385,
      "step": 55810
    },
    {
      "epoch": 0.2791,
      "grad_norm": 0.474609375,
      "learning_rate": 0.00217356783919598,
      "loss": 2.1371,
      "step": 55820
    },
    {
      "epoch": 0.27915,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021734170854271354,
      "loss": 2.2071,
      "step": 55830
    },
    {
      "epoch": 0.2792,
      "grad_norm": 0.5625,
      "learning_rate": 0.0021732663316582916,
      "loss": 2.1841,
      "step": 55840
    },
    {
      "epoch": 0.27925,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021731155778894474,
      "loss": 2.1977,
      "step": 55850
    },
    {
      "epoch": 0.2793,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002172964824120603,
      "loss": 2.203,
      "step": 55860
    },
    {
      "epoch": 0.27935,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002172814070351759,
      "loss": 2.1971,
      "step": 55870
    },
    {
      "epoch": 0.2794,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021726633165829144,
      "loss": 2.1687,
      "step": 55880
    },
    {
      "epoch": 0.27945,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0021725125628140702,
      "loss": 2.2349,
      "step": 55890
    },
    {
      "epoch": 0.2795,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021723618090452265,
      "loss": 2.1661,
      "step": 55900
    },
    {
      "epoch": 0.27955,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002172211055276382,
      "loss": 2.2326,
      "step": 55910
    },
    {
      "epoch": 0.2796,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021720603015075376,
      "loss": 2.1623,
      "step": 55920
    },
    {
      "epoch": 0.27965,
      "grad_norm": 0.59375,
      "learning_rate": 0.0021719095477386935,
      "loss": 2.2188,
      "step": 55930
    },
    {
      "epoch": 0.2797,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021717587939698493,
      "loss": 2.2162,
      "step": 55940
    },
    {
      "epoch": 0.27975,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002171608040201005,
      "loss": 2.132,
      "step": 55950
    },
    {
      "epoch": 0.2798,
      "grad_norm": 0.462890625,
      "learning_rate": 0.002171457286432161,
      "loss": 2.1783,
      "step": 55960
    },
    {
      "epoch": 0.27985,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021713065326633167,
      "loss": 2.1935,
      "step": 55970
    },
    {
      "epoch": 0.2799,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021711557788944725,
      "loss": 2.1779,
      "step": 55980
    },
    {
      "epoch": 0.27995,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002171005025125628,
      "loss": 2.2019,
      "step": 55990
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002170854271356784,
      "loss": 2.1897,
      "step": 56000
    },
    {
      "epoch": 0.28,
      "eval_loss": 2.1573381423950195,
      "eval_runtime": 51.2953,
      "eval_samples_per_second": 48.737,
      "eval_steps_per_second": 0.097,
      "step": 56000
    },
    {
      "epoch": 0.28005,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00217070351758794,
      "loss": 2.223,
      "step": 56010
    },
    {
      "epoch": 0.2801,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021705527638190953,
      "loss": 2.1495,
      "step": 56020
    },
    {
      "epoch": 0.28015,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021704020100502515,
      "loss": 2.1703,
      "step": 56030
    },
    {
      "epoch": 0.2802,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002170251256281407,
      "loss": 2.186,
      "step": 56040
    },
    {
      "epoch": 0.28025,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021701005025125627,
      "loss": 2.195,
      "step": 56050
    },
    {
      "epoch": 0.2803,
      "grad_norm": 0.453125,
      "learning_rate": 0.002169949748743719,
      "loss": 2.1918,
      "step": 56060
    },
    {
      "epoch": 0.28035,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0021697989949748743,
      "loss": 2.1651,
      "step": 56070
    },
    {
      "epoch": 0.2804,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00216964824120603,
      "loss": 2.1737,
      "step": 56080
    },
    {
      "epoch": 0.28045,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002169497487437186,
      "loss": 2.2198,
      "step": 56090
    },
    {
      "epoch": 0.2805,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0021693467336683417,
      "loss": 2.1814,
      "step": 56100
    },
    {
      "epoch": 0.28055,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021691959798994975,
      "loss": 2.2517,
      "step": 56110
    },
    {
      "epoch": 0.2806,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021690452261306534,
      "loss": 2.1468,
      "step": 56120
    },
    {
      "epoch": 0.28065,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002168894472361809,
      "loss": 2.2031,
      "step": 56130
    },
    {
      "epoch": 0.2807,
      "grad_norm": 0.546875,
      "learning_rate": 0.002168743718592965,
      "loss": 2.1718,
      "step": 56140
    },
    {
      "epoch": 0.28075,
      "grad_norm": 0.59375,
      "learning_rate": 0.0021685929648241203,
      "loss": 2.1974,
      "step": 56150
    },
    {
      "epoch": 0.2808,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021684422110552766,
      "loss": 2.2221,
      "step": 56160
    },
    {
      "epoch": 0.28085,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021682914572864324,
      "loss": 2.1433,
      "step": 56170
    },
    {
      "epoch": 0.2809,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0021681407035175878,
      "loss": 2.1884,
      "step": 56180
    },
    {
      "epoch": 0.28095,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002167989949748744,
      "loss": 2.198,
      "step": 56190
    },
    {
      "epoch": 0.281,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021678391959798994,
      "loss": 2.1912,
      "step": 56200
    },
    {
      "epoch": 0.28105,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002167688442211055,
      "loss": 2.2041,
      "step": 56210
    },
    {
      "epoch": 0.2811,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021675376884422114,
      "loss": 2.1376,
      "step": 56220
    },
    {
      "epoch": 0.28115,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002167386934673367,
      "loss": 2.1876,
      "step": 56230
    },
    {
      "epoch": 0.2812,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0021672361809045226,
      "loss": 2.187,
      "step": 56240
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.609375,
      "learning_rate": 0.0021670854271356784,
      "loss": 2.2118,
      "step": 56250
    },
    {
      "epoch": 0.2813,
      "grad_norm": 0.546875,
      "learning_rate": 0.002166934673366834,
      "loss": 2.1776,
      "step": 56260
    },
    {
      "epoch": 0.28135,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00216678391959799,
      "loss": 2.1324,
      "step": 56270
    },
    {
      "epoch": 0.2814,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002166633165829146,
      "loss": 2.1544,
      "step": 56280
    },
    {
      "epoch": 0.28145,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021664824120603016,
      "loss": 2.1963,
      "step": 56290
    },
    {
      "epoch": 0.2815,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021663316582914574,
      "loss": 2.1667,
      "step": 56300
    },
    {
      "epoch": 0.28155,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002166180904522613,
      "loss": 2.1852,
      "step": 56310
    },
    {
      "epoch": 0.2816,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002166030150753769,
      "loss": 2.172,
      "step": 56320
    },
    {
      "epoch": 0.28165,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021658793969849244,
      "loss": 2.1635,
      "step": 56330
    },
    {
      "epoch": 0.2817,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021657286432160802,
      "loss": 2.2075,
      "step": 56340
    },
    {
      "epoch": 0.28175,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021655778894472365,
      "loss": 2.1899,
      "step": 56350
    },
    {
      "epoch": 0.2818,
      "grad_norm": 0.466796875,
      "learning_rate": 0.002165427135678392,
      "loss": 2.2175,
      "step": 56360
    },
    {
      "epoch": 0.28185,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0021652763819095477,
      "loss": 2.1747,
      "step": 56370
    },
    {
      "epoch": 0.2819,
      "grad_norm": 0.486328125,
      "learning_rate": 0.002165125628140704,
      "loss": 2.1466,
      "step": 56380
    },
    {
      "epoch": 0.28195,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021649748743718593,
      "loss": 2.209,
      "step": 56390
    },
    {
      "epoch": 0.282,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002164824120603015,
      "loss": 2.1925,
      "step": 56400
    },
    {
      "epoch": 0.28205,
      "grad_norm": 0.4765625,
      "learning_rate": 0.002164673366834171,
      "loss": 2.18,
      "step": 56410
    },
    {
      "epoch": 0.2821,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0021645226130653267,
      "loss": 2.2368,
      "step": 56420
    },
    {
      "epoch": 0.28215,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021643718592964825,
      "loss": 2.1611,
      "step": 56430
    },
    {
      "epoch": 0.2822,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021642211055276383,
      "loss": 2.2236,
      "step": 56440
    },
    {
      "epoch": 0.28225,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002164070351758794,
      "loss": 2.1761,
      "step": 56450
    },
    {
      "epoch": 0.2823,
      "grad_norm": 0.515625,
      "learning_rate": 0.00216391959798995,
      "loss": 2.1922,
      "step": 56460
    },
    {
      "epoch": 0.28235,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021637688442211053,
      "loss": 2.2241,
      "step": 56470
    },
    {
      "epoch": 0.2824,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0021636180904522615,
      "loss": 2.1421,
      "step": 56480
    },
    {
      "epoch": 0.28245,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002163467336683417,
      "loss": 2.224,
      "step": 56490
    },
    {
      "epoch": 0.2825,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021633165829145727,
      "loss": 2.1642,
      "step": 56500
    },
    {
      "epoch": 0.28255,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002163165829145729,
      "loss": 2.1844,
      "step": 56510
    },
    {
      "epoch": 0.2826,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021630150753768843,
      "loss": 2.241,
      "step": 56520
    },
    {
      "epoch": 0.28265,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00216286432160804,
      "loss": 2.1656,
      "step": 56530
    },
    {
      "epoch": 0.2827,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002162713567839196,
      "loss": 2.2175,
      "step": 56540
    },
    {
      "epoch": 0.28275,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021625628140703517,
      "loss": 2.2128,
      "step": 56550
    },
    {
      "epoch": 0.2828,
      "grad_norm": 0.5625,
      "learning_rate": 0.0021624120603015076,
      "loss": 2.2133,
      "step": 56560
    },
    {
      "epoch": 0.28285,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021622613065326634,
      "loss": 2.2222,
      "step": 56570
    },
    {
      "epoch": 0.2829,
      "grad_norm": 0.59375,
      "learning_rate": 0.002162110552763819,
      "loss": 2.1808,
      "step": 56580
    },
    {
      "epoch": 0.28295,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002161959798994975,
      "loss": 2.2458,
      "step": 56590
    },
    {
      "epoch": 0.283,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021618090452261303,
      "loss": 2.1938,
      "step": 56600
    },
    {
      "epoch": 0.28305,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021616582914572866,
      "loss": 2.1373,
      "step": 56610
    },
    {
      "epoch": 0.2831,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021615075376884424,
      "loss": 2.2209,
      "step": 56620
    },
    {
      "epoch": 0.28315,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021613567839195978,
      "loss": 2.1648,
      "step": 56630
    },
    {
      "epoch": 0.2832,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002161206030150754,
      "loss": 2.2195,
      "step": 56640
    },
    {
      "epoch": 0.28325,
      "grad_norm": 0.4765625,
      "learning_rate": 0.0021610552763819094,
      "loss": 2.1707,
      "step": 56650
    },
    {
      "epoch": 0.2833,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002160904522613065,
      "loss": 2.1634,
      "step": 56660
    },
    {
      "epoch": 0.28335,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021607537688442214,
      "loss": 2.1913,
      "step": 56670
    },
    {
      "epoch": 0.2834,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002160603015075377,
      "loss": 2.1765,
      "step": 56680
    },
    {
      "epoch": 0.28345,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0021604522613065326,
      "loss": 2.1523,
      "step": 56690
    },
    {
      "epoch": 0.2835,
      "grad_norm": 0.59375,
      "learning_rate": 0.0021603015075376884,
      "loss": 2.2308,
      "step": 56700
    },
    {
      "epoch": 0.28355,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021601507537688442,
      "loss": 2.17,
      "step": 56710
    },
    {
      "epoch": 0.2836,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00216,
      "loss": 2.1774,
      "step": 56720
    },
    {
      "epoch": 0.28365,
      "grad_norm": 0.53125,
      "learning_rate": 0.002159849246231156,
      "loss": 2.1709,
      "step": 56730
    },
    {
      "epoch": 0.2837,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021596984924623116,
      "loss": 2.2253,
      "step": 56740
    },
    {
      "epoch": 0.28375,
      "grad_norm": 0.5,
      "learning_rate": 0.0021595477386934674,
      "loss": 2.1928,
      "step": 56750
    },
    {
      "epoch": 0.2838,
      "grad_norm": 0.546875,
      "learning_rate": 0.002159396984924623,
      "loss": 2.1913,
      "step": 56760
    },
    {
      "epoch": 0.28385,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002159246231155779,
      "loss": 2.2048,
      "step": 56770
    },
    {
      "epoch": 0.2839,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002159095477386935,
      "loss": 2.2084,
      "step": 56780
    },
    {
      "epoch": 0.28395,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021589447236180902,
      "loss": 2.1659,
      "step": 56790
    },
    {
      "epoch": 0.284,
      "grad_norm": 0.5625,
      "learning_rate": 0.0021587939698492465,
      "loss": 2.1874,
      "step": 56800
    },
    {
      "epoch": 0.28405,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002158643216080402,
      "loss": 2.1525,
      "step": 56810
    },
    {
      "epoch": 0.2841,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0021584924623115577,
      "loss": 2.1634,
      "step": 56820
    },
    {
      "epoch": 0.28415,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002158341708542714,
      "loss": 2.2095,
      "step": 56830
    },
    {
      "epoch": 0.2842,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021581909547738693,
      "loss": 2.1974,
      "step": 56840
    },
    {
      "epoch": 0.28425,
      "grad_norm": 0.5,
      "learning_rate": 0.002158040201005025,
      "loss": 2.205,
      "step": 56850
    },
    {
      "epoch": 0.2843,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002157889447236181,
      "loss": 2.1843,
      "step": 56860
    },
    {
      "epoch": 0.28435,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021577386934673367,
      "loss": 2.1591,
      "step": 56870
    },
    {
      "epoch": 0.2844,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0021575879396984925,
      "loss": 2.1609,
      "step": 56880
    },
    {
      "epoch": 0.28445,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021574371859296483,
      "loss": 2.1751,
      "step": 56890
    },
    {
      "epoch": 0.2845,
      "grad_norm": 0.484375,
      "learning_rate": 0.002157286432160804,
      "loss": 2.2195,
      "step": 56900
    },
    {
      "epoch": 0.28455,
      "grad_norm": 0.625,
      "learning_rate": 0.00215713567839196,
      "loss": 2.177,
      "step": 56910
    },
    {
      "epoch": 0.2846,
      "grad_norm": 0.578125,
      "learning_rate": 0.0021569849246231153,
      "loss": 2.241,
      "step": 56920
    },
    {
      "epoch": 0.28465,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021568341708542715,
      "loss": 2.2056,
      "step": 56930
    },
    {
      "epoch": 0.2847,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0021566834170854273,
      "loss": 2.1491,
      "step": 56940
    },
    {
      "epoch": 0.28475,
      "grad_norm": 0.640625,
      "learning_rate": 0.0021565326633165827,
      "loss": 2.1498,
      "step": 56950
    },
    {
      "epoch": 0.2848,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002156381909547739,
      "loss": 2.1593,
      "step": 56960
    },
    {
      "epoch": 0.28485,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021562311557788943,
      "loss": 2.187,
      "step": 56970
    },
    {
      "epoch": 0.2849,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00215608040201005,
      "loss": 2.1642,
      "step": 56980
    },
    {
      "epoch": 0.28495,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0021559296482412064,
      "loss": 2.1618,
      "step": 56990
    },
    {
      "epoch": 0.285,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0021557788944723618,
      "loss": 2.2072,
      "step": 57000
    },
    {
      "epoch": 0.28505,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0021556281407035176,
      "loss": 2.2083,
      "step": 57010
    },
    {
      "epoch": 0.2851,
      "grad_norm": 0.578125,
      "learning_rate": 0.0021554773869346734,
      "loss": 2.1663,
      "step": 57020
    },
    {
      "epoch": 0.28515,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002155326633165829,
      "loss": 2.2032,
      "step": 57030
    },
    {
      "epoch": 0.2852,
      "grad_norm": 0.53125,
      "learning_rate": 0.002155175879396985,
      "loss": 2.212,
      "step": 57040
    },
    {
      "epoch": 0.28525,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002155025125628141,
      "loss": 2.1574,
      "step": 57050
    },
    {
      "epoch": 0.2853,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021548743718592966,
      "loss": 2.1826,
      "step": 57060
    },
    {
      "epoch": 0.28535,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0021547236180904524,
      "loss": 2.1623,
      "step": 57070
    },
    {
      "epoch": 0.2854,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021545728643216078,
      "loss": 2.1665,
      "step": 57080
    },
    {
      "epoch": 0.28545,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002154422110552764,
      "loss": 2.1675,
      "step": 57090
    },
    {
      "epoch": 0.2855,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00215427135678392,
      "loss": 2.1454,
      "step": 57100
    },
    {
      "epoch": 0.28555,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002154120603015075,
      "loss": 2.2604,
      "step": 57110
    },
    {
      "epoch": 0.2856,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021539698492462314,
      "loss": 2.1628,
      "step": 57120
    },
    {
      "epoch": 0.28565,
      "grad_norm": 0.64453125,
      "learning_rate": 0.002153819095477387,
      "loss": 2.2169,
      "step": 57130
    },
    {
      "epoch": 0.2857,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021536683417085426,
      "loss": 2.2193,
      "step": 57140
    },
    {
      "epoch": 0.28575,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002153517587939699,
      "loss": 2.2297,
      "step": 57150
    },
    {
      "epoch": 0.2858,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021533668341708542,
      "loss": 2.2225,
      "step": 57160
    },
    {
      "epoch": 0.28585,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00215321608040201,
      "loss": 2.1662,
      "step": 57170
    },
    {
      "epoch": 0.2859,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002153065326633166,
      "loss": 2.1862,
      "step": 57180
    },
    {
      "epoch": 0.28595,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021529145728643216,
      "loss": 2.2322,
      "step": 57190
    },
    {
      "epoch": 0.286,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021527638190954775,
      "loss": 2.1669,
      "step": 57200
    },
    {
      "epoch": 0.28605,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021526130653266333,
      "loss": 2.2366,
      "step": 57210
    },
    {
      "epoch": 0.2861,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002152462311557789,
      "loss": 2.1939,
      "step": 57220
    },
    {
      "epoch": 0.28615,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002152311557788945,
      "loss": 2.1795,
      "step": 57230
    },
    {
      "epoch": 0.2862,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0021521608040201002,
      "loss": 2.1764,
      "step": 57240
    },
    {
      "epoch": 0.28625,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0021520100502512565,
      "loss": 2.1285,
      "step": 57250
    },
    {
      "epoch": 0.2863,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002151859296482412,
      "loss": 2.221,
      "step": 57260
    },
    {
      "epoch": 0.28635,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021517085427135677,
      "loss": 2.1834,
      "step": 57270
    },
    {
      "epoch": 0.2864,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002151557788944724,
      "loss": 2.1402,
      "step": 57280
    },
    {
      "epoch": 0.28645,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0021514070351758793,
      "loss": 2.1661,
      "step": 57290
    },
    {
      "epoch": 0.2865,
      "grad_norm": 0.65234375,
      "learning_rate": 0.002151256281407035,
      "loss": 2.1441,
      "step": 57300
    },
    {
      "epoch": 0.28655,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0021511055276381913,
      "loss": 2.1143,
      "step": 57310
    },
    {
      "epoch": 0.2866,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021509547738693467,
      "loss": 2.2005,
      "step": 57320
    },
    {
      "epoch": 0.28665,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021508040201005025,
      "loss": 2.0592,
      "step": 57330
    },
    {
      "epoch": 0.2867,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0021506532663316583,
      "loss": 2.1447,
      "step": 57340
    },
    {
      "epoch": 0.28675,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002150502512562814,
      "loss": 2.1278,
      "step": 57350
    },
    {
      "epoch": 0.2868,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00215035175879397,
      "loss": 2.1253,
      "step": 57360
    },
    {
      "epoch": 0.28685,
      "grad_norm": 0.46875,
      "learning_rate": 0.0021502010050251257,
      "loss": 2.1369,
      "step": 57370
    },
    {
      "epoch": 0.2869,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021500502512562815,
      "loss": 2.2363,
      "step": 57380
    },
    {
      "epoch": 0.28695,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0021498994974874374,
      "loss": 2.1543,
      "step": 57390
    },
    {
      "epoch": 0.287,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0021497487437185927,
      "loss": 2.1874,
      "step": 57400
    },
    {
      "epoch": 0.28705,
      "grad_norm": 0.474609375,
      "learning_rate": 0.002149597989949749,
      "loss": 2.1829,
      "step": 57410
    },
    {
      "epoch": 0.2871,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021494472361809043,
      "loss": 2.0928,
      "step": 57420
    },
    {
      "epoch": 0.28715,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00214929648241206,
      "loss": 2.152,
      "step": 57430
    },
    {
      "epoch": 0.2872,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021491457286432164,
      "loss": 2.184,
      "step": 57440
    },
    {
      "epoch": 0.28725,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021489949748743718,
      "loss": 2.1638,
      "step": 57450
    },
    {
      "epoch": 0.2873,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021488442211055276,
      "loss": 2.2403,
      "step": 57460
    },
    {
      "epoch": 0.28735,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0021486934673366834,
      "loss": 2.1907,
      "step": 57470
    },
    {
      "epoch": 0.2874,
      "grad_norm": 0.609375,
      "learning_rate": 0.002148542713567839,
      "loss": 2.108,
      "step": 57480
    },
    {
      "epoch": 0.28745,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002148391959798995,
      "loss": 2.2121,
      "step": 57490
    },
    {
      "epoch": 0.2875,
      "grad_norm": 0.5,
      "learning_rate": 0.002148241206030151,
      "loss": 2.1332,
      "step": 57500
    },
    {
      "epoch": 0.28755,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021480904522613066,
      "loss": 2.1086,
      "step": 57510
    },
    {
      "epoch": 0.2876,
      "grad_norm": 0.59375,
      "learning_rate": 0.0021479396984924624,
      "loss": 2.2019,
      "step": 57520
    },
    {
      "epoch": 0.28765,
      "grad_norm": 0.578125,
      "learning_rate": 0.002147788944723618,
      "loss": 2.1435,
      "step": 57530
    },
    {
      "epoch": 0.2877,
      "grad_norm": 0.48046875,
      "learning_rate": 0.002147638190954774,
      "loss": 2.151,
      "step": 57540
    },
    {
      "epoch": 0.28775,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00214748743718593,
      "loss": 2.1788,
      "step": 57550
    },
    {
      "epoch": 0.2878,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002147336683417085,
      "loss": 2.1278,
      "step": 57560
    },
    {
      "epoch": 0.28785,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021471859296482414,
      "loss": 2.1698,
      "step": 57570
    },
    {
      "epoch": 0.2879,
      "grad_norm": 0.53125,
      "learning_rate": 0.002147035175879397,
      "loss": 2.1715,
      "step": 57580
    },
    {
      "epoch": 0.28795,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0021468844221105526,
      "loss": 2.1116,
      "step": 57590
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.46875,
      "learning_rate": 0.002146733668341709,
      "loss": 2.1837,
      "step": 57600
    },
    {
      "epoch": 0.28805,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021465829145728642,
      "loss": 2.1954,
      "step": 57610
    },
    {
      "epoch": 0.2881,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00214643216080402,
      "loss": 2.1416,
      "step": 57620
    },
    {
      "epoch": 0.28815,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002146281407035176,
      "loss": 2.2384,
      "step": 57630
    },
    {
      "epoch": 0.2882,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021461306532663317,
      "loss": 2.1788,
      "step": 57640
    },
    {
      "epoch": 0.28825,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021459798994974875,
      "loss": 2.1496,
      "step": 57650
    },
    {
      "epoch": 0.2883,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0021458291457286433,
      "loss": 2.2388,
      "step": 57660
    },
    {
      "epoch": 0.28835,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002145678391959799,
      "loss": 2.1512,
      "step": 57670
    },
    {
      "epoch": 0.2884,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002145527638190955,
      "loss": 2.1709,
      "step": 57680
    },
    {
      "epoch": 0.28845,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0021453768844221107,
      "loss": 2.2052,
      "step": 57690
    },
    {
      "epoch": 0.2885,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0021452261306532665,
      "loss": 2.1277,
      "step": 57700
    },
    {
      "epoch": 0.28855,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021450753768844223,
      "loss": 2.2045,
      "step": 57710
    },
    {
      "epoch": 0.2886,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021449246231155777,
      "loss": 2.1818,
      "step": 57720
    },
    {
      "epoch": 0.28865,
      "grad_norm": 0.609375,
      "learning_rate": 0.002144773869346734,
      "loss": 2.1344,
      "step": 57730
    },
    {
      "epoch": 0.2887,
      "grad_norm": 0.609375,
      "learning_rate": 0.0021446231155778893,
      "loss": 2.1912,
      "step": 57740
    },
    {
      "epoch": 0.28875,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002144472361809045,
      "loss": 2.1707,
      "step": 57750
    },
    {
      "epoch": 0.2888,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021443216080402013,
      "loss": 2.1559,
      "step": 57760
    },
    {
      "epoch": 0.28885,
      "grad_norm": 0.609375,
      "learning_rate": 0.0021441708542713567,
      "loss": 2.1842,
      "step": 57770
    },
    {
      "epoch": 0.2889,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0021440201005025125,
      "loss": 2.1335,
      "step": 57780
    },
    {
      "epoch": 0.28895,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0021438693467336683,
      "loss": 2.1207,
      "step": 57790
    },
    {
      "epoch": 0.289,
      "grad_norm": 0.5625,
      "learning_rate": 0.002143718592964824,
      "loss": 2.2433,
      "step": 57800
    },
    {
      "epoch": 0.28905,
      "grad_norm": 0.53125,
      "learning_rate": 0.00214356783919598,
      "loss": 2.1361,
      "step": 57810
    },
    {
      "epoch": 0.2891,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021434170854271357,
      "loss": 2.1756,
      "step": 57820
    },
    {
      "epoch": 0.28915,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021432663316582915,
      "loss": 2.168,
      "step": 57830
    },
    {
      "epoch": 0.2892,
      "grad_norm": 0.625,
      "learning_rate": 0.0021431155778894474,
      "loss": 2.1542,
      "step": 57840
    },
    {
      "epoch": 0.28925,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021429648241206027,
      "loss": 2.1326,
      "step": 57850
    },
    {
      "epoch": 0.2893,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002142814070351759,
      "loss": 2.1639,
      "step": 57860
    },
    {
      "epoch": 0.28935,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021426633165829148,
      "loss": 2.1366,
      "step": 57870
    },
    {
      "epoch": 0.2894,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00214251256281407,
      "loss": 2.2229,
      "step": 57880
    },
    {
      "epoch": 0.28945,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021423618090452264,
      "loss": 2.1491,
      "step": 57890
    },
    {
      "epoch": 0.2895,
      "grad_norm": 0.640625,
      "learning_rate": 0.0021422110552763818,
      "loss": 2.2003,
      "step": 57900
    },
    {
      "epoch": 0.28955,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021420603015075376,
      "loss": 2.1709,
      "step": 57910
    },
    {
      "epoch": 0.2896,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002141909547738694,
      "loss": 2.138,
      "step": 57920
    },
    {
      "epoch": 0.28965,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002141758793969849,
      "loss": 2.1734,
      "step": 57930
    },
    {
      "epoch": 0.2897,
      "grad_norm": 0.498046875,
      "learning_rate": 0.002141608040201005,
      "loss": 2.1493,
      "step": 57940
    },
    {
      "epoch": 0.28975,
      "grad_norm": 0.515625,
      "learning_rate": 0.002141457286432161,
      "loss": 2.1466,
      "step": 57950
    },
    {
      "epoch": 0.2898,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021413065326633166,
      "loss": 2.1546,
      "step": 57960
    },
    {
      "epoch": 0.28985,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021411557788944724,
      "loss": 2.1284,
      "step": 57970
    },
    {
      "epoch": 0.2899,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021410050251256282,
      "loss": 2.1501,
      "step": 57980
    },
    {
      "epoch": 0.28995,
      "grad_norm": 0.58984375,
      "learning_rate": 0.002140854271356784,
      "loss": 2.1581,
      "step": 57990
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.609375,
      "learning_rate": 0.00214070351758794,
      "loss": 2.1196,
      "step": 58000
    },
    {
      "epoch": 0.29,
      "eval_loss": 2.160691499710083,
      "eval_runtime": 46.7478,
      "eval_samples_per_second": 53.478,
      "eval_steps_per_second": 0.107,
      "step": 58000
    },
    {
      "epoch": 0.29005,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002140552763819095,
      "loss": 2.1586,
      "step": 58010
    },
    {
      "epoch": 0.2901,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021404020100502514,
      "loss": 2.2198,
      "step": 58020
    },
    {
      "epoch": 0.29015,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0021402512562814073,
      "loss": 2.1201,
      "step": 58030
    },
    {
      "epoch": 0.2902,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021401005025125626,
      "loss": 2.1979,
      "step": 58040
    },
    {
      "epoch": 0.29025,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002139949748743719,
      "loss": 2.1095,
      "step": 58050
    },
    {
      "epoch": 0.2903,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021397989949748742,
      "loss": 2.1796,
      "step": 58060
    },
    {
      "epoch": 0.29035,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00213964824120603,
      "loss": 2.1595,
      "step": 58070
    },
    {
      "epoch": 0.2904,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021394974874371863,
      "loss": 2.1508,
      "step": 58080
    },
    {
      "epoch": 0.29045,
      "grad_norm": 0.59375,
      "learning_rate": 0.0021393467336683417,
      "loss": 2.1739,
      "step": 58090
    },
    {
      "epoch": 0.2905,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021391959798994975,
      "loss": 2.1572,
      "step": 58100
    },
    {
      "epoch": 0.29055,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021390452261306533,
      "loss": 2.176,
      "step": 58110
    },
    {
      "epoch": 0.2906,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002138894472361809,
      "loss": 2.1645,
      "step": 58120
    },
    {
      "epoch": 0.29065,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002138743718592965,
      "loss": 2.1268,
      "step": 58130
    },
    {
      "epoch": 0.2907,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021385929648241207,
      "loss": 2.2034,
      "step": 58140
    },
    {
      "epoch": 0.29075,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021384422110552765,
      "loss": 2.187,
      "step": 58150
    },
    {
      "epoch": 0.2908,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0021382914572864323,
      "loss": 2.1721,
      "step": 58160
    },
    {
      "epoch": 0.29085,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021381407035175877,
      "loss": 2.1697,
      "step": 58170
    },
    {
      "epoch": 0.2909,
      "grad_norm": 0.53125,
      "learning_rate": 0.002137989949748744,
      "loss": 2.1338,
      "step": 58180
    },
    {
      "epoch": 0.29095,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021378391959798993,
      "loss": 2.2163,
      "step": 58190
    },
    {
      "epoch": 0.291,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002137688442211055,
      "loss": 2.1263,
      "step": 58200
    },
    {
      "epoch": 0.29105,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021375376884422113,
      "loss": 2.1821,
      "step": 58210
    },
    {
      "epoch": 0.2911,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021373869346733667,
      "loss": 2.1881,
      "step": 58220
    },
    {
      "epoch": 0.29115,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021372361809045225,
      "loss": 2.1726,
      "step": 58230
    },
    {
      "epoch": 0.2912,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021370854271356788,
      "loss": 2.1329,
      "step": 58240
    },
    {
      "epoch": 0.29125,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002136934673366834,
      "loss": 2.2356,
      "step": 58250
    },
    {
      "epoch": 0.2913,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00213678391959799,
      "loss": 2.1415,
      "step": 58260
    },
    {
      "epoch": 0.29135,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0021366331658291457,
      "loss": 2.1705,
      "step": 58270
    },
    {
      "epoch": 0.2914,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0021364824120603016,
      "loss": 2.1601,
      "step": 58280
    },
    {
      "epoch": 0.29145,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0021363316582914574,
      "loss": 2.1338,
      "step": 58290
    },
    {
      "epoch": 0.2915,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002136180904522613,
      "loss": 2.2087,
      "step": 58300
    },
    {
      "epoch": 0.29155,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002136030150753769,
      "loss": 2.2004,
      "step": 58310
    },
    {
      "epoch": 0.2916,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002135879396984925,
      "loss": 2.1327,
      "step": 58320
    },
    {
      "epoch": 0.29165,
      "grad_norm": 0.498046875,
      "learning_rate": 0.00213572864321608,
      "loss": 2.1981,
      "step": 58330
    },
    {
      "epoch": 0.2917,
      "grad_norm": 0.578125,
      "learning_rate": 0.0021355778894472364,
      "loss": 2.1053,
      "step": 58340
    },
    {
      "epoch": 0.29175,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0021354271356783918,
      "loss": 2.1932,
      "step": 58350
    },
    {
      "epoch": 0.2918,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021352763819095476,
      "loss": 2.2034,
      "step": 58360
    },
    {
      "epoch": 0.29185,
      "grad_norm": 0.60546875,
      "learning_rate": 0.002135125628140704,
      "loss": 2.1148,
      "step": 58370
    },
    {
      "epoch": 0.2919,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002134974874371859,
      "loss": 2.1634,
      "step": 58380
    },
    {
      "epoch": 0.29195,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002134824120603015,
      "loss": 2.1699,
      "step": 58390
    },
    {
      "epoch": 0.292,
      "grad_norm": 0.59765625,
      "learning_rate": 0.002134673366834171,
      "loss": 2.1725,
      "step": 58400
    },
    {
      "epoch": 0.29205,
      "grad_norm": 0.5625,
      "learning_rate": 0.0021345226130653266,
      "loss": 2.1244,
      "step": 58410
    },
    {
      "epoch": 0.2921,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021343718592964824,
      "loss": 2.1464,
      "step": 58420
    },
    {
      "epoch": 0.29215,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021342211055276382,
      "loss": 2.178,
      "step": 58430
    },
    {
      "epoch": 0.2922,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002134070351758794,
      "loss": 2.1555,
      "step": 58440
    },
    {
      "epoch": 0.29225,
      "grad_norm": 0.546875,
      "learning_rate": 0.00213391959798995,
      "loss": 2.1265,
      "step": 58450
    },
    {
      "epoch": 0.2923,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021337688442211056,
      "loss": 2.1634,
      "step": 58460
    },
    {
      "epoch": 0.29235,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0021336180904522615,
      "loss": 2.1461,
      "step": 58470
    },
    {
      "epoch": 0.2924,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0021334673366834173,
      "loss": 2.1543,
      "step": 58480
    },
    {
      "epoch": 0.29245,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021333165829145726,
      "loss": 2.1426,
      "step": 58490
    },
    {
      "epoch": 0.2925,
      "grad_norm": 0.5625,
      "learning_rate": 0.002133165829145729,
      "loss": 2.1839,
      "step": 58500
    },
    {
      "epoch": 0.29255,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021330150753768842,
      "loss": 2.1538,
      "step": 58510
    },
    {
      "epoch": 0.2926,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00213286432160804,
      "loss": 2.1616,
      "step": 58520
    },
    {
      "epoch": 0.29265,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021327135678391963,
      "loss": 2.1648,
      "step": 58530
    },
    {
      "epoch": 0.2927,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021325628140703517,
      "loss": 2.1505,
      "step": 58540
    },
    {
      "epoch": 0.29275,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021324120603015075,
      "loss": 2.1414,
      "step": 58550
    },
    {
      "epoch": 0.2928,
      "grad_norm": 0.484375,
      "learning_rate": 0.0021322613065326633,
      "loss": 2.1348,
      "step": 58560
    },
    {
      "epoch": 0.29285,
      "grad_norm": 0.609375,
      "learning_rate": 0.002132110552763819,
      "loss": 2.1287,
      "step": 58570
    },
    {
      "epoch": 0.2929,
      "grad_norm": 0.478515625,
      "learning_rate": 0.002131959798994975,
      "loss": 2.1744,
      "step": 58580
    },
    {
      "epoch": 0.29295,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021318090452261307,
      "loss": 2.1851,
      "step": 58590
    },
    {
      "epoch": 0.293,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0021316582914572865,
      "loss": 2.1447,
      "step": 58600
    },
    {
      "epoch": 0.29305,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021315075376884423,
      "loss": 2.1787,
      "step": 58610
    },
    {
      "epoch": 0.2931,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002131356783919598,
      "loss": 2.1583,
      "step": 58620
    },
    {
      "epoch": 0.29315,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002131206030150754,
      "loss": 2.2151,
      "step": 58630
    },
    {
      "epoch": 0.2932,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021310552763819097,
      "loss": 2.1596,
      "step": 58640
    },
    {
      "epoch": 0.29325,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002130904522613065,
      "loss": 2.1164,
      "step": 58650
    },
    {
      "epoch": 0.2933,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0021307537688442213,
      "loss": 2.1417,
      "step": 58660
    },
    {
      "epoch": 0.29335,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021306030150753767,
      "loss": 2.11,
      "step": 58670
    },
    {
      "epoch": 0.2934,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0021304522613065325,
      "loss": 2.1649,
      "step": 58680
    },
    {
      "epoch": 0.29345,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021303015075376888,
      "loss": 2.2253,
      "step": 58690
    },
    {
      "epoch": 0.2935,
      "grad_norm": 0.5,
      "learning_rate": 0.002130150753768844,
      "loss": 2.1911,
      "step": 58700
    },
    {
      "epoch": 0.29355,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00213,
      "loss": 2.1606,
      "step": 58710
    },
    {
      "epoch": 0.2936,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0021298492462311558,
      "loss": 2.1367,
      "step": 58720
    },
    {
      "epoch": 0.29365,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021296984924623116,
      "loss": 2.1669,
      "step": 58730
    },
    {
      "epoch": 0.2937,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021295477386934674,
      "loss": 2.183,
      "step": 58740
    },
    {
      "epoch": 0.29375,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002129396984924623,
      "loss": 2.1145,
      "step": 58750
    },
    {
      "epoch": 0.2938,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002129246231155779,
      "loss": 2.1875,
      "step": 58760
    },
    {
      "epoch": 0.29385,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002129095477386935,
      "loss": 2.1162,
      "step": 58770
    },
    {
      "epoch": 0.2939,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021289447236180906,
      "loss": 2.1737,
      "step": 58780
    },
    {
      "epoch": 0.29395,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021287939698492464,
      "loss": 2.1533,
      "step": 58790
    },
    {
      "epoch": 0.294,
      "grad_norm": 0.65234375,
      "learning_rate": 0.002128643216080402,
      "loss": 2.1637,
      "step": 58800
    },
    {
      "epoch": 0.29405,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021284924623115576,
      "loss": 2.1994,
      "step": 58810
    },
    {
      "epoch": 0.2941,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002128341708542714,
      "loss": 2.1239,
      "step": 58820
    },
    {
      "epoch": 0.29415,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002128190954773869,
      "loss": 2.199,
      "step": 58830
    },
    {
      "epoch": 0.2942,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002128040201005025,
      "loss": 2.1936,
      "step": 58840
    },
    {
      "epoch": 0.29425,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021278894472361812,
      "loss": 2.1255,
      "step": 58850
    },
    {
      "epoch": 0.2943,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0021277386934673366,
      "loss": 2.1763,
      "step": 58860
    },
    {
      "epoch": 0.29435,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021275879396984924,
      "loss": 2.162,
      "step": 58870
    },
    {
      "epoch": 0.2944,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0021274371859296482,
      "loss": 2.141,
      "step": 58880
    },
    {
      "epoch": 0.29445,
      "grad_norm": 0.625,
      "learning_rate": 0.002127286432160804,
      "loss": 2.1865,
      "step": 58890
    },
    {
      "epoch": 0.2945,
      "grad_norm": 0.640625,
      "learning_rate": 0.00212713567839196,
      "loss": 2.1599,
      "step": 58900
    },
    {
      "epoch": 0.29455,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0021269849246231157,
      "loss": 2.1731,
      "step": 58910
    },
    {
      "epoch": 0.2946,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021268341708542715,
      "loss": 2.1549,
      "step": 58920
    },
    {
      "epoch": 0.29465,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021266834170854273,
      "loss": 2.1742,
      "step": 58930
    },
    {
      "epoch": 0.2947,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021265326633165826,
      "loss": 2.1645,
      "step": 58940
    },
    {
      "epoch": 0.29475,
      "grad_norm": 0.53125,
      "learning_rate": 0.002126381909547739,
      "loss": 2.0955,
      "step": 58950
    },
    {
      "epoch": 0.2948,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021262311557788947,
      "loss": 2.1509,
      "step": 58960
    },
    {
      "epoch": 0.29485,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00212608040201005,
      "loss": 2.1369,
      "step": 58970
    },
    {
      "epoch": 0.2949,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021259296482412063,
      "loss": 2.1728,
      "step": 58980
    },
    {
      "epoch": 0.29495,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0021257788944723617,
      "loss": 2.1747,
      "step": 58990
    },
    {
      "epoch": 0.295,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0021256281407035175,
      "loss": 2.1063,
      "step": 59000
    },
    {
      "epoch": 0.29505,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021254773869346737,
      "loss": 2.1891,
      "step": 59010
    },
    {
      "epoch": 0.2951,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002125326633165829,
      "loss": 2.1857,
      "step": 59020
    },
    {
      "epoch": 0.29515,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002125175879396985,
      "loss": 2.1818,
      "step": 59030
    },
    {
      "epoch": 0.2952,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0021250251256281407,
      "loss": 2.1716,
      "step": 59040
    },
    {
      "epoch": 0.29525,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0021248743718592965,
      "loss": 2.1409,
      "step": 59050
    },
    {
      "epoch": 0.2953,
      "grad_norm": 0.609375,
      "learning_rate": 0.0021247236180904523,
      "loss": 2.1733,
      "step": 59060
    },
    {
      "epoch": 0.29535,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002124572864321608,
      "loss": 2.1359,
      "step": 59070
    },
    {
      "epoch": 0.2954,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002124422110552764,
      "loss": 2.144,
      "step": 59080
    },
    {
      "epoch": 0.29545,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021242713567839197,
      "loss": 2.1194,
      "step": 59090
    },
    {
      "epoch": 0.2955,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002124120603015075,
      "loss": 2.1268,
      "step": 59100
    },
    {
      "epoch": 0.29555,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021239698492462314,
      "loss": 2.2074,
      "step": 59110
    },
    {
      "epoch": 0.2956,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021238190954773867,
      "loss": 2.12,
      "step": 59120
    },
    {
      "epoch": 0.29565,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0021236683417085425,
      "loss": 2.1743,
      "step": 59130
    },
    {
      "epoch": 0.2957,
      "grad_norm": 0.5,
      "learning_rate": 0.0021235175879396988,
      "loss": 2.178,
      "step": 59140
    },
    {
      "epoch": 0.29575,
      "grad_norm": 0.515625,
      "learning_rate": 0.002123366834170854,
      "loss": 2.1332,
      "step": 59150
    },
    {
      "epoch": 0.2958,
      "grad_norm": 0.515625,
      "learning_rate": 0.00212321608040201,
      "loss": 2.2137,
      "step": 59160
    },
    {
      "epoch": 0.29585,
      "grad_norm": 0.53125,
      "learning_rate": 0.002123065326633166,
      "loss": 2.1756,
      "step": 59170
    },
    {
      "epoch": 0.2959,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021229145728643216,
      "loss": 2.1981,
      "step": 59180
    },
    {
      "epoch": 0.29595,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0021227638190954774,
      "loss": 2.1254,
      "step": 59190
    },
    {
      "epoch": 0.296,
      "grad_norm": 0.53125,
      "learning_rate": 0.002122613065326633,
      "loss": 2.1197,
      "step": 59200
    },
    {
      "epoch": 0.29605,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002122462311557789,
      "loss": 2.1791,
      "step": 59210
    },
    {
      "epoch": 0.2961,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002122311557788945,
      "loss": 2.1134,
      "step": 59220
    },
    {
      "epoch": 0.29615,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021221608040201006,
      "loss": 2.254,
      "step": 59230
    },
    {
      "epoch": 0.2962,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021220100502512564,
      "loss": 2.1639,
      "step": 59240
    },
    {
      "epoch": 0.29625,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002121859296482412,
      "loss": 2.1615,
      "step": 59250
    },
    {
      "epoch": 0.2963,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0021217085427135676,
      "loss": 2.175,
      "step": 59260
    },
    {
      "epoch": 0.29635,
      "grad_norm": 0.53125,
      "learning_rate": 0.002121557788944724,
      "loss": 2.0852,
      "step": 59270
    },
    {
      "epoch": 0.2964,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002121407035175879,
      "loss": 2.202,
      "step": 59280
    },
    {
      "epoch": 0.29645,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002121256281407035,
      "loss": 2.1177,
      "step": 59290
    },
    {
      "epoch": 0.2965,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0021211055276381913,
      "loss": 2.1455,
      "step": 59300
    },
    {
      "epoch": 0.29655,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0021209547738693466,
      "loss": 2.1463,
      "step": 59310
    },
    {
      "epoch": 0.2966,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0021208040201005024,
      "loss": 2.1694,
      "step": 59320
    },
    {
      "epoch": 0.29665,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021206532663316582,
      "loss": 2.1875,
      "step": 59330
    },
    {
      "epoch": 0.2967,
      "grad_norm": 0.515625,
      "learning_rate": 0.002120502512562814,
      "loss": 2.1627,
      "step": 59340
    },
    {
      "epoch": 0.29675,
      "grad_norm": 0.48828125,
      "learning_rate": 0.00212035175879397,
      "loss": 2.16,
      "step": 59350
    },
    {
      "epoch": 0.2968,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021202010050251257,
      "loss": 2.1549,
      "step": 59360
    },
    {
      "epoch": 0.29685,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021200502512562815,
      "loss": 2.1255,
      "step": 59370
    },
    {
      "epoch": 0.2969,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0021198994974874373,
      "loss": 2.2093,
      "step": 59380
    },
    {
      "epoch": 0.29695,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002119748743718593,
      "loss": 2.1064,
      "step": 59390
    },
    {
      "epoch": 0.297,
      "grad_norm": 0.53125,
      "learning_rate": 0.002119597989949749,
      "loss": 2.1719,
      "step": 59400
    },
    {
      "epoch": 0.29705,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021194472361809047,
      "loss": 2.1373,
      "step": 59410
    },
    {
      "epoch": 0.2971,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00211929648241206,
      "loss": 2.1731,
      "step": 59420
    },
    {
      "epoch": 0.29715,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021191457286432163,
      "loss": 2.1635,
      "step": 59430
    },
    {
      "epoch": 0.2972,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021189949748743717,
      "loss": 2.1459,
      "step": 59440
    },
    {
      "epoch": 0.29725,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021188442211055275,
      "loss": 2.1778,
      "step": 59450
    },
    {
      "epoch": 0.2973,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021186934673366837,
      "loss": 2.1654,
      "step": 59460
    },
    {
      "epoch": 0.29735,
      "grad_norm": 0.490234375,
      "learning_rate": 0.002118542713567839,
      "loss": 2.1521,
      "step": 59470
    },
    {
      "epoch": 0.2974,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002118391959798995,
      "loss": 2.2518,
      "step": 59480
    },
    {
      "epoch": 0.29745,
      "grad_norm": 0.625,
      "learning_rate": 0.0021182412060301507,
      "loss": 2.1122,
      "step": 59490
    },
    {
      "epoch": 0.2975,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021180904522613065,
      "loss": 2.1801,
      "step": 59500
    },
    {
      "epoch": 0.29755,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021179396984924623,
      "loss": 2.1836,
      "step": 59510
    },
    {
      "epoch": 0.2976,
      "grad_norm": 0.546875,
      "learning_rate": 0.002117788944723618,
      "loss": 2.1885,
      "step": 59520
    },
    {
      "epoch": 0.29765,
      "grad_norm": 0.46875,
      "learning_rate": 0.002117638190954774,
      "loss": 2.202,
      "step": 59530
    },
    {
      "epoch": 0.2977,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021174874371859297,
      "loss": 2.1538,
      "step": 59540
    },
    {
      "epoch": 0.29775,
      "grad_norm": 0.46875,
      "learning_rate": 0.0021173366834170856,
      "loss": 2.1712,
      "step": 59550
    },
    {
      "epoch": 0.2978,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021171859296482414,
      "loss": 2.1433,
      "step": 59560
    },
    {
      "epoch": 0.29785,
      "grad_norm": 0.546875,
      "learning_rate": 0.002117035175879397,
      "loss": 2.2079,
      "step": 59570
    },
    {
      "epoch": 0.2979,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021168844221105525,
      "loss": 2.1407,
      "step": 59580
    },
    {
      "epoch": 0.29795,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021167336683417088,
      "loss": 2.1358,
      "step": 59590
    },
    {
      "epoch": 0.298,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002116582914572864,
      "loss": 2.2265,
      "step": 59600
    },
    {
      "epoch": 0.29805,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00211643216080402,
      "loss": 2.1327,
      "step": 59610
    },
    {
      "epoch": 0.2981,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002116281407035176,
      "loss": 2.1766,
      "step": 59620
    },
    {
      "epoch": 0.29815,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021161306532663316,
      "loss": 2.2004,
      "step": 59630
    },
    {
      "epoch": 0.2982,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021159798994974874,
      "loss": 2.1255,
      "step": 59640
    },
    {
      "epoch": 0.29825,
      "grad_norm": 0.470703125,
      "learning_rate": 0.002115829145728643,
      "loss": 2.1873,
      "step": 59650
    },
    {
      "epoch": 0.2983,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002115678391959799,
      "loss": 2.1395,
      "step": 59660
    },
    {
      "epoch": 0.29835,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002115527638190955,
      "loss": 2.1931,
      "step": 59670
    },
    {
      "epoch": 0.2984,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0021153768844221106,
      "loss": 2.1282,
      "step": 59680
    },
    {
      "epoch": 0.29845,
      "grad_norm": 0.5,
      "learning_rate": 0.0021152261306532664,
      "loss": 2.1818,
      "step": 59690
    },
    {
      "epoch": 0.2985,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021150753768844222,
      "loss": 2.1666,
      "step": 59700
    },
    {
      "epoch": 0.29855,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002114924623115578,
      "loss": 2.1698,
      "step": 59710
    },
    {
      "epoch": 0.2986,
      "grad_norm": 0.578125,
      "learning_rate": 0.002114773869346734,
      "loss": 2.1888,
      "step": 59720
    },
    {
      "epoch": 0.29865,
      "grad_norm": 0.59375,
      "learning_rate": 0.0021146231155778896,
      "loss": 2.1074,
      "step": 59730
    },
    {
      "epoch": 0.2987,
      "grad_norm": 0.515625,
      "learning_rate": 0.002114472361809045,
      "loss": 2.1735,
      "step": 59740
    },
    {
      "epoch": 0.29875,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021143216080402013,
      "loss": 2.1499,
      "step": 59750
    },
    {
      "epoch": 0.2988,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021141708542713566,
      "loss": 2.1526,
      "step": 59760
    },
    {
      "epoch": 0.29885,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021140201005025124,
      "loss": 2.1849,
      "step": 59770
    },
    {
      "epoch": 0.2989,
      "grad_norm": 0.5,
      "learning_rate": 0.0021138693467336687,
      "loss": 2.1443,
      "step": 59780
    },
    {
      "epoch": 0.29895,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002113718592964824,
      "loss": 2.1502,
      "step": 59790
    },
    {
      "epoch": 0.299,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00211356783919598,
      "loss": 2.0958,
      "step": 59800
    },
    {
      "epoch": 0.29905,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0021134170854271357,
      "loss": 2.2024,
      "step": 59810
    },
    {
      "epoch": 0.2991,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021132663316582915,
      "loss": 2.1178,
      "step": 59820
    },
    {
      "epoch": 0.29915,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021131155778894473,
      "loss": 2.1517,
      "step": 59830
    },
    {
      "epoch": 0.2992,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002112964824120603,
      "loss": 2.1767,
      "step": 59840
    },
    {
      "epoch": 0.29925,
      "grad_norm": 0.53125,
      "learning_rate": 0.002112814070351759,
      "loss": 2.1349,
      "step": 59850
    },
    {
      "epoch": 0.2993,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021126633165829147,
      "loss": 2.1665,
      "step": 59860
    },
    {
      "epoch": 0.29935,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021125125628140705,
      "loss": 2.1129,
      "step": 59870
    },
    {
      "epoch": 0.2994,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021123618090452263,
      "loss": 2.1924,
      "step": 59880
    },
    {
      "epoch": 0.29945,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002112211055276382,
      "loss": 2.1944,
      "step": 59890
    },
    {
      "epoch": 0.2995,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021120603015075375,
      "loss": 2.1771,
      "step": 59900
    },
    {
      "epoch": 0.29955,
      "grad_norm": 0.609375,
      "learning_rate": 0.0021119095477386937,
      "loss": 2.2143,
      "step": 59910
    },
    {
      "epoch": 0.2996,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002111758793969849,
      "loss": 2.1212,
      "step": 59920
    },
    {
      "epoch": 0.29965,
      "grad_norm": 0.515625,
      "learning_rate": 0.002111608040201005,
      "loss": 2.2055,
      "step": 59930
    },
    {
      "epoch": 0.2997,
      "grad_norm": 0.546875,
      "learning_rate": 0.002111457286432161,
      "loss": 2.1677,
      "step": 59940
    },
    {
      "epoch": 0.29975,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021113065326633165,
      "loss": 2.1416,
      "step": 59950
    },
    {
      "epoch": 0.2998,
      "grad_norm": 0.458984375,
      "learning_rate": 0.0021111557788944723,
      "loss": 2.1838,
      "step": 59960
    },
    {
      "epoch": 0.29985,
      "grad_norm": 0.59375,
      "learning_rate": 0.002111005025125628,
      "loss": 2.1063,
      "step": 59970
    },
    {
      "epoch": 0.2999,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002110854271356784,
      "loss": 2.1775,
      "step": 59980
    },
    {
      "epoch": 0.29995,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021107035175879398,
      "loss": 2.1424,
      "step": 59990
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021105527638190956,
      "loss": 2.1752,
      "step": 60000
    },
    {
      "epoch": 0.3,
      "eval_loss": 2.1487884521484375,
      "eval_runtime": 46.9642,
      "eval_samples_per_second": 53.232,
      "eval_steps_per_second": 0.106,
      "step": 60000
    },
    {
      "epoch": 0.30005,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021104020100502514,
      "loss": 2.1551,
      "step": 60010
    },
    {
      "epoch": 0.3001,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002110251256281407,
      "loss": 2.1225,
      "step": 60020
    },
    {
      "epoch": 0.30015,
      "grad_norm": 0.45703125,
      "learning_rate": 0.0021101005025125625,
      "loss": 2.2057,
      "step": 60030
    },
    {
      "epoch": 0.3002,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002109949748743719,
      "loss": 2.1426,
      "step": 60040
    },
    {
      "epoch": 0.30025,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002109798994974874,
      "loss": 2.212,
      "step": 60050
    },
    {
      "epoch": 0.3003,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00210964824120603,
      "loss": 2.1343,
      "step": 60060
    },
    {
      "epoch": 0.30035,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002109497487437186,
      "loss": 2.2065,
      "step": 60070
    },
    {
      "epoch": 0.3004,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0021093467336683416,
      "loss": 2.1882,
      "step": 60080
    },
    {
      "epoch": 0.30045,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021091959798994974,
      "loss": 2.159,
      "step": 60090
    },
    {
      "epoch": 0.3005,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021090452261306536,
      "loss": 2.1615,
      "step": 60100
    },
    {
      "epoch": 0.30055,
      "grad_norm": 0.515625,
      "learning_rate": 0.002108894472361809,
      "loss": 2.1275,
      "step": 60110
    },
    {
      "epoch": 0.3006,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002108743718592965,
      "loss": 2.1981,
      "step": 60120
    },
    {
      "epoch": 0.30065,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021085929648241206,
      "loss": 2.181,
      "step": 60130
    },
    {
      "epoch": 0.3007,
      "grad_norm": 0.640625,
      "learning_rate": 0.0021084422110552764,
      "loss": 2.1644,
      "step": 60140
    },
    {
      "epoch": 0.30075,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021082914572864322,
      "loss": 2.1782,
      "step": 60150
    },
    {
      "epoch": 0.3008,
      "grad_norm": 0.546875,
      "learning_rate": 0.002108140703517588,
      "loss": 2.0979,
      "step": 60160
    },
    {
      "epoch": 0.30085,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002107989949748744,
      "loss": 2.1565,
      "step": 60170
    },
    {
      "epoch": 0.3009,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021078391959798996,
      "loss": 2.1175,
      "step": 60180
    },
    {
      "epoch": 0.30095,
      "grad_norm": 0.59375,
      "learning_rate": 0.002107688442211055,
      "loss": 2.1656,
      "step": 60190
    },
    {
      "epoch": 0.301,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021075376884422113,
      "loss": 2.1609,
      "step": 60200
    },
    {
      "epoch": 0.30105,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0021073869346733666,
      "loss": 2.1775,
      "step": 60210
    },
    {
      "epoch": 0.3011,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021072361809045224,
      "loss": 2.2064,
      "step": 60220
    },
    {
      "epoch": 0.30115,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021070854271356787,
      "loss": 2.1599,
      "step": 60230
    },
    {
      "epoch": 0.3012,
      "grad_norm": 0.7109375,
      "learning_rate": 0.002106934673366834,
      "loss": 2.1851,
      "step": 60240
    },
    {
      "epoch": 0.30125,
      "grad_norm": 0.53125,
      "learning_rate": 0.00210678391959799,
      "loss": 2.1628,
      "step": 60250
    },
    {
      "epoch": 0.3013,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0021066331658291457,
      "loss": 2.2217,
      "step": 60260
    },
    {
      "epoch": 0.30135,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021064824120603015,
      "loss": 2.1311,
      "step": 60270
    },
    {
      "epoch": 0.3014,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021063316582914573,
      "loss": 2.1349,
      "step": 60280
    },
    {
      "epoch": 0.30145,
      "grad_norm": 0.482421875,
      "learning_rate": 0.002106180904522613,
      "loss": 2.2035,
      "step": 60290
    },
    {
      "epoch": 0.3015,
      "grad_norm": 0.59375,
      "learning_rate": 0.002106030150753769,
      "loss": 2.1435,
      "step": 60300
    },
    {
      "epoch": 0.30155,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021058793969849247,
      "loss": 2.1796,
      "step": 60310
    },
    {
      "epoch": 0.3016,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021057286432160805,
      "loss": 2.1703,
      "step": 60320
    },
    {
      "epoch": 0.30165,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021055778894472363,
      "loss": 2.1402,
      "step": 60330
    },
    {
      "epoch": 0.3017,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002105427135678392,
      "loss": 2.1701,
      "step": 60340
    },
    {
      "epoch": 0.30175,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0021052763819095475,
      "loss": 2.138,
      "step": 60350
    },
    {
      "epoch": 0.3018,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021051256281407037,
      "loss": 2.2067,
      "step": 60360
    },
    {
      "epoch": 0.30185,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002104974874371859,
      "loss": 2.1251,
      "step": 60370
    },
    {
      "epoch": 0.3019,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002104824120603015,
      "loss": 2.1997,
      "step": 60380
    },
    {
      "epoch": 0.30195,
      "grad_norm": 0.546875,
      "learning_rate": 0.002104673366834171,
      "loss": 2.1679,
      "step": 60390
    },
    {
      "epoch": 0.302,
      "grad_norm": 0.470703125,
      "learning_rate": 0.0021045226130653265,
      "loss": 2.1791,
      "step": 60400
    },
    {
      "epoch": 0.30205,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021043718592964823,
      "loss": 2.1905,
      "step": 60410
    },
    {
      "epoch": 0.3021,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002104221105527638,
      "loss": 2.1439,
      "step": 60420
    },
    {
      "epoch": 0.30215,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002104070351758794,
      "loss": 2.2084,
      "step": 60430
    },
    {
      "epoch": 0.3022,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0021039195979899498,
      "loss": 2.0919,
      "step": 60440
    },
    {
      "epoch": 0.30225,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0021037688442211056,
      "loss": 2.1762,
      "step": 60450
    },
    {
      "epoch": 0.3023,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0021036180904522614,
      "loss": 2.1059,
      "step": 60460
    },
    {
      "epoch": 0.30235,
      "grad_norm": 0.5625,
      "learning_rate": 0.002103467336683417,
      "loss": 2.1833,
      "step": 60470
    },
    {
      "epoch": 0.3024,
      "grad_norm": 0.4609375,
      "learning_rate": 0.002103316582914573,
      "loss": 2.0978,
      "step": 60480
    },
    {
      "epoch": 0.30245,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002103165829145729,
      "loss": 2.1583,
      "step": 60490
    },
    {
      "epoch": 0.3025,
      "grad_norm": 0.515625,
      "learning_rate": 0.0021030150753768846,
      "loss": 2.1109,
      "step": 60500
    },
    {
      "epoch": 0.30255,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00210286432160804,
      "loss": 2.132,
      "step": 60510
    },
    {
      "epoch": 0.3026,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002102713567839196,
      "loss": 2.1732,
      "step": 60520
    },
    {
      "epoch": 0.30265,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021025628140703516,
      "loss": 2.1298,
      "step": 60530
    },
    {
      "epoch": 0.3027,
      "grad_norm": 0.546875,
      "learning_rate": 0.0021024120603015074,
      "loss": 2.1635,
      "step": 60540
    },
    {
      "epoch": 0.30275,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0021022613065326636,
      "loss": 2.1851,
      "step": 60550
    },
    {
      "epoch": 0.3028,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002102110552763819,
      "loss": 2.1334,
      "step": 60560
    },
    {
      "epoch": 0.30285,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002101959798994975,
      "loss": 2.2028,
      "step": 60570
    },
    {
      "epoch": 0.3029,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0021018090452261306,
      "loss": 2.1134,
      "step": 60580
    },
    {
      "epoch": 0.30295,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0021016582914572864,
      "loss": 2.1993,
      "step": 60590
    },
    {
      "epoch": 0.303,
      "grad_norm": 0.578125,
      "learning_rate": 0.0021015075376884422,
      "loss": 2.1337,
      "step": 60600
    },
    {
      "epoch": 0.30305,
      "grad_norm": 0.546875,
      "learning_rate": 0.002101356783919598,
      "loss": 2.2382,
      "step": 60610
    },
    {
      "epoch": 0.3031,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002101206030150754,
      "loss": 2.1391,
      "step": 60620
    },
    {
      "epoch": 0.30315,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0021010552763819097,
      "loss": 2.1543,
      "step": 60630
    },
    {
      "epoch": 0.3032,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0021009045226130655,
      "loss": 2.1889,
      "step": 60640
    },
    {
      "epoch": 0.30325,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0021007537688442213,
      "loss": 2.1806,
      "step": 60650
    },
    {
      "epoch": 0.3033,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002100603015075377,
      "loss": 2.173,
      "step": 60660
    },
    {
      "epoch": 0.30335,
      "grad_norm": 0.5,
      "learning_rate": 0.0021004522613065324,
      "loss": 2.1654,
      "step": 60670
    },
    {
      "epoch": 0.3034,
      "grad_norm": 0.53125,
      "learning_rate": 0.0021003015075376887,
      "loss": 2.2019,
      "step": 60680
    },
    {
      "epoch": 0.30345,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002100150753768844,
      "loss": 2.1657,
      "step": 60690
    },
    {
      "epoch": 0.3035,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0021,
      "loss": 2.1207,
      "step": 60700
    },
    {
      "epoch": 0.30355,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002099849246231156,
      "loss": 2.1848,
      "step": 60710
    },
    {
      "epoch": 0.3036,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020996984924623115,
      "loss": 2.1013,
      "step": 60720
    },
    {
      "epoch": 0.30365,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020995477386934673,
      "loss": 2.1831,
      "step": 60730
    },
    {
      "epoch": 0.3037,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002099396984924623,
      "loss": 2.086,
      "step": 60740
    },
    {
      "epoch": 0.30375,
      "grad_norm": 0.53125,
      "learning_rate": 0.002099246231155779,
      "loss": 2.1712,
      "step": 60750
    },
    {
      "epoch": 0.3038,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0020990954773869347,
      "loss": 2.1649,
      "step": 60760
    },
    {
      "epoch": 0.30385,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0020989447236180905,
      "loss": 2.1545,
      "step": 60770
    },
    {
      "epoch": 0.3039,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020987939698492463,
      "loss": 2.2589,
      "step": 60780
    },
    {
      "epoch": 0.30395,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002098643216080402,
      "loss": 2.1663,
      "step": 60790
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.6640625,
      "learning_rate": 0.002098492462311558,
      "loss": 2.2248,
      "step": 60800
    },
    {
      "epoch": 0.30405,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020983417085427137,
      "loss": 2.0878,
      "step": 60810
    },
    {
      "epoch": 0.3041,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0020981909547738696,
      "loss": 2.189,
      "step": 60820
    },
    {
      "epoch": 0.30415,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002098040201005025,
      "loss": 2.1443,
      "step": 60830
    },
    {
      "epoch": 0.3042,
      "grad_norm": 0.62890625,
      "learning_rate": 0.002097889447236181,
      "loss": 2.1532,
      "step": 60840
    },
    {
      "epoch": 0.30425,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0020977386934673365,
      "loss": 2.2083,
      "step": 60850
    },
    {
      "epoch": 0.3043,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020975879396984923,
      "loss": 2.1064,
      "step": 60860
    },
    {
      "epoch": 0.30435,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020974371859296486,
      "loss": 2.2191,
      "step": 60870
    },
    {
      "epoch": 0.3044,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002097286432160804,
      "loss": 2.1574,
      "step": 60880
    },
    {
      "epoch": 0.30445,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020971356783919598,
      "loss": 2.2496,
      "step": 60890
    },
    {
      "epoch": 0.3045,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0020969849246231156,
      "loss": 2.16,
      "step": 60900
    },
    {
      "epoch": 0.30455,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020968341708542714,
      "loss": 2.1747,
      "step": 60910
    },
    {
      "epoch": 0.3046,
      "grad_norm": 0.53125,
      "learning_rate": 0.002096683417085427,
      "loss": 2.1939,
      "step": 60920
    },
    {
      "epoch": 0.30465,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002096532663316583,
      "loss": 2.1139,
      "step": 60930
    },
    {
      "epoch": 0.3047,
      "grad_norm": 0.546875,
      "learning_rate": 0.002096381909547739,
      "loss": 2.1737,
      "step": 60940
    },
    {
      "epoch": 0.30475,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0020962311557788946,
      "loss": 2.1437,
      "step": 60950
    },
    {
      "epoch": 0.3048,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020960804020100504,
      "loss": 2.1459,
      "step": 60960
    },
    {
      "epoch": 0.30485,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020959296482412062,
      "loss": 2.1091,
      "step": 60970
    },
    {
      "epoch": 0.3049,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0020957788944723616,
      "loss": 2.2049,
      "step": 60980
    },
    {
      "epoch": 0.30495,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020956281407035174,
      "loss": 2.1819,
      "step": 60990
    },
    {
      "epoch": 0.305,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020954773869346736,
      "loss": 2.1156,
      "step": 61000
    },
    {
      "epoch": 0.30505,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002095326633165829,
      "loss": 2.1919,
      "step": 61010
    },
    {
      "epoch": 0.3051,
      "grad_norm": 0.484375,
      "learning_rate": 0.002095175879396985,
      "loss": 2.1339,
      "step": 61020
    },
    {
      "epoch": 0.30515,
      "grad_norm": 0.53125,
      "learning_rate": 0.002095025125628141,
      "loss": 2.1433,
      "step": 61030
    },
    {
      "epoch": 0.3052,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020948743718592964,
      "loss": 2.1384,
      "step": 61040
    },
    {
      "epoch": 0.30525,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020947236180904522,
      "loss": 2.1866,
      "step": 61050
    },
    {
      "epoch": 0.3053,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002094572864321608,
      "loss": 2.0999,
      "step": 61060
    },
    {
      "epoch": 0.30535,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002094422110552764,
      "loss": 2.1332,
      "step": 61070
    },
    {
      "epoch": 0.3054,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020942713567839197,
      "loss": 2.1539,
      "step": 61080
    },
    {
      "epoch": 0.30545,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020941206030150755,
      "loss": 2.135,
      "step": 61090
    },
    {
      "epoch": 0.3055,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0020939698492462313,
      "loss": 2.2088,
      "step": 61100
    },
    {
      "epoch": 0.30555,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002093819095477387,
      "loss": 2.1741,
      "step": 61110
    },
    {
      "epoch": 0.3056,
      "grad_norm": 0.59375,
      "learning_rate": 0.002093668341708543,
      "loss": 2.2294,
      "step": 61120
    },
    {
      "epoch": 0.30565,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020935175879396987,
      "loss": 2.1507,
      "step": 61130
    },
    {
      "epoch": 0.3057,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002093366834170854,
      "loss": 2.1778,
      "step": 61140
    },
    {
      "epoch": 0.30575,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00209321608040201,
      "loss": 2.1461,
      "step": 61150
    },
    {
      "epoch": 0.3058,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002093065326633166,
      "loss": 2.1369,
      "step": 61160
    },
    {
      "epoch": 0.30585,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020929145728643215,
      "loss": 2.187,
      "step": 61170
    },
    {
      "epoch": 0.3059,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020927638190954773,
      "loss": 2.1325,
      "step": 61180
    },
    {
      "epoch": 0.30595,
      "grad_norm": 0.59765625,
      "learning_rate": 0.002092613065326633,
      "loss": 2.1691,
      "step": 61190
    },
    {
      "epoch": 0.306,
      "grad_norm": 0.64453125,
      "learning_rate": 0.002092462311557789,
      "loss": 2.1136,
      "step": 61200
    },
    {
      "epoch": 0.30605,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020923115577889447,
      "loss": 2.2253,
      "step": 61210
    },
    {
      "epoch": 0.3061,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020921608040201005,
      "loss": 2.0698,
      "step": 61220
    },
    {
      "epoch": 0.30615,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020920100502512563,
      "loss": 2.1541,
      "step": 61230
    },
    {
      "epoch": 0.3062,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002091859296482412,
      "loss": 2.1531,
      "step": 61240
    },
    {
      "epoch": 0.30625,
      "grad_norm": 0.546875,
      "learning_rate": 0.002091708542713568,
      "loss": 2.1955,
      "step": 61250
    },
    {
      "epoch": 0.3063,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020915577889447238,
      "loss": 2.1377,
      "step": 61260
    },
    {
      "epoch": 0.30635,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0020914070351758796,
      "loss": 2.1398,
      "step": 61270
    },
    {
      "epoch": 0.3064,
      "grad_norm": 0.58984375,
      "learning_rate": 0.002091256281407035,
      "loss": 2.1859,
      "step": 61280
    },
    {
      "epoch": 0.30645,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002091105527638191,
      "loss": 2.1536,
      "step": 61290
    },
    {
      "epoch": 0.3065,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0020909547738693465,
      "loss": 2.196,
      "step": 61300
    },
    {
      "epoch": 0.30655,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020908040201005024,
      "loss": 2.1073,
      "step": 61310
    },
    {
      "epoch": 0.3066,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020906532663316586,
      "loss": 2.2266,
      "step": 61320
    },
    {
      "epoch": 0.30665,
      "grad_norm": 0.546875,
      "learning_rate": 0.002090502512562814,
      "loss": 2.1596,
      "step": 61330
    },
    {
      "epoch": 0.3067,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020903517587939698,
      "loss": 2.194,
      "step": 61340
    },
    {
      "epoch": 0.30675,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020902010050251256,
      "loss": 2.2086,
      "step": 61350
    },
    {
      "epoch": 0.3068,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020900502512562814,
      "loss": 2.1444,
      "step": 61360
    },
    {
      "epoch": 0.30685,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002089899497487437,
      "loss": 2.1972,
      "step": 61370
    },
    {
      "epoch": 0.3069,
      "grad_norm": 0.76171875,
      "learning_rate": 0.002089748743718593,
      "loss": 2.1402,
      "step": 61380
    },
    {
      "epoch": 0.30695,
      "grad_norm": 0.515625,
      "learning_rate": 0.002089597989949749,
      "loss": 2.1817,
      "step": 61390
    },
    {
      "epoch": 0.307,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020894472361809046,
      "loss": 2.1231,
      "step": 61400
    },
    {
      "epoch": 0.30705,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020892964824120604,
      "loss": 2.1833,
      "step": 61410
    },
    {
      "epoch": 0.3071,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020891457286432162,
      "loss": 2.1273,
      "step": 61420
    },
    {
      "epoch": 0.30715,
      "grad_norm": 0.6328125,
      "learning_rate": 0.002088994974874372,
      "loss": 2.1788,
      "step": 61430
    },
    {
      "epoch": 0.3072,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020888442211055274,
      "loss": 2.1702,
      "step": 61440
    },
    {
      "epoch": 0.30725,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020886934673366836,
      "loss": 2.1719,
      "step": 61450
    },
    {
      "epoch": 0.3073,
      "grad_norm": 0.48828125,
      "learning_rate": 0.002088542713567839,
      "loss": 2.1927,
      "step": 61460
    },
    {
      "epoch": 0.30735,
      "grad_norm": 0.5625,
      "learning_rate": 0.002088391959798995,
      "loss": 2.1359,
      "step": 61470
    },
    {
      "epoch": 0.3074,
      "grad_norm": 0.53125,
      "learning_rate": 0.002088241206030151,
      "loss": 2.1922,
      "step": 61480
    },
    {
      "epoch": 0.30745,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0020880904522613064,
      "loss": 2.1357,
      "step": 61490
    },
    {
      "epoch": 0.3075,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020879396984924622,
      "loss": 2.202,
      "step": 61500
    },
    {
      "epoch": 0.30755,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002087788944723618,
      "loss": 2.1408,
      "step": 61510
    },
    {
      "epoch": 0.3076,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002087638190954774,
      "loss": 2.159,
      "step": 61520
    },
    {
      "epoch": 0.30765,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020874874371859297,
      "loss": 2.1536,
      "step": 61530
    },
    {
      "epoch": 0.3077,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020873366834170855,
      "loss": 2.145,
      "step": 61540
    },
    {
      "epoch": 0.30775,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020871859296482413,
      "loss": 2.1677,
      "step": 61550
    },
    {
      "epoch": 0.3078,
      "grad_norm": 0.5,
      "learning_rate": 0.002087035175879397,
      "loss": 2.1356,
      "step": 61560
    },
    {
      "epoch": 0.30785,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002086884422110553,
      "loss": 2.1901,
      "step": 61570
    },
    {
      "epoch": 0.3079,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020867336683417087,
      "loss": 2.1592,
      "step": 61580
    },
    {
      "epoch": 0.30795,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020865829145728645,
      "loss": 2.2002,
      "step": 61590
    },
    {
      "epoch": 0.308,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00208643216080402,
      "loss": 2.1251,
      "step": 61600
    },
    {
      "epoch": 0.30805,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002086281407035176,
      "loss": 2.2175,
      "step": 61610
    },
    {
      "epoch": 0.3081,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020861306532663315,
      "loss": 2.1665,
      "step": 61620
    },
    {
      "epoch": 0.30815,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020859798994974873,
      "loss": 2.1646,
      "step": 61630
    },
    {
      "epoch": 0.3082,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020858291457286435,
      "loss": 2.1571,
      "step": 61640
    },
    {
      "epoch": 0.30825,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002085678391959799,
      "loss": 2.1222,
      "step": 61650
    },
    {
      "epoch": 0.3083,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020855276381909547,
      "loss": 2.1806,
      "step": 61660
    },
    {
      "epoch": 0.30835,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020853768844221105,
      "loss": 2.1095,
      "step": 61670
    },
    {
      "epoch": 0.3084,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020852261306532663,
      "loss": 2.1655,
      "step": 61680
    },
    {
      "epoch": 0.30845,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002085075376884422,
      "loss": 2.1208,
      "step": 61690
    },
    {
      "epoch": 0.3085,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002084924623115578,
      "loss": 2.1645,
      "step": 61700
    },
    {
      "epoch": 0.30855,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020847738693467338,
      "loss": 2.1302,
      "step": 61710
    },
    {
      "epoch": 0.3086,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020846231155778896,
      "loss": 2.16,
      "step": 61720
    },
    {
      "epoch": 0.30865,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020844723618090454,
      "loss": 2.1742,
      "step": 61730
    },
    {
      "epoch": 0.3087,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002084321608040201,
      "loss": 2.1188,
      "step": 61740
    },
    {
      "epoch": 0.30875,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002084170854271357,
      "loss": 2.2468,
      "step": 61750
    },
    {
      "epoch": 0.3088,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020840201005025124,
      "loss": 2.0909,
      "step": 61760
    },
    {
      "epoch": 0.30885,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020838693467336686,
      "loss": 2.1761,
      "step": 61770
    },
    {
      "epoch": 0.3089,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002083718592964824,
      "loss": 2.1573,
      "step": 61780
    },
    {
      "epoch": 0.30895,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020835678391959798,
      "loss": 2.1862,
      "step": 61790
    },
    {
      "epoch": 0.309,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002083417085427136,
      "loss": 2.1442,
      "step": 61800
    },
    {
      "epoch": 0.30905,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020832663316582914,
      "loss": 2.176,
      "step": 61810
    },
    {
      "epoch": 0.3091,
      "grad_norm": 0.53125,
      "learning_rate": 0.002083115577889447,
      "loss": 2.1572,
      "step": 61820
    },
    {
      "epoch": 0.30915,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002082964824120603,
      "loss": 2.1572,
      "step": 61830
    },
    {
      "epoch": 0.3092,
      "grad_norm": 0.53125,
      "learning_rate": 0.002082814070351759,
      "loss": 2.1669,
      "step": 61840
    },
    {
      "epoch": 0.30925,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020826633165829146,
      "loss": 2.1295,
      "step": 61850
    },
    {
      "epoch": 0.3093,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020825125628140704,
      "loss": 2.14,
      "step": 61860
    },
    {
      "epoch": 0.30935,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020823618090452262,
      "loss": 2.1663,
      "step": 61870
    },
    {
      "epoch": 0.3094,
      "grad_norm": 0.515625,
      "learning_rate": 0.002082211055276382,
      "loss": 2.2323,
      "step": 61880
    },
    {
      "epoch": 0.30945,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002082060301507538,
      "loss": 2.124,
      "step": 61890
    },
    {
      "epoch": 0.3095,
      "grad_norm": 0.48828125,
      "learning_rate": 0.0020819095477386937,
      "loss": 2.1962,
      "step": 61900
    },
    {
      "epoch": 0.30955,
      "grad_norm": 0.546875,
      "learning_rate": 0.002081758793969849,
      "loss": 2.1518,
      "step": 61910
    },
    {
      "epoch": 0.3096,
      "grad_norm": 0.66796875,
      "learning_rate": 0.002081608040201005,
      "loss": 2.1996,
      "step": 61920
    },
    {
      "epoch": 0.30965,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002081457286432161,
      "loss": 2.0827,
      "step": 61930
    },
    {
      "epoch": 0.3097,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020813065326633164,
      "loss": 2.1485,
      "step": 61940
    },
    {
      "epoch": 0.30975,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020811557788944723,
      "loss": 2.1192,
      "step": 61950
    },
    {
      "epoch": 0.3098,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0020810050251256285,
      "loss": 2.1496,
      "step": 61960
    },
    {
      "epoch": 0.30985,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002080854271356784,
      "loss": 2.1257,
      "step": 61970
    },
    {
      "epoch": 0.3099,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020807035175879397,
      "loss": 2.121,
      "step": 61980
    },
    {
      "epoch": 0.30995,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020805527638190955,
      "loss": 2.142,
      "step": 61990
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020804020100502513,
      "loss": 2.1418,
      "step": 62000
    },
    {
      "epoch": 0.31,
      "eval_loss": 2.1404895782470703,
      "eval_runtime": 49.2484,
      "eval_samples_per_second": 50.763,
      "eval_steps_per_second": 0.102,
      "step": 62000
    },
    {
      "epoch": 0.31005,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002080251256281407,
      "loss": 2.25,
      "step": 62010
    },
    {
      "epoch": 0.3101,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002080100502512563,
      "loss": 2.1361,
      "step": 62020
    },
    {
      "epoch": 0.31015,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0020799497487437187,
      "loss": 2.1328,
      "step": 62030
    },
    {
      "epoch": 0.3102,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0020797989949748745,
      "loss": 2.1495,
      "step": 62040
    },
    {
      "epoch": 0.31025,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020796482412060303,
      "loss": 2.1587,
      "step": 62050
    },
    {
      "epoch": 0.3103,
      "grad_norm": 0.578125,
      "learning_rate": 0.002079497487437186,
      "loss": 2.1155,
      "step": 62060
    },
    {
      "epoch": 0.31035,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020793467336683415,
      "loss": 2.1399,
      "step": 62070
    },
    {
      "epoch": 0.3104,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020791959798994973,
      "loss": 2.1603,
      "step": 62080
    },
    {
      "epoch": 0.31045,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020790452261306536,
      "loss": 2.1195,
      "step": 62090
    },
    {
      "epoch": 0.3105,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002078894472361809,
      "loss": 2.1875,
      "step": 62100
    },
    {
      "epoch": 0.31055,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020787437185929647,
      "loss": 2.1719,
      "step": 62110
    },
    {
      "epoch": 0.3106,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020785929648241205,
      "loss": 2.1924,
      "step": 62120
    },
    {
      "epoch": 0.31065,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0020784422110552763,
      "loss": 2.0891,
      "step": 62130
    },
    {
      "epoch": 0.3107,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002078291457286432,
      "loss": 2.2638,
      "step": 62140
    },
    {
      "epoch": 0.31075,
      "grad_norm": 0.515625,
      "learning_rate": 0.002078140703517588,
      "loss": 2.1289,
      "step": 62150
    },
    {
      "epoch": 0.3108,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020779899497487438,
      "loss": 2.1754,
      "step": 62160
    },
    {
      "epoch": 0.31085,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020778391959798996,
      "loss": 2.1044,
      "step": 62170
    },
    {
      "epoch": 0.3109,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020776884422110554,
      "loss": 2.2076,
      "step": 62180
    },
    {
      "epoch": 0.31095,
      "grad_norm": 0.5625,
      "learning_rate": 0.002077537688442211,
      "loss": 2.1873,
      "step": 62190
    },
    {
      "epoch": 0.311,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002077386934673367,
      "loss": 2.1843,
      "step": 62200
    },
    {
      "epoch": 0.31105,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002077236180904523,
      "loss": 2.1483,
      "step": 62210
    },
    {
      "epoch": 0.3111,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020770854271356786,
      "loss": 2.1916,
      "step": 62220
    },
    {
      "epoch": 0.31115,
      "grad_norm": 0.578125,
      "learning_rate": 0.002076934673366834,
      "loss": 2.1611,
      "step": 62230
    },
    {
      "epoch": 0.3112,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00207678391959799,
      "loss": 2.1812,
      "step": 62240
    },
    {
      "epoch": 0.31125,
      "grad_norm": 0.546875,
      "learning_rate": 0.002076633165829146,
      "loss": 2.2151,
      "step": 62250
    },
    {
      "epoch": 0.3113,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020764824120603014,
      "loss": 2.1509,
      "step": 62260
    },
    {
      "epoch": 0.31135,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002076331658291457,
      "loss": 2.1652,
      "step": 62270
    },
    {
      "epoch": 0.3114,
      "grad_norm": 0.546875,
      "learning_rate": 0.002076180904522613,
      "loss": 2.1367,
      "step": 62280
    },
    {
      "epoch": 0.31145,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002076030150753769,
      "loss": 2.1953,
      "step": 62290
    },
    {
      "epoch": 0.3115,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020758793969849246,
      "loss": 2.1147,
      "step": 62300
    },
    {
      "epoch": 0.31155,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020757286432160804,
      "loss": 2.1637,
      "step": 62310
    },
    {
      "epoch": 0.3116,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020755778894472362,
      "loss": 2.1441,
      "step": 62320
    },
    {
      "epoch": 0.31165,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002075427135678392,
      "loss": 2.1202,
      "step": 62330
    },
    {
      "epoch": 0.3117,
      "grad_norm": 0.5625,
      "learning_rate": 0.002075276381909548,
      "loss": 2.1444,
      "step": 62340
    },
    {
      "epoch": 0.31175,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020751256281407037,
      "loss": 2.123,
      "step": 62350
    },
    {
      "epoch": 0.3118,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020749748743718595,
      "loss": 2.201,
      "step": 62360
    },
    {
      "epoch": 0.31185,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002074824120603015,
      "loss": 2.1759,
      "step": 62370
    },
    {
      "epoch": 0.3119,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002074673366834171,
      "loss": 2.1549,
      "step": 62380
    },
    {
      "epoch": 0.31195,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0020745226130653265,
      "loss": 2.1261,
      "step": 62390
    },
    {
      "epoch": 0.312,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020743718592964823,
      "loss": 2.1732,
      "step": 62400
    },
    {
      "epoch": 0.31205,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020742211055276385,
      "loss": 2.1177,
      "step": 62410
    },
    {
      "epoch": 0.3121,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002074070351758794,
      "loss": 2.1999,
      "step": 62420
    },
    {
      "epoch": 0.31215,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020739195979899497,
      "loss": 2.1032,
      "step": 62430
    },
    {
      "epoch": 0.3122,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020737688442211055,
      "loss": 2.1727,
      "step": 62440
    },
    {
      "epoch": 0.31225,
      "grad_norm": 0.5,
      "learning_rate": 0.0020736180904522613,
      "loss": 2.1249,
      "step": 62450
    },
    {
      "epoch": 0.3123,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002073467336683417,
      "loss": 2.1405,
      "step": 62460
    },
    {
      "epoch": 0.31235,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002073316582914573,
      "loss": 2.1616,
      "step": 62470
    },
    {
      "epoch": 0.3124,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020731658291457287,
      "loss": 2.1349,
      "step": 62480
    },
    {
      "epoch": 0.31245,
      "grad_norm": 0.625,
      "learning_rate": 0.0020730150753768845,
      "loss": 2.1826,
      "step": 62490
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020728643216080403,
      "loss": 2.1476,
      "step": 62500
    },
    {
      "epoch": 0.31255,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002072713567839196,
      "loss": 2.137,
      "step": 62510
    },
    {
      "epoch": 0.3126,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002072562814070352,
      "loss": 2.1183,
      "step": 62520
    },
    {
      "epoch": 0.31265,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020724120603015073,
      "loss": 2.2087,
      "step": 62530
    },
    {
      "epoch": 0.3127,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020722613065326636,
      "loss": 2.1177,
      "step": 62540
    },
    {
      "epoch": 0.31275,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002072110552763819,
      "loss": 2.1191,
      "step": 62550
    },
    {
      "epoch": 0.3128,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020719597989949747,
      "loss": 2.1751,
      "step": 62560
    },
    {
      "epoch": 0.31285,
      "grad_norm": 0.78515625,
      "learning_rate": 0.002071809045226131,
      "loss": 2.1727,
      "step": 62570
    },
    {
      "epoch": 0.3129,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020716582914572864,
      "loss": 2.1498,
      "step": 62580
    },
    {
      "epoch": 0.31295,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002071507537688442,
      "loss": 2.1371,
      "step": 62590
    },
    {
      "epoch": 0.313,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002071356783919598,
      "loss": 2.1692,
      "step": 62600
    },
    {
      "epoch": 0.31305,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0020712060301507538,
      "loss": 2.1145,
      "step": 62610
    },
    {
      "epoch": 0.3131,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020710552763819096,
      "loss": 2.1147,
      "step": 62620
    },
    {
      "epoch": 0.31315,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020709045226130654,
      "loss": 2.1397,
      "step": 62630
    },
    {
      "epoch": 0.3132,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002070753768844221,
      "loss": 2.1968,
      "step": 62640
    },
    {
      "epoch": 0.31325,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002070603015075377,
      "loss": 2.1747,
      "step": 62650
    },
    {
      "epoch": 0.3133,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002070452261306533,
      "loss": 2.1715,
      "step": 62660
    },
    {
      "epoch": 0.31335,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020703015075376886,
      "loss": 2.1227,
      "step": 62670
    },
    {
      "epoch": 0.3134,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020701507537688444,
      "loss": 2.1575,
      "step": 62680
    },
    {
      "epoch": 0.31345,
      "grad_norm": 0.609375,
      "learning_rate": 0.00207,
      "loss": 2.1488,
      "step": 62690
    },
    {
      "epoch": 0.3135,
      "grad_norm": 0.546875,
      "learning_rate": 0.002069849246231156,
      "loss": 2.1569,
      "step": 62700
    },
    {
      "epoch": 0.31355,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020696984924623114,
      "loss": 2.1051,
      "step": 62710
    },
    {
      "epoch": 0.3136,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002069547738693467,
      "loss": 2.1749,
      "step": 62720
    },
    {
      "epoch": 0.31365,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020693969849246235,
      "loss": 2.1644,
      "step": 62730
    },
    {
      "epoch": 0.3137,
      "grad_norm": 0.609375,
      "learning_rate": 0.002069246231155779,
      "loss": 2.153,
      "step": 62740
    },
    {
      "epoch": 0.31375,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020690954773869346,
      "loss": 2.1535,
      "step": 62750
    },
    {
      "epoch": 0.3138,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020689447236180904,
      "loss": 2.1901,
      "step": 62760
    },
    {
      "epoch": 0.31385,
      "grad_norm": 0.5,
      "learning_rate": 0.0020687939698492462,
      "loss": 2.1627,
      "step": 62770
    },
    {
      "epoch": 0.3139,
      "grad_norm": 0.625,
      "learning_rate": 0.002068643216080402,
      "loss": 2.1604,
      "step": 62780
    },
    {
      "epoch": 0.31395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.002068492462311558,
      "loss": 2.1429,
      "step": 62790
    },
    {
      "epoch": 0.314,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020683417085427137,
      "loss": 2.1605,
      "step": 62800
    },
    {
      "epoch": 0.31405,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0020681909547738695,
      "loss": 2.1511,
      "step": 62810
    },
    {
      "epoch": 0.3141,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020680402010050253,
      "loss": 2.1595,
      "step": 62820
    },
    {
      "epoch": 0.31415,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002067889447236181,
      "loss": 2.1741,
      "step": 62830
    },
    {
      "epoch": 0.3142,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020677386934673365,
      "loss": 2.1285,
      "step": 62840
    },
    {
      "epoch": 0.31425,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020675879396984923,
      "loss": 2.2162,
      "step": 62850
    },
    {
      "epoch": 0.3143,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020674371859296485,
      "loss": 2.1047,
      "step": 62860
    },
    {
      "epoch": 0.31435,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002067286432160804,
      "loss": 2.1024,
      "step": 62870
    },
    {
      "epoch": 0.3144,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0020671356783919597,
      "loss": 2.1197,
      "step": 62880
    },
    {
      "epoch": 0.31445,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002066984924623116,
      "loss": 2.1234,
      "step": 62890
    },
    {
      "epoch": 0.3145,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0020668341708542713,
      "loss": 2.1407,
      "step": 62900
    },
    {
      "epoch": 0.31455,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002066683417085427,
      "loss": 2.1552,
      "step": 62910
    },
    {
      "epoch": 0.3146,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002066532663316583,
      "loss": 2.1702,
      "step": 62920
    },
    {
      "epoch": 0.31465,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020663819095477387,
      "loss": 2.1593,
      "step": 62930
    },
    {
      "epoch": 0.3147,
      "grad_norm": 0.5,
      "learning_rate": 0.0020662311557788945,
      "loss": 2.1261,
      "step": 62940
    },
    {
      "epoch": 0.31475,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020660804020100503,
      "loss": 2.1675,
      "step": 62950
    },
    {
      "epoch": 0.3148,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002065929648241206,
      "loss": 2.159,
      "step": 62960
    },
    {
      "epoch": 0.31485,
      "grad_norm": 0.625,
      "learning_rate": 0.002065778894472362,
      "loss": 2.155,
      "step": 62970
    },
    {
      "epoch": 0.3149,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020656281407035178,
      "loss": 2.2072,
      "step": 62980
    },
    {
      "epoch": 0.31495,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020654773869346736,
      "loss": 2.1199,
      "step": 62990
    },
    {
      "epoch": 0.315,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002065326633165829,
      "loss": 2.186,
      "step": 63000
    },
    {
      "epoch": 0.31505,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020651758793969847,
      "loss": 2.0919,
      "step": 63010
    },
    {
      "epoch": 0.3151,
      "grad_norm": 0.546875,
      "learning_rate": 0.002065025125628141,
      "loss": 2.1809,
      "step": 63020
    },
    {
      "epoch": 0.31515,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020648743718592964,
      "loss": 2.1854,
      "step": 63030
    },
    {
      "epoch": 0.3152,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002064723618090452,
      "loss": 2.1991,
      "step": 63040
    },
    {
      "epoch": 0.31525,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002064572864321608,
      "loss": 2.168,
      "step": 63050
    },
    {
      "epoch": 0.3153,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020644221105527638,
      "loss": 2.1556,
      "step": 63060
    },
    {
      "epoch": 0.31535,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020642713567839196,
      "loss": 2.119,
      "step": 63070
    },
    {
      "epoch": 0.3154,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020641206030150754,
      "loss": 2.179,
      "step": 63080
    },
    {
      "epoch": 0.31545,
      "grad_norm": 0.546875,
      "learning_rate": 0.002063969849246231,
      "loss": 2.1765,
      "step": 63090
    },
    {
      "epoch": 0.3155,
      "grad_norm": 0.578125,
      "learning_rate": 0.002063819095477387,
      "loss": 2.1123,
      "step": 63100
    },
    {
      "epoch": 0.31555,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002063668341708543,
      "loss": 2.1152,
      "step": 63110
    },
    {
      "epoch": 0.3156,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020635175879396986,
      "loss": 2.1661,
      "step": 63120
    },
    {
      "epoch": 0.31565,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020633668341708544,
      "loss": 2.1594,
      "step": 63130
    },
    {
      "epoch": 0.3157,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020632160804020102,
      "loss": 2.0962,
      "step": 63140
    },
    {
      "epoch": 0.31575,
      "grad_norm": 0.6015625,
      "learning_rate": 0.002063065326633166,
      "loss": 2.1565,
      "step": 63150
    },
    {
      "epoch": 0.3158,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020629145728643214,
      "loss": 2.1619,
      "step": 63160
    },
    {
      "epoch": 0.31585,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020627638190954772,
      "loss": 2.1772,
      "step": 63170
    },
    {
      "epoch": 0.3159,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020626130653266335,
      "loss": 2.157,
      "step": 63180
    },
    {
      "epoch": 0.31595,
      "grad_norm": 0.4921875,
      "learning_rate": 0.002062462311557789,
      "loss": 2.2069,
      "step": 63190
    },
    {
      "epoch": 0.316,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020623115577889446,
      "loss": 2.1114,
      "step": 63200
    },
    {
      "epoch": 0.31605,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0020621608040201004,
      "loss": 2.1239,
      "step": 63210
    },
    {
      "epoch": 0.3161,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0020620100502512563,
      "loss": 2.1289,
      "step": 63220
    },
    {
      "epoch": 0.31615,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002061859296482412,
      "loss": 2.1801,
      "step": 63230
    },
    {
      "epoch": 0.3162,
      "grad_norm": 0.5625,
      "learning_rate": 0.002061708542713568,
      "loss": 2.1342,
      "step": 63240
    },
    {
      "epoch": 0.31625,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020615577889447237,
      "loss": 2.1378,
      "step": 63250
    },
    {
      "epoch": 0.3163,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020614070351758795,
      "loss": 2.1368,
      "step": 63260
    },
    {
      "epoch": 0.31635,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020612562814070353,
      "loss": 2.1264,
      "step": 63270
    },
    {
      "epoch": 0.3164,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002061105527638191,
      "loss": 2.1455,
      "step": 63280
    },
    {
      "epoch": 0.31645,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002060954773869347,
      "loss": 2.1329,
      "step": 63290
    },
    {
      "epoch": 0.3165,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020608040201005027,
      "loss": 2.1955,
      "step": 63300
    },
    {
      "epoch": 0.31655,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0020606532663316585,
      "loss": 2.1675,
      "step": 63310
    },
    {
      "epoch": 0.3166,
      "grad_norm": 0.515625,
      "learning_rate": 0.002060502512562814,
      "loss": 2.1398,
      "step": 63320
    },
    {
      "epoch": 0.31665,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0020603517587939697,
      "loss": 2.1278,
      "step": 63330
    },
    {
      "epoch": 0.3167,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002060201005025126,
      "loss": 2.1914,
      "step": 63340
    },
    {
      "epoch": 0.31675,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0020600502512562813,
      "loss": 2.1084,
      "step": 63350
    },
    {
      "epoch": 0.3168,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002059899497487437,
      "loss": 2.1875,
      "step": 63360
    },
    {
      "epoch": 0.31685,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002059748743718593,
      "loss": 2.1375,
      "step": 63370
    },
    {
      "epoch": 0.3169,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020595979899497487,
      "loss": 2.2171,
      "step": 63380
    },
    {
      "epoch": 0.31695,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020594472361809045,
      "loss": 2.1333,
      "step": 63390
    },
    {
      "epoch": 0.317,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020592964824120603,
      "loss": 2.2018,
      "step": 63400
    },
    {
      "epoch": 0.31705,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002059145728643216,
      "loss": 2.127,
      "step": 63410
    },
    {
      "epoch": 0.3171,
      "grad_norm": 0.58984375,
      "learning_rate": 0.002058994974874372,
      "loss": 2.1909,
      "step": 63420
    },
    {
      "epoch": 0.31715,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020588442211055278,
      "loss": 2.1393,
      "step": 63430
    },
    {
      "epoch": 0.3172,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020586934673366836,
      "loss": 2.2515,
      "step": 63440
    },
    {
      "epoch": 0.31725,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020585427135678394,
      "loss": 2.1559,
      "step": 63450
    },
    {
      "epoch": 0.3173,
      "grad_norm": 0.6171875,
      "learning_rate": 0.002058391959798995,
      "loss": 2.1327,
      "step": 63460
    },
    {
      "epoch": 0.31735,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002058241206030151,
      "loss": 2.1593,
      "step": 63470
    },
    {
      "epoch": 0.3174,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020580904522613064,
      "loss": 2.1832,
      "step": 63480
    },
    {
      "epoch": 0.31745,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002057939698492462,
      "loss": 2.1723,
      "step": 63490
    },
    {
      "epoch": 0.3175,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020577889447236184,
      "loss": 2.1353,
      "step": 63500
    },
    {
      "epoch": 0.31755,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002057638190954774,
      "loss": 2.2127,
      "step": 63510
    },
    {
      "epoch": 0.3176,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0020574874371859296,
      "loss": 2.1572,
      "step": 63520
    },
    {
      "epoch": 0.31765,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020573366834170854,
      "loss": 2.1474,
      "step": 63530
    },
    {
      "epoch": 0.3177,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002057185929648241,
      "loss": 2.1722,
      "step": 63540
    },
    {
      "epoch": 0.31775,
      "grad_norm": 0.546875,
      "learning_rate": 0.002057035175879397,
      "loss": 2.1953,
      "step": 63550
    },
    {
      "epoch": 0.3178,
      "grad_norm": 0.65234375,
      "learning_rate": 0.002056884422110553,
      "loss": 2.1342,
      "step": 63560
    },
    {
      "epoch": 0.31785,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020567336683417086,
      "loss": 2.1758,
      "step": 63570
    },
    {
      "epoch": 0.3179,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020565829145728644,
      "loss": 2.1168,
      "step": 63580
    },
    {
      "epoch": 0.31795,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020564321608040202,
      "loss": 2.1056,
      "step": 63590
    },
    {
      "epoch": 0.318,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002056281407035176,
      "loss": 2.1458,
      "step": 63600
    },
    {
      "epoch": 0.31805,
      "grad_norm": 0.69921875,
      "learning_rate": 0.002056130653266332,
      "loss": 2.1719,
      "step": 63610
    },
    {
      "epoch": 0.3181,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020559798994974872,
      "loss": 2.1717,
      "step": 63620
    },
    {
      "epoch": 0.31815,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020558291457286435,
      "loss": 2.1973,
      "step": 63630
    },
    {
      "epoch": 0.3182,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002055678391959799,
      "loss": 2.1319,
      "step": 63640
    },
    {
      "epoch": 0.31825,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0020555276381909546,
      "loss": 2.2098,
      "step": 63650
    },
    {
      "epoch": 0.3183,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002055376884422111,
      "loss": 2.1129,
      "step": 63660
    },
    {
      "epoch": 0.31835,
      "grad_norm": 0.478515625,
      "learning_rate": 0.0020552261306532663,
      "loss": 2.1835,
      "step": 63670
    },
    {
      "epoch": 0.3184,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002055075376884422,
      "loss": 2.2092,
      "step": 63680
    },
    {
      "epoch": 0.31845,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002054924623115578,
      "loss": 2.1027,
      "step": 63690
    },
    {
      "epoch": 0.3185,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0020547738693467337,
      "loss": 2.1388,
      "step": 63700
    },
    {
      "epoch": 0.31855,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020546231155778895,
      "loss": 2.1666,
      "step": 63710
    },
    {
      "epoch": 0.3186,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020544723618090453,
      "loss": 2.1362,
      "step": 63720
    },
    {
      "epoch": 0.31865,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002054321608040201,
      "loss": 2.1993,
      "step": 63730
    },
    {
      "epoch": 0.3187,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002054170854271357,
      "loss": 2.1272,
      "step": 63740
    },
    {
      "epoch": 0.31875,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020540201005025127,
      "loss": 2.1492,
      "step": 63750
    },
    {
      "epoch": 0.3188,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020538693467336685,
      "loss": 2.1991,
      "step": 63760
    },
    {
      "epoch": 0.31885,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002053718592964824,
      "loss": 2.1107,
      "step": 63770
    },
    {
      "epoch": 0.3189,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020535678391959797,
      "loss": 2.1693,
      "step": 63780
    },
    {
      "epoch": 0.31895,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002053417085427136,
      "loss": 2.1375,
      "step": 63790
    },
    {
      "epoch": 0.319,
      "grad_norm": 0.474609375,
      "learning_rate": 0.0020532663316582913,
      "loss": 2.1968,
      "step": 63800
    },
    {
      "epoch": 0.31905,
      "grad_norm": 0.578125,
      "learning_rate": 0.002053115577889447,
      "loss": 2.1705,
      "step": 63810
    },
    {
      "epoch": 0.3191,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020529648241206034,
      "loss": 2.1873,
      "step": 63820
    },
    {
      "epoch": 0.31915,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020528140703517587,
      "loss": 2.1195,
      "step": 63830
    },
    {
      "epoch": 0.3192,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020526633165829145,
      "loss": 2.2066,
      "step": 63840
    },
    {
      "epoch": 0.31925,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0020525125628140703,
      "loss": 2.1249,
      "step": 63850
    },
    {
      "epoch": 0.3193,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002052361809045226,
      "loss": 2.1713,
      "step": 63860
    },
    {
      "epoch": 0.31935,
      "grad_norm": 0.65625,
      "learning_rate": 0.002052211055276382,
      "loss": 2.1058,
      "step": 63870
    },
    {
      "epoch": 0.3194,
      "grad_norm": 0.609375,
      "learning_rate": 0.0020520603015075378,
      "loss": 2.2032,
      "step": 63880
    },
    {
      "epoch": 0.31945,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0020519095477386936,
      "loss": 2.1163,
      "step": 63890
    },
    {
      "epoch": 0.3195,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020517587939698494,
      "loss": 2.2421,
      "step": 63900
    },
    {
      "epoch": 0.31955,
      "grad_norm": 0.58984375,
      "learning_rate": 0.002051608040201005,
      "loss": 2.1228,
      "step": 63910
    },
    {
      "epoch": 0.3196,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002051457286432161,
      "loss": 2.1899,
      "step": 63920
    },
    {
      "epoch": 0.31965,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020513065326633164,
      "loss": 2.1941,
      "step": 63930
    },
    {
      "epoch": 0.3197,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002051155778894472,
      "loss": 2.2005,
      "step": 63940
    },
    {
      "epoch": 0.31975,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020510050251256284,
      "loss": 2.1515,
      "step": 63950
    },
    {
      "epoch": 0.3198,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002050854271356784,
      "loss": 2.1995,
      "step": 63960
    },
    {
      "epoch": 0.31985,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020507035175879396,
      "loss": 2.0824,
      "step": 63970
    },
    {
      "epoch": 0.3199,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020505527638190954,
      "loss": 2.1944,
      "step": 63980
    },
    {
      "epoch": 0.31995,
      "grad_norm": 0.578125,
      "learning_rate": 0.002050402010050251,
      "loss": 2.1743,
      "step": 63990
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.578125,
      "learning_rate": 0.002050251256281407,
      "loss": 2.1687,
      "step": 64000
    },
    {
      "epoch": 0.32,
      "eval_loss": 2.1485908031463623,
      "eval_runtime": 48.3954,
      "eval_samples_per_second": 51.658,
      "eval_steps_per_second": 0.103,
      "step": 64000
    },
    {
      "epoch": 0.32005,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002050100502512563,
      "loss": 2.1293,
      "step": 64010
    },
    {
      "epoch": 0.3201,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020499497487437186,
      "loss": 2.118,
      "step": 64020
    },
    {
      "epoch": 0.32015,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020497989949748744,
      "loss": 2.1903,
      "step": 64030
    },
    {
      "epoch": 0.3202,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020496482412060302,
      "loss": 2.1514,
      "step": 64040
    },
    {
      "epoch": 0.32025,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002049497487437186,
      "loss": 2.2077,
      "step": 64050
    },
    {
      "epoch": 0.3203,
      "grad_norm": 0.5625,
      "learning_rate": 0.002049346733668342,
      "loss": 2.1825,
      "step": 64060
    },
    {
      "epoch": 0.32035,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020491959798994977,
      "loss": 2.1492,
      "step": 64070
    },
    {
      "epoch": 0.3204,
      "grad_norm": 0.5,
      "learning_rate": 0.0020490452261306535,
      "loss": 2.1137,
      "step": 64080
    },
    {
      "epoch": 0.32045,
      "grad_norm": 0.6171875,
      "learning_rate": 0.002048894472361809,
      "loss": 2.1982,
      "step": 64090
    },
    {
      "epoch": 0.3205,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020487437185929647,
      "loss": 2.1349,
      "step": 64100
    },
    {
      "epoch": 0.32055,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002048592964824121,
      "loss": 2.1534,
      "step": 64110
    },
    {
      "epoch": 0.3206,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0020484422110552763,
      "loss": 2.1418,
      "step": 64120
    },
    {
      "epoch": 0.32065,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002048291457286432,
      "loss": 2.1766,
      "step": 64130
    },
    {
      "epoch": 0.3207,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002048140703517588,
      "loss": 2.1099,
      "step": 64140
    },
    {
      "epoch": 0.32075,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020479899497487437,
      "loss": 2.1972,
      "step": 64150
    },
    {
      "epoch": 0.3208,
      "grad_norm": 0.609375,
      "learning_rate": 0.0020478391959798995,
      "loss": 2.1169,
      "step": 64160
    },
    {
      "epoch": 0.32085,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020476884422110553,
      "loss": 2.2032,
      "step": 64170
    },
    {
      "epoch": 0.3209,
      "grad_norm": 0.515625,
      "learning_rate": 0.002047537688442211,
      "loss": 2.1464,
      "step": 64180
    },
    {
      "epoch": 0.32095,
      "grad_norm": 0.5625,
      "learning_rate": 0.002047386934673367,
      "loss": 2.1905,
      "step": 64190
    },
    {
      "epoch": 0.321,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020472361809045227,
      "loss": 2.1149,
      "step": 64200
    },
    {
      "epoch": 0.32105,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0020470854271356785,
      "loss": 2.1878,
      "step": 64210
    },
    {
      "epoch": 0.3211,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020469346733668343,
      "loss": 2.1228,
      "step": 64220
    },
    {
      "epoch": 0.32115,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00204678391959799,
      "loss": 2.153,
      "step": 64230
    },
    {
      "epoch": 0.3212,
      "grad_norm": 0.59765625,
      "learning_rate": 0.002046633165829146,
      "loss": 2.1885,
      "step": 64240
    },
    {
      "epoch": 0.32125,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020464824120603013,
      "loss": 2.1892,
      "step": 64250
    },
    {
      "epoch": 0.3213,
      "grad_norm": 0.625,
      "learning_rate": 0.002046331658291457,
      "loss": 2.1316,
      "step": 64260
    },
    {
      "epoch": 0.32135,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020461809045226134,
      "loss": 2.1941,
      "step": 64270
    },
    {
      "epoch": 0.3214,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020460301507537687,
      "loss": 2.1361,
      "step": 64280
    },
    {
      "epoch": 0.32145,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020458793969849245,
      "loss": 2.1969,
      "step": 64290
    },
    {
      "epoch": 0.3215,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020457286432160804,
      "loss": 2.1138,
      "step": 64300
    },
    {
      "epoch": 0.32155,
      "grad_norm": 0.60546875,
      "learning_rate": 0.002045577889447236,
      "loss": 2.154,
      "step": 64310
    },
    {
      "epoch": 0.3216,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002045427135678392,
      "loss": 2.1357,
      "step": 64320
    },
    {
      "epoch": 0.32165,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0020452763819095478,
      "loss": 2.1651,
      "step": 64330
    },
    {
      "epoch": 0.3217,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020451256281407036,
      "loss": 2.1262,
      "step": 64340
    },
    {
      "epoch": 0.32175,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0020449748743718594,
      "loss": 2.1959,
      "step": 64350
    },
    {
      "epoch": 0.3218,
      "grad_norm": 0.59375,
      "learning_rate": 0.002044824120603015,
      "loss": 2.1029,
      "step": 64360
    },
    {
      "epoch": 0.32185,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002044673366834171,
      "loss": 2.1265,
      "step": 64370
    },
    {
      "epoch": 0.3219,
      "grad_norm": 0.59375,
      "learning_rate": 0.002044522613065327,
      "loss": 2.1608,
      "step": 64380
    },
    {
      "epoch": 0.32195,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020443718592964826,
      "loss": 2.2195,
      "step": 64390
    },
    {
      "epoch": 0.322,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020442211055276384,
      "loss": 2.1858,
      "step": 64400
    },
    {
      "epoch": 0.32205,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002044070351758794,
      "loss": 2.1917,
      "step": 64410
    },
    {
      "epoch": 0.3221,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020439195979899496,
      "loss": 2.1905,
      "step": 64420
    },
    {
      "epoch": 0.32215,
      "grad_norm": 0.5625,
      "learning_rate": 0.002043768844221106,
      "loss": 2.1626,
      "step": 64430
    },
    {
      "epoch": 0.3222,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002043618090452261,
      "loss": 2.1604,
      "step": 64440
    },
    {
      "epoch": 0.32225,
      "grad_norm": 0.609375,
      "learning_rate": 0.002043467336683417,
      "loss": 2.1672,
      "step": 64450
    },
    {
      "epoch": 0.3223,
      "grad_norm": 0.6171875,
      "learning_rate": 0.002043316582914573,
      "loss": 2.1684,
      "step": 64460
    },
    {
      "epoch": 0.32235,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020431658291457286,
      "loss": 2.1727,
      "step": 64470
    },
    {
      "epoch": 0.3224,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020430150753768844,
      "loss": 2.1122,
      "step": 64480
    },
    {
      "epoch": 0.32245,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020428643216080403,
      "loss": 2.1789,
      "step": 64490
    },
    {
      "epoch": 0.3225,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002042713567839196,
      "loss": 2.1126,
      "step": 64500
    },
    {
      "epoch": 0.32255,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002042562814070352,
      "loss": 2.1915,
      "step": 64510
    },
    {
      "epoch": 0.3226,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020424120603015077,
      "loss": 2.1452,
      "step": 64520
    },
    {
      "epoch": 0.32265,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020422613065326635,
      "loss": 2.2031,
      "step": 64530
    },
    {
      "epoch": 0.3227,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0020421105527638193,
      "loss": 2.188,
      "step": 64540
    },
    {
      "epoch": 0.32275,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002041959798994975,
      "loss": 2.1741,
      "step": 64550
    },
    {
      "epoch": 0.3228,
      "grad_norm": 0.640625,
      "learning_rate": 0.002041809045226131,
      "loss": 2.17,
      "step": 64560
    },
    {
      "epoch": 0.32285,
      "grad_norm": 0.49609375,
      "learning_rate": 0.0020416582914572863,
      "loss": 2.1936,
      "step": 64570
    },
    {
      "epoch": 0.3229,
      "grad_norm": 0.58984375,
      "learning_rate": 0.002041507537688442,
      "loss": 2.1266,
      "step": 64580
    },
    {
      "epoch": 0.32295,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0020413567839195983,
      "loss": 2.1743,
      "step": 64590
    },
    {
      "epoch": 0.323,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020412060301507537,
      "loss": 2.1948,
      "step": 64600
    },
    {
      "epoch": 0.32305,
      "grad_norm": 0.5,
      "learning_rate": 0.0020410552763819095,
      "loss": 2.1621,
      "step": 64610
    },
    {
      "epoch": 0.3231,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0020409045226130653,
      "loss": 2.1571,
      "step": 64620
    },
    {
      "epoch": 0.32315,
      "grad_norm": 0.64453125,
      "learning_rate": 0.002040753768844221,
      "loss": 2.1895,
      "step": 64630
    },
    {
      "epoch": 0.3232,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002040603015075377,
      "loss": 2.1278,
      "step": 64640
    },
    {
      "epoch": 0.32325,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020404522613065327,
      "loss": 2.1418,
      "step": 64650
    },
    {
      "epoch": 0.3233,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0020403015075376885,
      "loss": 2.1108,
      "step": 64660
    },
    {
      "epoch": 0.32335,
      "grad_norm": 0.482421875,
      "learning_rate": 0.0020401507537688443,
      "loss": 2.1293,
      "step": 64670
    },
    {
      "epoch": 0.3234,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00204,
      "loss": 2.1281,
      "step": 64680
    },
    {
      "epoch": 0.32345,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002039849246231156,
      "loss": 2.175,
      "step": 64690
    },
    {
      "epoch": 0.3235,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020396984924623113,
      "loss": 2.1822,
      "step": 64700
    },
    {
      "epoch": 0.32355,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002039547738693467,
      "loss": 2.1693,
      "step": 64710
    },
    {
      "epoch": 0.3236,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020393969849246234,
      "loss": 2.1285,
      "step": 64720
    },
    {
      "epoch": 0.32365,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0020392462311557787,
      "loss": 2.1326,
      "step": 64730
    },
    {
      "epoch": 0.3237,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020390954773869346,
      "loss": 2.1337,
      "step": 64740
    },
    {
      "epoch": 0.32375,
      "grad_norm": 0.59375,
      "learning_rate": 0.002038944723618091,
      "loss": 2.1335,
      "step": 64750
    },
    {
      "epoch": 0.3238,
      "grad_norm": 0.5625,
      "learning_rate": 0.002038793969849246,
      "loss": 2.1499,
      "step": 64760
    },
    {
      "epoch": 0.32385,
      "grad_norm": 0.59375,
      "learning_rate": 0.002038643216080402,
      "loss": 2.1467,
      "step": 64770
    },
    {
      "epoch": 0.3239,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020384924623115578,
      "loss": 2.1245,
      "step": 64780
    },
    {
      "epoch": 0.32395,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020383417085427136,
      "loss": 2.1439,
      "step": 64790
    },
    {
      "epoch": 0.324,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0020381909547738694,
      "loss": 2.1742,
      "step": 64800
    },
    {
      "epoch": 0.32405,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002038040201005025,
      "loss": 2.1295,
      "step": 64810
    },
    {
      "epoch": 0.3241,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002037889447236181,
      "loss": 2.1594,
      "step": 64820
    },
    {
      "epoch": 0.32415,
      "grad_norm": 0.515625,
      "learning_rate": 0.002037738693467337,
      "loss": 2.1158,
      "step": 64830
    },
    {
      "epoch": 0.3242,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020375879396984926,
      "loss": 2.1781,
      "step": 64840
    },
    {
      "epoch": 0.32425,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020374371859296484,
      "loss": 2.1743,
      "step": 64850
    },
    {
      "epoch": 0.3243,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002037286432160804,
      "loss": 2.1632,
      "step": 64860
    },
    {
      "epoch": 0.32435,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0020371356783919596,
      "loss": 2.1823,
      "step": 64870
    },
    {
      "epoch": 0.3244,
      "grad_norm": 0.640625,
      "learning_rate": 0.002036984924623116,
      "loss": 2.202,
      "step": 64880
    },
    {
      "epoch": 0.32445,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020368341708542712,
      "loss": 2.154,
      "step": 64890
    },
    {
      "epoch": 0.3245,
      "grad_norm": 0.51171875,
      "learning_rate": 0.002036683417085427,
      "loss": 2.1619,
      "step": 64900
    },
    {
      "epoch": 0.32455,
      "grad_norm": 0.63671875,
      "learning_rate": 0.002036532663316583,
      "loss": 2.1344,
      "step": 64910
    },
    {
      "epoch": 0.3246,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0020363819095477386,
      "loss": 2.1437,
      "step": 64920
    },
    {
      "epoch": 0.32465,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020362311557788944,
      "loss": 2.138,
      "step": 64930
    },
    {
      "epoch": 0.3247,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0020360804020100503,
      "loss": 2.1888,
      "step": 64940
    },
    {
      "epoch": 0.32475,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002035929648241206,
      "loss": 2.1627,
      "step": 64950
    },
    {
      "epoch": 0.3248,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002035778894472362,
      "loss": 2.1516,
      "step": 64960
    },
    {
      "epoch": 0.32485,
      "grad_norm": 0.609375,
      "learning_rate": 0.0020356281407035177,
      "loss": 2.093,
      "step": 64970
    },
    {
      "epoch": 0.3249,
      "grad_norm": 0.5,
      "learning_rate": 0.0020354773869346735,
      "loss": 2.1793,
      "step": 64980
    },
    {
      "epoch": 0.32495,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020353266331658293,
      "loss": 2.1489,
      "step": 64990
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002035175879396985,
      "loss": 2.1342,
      "step": 65000
    },
    {
      "epoch": 0.32505,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002035025125628141,
      "loss": 2.1512,
      "step": 65010
    },
    {
      "epoch": 0.3251,
      "grad_norm": 0.490234375,
      "learning_rate": 0.0020348743718592963,
      "loss": 2.1634,
      "step": 65020
    },
    {
      "epoch": 0.32515,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002034723618090452,
      "loss": 2.1488,
      "step": 65030
    },
    {
      "epoch": 0.3252,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020345728643216083,
      "loss": 2.1644,
      "step": 65040
    },
    {
      "epoch": 0.32525,
      "grad_norm": 0.609375,
      "learning_rate": 0.0020344221105527637,
      "loss": 2.1693,
      "step": 65050
    },
    {
      "epoch": 0.3253,
      "grad_norm": 0.5,
      "learning_rate": 0.0020342713567839195,
      "loss": 2.1986,
      "step": 65060
    },
    {
      "epoch": 0.32535,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020341206030150753,
      "loss": 2.2083,
      "step": 65070
    },
    {
      "epoch": 0.3254,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002033969849246231,
      "loss": 2.1491,
      "step": 65080
    },
    {
      "epoch": 0.32545,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002033819095477387,
      "loss": 2.2111,
      "step": 65090
    },
    {
      "epoch": 0.3255,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020336683417085427,
      "loss": 2.158,
      "step": 65100
    },
    {
      "epoch": 0.32555,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0020335175879396985,
      "loss": 2.1503,
      "step": 65110
    },
    {
      "epoch": 0.3256,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0020333668341708543,
      "loss": 2.1862,
      "step": 65120
    },
    {
      "epoch": 0.32565,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00203321608040201,
      "loss": 2.1432,
      "step": 65130
    },
    {
      "epoch": 0.3257,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002033065326633166,
      "loss": 2.1065,
      "step": 65140
    },
    {
      "epoch": 0.32575,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020329145728643218,
      "loss": 2.1365,
      "step": 65150
    },
    {
      "epoch": 0.3258,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0020327638190954776,
      "loss": 2.1292,
      "step": 65160
    },
    {
      "epoch": 0.32585,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020326130653266334,
      "loss": 2.2103,
      "step": 65170
    },
    {
      "epoch": 0.3259,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020324623115577888,
      "loss": 2.1925,
      "step": 65180
    },
    {
      "epoch": 0.32595,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020323115577889446,
      "loss": 2.1622,
      "step": 65190
    },
    {
      "epoch": 0.326,
      "grad_norm": 0.494140625,
      "learning_rate": 0.002032160804020101,
      "loss": 2.1673,
      "step": 65200
    },
    {
      "epoch": 0.32605,
      "grad_norm": 0.515625,
      "learning_rate": 0.002032010050251256,
      "loss": 2.1688,
      "step": 65210
    },
    {
      "epoch": 0.3261,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002031859296482412,
      "loss": 2.1334,
      "step": 65220
    },
    {
      "epoch": 0.32615,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002031708542713568,
      "loss": 2.1648,
      "step": 65230
    },
    {
      "epoch": 0.3262,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0020315577889447236,
      "loss": 2.1352,
      "step": 65240
    },
    {
      "epoch": 0.32625,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020314070351758794,
      "loss": 2.1412,
      "step": 65250
    },
    {
      "epoch": 0.3263,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002031256281407035,
      "loss": 2.1647,
      "step": 65260
    },
    {
      "epoch": 0.32635,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002031105527638191,
      "loss": 2.1734,
      "step": 65270
    },
    {
      "epoch": 0.3264,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002030954773869347,
      "loss": 2.1626,
      "step": 65280
    },
    {
      "epoch": 0.32645,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020308040201005026,
      "loss": 2.1684,
      "step": 65290
    },
    {
      "epoch": 0.3265,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020306532663316584,
      "loss": 2.1966,
      "step": 65300
    },
    {
      "epoch": 0.32655,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020305025125628142,
      "loss": 2.0818,
      "step": 65310
    },
    {
      "epoch": 0.3266,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00203035175879397,
      "loss": 2.1682,
      "step": 65320
    },
    {
      "epoch": 0.32665,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002030201005025126,
      "loss": 2.1709,
      "step": 65330
    },
    {
      "epoch": 0.3267,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0020300502512562812,
      "loss": 2.1591,
      "step": 65340
    },
    {
      "epoch": 0.32675,
      "grad_norm": 0.6015625,
      "learning_rate": 0.002029899497487437,
      "loss": 2.1235,
      "step": 65350
    },
    {
      "epoch": 0.3268,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020297487437185933,
      "loss": 2.1802,
      "step": 65360
    },
    {
      "epoch": 0.32685,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020295979899497486,
      "loss": 2.1355,
      "step": 65370
    },
    {
      "epoch": 0.3269,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020294472361809045,
      "loss": 2.1872,
      "step": 65380
    },
    {
      "epoch": 0.32695,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020292964824120603,
      "loss": 2.182,
      "step": 65390
    },
    {
      "epoch": 0.327,
      "grad_norm": 0.5625,
      "learning_rate": 0.002029145728643216,
      "loss": 2.1651,
      "step": 65400
    },
    {
      "epoch": 0.32705,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002028994974874372,
      "loss": 2.107,
      "step": 65410
    },
    {
      "epoch": 0.3271,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020288442211055277,
      "loss": 2.1814,
      "step": 65420
    },
    {
      "epoch": 0.32715,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020286934673366835,
      "loss": 2.1434,
      "step": 65430
    },
    {
      "epoch": 0.3272,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020285427135678393,
      "loss": 2.0975,
      "step": 65440
    },
    {
      "epoch": 0.32725,
      "grad_norm": 0.62109375,
      "learning_rate": 0.002028391959798995,
      "loss": 2.1658,
      "step": 65450
    },
    {
      "epoch": 0.3273,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002028241206030151,
      "loss": 2.1594,
      "step": 65460
    },
    {
      "epoch": 0.32735,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0020280904522613067,
      "loss": 2.1931,
      "step": 65470
    },
    {
      "epoch": 0.3274,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020279396984924625,
      "loss": 2.1491,
      "step": 65480
    },
    {
      "epoch": 0.32745,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0020277889447236183,
      "loss": 2.141,
      "step": 65490
    },
    {
      "epoch": 0.3275,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020276381909547737,
      "loss": 2.1543,
      "step": 65500
    },
    {
      "epoch": 0.32755,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0020274874371859295,
      "loss": 2.1409,
      "step": 65510
    },
    {
      "epoch": 0.3276,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0020273366834170858,
      "loss": 2.121,
      "step": 65520
    },
    {
      "epoch": 0.32765,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002027185929648241,
      "loss": 2.2189,
      "step": 65530
    },
    {
      "epoch": 0.3277,
      "grad_norm": 0.53125,
      "learning_rate": 0.002027035175879397,
      "loss": 2.155,
      "step": 65540
    },
    {
      "epoch": 0.32775,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020268844221105527,
      "loss": 2.1644,
      "step": 65550
    },
    {
      "epoch": 0.3278,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020267336683417085,
      "loss": 2.1307,
      "step": 65560
    },
    {
      "epoch": 0.32785,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020265829145728644,
      "loss": 2.162,
      "step": 65570
    },
    {
      "epoch": 0.3279,
      "grad_norm": 0.609375,
      "learning_rate": 0.00202643216080402,
      "loss": 2.1936,
      "step": 65580
    },
    {
      "epoch": 0.32795,
      "grad_norm": 0.53125,
      "learning_rate": 0.002026281407035176,
      "loss": 2.2152,
      "step": 65590
    },
    {
      "epoch": 0.328,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020261306532663318,
      "loss": 2.1568,
      "step": 65600
    },
    {
      "epoch": 0.32805,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020259798994974876,
      "loss": 2.1748,
      "step": 65610
    },
    {
      "epoch": 0.3281,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020258291457286434,
      "loss": 2.1573,
      "step": 65620
    },
    {
      "epoch": 0.32815,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020256783919597988,
      "loss": 2.2036,
      "step": 65630
    },
    {
      "epoch": 0.3282,
      "grad_norm": 0.515625,
      "learning_rate": 0.002025527638190955,
      "loss": 2.1444,
      "step": 65640
    },
    {
      "epoch": 0.32825,
      "grad_norm": 0.61328125,
      "learning_rate": 0.002025376884422111,
      "loss": 2.1806,
      "step": 65650
    },
    {
      "epoch": 0.3283,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002025226130653266,
      "loss": 2.1307,
      "step": 65660
    },
    {
      "epoch": 0.32835,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002025075376884422,
      "loss": 2.1908,
      "step": 65670
    },
    {
      "epoch": 0.3284,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020249246231155782,
      "loss": 2.1659,
      "step": 65680
    },
    {
      "epoch": 0.32845,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0020247738693467336,
      "loss": 2.1963,
      "step": 65690
    },
    {
      "epoch": 0.3285,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020246231155778894,
      "loss": 2.1521,
      "step": 65700
    },
    {
      "epoch": 0.32855,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002024472361809045,
      "loss": 2.1467,
      "step": 65710
    },
    {
      "epoch": 0.3286,
      "grad_norm": 0.53125,
      "learning_rate": 0.002024321608040201,
      "loss": 2.1341,
      "step": 65720
    },
    {
      "epoch": 0.32865,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002024170854271357,
      "loss": 2.1725,
      "step": 65730
    },
    {
      "epoch": 0.3287,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020240201005025126,
      "loss": 2.0964,
      "step": 65740
    },
    {
      "epoch": 0.32875,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020238693467336684,
      "loss": 2.189,
      "step": 65750
    },
    {
      "epoch": 0.3288,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020237185929648242,
      "loss": 2.1215,
      "step": 65760
    },
    {
      "epoch": 0.32885,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00202356783919598,
      "loss": 2.2365,
      "step": 65770
    },
    {
      "epoch": 0.3289,
      "grad_norm": 0.62109375,
      "learning_rate": 0.002023417085427136,
      "loss": 2.1362,
      "step": 65780
    },
    {
      "epoch": 0.32895,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0020232663316582912,
      "loss": 2.1918,
      "step": 65790
    },
    {
      "epoch": 0.329,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002023115577889447,
      "loss": 2.0885,
      "step": 65800
    },
    {
      "epoch": 0.32905,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0020229648241206033,
      "loss": 2.1566,
      "step": 65810
    },
    {
      "epoch": 0.3291,
      "grad_norm": 0.609375,
      "learning_rate": 0.0020228140703517587,
      "loss": 2.1339,
      "step": 65820
    },
    {
      "epoch": 0.32915,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020226633165829145,
      "loss": 2.1966,
      "step": 65830
    },
    {
      "epoch": 0.3292,
      "grad_norm": 0.609375,
      "learning_rate": 0.0020225125628140703,
      "loss": 2.1665,
      "step": 65840
    },
    {
      "epoch": 0.32925,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002022361809045226,
      "loss": 2.1753,
      "step": 65850
    },
    {
      "epoch": 0.3293,
      "grad_norm": 0.546875,
      "learning_rate": 0.002022211055276382,
      "loss": 2.1238,
      "step": 65860
    },
    {
      "epoch": 0.32935,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020220603015075377,
      "loss": 2.188,
      "step": 65870
    },
    {
      "epoch": 0.3294,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020219095477386935,
      "loss": 2.1881,
      "step": 65880
    },
    {
      "epoch": 0.32945,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020217587939698493,
      "loss": 2.1461,
      "step": 65890
    },
    {
      "epoch": 0.3295,
      "grad_norm": 0.6015625,
      "learning_rate": 0.002021608040201005,
      "loss": 2.1481,
      "step": 65900
    },
    {
      "epoch": 0.32955,
      "grad_norm": 0.53125,
      "learning_rate": 0.002021457286432161,
      "loss": 2.1501,
      "step": 65910
    },
    {
      "epoch": 0.3296,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020213065326633167,
      "loss": 2.1387,
      "step": 65920
    },
    {
      "epoch": 0.32965,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020211557788944725,
      "loss": 2.1724,
      "step": 65930
    },
    {
      "epoch": 0.3297,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020210050251256283,
      "loss": 2.1499,
      "step": 65940
    },
    {
      "epoch": 0.32975,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020208542713567837,
      "loss": 2.1799,
      "step": 65950
    },
    {
      "epoch": 0.3298,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020207035175879395,
      "loss": 2.1122,
      "step": 65960
    },
    {
      "epoch": 0.32985,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0020205527638190958,
      "loss": 2.2061,
      "step": 65970
    },
    {
      "epoch": 0.3299,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002020402010050251,
      "loss": 2.1401,
      "step": 65980
    },
    {
      "epoch": 0.32995,
      "grad_norm": 0.59375,
      "learning_rate": 0.002020251256281407,
      "loss": 2.1859,
      "step": 65990
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.625,
      "learning_rate": 0.0020201005025125627,
      "loss": 2.1434,
      "step": 66000
    },
    {
      "epoch": 0.33,
      "eval_loss": 2.1385886669158936,
      "eval_runtime": 47.8937,
      "eval_samples_per_second": 52.199,
      "eval_steps_per_second": 0.104,
      "step": 66000
    },
    {
      "epoch": 0.33005,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0020199497487437186,
      "loss": 2.1267,
      "step": 66010
    },
    {
      "epoch": 0.3301,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020197989949748744,
      "loss": 2.1848,
      "step": 66020
    },
    {
      "epoch": 0.33015,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00201964824120603,
      "loss": 2.1381,
      "step": 66030
    },
    {
      "epoch": 0.3302,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002019497487437186,
      "loss": 2.1257,
      "step": 66040
    },
    {
      "epoch": 0.33025,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020193467336683418,
      "loss": 2.1802,
      "step": 66050
    },
    {
      "epoch": 0.3303,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020191959798994976,
      "loss": 2.2084,
      "step": 66060
    },
    {
      "epoch": 0.33035,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020190452261306534,
      "loss": 2.1681,
      "step": 66070
    },
    {
      "epoch": 0.3304,
      "grad_norm": 0.59765625,
      "learning_rate": 0.002018894472361809,
      "loss": 2.1952,
      "step": 66080
    },
    {
      "epoch": 0.33045,
      "grad_norm": 0.6015625,
      "learning_rate": 0.002018743718592965,
      "loss": 2.1623,
      "step": 66090
    },
    {
      "epoch": 0.3305,
      "grad_norm": 0.55859375,
      "learning_rate": 0.002018592964824121,
      "loss": 2.1569,
      "step": 66100
    },
    {
      "epoch": 0.33055,
      "grad_norm": 0.51953125,
      "learning_rate": 0.002018442211055276,
      "loss": 2.1735,
      "step": 66110
    },
    {
      "epoch": 0.3306,
      "grad_norm": 0.5,
      "learning_rate": 0.002018291457286432,
      "loss": 2.1786,
      "step": 66120
    },
    {
      "epoch": 0.33065,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020181407035175882,
      "loss": 2.1193,
      "step": 66130
    },
    {
      "epoch": 0.3307,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020179899497487436,
      "loss": 2.1699,
      "step": 66140
    },
    {
      "epoch": 0.33075,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0020178391959798994,
      "loss": 2.1645,
      "step": 66150
    },
    {
      "epoch": 0.3308,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0020176884422110552,
      "loss": 2.2007,
      "step": 66160
    },
    {
      "epoch": 0.33085,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002017537688442211,
      "loss": 2.131,
      "step": 66170
    },
    {
      "epoch": 0.3309,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002017386934673367,
      "loss": 2.1537,
      "step": 66180
    },
    {
      "epoch": 0.33095,
      "grad_norm": 0.71875,
      "learning_rate": 0.0020172361809045226,
      "loss": 2.1551,
      "step": 66190
    },
    {
      "epoch": 0.331,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020170854271356784,
      "loss": 2.1206,
      "step": 66200
    },
    {
      "epoch": 0.33105,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0020169346733668343,
      "loss": 2.0945,
      "step": 66210
    },
    {
      "epoch": 0.3311,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00201678391959799,
      "loss": 2.1422,
      "step": 66220
    },
    {
      "epoch": 0.33115,
      "grad_norm": 0.5625,
      "learning_rate": 0.002016633165829146,
      "loss": 2.1358,
      "step": 66230
    },
    {
      "epoch": 0.3312,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020164824120603017,
      "loss": 2.1607,
      "step": 66240
    },
    {
      "epoch": 0.33125,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0020163316582914575,
      "loss": 2.1351,
      "step": 66250
    },
    {
      "epoch": 0.3313,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0020161809045226133,
      "loss": 2.1877,
      "step": 66260
    },
    {
      "epoch": 0.33135,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020160301507537687,
      "loss": 2.0911,
      "step": 66270
    },
    {
      "epoch": 0.3314,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020158793969849245,
      "loss": 2.1548,
      "step": 66280
    },
    {
      "epoch": 0.33145,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020157286432160807,
      "loss": 2.1055,
      "step": 66290
    },
    {
      "epoch": 0.3315,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002015577889447236,
      "loss": 2.1442,
      "step": 66300
    },
    {
      "epoch": 0.33155,
      "grad_norm": 0.53125,
      "learning_rate": 0.002015427135678392,
      "loss": 2.0994,
      "step": 66310
    },
    {
      "epoch": 0.3316,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020152763819095477,
      "loss": 2.1912,
      "step": 66320
    },
    {
      "epoch": 0.33165,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020151256281407035,
      "loss": 2.1365,
      "step": 66330
    },
    {
      "epoch": 0.3317,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0020149748743718593,
      "loss": 2.2432,
      "step": 66340
    },
    {
      "epoch": 0.33175,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002014824120603015,
      "loss": 2.1428,
      "step": 66350
    },
    {
      "epoch": 0.3318,
      "grad_norm": 0.58203125,
      "learning_rate": 0.002014673366834171,
      "loss": 2.1993,
      "step": 66360
    },
    {
      "epoch": 0.33185,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020145226130653267,
      "loss": 2.1679,
      "step": 66370
    },
    {
      "epoch": 0.3319,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020143718592964825,
      "loss": 2.1329,
      "step": 66380
    },
    {
      "epoch": 0.33195,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020142211055276383,
      "loss": 2.157,
      "step": 66390
    },
    {
      "epoch": 0.332,
      "grad_norm": 0.5625,
      "learning_rate": 0.002014070351758794,
      "loss": 2.1835,
      "step": 66400
    },
    {
      "epoch": 0.33205,
      "grad_norm": 0.5625,
      "learning_rate": 0.00201391959798995,
      "loss": 2.1753,
      "step": 66410
    },
    {
      "epoch": 0.3321,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020137688442211058,
      "loss": 2.1183,
      "step": 66420
    },
    {
      "epoch": 0.33215,
      "grad_norm": 0.5625,
      "learning_rate": 0.002013618090452261,
      "loss": 2.2089,
      "step": 66430
    },
    {
      "epoch": 0.3322,
      "grad_norm": 0.62890625,
      "learning_rate": 0.002013467336683417,
      "loss": 2.1411,
      "step": 66440
    },
    {
      "epoch": 0.33225,
      "grad_norm": 0.53515625,
      "learning_rate": 0.002013316582914573,
      "loss": 2.1846,
      "step": 66450
    },
    {
      "epoch": 0.3323,
      "grad_norm": 0.671875,
      "learning_rate": 0.0020131658291457286,
      "loss": 2.1618,
      "step": 66460
    },
    {
      "epoch": 0.33235,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0020130150753768844,
      "loss": 2.1432,
      "step": 66470
    },
    {
      "epoch": 0.3324,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00201286432160804,
      "loss": 2.1689,
      "step": 66480
    },
    {
      "epoch": 0.33245,
      "grad_norm": 0.546875,
      "learning_rate": 0.002012713567839196,
      "loss": 2.1403,
      "step": 66490
    },
    {
      "epoch": 0.3325,
      "grad_norm": 0.515625,
      "learning_rate": 0.002012562814070352,
      "loss": 2.1316,
      "step": 66500
    },
    {
      "epoch": 0.33255,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020124120603015076,
      "loss": 2.1887,
      "step": 66510
    },
    {
      "epoch": 0.3326,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0020122613065326634,
      "loss": 2.1497,
      "step": 66520
    },
    {
      "epoch": 0.33265,
      "grad_norm": 0.5625,
      "learning_rate": 0.002012110552763819,
      "loss": 2.1559,
      "step": 66530
    },
    {
      "epoch": 0.3327,
      "grad_norm": 0.62109375,
      "learning_rate": 0.002011959798994975,
      "loss": 2.1578,
      "step": 66540
    },
    {
      "epoch": 0.33275,
      "grad_norm": 0.5859375,
      "learning_rate": 0.002011809045226131,
      "loss": 2.1535,
      "step": 66550
    },
    {
      "epoch": 0.3328,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002011658291457286,
      "loss": 2.1295,
      "step": 66560
    },
    {
      "epoch": 0.33285,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020115075376884424,
      "loss": 2.1991,
      "step": 66570
    },
    {
      "epoch": 0.3329,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020113567839195982,
      "loss": 2.113,
      "step": 66580
    },
    {
      "epoch": 0.33295,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020112060301507536,
      "loss": 2.1623,
      "step": 66590
    },
    {
      "epoch": 0.333,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020110552763819094,
      "loss": 2.1458,
      "step": 66600
    },
    {
      "epoch": 0.33305,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020109045226130657,
      "loss": 2.2011,
      "step": 66610
    },
    {
      "epoch": 0.3331,
      "grad_norm": 0.5625,
      "learning_rate": 0.002010753768844221,
      "loss": 2.1318,
      "step": 66620
    },
    {
      "epoch": 0.33315,
      "grad_norm": 0.5546875,
      "learning_rate": 0.002010603015075377,
      "loss": 2.1648,
      "step": 66630
    },
    {
      "epoch": 0.3332,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0020104522613065326,
      "loss": 2.1309,
      "step": 66640
    },
    {
      "epoch": 0.33325,
      "grad_norm": 0.5,
      "learning_rate": 0.0020103015075376885,
      "loss": 2.1233,
      "step": 66650
    },
    {
      "epoch": 0.3333,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020101507537688443,
      "loss": 2.1702,
      "step": 66660
    },
    {
      "epoch": 0.33335,
      "grad_norm": 0.498046875,
      "learning_rate": 0.00201,
      "loss": 2.1612,
      "step": 66670
    },
    {
      "epoch": 0.3334,
      "grad_norm": 0.52734375,
      "learning_rate": 0.002009849246231156,
      "loss": 2.212,
      "step": 66680
    },
    {
      "epoch": 0.33345,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020096984924623117,
      "loss": 2.1364,
      "step": 66690
    },
    {
      "epoch": 0.3335,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020095477386934675,
      "loss": 2.1833,
      "step": 66700
    },
    {
      "epoch": 0.33355,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0020093969849246233,
      "loss": 2.1157,
      "step": 66710
    },
    {
      "epoch": 0.3336,
      "grad_norm": 0.609375,
      "learning_rate": 0.0020092462311557787,
      "loss": 2.1602,
      "step": 66720
    },
    {
      "epoch": 0.33365,
      "grad_norm": 0.84765625,
      "learning_rate": 0.002009095477386935,
      "loss": 2.136,
      "step": 66730
    },
    {
      "epoch": 0.3337,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0020089447236180907,
      "loss": 2.2066,
      "step": 66740
    },
    {
      "epoch": 0.33375,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002008793969849246,
      "loss": 2.0634,
      "step": 66750
    },
    {
      "epoch": 0.3338,
      "grad_norm": 0.50390625,
      "learning_rate": 0.002008643216080402,
      "loss": 2.1626,
      "step": 66760
    },
    {
      "epoch": 0.33385,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020084924623115577,
      "loss": 2.1351,
      "step": 66770
    },
    {
      "epoch": 0.3339,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020083417085427135,
      "loss": 2.1855,
      "step": 66780
    },
    {
      "epoch": 0.33395,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020081909547738693,
      "loss": 2.1051,
      "step": 66790
    },
    {
      "epoch": 0.334,
      "grad_norm": 0.5390625,
      "learning_rate": 0.002008040201005025,
      "loss": 2.1607,
      "step": 66800
    },
    {
      "epoch": 0.33405,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002007889447236181,
      "loss": 2.1376,
      "step": 66810
    },
    {
      "epoch": 0.3341,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020077386934673367,
      "loss": 2.1849,
      "step": 66820
    },
    {
      "epoch": 0.33415,
      "grad_norm": 0.640625,
      "learning_rate": 0.0020075879396984925,
      "loss": 2.1371,
      "step": 66830
    },
    {
      "epoch": 0.3342,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020074371859296484,
      "loss": 2.1685,
      "step": 66840
    },
    {
      "epoch": 0.33425,
      "grad_norm": 0.6171875,
      "learning_rate": 0.002007286432160804,
      "loss": 2.1093,
      "step": 66850
    },
    {
      "epoch": 0.3343,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00200713567839196,
      "loss": 2.1974,
      "step": 66860
    },
    {
      "epoch": 0.33435,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0020069849246231158,
      "loss": 2.1212,
      "step": 66870
    },
    {
      "epoch": 0.3344,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002006834170854271,
      "loss": 2.1284,
      "step": 66880
    },
    {
      "epoch": 0.33445,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0020066834170854274,
      "loss": 2.1152,
      "step": 66890
    },
    {
      "epoch": 0.3345,
      "grad_norm": 0.54296875,
      "learning_rate": 0.002006532663316583,
      "loss": 2.0893,
      "step": 66900
    },
    {
      "epoch": 0.33455,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020063819095477386,
      "loss": 2.1638,
      "step": 66910
    },
    {
      "epoch": 0.3346,
      "grad_norm": 0.53125,
      "learning_rate": 0.0020062311557788944,
      "loss": 2.1898,
      "step": 66920
    },
    {
      "epoch": 0.33465,
      "grad_norm": 0.59375,
      "learning_rate": 0.00200608040201005,
      "loss": 2.1439,
      "step": 66930
    },
    {
      "epoch": 0.3347,
      "grad_norm": 0.6328125,
      "learning_rate": 0.002005929648241206,
      "loss": 2.1883,
      "step": 66940
    },
    {
      "epoch": 0.33475,
      "grad_norm": 0.5625,
      "learning_rate": 0.002005778894472362,
      "loss": 2.1894,
      "step": 66950
    },
    {
      "epoch": 0.3348,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020056281407035176,
      "loss": 2.1481,
      "step": 66960
    },
    {
      "epoch": 0.33485,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0020054773869346734,
      "loss": 2.1648,
      "step": 66970
    },
    {
      "epoch": 0.3349,
      "grad_norm": 0.53125,
      "learning_rate": 0.002005326633165829,
      "loss": 2.1348,
      "step": 66980
    },
    {
      "epoch": 0.33495,
      "grad_norm": 0.53125,
      "learning_rate": 0.002005175879396985,
      "loss": 2.1686,
      "step": 66990
    },
    {
      "epoch": 0.335,
      "grad_norm": 0.5625,
      "learning_rate": 0.002005025125628141,
      "loss": 2.105,
      "step": 67000
    },
    {
      "epoch": 0.33505,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020048743718592966,
      "loss": 2.1915,
      "step": 67010
    },
    {
      "epoch": 0.3351,
      "grad_norm": 0.59375,
      "learning_rate": 0.0020047236180904524,
      "loss": 2.1222,
      "step": 67020
    },
    {
      "epoch": 0.33515,
      "grad_norm": 0.578125,
      "learning_rate": 0.0020045728643216082,
      "loss": 2.1467,
      "step": 67030
    },
    {
      "epoch": 0.3352,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020044221105527636,
      "loss": 2.1424,
      "step": 67040
    },
    {
      "epoch": 0.33525,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0020042713567839194,
      "loss": 2.2227,
      "step": 67050
    },
    {
      "epoch": 0.3353,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020041206030150757,
      "loss": 2.1615,
      "step": 67060
    },
    {
      "epoch": 0.33535,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002003969849246231,
      "loss": 2.1913,
      "step": 67070
    },
    {
      "epoch": 0.3354,
      "grad_norm": 0.56640625,
      "learning_rate": 0.002003819095477387,
      "loss": 2.1228,
      "step": 67080
    },
    {
      "epoch": 0.33545,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0020036683417085427,
      "loss": 2.2149,
      "step": 67090
    },
    {
      "epoch": 0.3355,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0020035175879396985,
      "loss": 2.1334,
      "step": 67100
    },
    {
      "epoch": 0.33555,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020033668341708543,
      "loss": 2.2027,
      "step": 67110
    },
    {
      "epoch": 0.3356,
      "grad_norm": 0.609375,
      "learning_rate": 0.00200321608040201,
      "loss": 2.1424,
      "step": 67120
    },
    {
      "epoch": 0.33565,
      "grad_norm": 0.55078125,
      "learning_rate": 0.002003065326633166,
      "loss": 2.2162,
      "step": 67130
    },
    {
      "epoch": 0.3357,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0020029145728643217,
      "loss": 2.1586,
      "step": 67140
    },
    {
      "epoch": 0.33575,
      "grad_norm": 0.5625,
      "learning_rate": 0.0020027638190954775,
      "loss": 2.1707,
      "step": 67150
    },
    {
      "epoch": 0.3358,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0020026130653266333,
      "loss": 2.1315,
      "step": 67160
    },
    {
      "epoch": 0.33585,
      "grad_norm": 0.5234375,
      "learning_rate": 0.002002462311557789,
      "loss": 2.1778,
      "step": 67170
    },
    {
      "epoch": 0.3359,
      "grad_norm": 0.6015625,
      "learning_rate": 0.002002311557788945,
      "loss": 2.1687,
      "step": 67180
    },
    {
      "epoch": 0.33595,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0020021608040201007,
      "loss": 2.188,
      "step": 67190
    },
    {
      "epoch": 0.336,
      "grad_norm": 0.57421875,
      "learning_rate": 0.002002010050251256,
      "loss": 2.0887,
      "step": 67200
    },
    {
      "epoch": 0.33605,
      "grad_norm": 0.5703125,
      "learning_rate": 0.002001859296482412,
      "loss": 2.1257,
      "step": 67210
    },
    {
      "epoch": 0.3361,
      "grad_norm": 0.546875,
      "learning_rate": 0.002001708542713568,
      "loss": 2.1818,
      "step": 67220
    },
    {
      "epoch": 0.33615,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020015577889447235,
      "loss": 2.1539,
      "step": 67230
    },
    {
      "epoch": 0.3362,
      "grad_norm": 0.546875,
      "learning_rate": 0.0020014070351758793,
      "loss": 2.1783,
      "step": 67240
    },
    {
      "epoch": 0.33625,
      "grad_norm": 0.5078125,
      "learning_rate": 0.002001256281407035,
      "loss": 2.1402,
      "step": 67250
    },
    {
      "epoch": 0.3363,
      "grad_norm": 0.59375,
      "learning_rate": 0.002001105527638191,
      "loss": 2.1958,
      "step": 67260
    },
    {
      "epoch": 0.33635,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0020009547738693467,
      "loss": 2.129,
      "step": 67270
    },
    {
      "epoch": 0.3364,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0020008040201005025,
      "loss": 2.1544,
      "step": 67280
    },
    {
      "epoch": 0.33645,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0020006532663316584,
      "loss": 2.1902,
      "step": 67290
    },
    {
      "epoch": 0.3365,
      "grad_norm": 0.63671875,
      "learning_rate": 0.002000502512562814,
      "loss": 2.182,
      "step": 67300
    },
    {
      "epoch": 0.33655,
      "grad_norm": 0.59375,
      "learning_rate": 0.00200035175879397,
      "loss": 2.102,
      "step": 67310
    },
    {
      "epoch": 0.3366,
      "grad_norm": 0.515625,
      "learning_rate": 0.0020002010050251258,
      "loss": 2.2185,
      "step": 67320
    },
    {
      "epoch": 0.33665,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0020000502512562816,
      "loss": 2.1439,
      "step": 67330
    },
    {
      "epoch": 0.3367,
      "grad_norm": 0.65625,
      "learning_rate": 0.0019998994974874374,
      "loss": 2.1412,
      "step": 67340
    },
    {
      "epoch": 0.33675,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001999748743718593,
      "loss": 2.1698,
      "step": 67350
    },
    {
      "epoch": 0.3368,
      "grad_norm": 0.515625,
      "learning_rate": 0.0019995979899497486,
      "loss": 2.1786,
      "step": 67360
    },
    {
      "epoch": 0.33685,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0019994472361809044,
      "loss": 2.1285,
      "step": 67370
    },
    {
      "epoch": 0.3369,
      "grad_norm": 0.515625,
      "learning_rate": 0.0019992964824120606,
      "loss": 2.1543,
      "step": 67380
    },
    {
      "epoch": 0.33695,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001999145728643216,
      "loss": 2.1631,
      "step": 67390
    },
    {
      "epoch": 0.337,
      "grad_norm": 0.59375,
      "learning_rate": 0.001998994974874372,
      "loss": 2.1586,
      "step": 67400
    },
    {
      "epoch": 0.33705,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019988442211055276,
      "loss": 2.1404,
      "step": 67410
    },
    {
      "epoch": 0.3371,
      "grad_norm": 0.5,
      "learning_rate": 0.0019986934673366834,
      "loss": 2.1676,
      "step": 67420
    },
    {
      "epoch": 0.33715,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0019985427135678392,
      "loss": 2.1359,
      "step": 67430
    },
    {
      "epoch": 0.3372,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001998391959798995,
      "loss": 2.1247,
      "step": 67440
    },
    {
      "epoch": 0.33725,
      "grad_norm": 0.51171875,
      "learning_rate": 0.001998241206030151,
      "loss": 2.1701,
      "step": 67450
    },
    {
      "epoch": 0.3373,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019980904522613066,
      "loss": 2.1029,
      "step": 67460
    },
    {
      "epoch": 0.33735,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019979396984924624,
      "loss": 2.1798,
      "step": 67470
    },
    {
      "epoch": 0.3374,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019977889447236183,
      "loss": 2.1254,
      "step": 67480
    },
    {
      "epoch": 0.33745,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0019976381909547736,
      "loss": 2.1341,
      "step": 67490
    },
    {
      "epoch": 0.3375,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00199748743718593,
      "loss": 2.1412,
      "step": 67500
    },
    {
      "epoch": 0.33755,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019973366834170857,
      "loss": 2.1726,
      "step": 67510
    },
    {
      "epoch": 0.3376,
      "grad_norm": 0.578125,
      "learning_rate": 0.001997185929648241,
      "loss": 2.0871,
      "step": 67520
    },
    {
      "epoch": 0.33765,
      "grad_norm": 0.546875,
      "learning_rate": 0.001997035175879397,
      "loss": 2.1611,
      "step": 67530
    },
    {
      "epoch": 0.3377,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001996884422110553,
      "loss": 2.152,
      "step": 67540
    },
    {
      "epoch": 0.33775,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019967336683417085,
      "loss": 2.1551,
      "step": 67550
    },
    {
      "epoch": 0.3378,
      "grad_norm": 0.609375,
      "learning_rate": 0.0019965829145728643,
      "loss": 2.1457,
      "step": 67560
    },
    {
      "epoch": 0.33785,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00199643216080402,
      "loss": 2.1397,
      "step": 67570
    },
    {
      "epoch": 0.3379,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001996281407035176,
      "loss": 2.1777,
      "step": 67580
    },
    {
      "epoch": 0.33795,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019961306532663317,
      "loss": 2.1102,
      "step": 67590
    },
    {
      "epoch": 0.338,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0019959798994974875,
      "loss": 2.2037,
      "step": 67600
    },
    {
      "epoch": 0.33805,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019958291457286433,
      "loss": 2.1174,
      "step": 67610
    },
    {
      "epoch": 0.3381,
      "grad_norm": 0.578125,
      "learning_rate": 0.001995678391959799,
      "loss": 2.1845,
      "step": 67620
    },
    {
      "epoch": 0.33815,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001995527638190955,
      "loss": 2.1491,
      "step": 67630
    },
    {
      "epoch": 0.3382,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0019953768844221107,
      "loss": 2.1921,
      "step": 67640
    },
    {
      "epoch": 0.33825,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001995226130653266,
      "loss": 2.1111,
      "step": 67650
    },
    {
      "epoch": 0.3383,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019950753768844223,
      "loss": 2.1581,
      "step": 67660
    },
    {
      "epoch": 0.33835,
      "grad_norm": 0.640625,
      "learning_rate": 0.001994924623115578,
      "loss": 2.0493,
      "step": 67670
    },
    {
      "epoch": 0.3384,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019947738693467335,
      "loss": 2.203,
      "step": 67680
    },
    {
      "epoch": 0.33845,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019946231155778893,
      "loss": 2.1333,
      "step": 67690
    },
    {
      "epoch": 0.3385,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001994472361809045,
      "loss": 2.1718,
      "step": 67700
    },
    {
      "epoch": 0.33855,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001994321608040201,
      "loss": 2.1598,
      "step": 67710
    },
    {
      "epoch": 0.3386,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019941708542713567,
      "loss": 2.1868,
      "step": 67720
    },
    {
      "epoch": 0.33865,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019940201005025126,
      "loss": 2.1532,
      "step": 67730
    },
    {
      "epoch": 0.3387,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0019938693467336684,
      "loss": 2.1232,
      "step": 67740
    },
    {
      "epoch": 0.33875,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001993718592964824,
      "loss": 2.1672,
      "step": 67750
    },
    {
      "epoch": 0.3388,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00199356783919598,
      "loss": 2.1354,
      "step": 67760
    },
    {
      "epoch": 0.33885,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001993417085427136,
      "loss": 2.1601,
      "step": 67770
    },
    {
      "epoch": 0.3389,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019932663316582916,
      "loss": 2.1011,
      "step": 67780
    },
    {
      "epoch": 0.33895,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019931155778894474,
      "loss": 2.1765,
      "step": 67790
    },
    {
      "epoch": 0.339,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001992964824120603,
      "loss": 2.1793,
      "step": 67800
    },
    {
      "epoch": 0.33905,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0019928140703517586,
      "loss": 2.2056,
      "step": 67810
    },
    {
      "epoch": 0.3391,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001992663316582915,
      "loss": 2.156,
      "step": 67820
    },
    {
      "epoch": 0.33915,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019925125628140706,
      "loss": 2.1503,
      "step": 67830
    },
    {
      "epoch": 0.3392,
      "grad_norm": 0.5625,
      "learning_rate": 0.001992361809045226,
      "loss": 2.1429,
      "step": 67840
    },
    {
      "epoch": 0.33925,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001992211055276382,
      "loss": 2.2051,
      "step": 67850
    },
    {
      "epoch": 0.3393,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019920603015075376,
      "loss": 2.164,
      "step": 67860
    },
    {
      "epoch": 0.33935,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019919095477386934,
      "loss": 2.1031,
      "step": 67870
    },
    {
      "epoch": 0.3394,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019917587939698492,
      "loss": 2.1725,
      "step": 67880
    },
    {
      "epoch": 0.33945,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001991608040201005,
      "loss": 2.1786,
      "step": 67890
    },
    {
      "epoch": 0.3395,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001991457286432161,
      "loss": 2.1767,
      "step": 67900
    },
    {
      "epoch": 0.33955,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019913065326633166,
      "loss": 2.1074,
      "step": 67910
    },
    {
      "epoch": 0.3396,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019911557788944725,
      "loss": 2.1282,
      "step": 67920
    },
    {
      "epoch": 0.33965,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019910050251256283,
      "loss": 2.1259,
      "step": 67930
    },
    {
      "epoch": 0.3397,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001990854271356784,
      "loss": 2.1522,
      "step": 67940
    },
    {
      "epoch": 0.33975,
      "grad_norm": 0.546875,
      "learning_rate": 0.00199070351758794,
      "loss": 2.1411,
      "step": 67950
    },
    {
      "epoch": 0.3398,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019905527638190957,
      "loss": 2.1853,
      "step": 67960
    },
    {
      "epoch": 0.33985,
      "grad_norm": 0.578125,
      "learning_rate": 0.001990402010050251,
      "loss": 2.2031,
      "step": 67970
    },
    {
      "epoch": 0.3399,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019902512562814073,
      "loss": 2.1147,
      "step": 67980
    },
    {
      "epoch": 0.33995,
      "grad_norm": 0.546875,
      "learning_rate": 0.001990100502512563,
      "loss": 2.1884,
      "step": 67990
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0019899497487437185,
      "loss": 2.1359,
      "step": 68000
    },
    {
      "epoch": 0.34,
      "eval_loss": 2.137094020843506,
      "eval_runtime": 47.8287,
      "eval_samples_per_second": 52.27,
      "eval_steps_per_second": 0.105,
      "step": 68000
    },
    {
      "epoch": 0.34005,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019897989949748743,
      "loss": 2.1475,
      "step": 68010
    },
    {
      "epoch": 0.3401,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00198964824120603,
      "loss": 2.1447,
      "step": 68020
    },
    {
      "epoch": 0.34015,
      "grad_norm": 0.625,
      "learning_rate": 0.001989497487437186,
      "loss": 2.1715,
      "step": 68030
    },
    {
      "epoch": 0.3402,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019893467336683417,
      "loss": 2.1256,
      "step": 68040
    },
    {
      "epoch": 0.34025,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019891959798994975,
      "loss": 2.1467,
      "step": 68050
    },
    {
      "epoch": 0.3403,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0019890452261306533,
      "loss": 2.1416,
      "step": 68060
    },
    {
      "epoch": 0.34035,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001988894472361809,
      "loss": 2.1971,
      "step": 68070
    },
    {
      "epoch": 0.3404,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001988743718592965,
      "loss": 2.1511,
      "step": 68080
    },
    {
      "epoch": 0.34045,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019885929648241207,
      "loss": 2.1475,
      "step": 68090
    },
    {
      "epoch": 0.3405,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019884422110552765,
      "loss": 2.1477,
      "step": 68100
    },
    {
      "epoch": 0.34055,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019882914572864323,
      "loss": 2.2166,
      "step": 68110
    },
    {
      "epoch": 0.3406,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001988140703517588,
      "loss": 2.106,
      "step": 68120
    },
    {
      "epoch": 0.34065,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0019879899497487435,
      "loss": 2.1515,
      "step": 68130
    },
    {
      "epoch": 0.3407,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019878391959798993,
      "loss": 2.1823,
      "step": 68140
    },
    {
      "epoch": 0.34075,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019876884422110556,
      "loss": 2.1455,
      "step": 68150
    },
    {
      "epoch": 0.3408,
      "grad_norm": 0.578125,
      "learning_rate": 0.001987537688442211,
      "loss": 2.1304,
      "step": 68160
    },
    {
      "epoch": 0.34085,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019873869346733668,
      "loss": 2.1295,
      "step": 68170
    },
    {
      "epoch": 0.3409,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0019872361809045226,
      "loss": 2.1682,
      "step": 68180
    },
    {
      "epoch": 0.34095,
      "grad_norm": 0.515625,
      "learning_rate": 0.0019870854271356784,
      "loss": 2.1329,
      "step": 68190
    },
    {
      "epoch": 0.341,
      "grad_norm": 0.5625,
      "learning_rate": 0.001986934673366834,
      "loss": 2.1204,
      "step": 68200
    },
    {
      "epoch": 0.34105,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00198678391959799,
      "loss": 2.1346,
      "step": 68210
    },
    {
      "epoch": 0.3411,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001986633165829146,
      "loss": 2.1438,
      "step": 68220
    },
    {
      "epoch": 0.34115,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019864824120603016,
      "loss": 2.1464,
      "step": 68230
    },
    {
      "epoch": 0.3412,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019863316582914574,
      "loss": 2.1834,
      "step": 68240
    },
    {
      "epoch": 0.34125,
      "grad_norm": 0.51953125,
      "learning_rate": 0.001986180904522613,
      "loss": 2.2044,
      "step": 68250
    },
    {
      "epoch": 0.3413,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001986030150753769,
      "loss": 2.1095,
      "step": 68260
    },
    {
      "epoch": 0.34135,
      "grad_norm": 0.625,
      "learning_rate": 0.001985879396984925,
      "loss": 2.1967,
      "step": 68270
    },
    {
      "epoch": 0.3414,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019857286432160806,
      "loss": 2.1503,
      "step": 68280
    },
    {
      "epoch": 0.34145,
      "grad_norm": 0.59375,
      "learning_rate": 0.001985577889447236,
      "loss": 2.2025,
      "step": 68290
    },
    {
      "epoch": 0.3415,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001985427135678392,
      "loss": 2.1283,
      "step": 68300
    },
    {
      "epoch": 0.34155,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001985276381909548,
      "loss": 2.1889,
      "step": 68310
    },
    {
      "epoch": 0.3416,
      "grad_norm": 0.640625,
      "learning_rate": 0.0019851256281407034,
      "loss": 2.0939,
      "step": 68320
    },
    {
      "epoch": 0.34165,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019849748743718592,
      "loss": 2.1529,
      "step": 68330
    },
    {
      "epoch": 0.3417,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001984824120603015,
      "loss": 2.1538,
      "step": 68340
    },
    {
      "epoch": 0.34175,
      "grad_norm": 0.51953125,
      "learning_rate": 0.001984673366834171,
      "loss": 2.1499,
      "step": 68350
    },
    {
      "epoch": 0.3418,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019845226130653267,
      "loss": 2.1523,
      "step": 68360
    },
    {
      "epoch": 0.34185,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019843718592964825,
      "loss": 2.141,
      "step": 68370
    },
    {
      "epoch": 0.3419,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019842211055276383,
      "loss": 2.1437,
      "step": 68380
    },
    {
      "epoch": 0.34195,
      "grad_norm": 0.578125,
      "learning_rate": 0.001984070351758794,
      "loss": 2.146,
      "step": 68390
    },
    {
      "epoch": 0.342,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00198391959798995,
      "loss": 2.2418,
      "step": 68400
    },
    {
      "epoch": 0.34205,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019837688442211057,
      "loss": 2.1168,
      "step": 68410
    },
    {
      "epoch": 0.3421,
      "grad_norm": 0.59375,
      "learning_rate": 0.001983618090452261,
      "loss": 2.1659,
      "step": 68420
    },
    {
      "epoch": 0.34215,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019834673366834173,
      "loss": 2.1251,
      "step": 68430
    },
    {
      "epoch": 0.3422,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001983316582914573,
      "loss": 2.1821,
      "step": 68440
    },
    {
      "epoch": 0.34225,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019831658291457285,
      "loss": 2.1526,
      "step": 68450
    },
    {
      "epoch": 0.3423,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019830150753768843,
      "loss": 2.1379,
      "step": 68460
    },
    {
      "epoch": 0.34235,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019828643216080405,
      "loss": 2.1506,
      "step": 68470
    },
    {
      "epoch": 0.3424,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001982713567839196,
      "loss": 2.1642,
      "step": 68480
    },
    {
      "epoch": 0.34245,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019825628140703517,
      "loss": 2.1664,
      "step": 68490
    },
    {
      "epoch": 0.3425,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019824120603015075,
      "loss": 2.1408,
      "step": 68500
    },
    {
      "epoch": 0.34255,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0019822613065326633,
      "loss": 2.1786,
      "step": 68510
    },
    {
      "epoch": 0.3426,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001982110552763819,
      "loss": 2.1344,
      "step": 68520
    },
    {
      "epoch": 0.34265,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001981959798994975,
      "loss": 2.1864,
      "step": 68530
    },
    {
      "epoch": 0.3427,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019818090452261307,
      "loss": 2.0796,
      "step": 68540
    },
    {
      "epoch": 0.34275,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0019816582914572865,
      "loss": 2.1915,
      "step": 68550
    },
    {
      "epoch": 0.3428,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019815075376884424,
      "loss": 2.1285,
      "step": 68560
    },
    {
      "epoch": 0.34285,
      "grad_norm": 0.5078125,
      "learning_rate": 0.001981356783919598,
      "loss": 2.1354,
      "step": 68570
    },
    {
      "epoch": 0.3429,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019812060301507535,
      "loss": 2.1138,
      "step": 68580
    },
    {
      "epoch": 0.34295,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019810552763819098,
      "loss": 2.1397,
      "step": 68590
    },
    {
      "epoch": 0.343,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019809045226130656,
      "loss": 2.1452,
      "step": 68600
    },
    {
      "epoch": 0.34305,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001980753768844221,
      "loss": 2.1514,
      "step": 68610
    },
    {
      "epoch": 0.3431,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019806030150753768,
      "loss": 2.1806,
      "step": 68620
    },
    {
      "epoch": 0.34315,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019804522613065326,
      "loss": 2.1552,
      "step": 68630
    },
    {
      "epoch": 0.3432,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019803015075376884,
      "loss": 2.164,
      "step": 68640
    },
    {
      "epoch": 0.34325,
      "grad_norm": 0.671875,
      "learning_rate": 0.001980150753768844,
      "loss": 2.1158,
      "step": 68650
    },
    {
      "epoch": 0.3433,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00198,
      "loss": 2.187,
      "step": 68660
    },
    {
      "epoch": 0.34335,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001979849246231156,
      "loss": 2.142,
      "step": 68670
    },
    {
      "epoch": 0.3434,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0019796984924623116,
      "loss": 2.1909,
      "step": 68680
    },
    {
      "epoch": 0.34345,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0019795477386934674,
      "loss": 2.1688,
      "step": 68690
    },
    {
      "epoch": 0.3435,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001979396984924623,
      "loss": 2.1455,
      "step": 68700
    },
    {
      "epoch": 0.34355,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001979246231155779,
      "loss": 2.1307,
      "step": 68710
    },
    {
      "epoch": 0.3436,
      "grad_norm": 0.68359375,
      "learning_rate": 0.001979095477386935,
      "loss": 2.1302,
      "step": 68720
    },
    {
      "epoch": 0.34365,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019789447236180906,
      "loss": 2.1833,
      "step": 68730
    },
    {
      "epoch": 0.3437,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001978793969849246,
      "loss": 2.1915,
      "step": 68740
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019786432160804023,
      "loss": 2.1979,
      "step": 68750
    },
    {
      "epoch": 0.3438,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001978492462311558,
      "loss": 2.1765,
      "step": 68760
    },
    {
      "epoch": 0.34385,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019783417085427134,
      "loss": 2.1702,
      "step": 68770
    },
    {
      "epoch": 0.3439,
      "grad_norm": 0.609375,
      "learning_rate": 0.0019781909547738692,
      "loss": 2.1358,
      "step": 68780
    },
    {
      "epoch": 0.34395,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001978040201005025,
      "loss": 2.2013,
      "step": 68790
    },
    {
      "epoch": 0.344,
      "grad_norm": 0.53125,
      "learning_rate": 0.001977889447236181,
      "loss": 2.159,
      "step": 68800
    },
    {
      "epoch": 0.34405,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019777386934673367,
      "loss": 2.1,
      "step": 68810
    },
    {
      "epoch": 0.3441,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019775879396984925,
      "loss": 2.1337,
      "step": 68820
    },
    {
      "epoch": 0.34415,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019774371859296483,
      "loss": 2.1611,
      "step": 68830
    },
    {
      "epoch": 0.3442,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001977286432160804,
      "loss": 2.1635,
      "step": 68840
    },
    {
      "epoch": 0.34425,
      "grad_norm": 0.578125,
      "learning_rate": 0.00197713567839196,
      "loss": 2.1488,
      "step": 68850
    },
    {
      "epoch": 0.3443,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0019769849246231157,
      "loss": 2.145,
      "step": 68860
    },
    {
      "epoch": 0.34435,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019768341708542715,
      "loss": 2.1475,
      "step": 68870
    },
    {
      "epoch": 0.3444,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0019766834170854273,
      "loss": 2.1372,
      "step": 68880
    },
    {
      "epoch": 0.34445,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001976532663316583,
      "loss": 2.1442,
      "step": 68890
    },
    {
      "epoch": 0.3445,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019763819095477385,
      "loss": 2.144,
      "step": 68900
    },
    {
      "epoch": 0.34455,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019762311557788947,
      "loss": 2.1431,
      "step": 68910
    },
    {
      "epoch": 0.3446,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019760804020100505,
      "loss": 2.1287,
      "step": 68920
    },
    {
      "epoch": 0.34465,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001975929648241206,
      "loss": 2.1681,
      "step": 68930
    },
    {
      "epoch": 0.3447,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019757788944723617,
      "loss": 2.1759,
      "step": 68940
    },
    {
      "epoch": 0.34475,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0019756281407035175,
      "loss": 2.1503,
      "step": 68950
    },
    {
      "epoch": 0.3448,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0019754773869346733,
      "loss": 2.1419,
      "step": 68960
    },
    {
      "epoch": 0.34485,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001975326633165829,
      "loss": 2.1426,
      "step": 68970
    },
    {
      "epoch": 0.3449,
      "grad_norm": 0.578125,
      "learning_rate": 0.001975175879396985,
      "loss": 2.1009,
      "step": 68980
    },
    {
      "epoch": 0.34495,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019750251256281407,
      "loss": 2.14,
      "step": 68990
    },
    {
      "epoch": 0.345,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019748743718592966,
      "loss": 2.1791,
      "step": 69000
    },
    {
      "epoch": 0.34505,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0019747236180904524,
      "loss": 2.1668,
      "step": 69010
    },
    {
      "epoch": 0.3451,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001974572864321608,
      "loss": 2.1416,
      "step": 69020
    },
    {
      "epoch": 0.34515,
      "grad_norm": 0.578125,
      "learning_rate": 0.001974422110552764,
      "loss": 2.1071,
      "step": 69030
    },
    {
      "epoch": 0.3452,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019742713567839198,
      "loss": 2.1744,
      "step": 69040
    },
    {
      "epoch": 0.34525,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019741206030150756,
      "loss": 2.1288,
      "step": 69050
    },
    {
      "epoch": 0.3453,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001973969849246231,
      "loss": 2.1458,
      "step": 69060
    },
    {
      "epoch": 0.34535,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001973819095477387,
      "loss": 2.164,
      "step": 69070
    },
    {
      "epoch": 0.3454,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001973668341708543,
      "loss": 2.1776,
      "step": 69080
    },
    {
      "epoch": 0.34545,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019735175879396984,
      "loss": 2.1586,
      "step": 69090
    },
    {
      "epoch": 0.3455,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001973366834170854,
      "loss": 2.109,
      "step": 69100
    },
    {
      "epoch": 0.34555,
      "grad_norm": 0.59375,
      "learning_rate": 0.00197321608040201,
      "loss": 2.1953,
      "step": 69110
    },
    {
      "epoch": 0.3456,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001973065326633166,
      "loss": 2.1514,
      "step": 69120
    },
    {
      "epoch": 0.34565,
      "grad_norm": 0.494140625,
      "learning_rate": 0.0019729145728643216,
      "loss": 2.1618,
      "step": 69130
    },
    {
      "epoch": 0.3457,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019727638190954774,
      "loss": 2.1157,
      "step": 69140
    },
    {
      "epoch": 0.34575,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019726130653266332,
      "loss": 2.1692,
      "step": 69150
    },
    {
      "epoch": 0.3458,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001972462311557789,
      "loss": 2.1935,
      "step": 69160
    },
    {
      "epoch": 0.34585,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001972311557788945,
      "loss": 2.14,
      "step": 69170
    },
    {
      "epoch": 0.3459,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019721608040201006,
      "loss": 2.141,
      "step": 69180
    },
    {
      "epoch": 0.34595,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0019720100502512565,
      "loss": 2.1247,
      "step": 69190
    },
    {
      "epoch": 0.346,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019718592964824123,
      "loss": 2.1701,
      "step": 69200
    },
    {
      "epoch": 0.34605,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001971708542713568,
      "loss": 2.1313,
      "step": 69210
    },
    {
      "epoch": 0.3461,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019715577889447234,
      "loss": 2.196,
      "step": 69220
    },
    {
      "epoch": 0.34615,
      "grad_norm": 0.625,
      "learning_rate": 0.0019714070351758797,
      "loss": 2.1862,
      "step": 69230
    },
    {
      "epoch": 0.3462,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019712562814070355,
      "loss": 2.1145,
      "step": 69240
    },
    {
      "epoch": 0.34625,
      "grad_norm": 0.578125,
      "learning_rate": 0.001971105527638191,
      "loss": 2.1299,
      "step": 69250
    },
    {
      "epoch": 0.3463,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019709547738693467,
      "loss": 2.136,
      "step": 69260
    },
    {
      "epoch": 0.34635,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019708040201005025,
      "loss": 2.1935,
      "step": 69270
    },
    {
      "epoch": 0.3464,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019706532663316583,
      "loss": 2.1374,
      "step": 69280
    },
    {
      "epoch": 0.34645,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001970502512562814,
      "loss": 2.1377,
      "step": 69290
    },
    {
      "epoch": 0.3465,
      "grad_norm": 0.546875,
      "learning_rate": 0.00197035175879397,
      "loss": 2.1501,
      "step": 69300
    },
    {
      "epoch": 0.34655,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019702010050251257,
      "loss": 2.1657,
      "step": 69310
    },
    {
      "epoch": 0.3466,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019700502512562815,
      "loss": 2.093,
      "step": 69320
    },
    {
      "epoch": 0.34665,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019698994974874373,
      "loss": 2.1465,
      "step": 69330
    },
    {
      "epoch": 0.3467,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001969748743718593,
      "loss": 2.1295,
      "step": 69340
    },
    {
      "epoch": 0.34675,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019695979899497485,
      "loss": 2.1212,
      "step": 69350
    },
    {
      "epoch": 0.3468,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0019694472361809047,
      "loss": 2.1629,
      "step": 69360
    },
    {
      "epoch": 0.34685,
      "grad_norm": 0.609375,
      "learning_rate": 0.0019692964824120605,
      "loss": 2.152,
      "step": 69370
    },
    {
      "epoch": 0.3469,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001969145728643216,
      "loss": 2.1333,
      "step": 69380
    },
    {
      "epoch": 0.34695,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019689949748743717,
      "loss": 2.1144,
      "step": 69390
    },
    {
      "epoch": 0.347,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001968844221105528,
      "loss": 2.1306,
      "step": 69400
    },
    {
      "epoch": 0.34705,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019686934673366833,
      "loss": 2.1365,
      "step": 69410
    },
    {
      "epoch": 0.3471,
      "grad_norm": 0.51171875,
      "learning_rate": 0.001968542713567839,
      "loss": 2.1113,
      "step": 69420
    },
    {
      "epoch": 0.34715,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001968391959798995,
      "loss": 2.1384,
      "step": 69430
    },
    {
      "epoch": 0.3472,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019682412060301508,
      "loss": 2.1252,
      "step": 69440
    },
    {
      "epoch": 0.34725,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019680904522613066,
      "loss": 2.1641,
      "step": 69450
    },
    {
      "epoch": 0.3473,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019679396984924624,
      "loss": 2.1654,
      "step": 69460
    },
    {
      "epoch": 0.34735,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001967788944723618,
      "loss": 2.1362,
      "step": 69470
    },
    {
      "epoch": 0.3474,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001967638190954774,
      "loss": 2.14,
      "step": 69480
    },
    {
      "epoch": 0.34745,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00196748743718593,
      "loss": 2.187,
      "step": 69490
    },
    {
      "epoch": 0.3475,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019673366834170856,
      "loss": 2.1195,
      "step": 69500
    },
    {
      "epoch": 0.34755,
      "grad_norm": 0.51171875,
      "learning_rate": 0.001967185929648241,
      "loss": 2.1524,
      "step": 69510
    },
    {
      "epoch": 0.3476,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001967035175879397,
      "loss": 2.2332,
      "step": 69520
    },
    {
      "epoch": 0.34765,
      "grad_norm": 0.546875,
      "learning_rate": 0.001966884422110553,
      "loss": 2.1986,
      "step": 69530
    },
    {
      "epoch": 0.3477,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0019667336683417084,
      "loss": 2.1887,
      "step": 69540
    },
    {
      "epoch": 0.34775,
      "grad_norm": 0.640625,
      "learning_rate": 0.001966582914572864,
      "loss": 2.0961,
      "step": 69550
    },
    {
      "epoch": 0.3478,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00196643216080402,
      "loss": 2.2029,
      "step": 69560
    },
    {
      "epoch": 0.34785,
      "grad_norm": 0.578125,
      "learning_rate": 0.001966281407035176,
      "loss": 2.1408,
      "step": 69570
    },
    {
      "epoch": 0.3479,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0019661306532663316,
      "loss": 2.1462,
      "step": 69580
    },
    {
      "epoch": 0.34795,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019659798994974874,
      "loss": 2.1941,
      "step": 69590
    },
    {
      "epoch": 0.348,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019658291457286432,
      "loss": 2.1153,
      "step": 69600
    },
    {
      "epoch": 0.34805,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001965678391959799,
      "loss": 2.1957,
      "step": 69610
    },
    {
      "epoch": 0.3481,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001965527638190955,
      "loss": 2.1377,
      "step": 69620
    },
    {
      "epoch": 0.34815,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019653768844221106,
      "loss": 2.1343,
      "step": 69630
    },
    {
      "epoch": 0.3482,
      "grad_norm": 0.640625,
      "learning_rate": 0.0019652261306532665,
      "loss": 2.1391,
      "step": 69640
    },
    {
      "epoch": 0.34825,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019650753768844223,
      "loss": 2.1605,
      "step": 69650
    },
    {
      "epoch": 0.3483,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001964924623115578,
      "loss": 2.111,
      "step": 69660
    },
    {
      "epoch": 0.34835,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019647738693467334,
      "loss": 2.2006,
      "step": 69670
    },
    {
      "epoch": 0.3484,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019646231155778897,
      "loss": 2.1308,
      "step": 69680
    },
    {
      "epoch": 0.34845,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0019644723618090455,
      "loss": 2.1241,
      "step": 69690
    },
    {
      "epoch": 0.3485,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001964321608040201,
      "loss": 2.1323,
      "step": 69700
    },
    {
      "epoch": 0.34855,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019641708542713567,
      "loss": 2.1757,
      "step": 69710
    },
    {
      "epoch": 0.3486,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019640201005025125,
      "loss": 2.1747,
      "step": 69720
    },
    {
      "epoch": 0.34865,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019638693467336683,
      "loss": 2.1639,
      "step": 69730
    },
    {
      "epoch": 0.3487,
      "grad_norm": 0.5234375,
      "learning_rate": 0.001963718592964824,
      "loss": 2.197,
      "step": 69740
    },
    {
      "epoch": 0.34875,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00196356783919598,
      "loss": 2.1606,
      "step": 69750
    },
    {
      "epoch": 0.3488,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019634170854271357,
      "loss": 2.1397,
      "step": 69760
    },
    {
      "epoch": 0.34885,
      "grad_norm": 0.671875,
      "learning_rate": 0.0019632663316582915,
      "loss": 2.1759,
      "step": 69770
    },
    {
      "epoch": 0.3489,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019631155778894473,
      "loss": 2.167,
      "step": 69780
    },
    {
      "epoch": 0.34895,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001962964824120603,
      "loss": 2.1426,
      "step": 69790
    },
    {
      "epoch": 0.349,
      "grad_norm": 0.578125,
      "learning_rate": 0.001962814070351759,
      "loss": 2.1221,
      "step": 69800
    },
    {
      "epoch": 0.34905,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019626633165829147,
      "loss": 2.1681,
      "step": 69810
    },
    {
      "epoch": 0.3491,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019625125628140705,
      "loss": 2.1517,
      "step": 69820
    },
    {
      "epoch": 0.34915,
      "grad_norm": 0.51171875,
      "learning_rate": 0.001962361809045226,
      "loss": 2.1997,
      "step": 69830
    },
    {
      "epoch": 0.3492,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001962211055276382,
      "loss": 2.1503,
      "step": 69840
    },
    {
      "epoch": 0.34925,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001962060301507538,
      "loss": 2.1474,
      "step": 69850
    },
    {
      "epoch": 0.3493,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019619095477386933,
      "loss": 2.1571,
      "step": 69860
    },
    {
      "epoch": 0.34935,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001961758793969849,
      "loss": 2.1655,
      "step": 69870
    },
    {
      "epoch": 0.3494,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001961608040201005,
      "loss": 2.2167,
      "step": 69880
    },
    {
      "epoch": 0.34945,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019614572864321608,
      "loss": 2.1256,
      "step": 69890
    },
    {
      "epoch": 0.3495,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019613065326633166,
      "loss": 2.1834,
      "step": 69900
    },
    {
      "epoch": 0.34955,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019611557788944724,
      "loss": 2.1012,
      "step": 69910
    },
    {
      "epoch": 0.3496,
      "grad_norm": 0.625,
      "learning_rate": 0.001961005025125628,
      "loss": 2.1384,
      "step": 69920
    },
    {
      "epoch": 0.34965,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001960854271356784,
      "loss": 2.188,
      "step": 69930
    },
    {
      "epoch": 0.3497,
      "grad_norm": 0.546875,
      "learning_rate": 0.00196070351758794,
      "loss": 2.1192,
      "step": 69940
    },
    {
      "epoch": 0.34975,
      "grad_norm": 0.625,
      "learning_rate": 0.0019605527638190956,
      "loss": 2.158,
      "step": 69950
    },
    {
      "epoch": 0.3498,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0019604020100502514,
      "loss": 2.1596,
      "step": 69960
    },
    {
      "epoch": 0.34985,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001960251256281407,
      "loss": 2.1318,
      "step": 69970
    },
    {
      "epoch": 0.3499,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001960100502512563,
      "loss": 2.1411,
      "step": 69980
    },
    {
      "epoch": 0.34995,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0019599497487437184,
      "loss": 2.1729,
      "step": 69990
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0019597989949748746,
      "loss": 2.1623,
      "step": 70000
    },
    {
      "epoch": 0.35,
      "eval_loss": 2.1319494247436523,
      "eval_runtime": 49.0633,
      "eval_samples_per_second": 50.955,
      "eval_steps_per_second": 0.102,
      "step": 70000
    },
    {
      "epoch": 0.35005,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0019596482412060304,
      "loss": 2.1317,
      "step": 70010
    },
    {
      "epoch": 0.3501,
      "grad_norm": 0.734375,
      "learning_rate": 0.001959497487437186,
      "loss": 2.1728,
      "step": 70020
    },
    {
      "epoch": 0.35015,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019593467336683416,
      "loss": 2.155,
      "step": 70030
    },
    {
      "epoch": 0.3502,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0019591959798994974,
      "loss": 2.1494,
      "step": 70040
    },
    {
      "epoch": 0.35025,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019590452261306532,
      "loss": 2.1122,
      "step": 70050
    },
    {
      "epoch": 0.3503,
      "grad_norm": 0.59375,
      "learning_rate": 0.001958894472361809,
      "loss": 2.2108,
      "step": 70060
    },
    {
      "epoch": 0.35035,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001958743718592965,
      "loss": 2.1432,
      "step": 70070
    },
    {
      "epoch": 0.3504,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019585929648241207,
      "loss": 2.2018,
      "step": 70080
    },
    {
      "epoch": 0.35045,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0019584422110552765,
      "loss": 2.1565,
      "step": 70090
    },
    {
      "epoch": 0.3505,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019582914572864323,
      "loss": 2.094,
      "step": 70100
    },
    {
      "epoch": 0.35055,
      "grad_norm": 0.515625,
      "learning_rate": 0.001958140703517588,
      "loss": 2.2001,
      "step": 70110
    },
    {
      "epoch": 0.3506,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001957989949748744,
      "loss": 2.1557,
      "step": 70120
    },
    {
      "epoch": 0.35065,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019578391959798997,
      "loss": 2.109,
      "step": 70130
    },
    {
      "epoch": 0.3507,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0019576884422110555,
      "loss": 2.1403,
      "step": 70140
    },
    {
      "epoch": 0.35075,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001957537688442211,
      "loss": 2.1232,
      "step": 70150
    },
    {
      "epoch": 0.3508,
      "grad_norm": 0.5625,
      "learning_rate": 0.001957386934673367,
      "loss": 2.1747,
      "step": 70160
    },
    {
      "epoch": 0.35085,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001957236180904523,
      "loss": 2.1393,
      "step": 70170
    },
    {
      "epoch": 0.3509,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019570854271356783,
      "loss": 2.2149,
      "step": 70180
    },
    {
      "epoch": 0.35095,
      "grad_norm": 0.609375,
      "learning_rate": 0.001956934673366834,
      "loss": 2.1384,
      "step": 70190
    },
    {
      "epoch": 0.351,
      "grad_norm": 0.59375,
      "learning_rate": 0.00195678391959799,
      "loss": 2.2036,
      "step": 70200
    },
    {
      "epoch": 0.35105,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019566331658291457,
      "loss": 2.1427,
      "step": 70210
    },
    {
      "epoch": 0.3511,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019564824120603015,
      "loss": 2.225,
      "step": 70220
    },
    {
      "epoch": 0.35115,
      "grad_norm": 0.609375,
      "learning_rate": 0.0019563316582914573,
      "loss": 2.1673,
      "step": 70230
    },
    {
      "epoch": 0.3512,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001956180904522613,
      "loss": 2.1536,
      "step": 70240
    },
    {
      "epoch": 0.35125,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001956030150753769,
      "loss": 2.1676,
      "step": 70250
    },
    {
      "epoch": 0.3513,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019558793969849247,
      "loss": 2.1192,
      "step": 70260
    },
    {
      "epoch": 0.35135,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0019557286432160806,
      "loss": 2.2147,
      "step": 70270
    },
    {
      "epoch": 0.3514,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001955577889447236,
      "loss": 2.1795,
      "step": 70280
    },
    {
      "epoch": 0.35145,
      "grad_norm": 0.609375,
      "learning_rate": 0.001955427135678392,
      "loss": 2.1705,
      "step": 70290
    },
    {
      "epoch": 0.3515,
      "grad_norm": 0.625,
      "learning_rate": 0.001955276381909548,
      "loss": 2.1658,
      "step": 70300
    },
    {
      "epoch": 0.35155,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019551256281407033,
      "loss": 2.1779,
      "step": 70310
    },
    {
      "epoch": 0.3516,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019549748743718596,
      "loss": 2.1913,
      "step": 70320
    },
    {
      "epoch": 0.35165,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019548241206030154,
      "loss": 2.1442,
      "step": 70330
    },
    {
      "epoch": 0.3517,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019546733668341708,
      "loss": 2.1783,
      "step": 70340
    },
    {
      "epoch": 0.35175,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019545226130653266,
      "loss": 2.1641,
      "step": 70350
    },
    {
      "epoch": 0.3518,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019543718592964824,
      "loss": 2.155,
      "step": 70360
    },
    {
      "epoch": 0.35185,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001954221105527638,
      "loss": 2.0845,
      "step": 70370
    },
    {
      "epoch": 0.3519,
      "grad_norm": 0.51953125,
      "learning_rate": 0.001954070351758794,
      "loss": 2.1656,
      "step": 70380
    },
    {
      "epoch": 0.35195,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00195391959798995,
      "loss": 2.1539,
      "step": 70390
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019537688442211056,
      "loss": 2.0787,
      "step": 70400
    },
    {
      "epoch": 0.35205,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019536180904522614,
      "loss": 2.2144,
      "step": 70410
    },
    {
      "epoch": 0.3521,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019534673366834172,
      "loss": 2.1261,
      "step": 70420
    },
    {
      "epoch": 0.35215,
      "grad_norm": 0.546875,
      "learning_rate": 0.001953316582914573,
      "loss": 2.1293,
      "step": 70430
    },
    {
      "epoch": 0.3522,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019531658291457284,
      "loss": 2.128,
      "step": 70440
    },
    {
      "epoch": 0.35225,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019530150753768846,
      "loss": 2.1128,
      "step": 70450
    },
    {
      "epoch": 0.3523,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019528643216080402,
      "loss": 2.1365,
      "step": 70460
    },
    {
      "epoch": 0.35235,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001952713567839196,
      "loss": 2.1125,
      "step": 70470
    },
    {
      "epoch": 0.3524,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019525628140703516,
      "loss": 2.1765,
      "step": 70480
    },
    {
      "epoch": 0.35245,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019524120603015077,
      "loss": 2.1655,
      "step": 70490
    },
    {
      "epoch": 0.3525,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0019522613065326632,
      "loss": 2.1728,
      "step": 70500
    },
    {
      "epoch": 0.35255,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001952110552763819,
      "loss": 2.204,
      "step": 70510
    },
    {
      "epoch": 0.3526,
      "grad_norm": 0.625,
      "learning_rate": 0.001951959798994975,
      "loss": 2.1723,
      "step": 70520
    },
    {
      "epoch": 0.35265,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019518090452261307,
      "loss": 2.1747,
      "step": 70530
    },
    {
      "epoch": 0.3527,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019516582914572863,
      "loss": 2.146,
      "step": 70540
    },
    {
      "epoch": 0.35275,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019515075376884423,
      "loss": 2.1497,
      "step": 70550
    },
    {
      "epoch": 0.3528,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001951356783919598,
      "loss": 2.1469,
      "step": 70560
    },
    {
      "epoch": 0.35285,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0019512060301507537,
      "loss": 2.1856,
      "step": 70570
    },
    {
      "epoch": 0.3529,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019510552763819097,
      "loss": 2.1275,
      "step": 70580
    },
    {
      "epoch": 0.35295,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019509045226130653,
      "loss": 2.1094,
      "step": 70590
    },
    {
      "epoch": 0.353,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001950753768844221,
      "loss": 2.1923,
      "step": 70600
    },
    {
      "epoch": 0.35305,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019506030150753771,
      "loss": 2.1408,
      "step": 70610
    },
    {
      "epoch": 0.3531,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019504522613065327,
      "loss": 2.1674,
      "step": 70620
    },
    {
      "epoch": 0.35315,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019503015075376885,
      "loss": 2.1125,
      "step": 70630
    },
    {
      "epoch": 0.3532,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001950150753768844,
      "loss": 2.1482,
      "step": 70640
    },
    {
      "epoch": 0.35325,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019500000000000001,
      "loss": 2.1167,
      "step": 70650
    },
    {
      "epoch": 0.3533,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019498492462311557,
      "loss": 2.1894,
      "step": 70660
    },
    {
      "epoch": 0.35335,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019496984924623115,
      "loss": 2.1058,
      "step": 70670
    },
    {
      "epoch": 0.3534,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019495477386934675,
      "loss": 2.1423,
      "step": 70680
    },
    {
      "epoch": 0.35345,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019493969849246231,
      "loss": 2.1565,
      "step": 70690
    },
    {
      "epoch": 0.3535,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019492462311557787,
      "loss": 2.0815,
      "step": 70700
    },
    {
      "epoch": 0.35355,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0019490954773869348,
      "loss": 2.1384,
      "step": 70710
    },
    {
      "epoch": 0.3536,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0019489447236180906,
      "loss": 2.1385,
      "step": 70720
    },
    {
      "epoch": 0.35365,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019487939698492461,
      "loss": 2.1255,
      "step": 70730
    },
    {
      "epoch": 0.3537,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0019486432160804022,
      "loss": 2.11,
      "step": 70740
    },
    {
      "epoch": 0.35375,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0019484924623115578,
      "loss": 2.1243,
      "step": 70750
    },
    {
      "epoch": 0.3538,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019483417085427136,
      "loss": 2.1432,
      "step": 70760
    },
    {
      "epoch": 0.35385,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019481909547738696,
      "loss": 2.1188,
      "step": 70770
    },
    {
      "epoch": 0.3539,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019480402010050252,
      "loss": 2.1445,
      "step": 70780
    },
    {
      "epoch": 0.35395,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001947889447236181,
      "loss": 2.1735,
      "step": 70790
    },
    {
      "epoch": 0.354,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019477386934673366,
      "loss": 2.1645,
      "step": 70800
    },
    {
      "epoch": 0.35405,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019475879396984926,
      "loss": 2.1693,
      "step": 70810
    },
    {
      "epoch": 0.3541,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019474371859296482,
      "loss": 2.1272,
      "step": 70820
    },
    {
      "epoch": 0.35415,
      "grad_norm": 0.609375,
      "learning_rate": 0.001947286432160804,
      "loss": 2.1733,
      "step": 70830
    },
    {
      "epoch": 0.3542,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00194713567839196,
      "loss": 2.102,
      "step": 70840
    },
    {
      "epoch": 0.35425,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019469849246231156,
      "loss": 2.1588,
      "step": 70850
    },
    {
      "epoch": 0.3543,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019468341708542712,
      "loss": 2.2031,
      "step": 70860
    },
    {
      "epoch": 0.35435,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019466834170854272,
      "loss": 2.1482,
      "step": 70870
    },
    {
      "epoch": 0.3544,
      "grad_norm": 0.640625,
      "learning_rate": 0.001946532663316583,
      "loss": 2.1555,
      "step": 70880
    },
    {
      "epoch": 0.35445,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019463819095477386,
      "loss": 2.0957,
      "step": 70890
    },
    {
      "epoch": 0.3545,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0019462311557788946,
      "loss": 2.1713,
      "step": 70900
    },
    {
      "epoch": 0.35455,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019460804020100502,
      "loss": 2.1442,
      "step": 70910
    },
    {
      "epoch": 0.3546,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001945929648241206,
      "loss": 2.137,
      "step": 70920
    },
    {
      "epoch": 0.35465,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001945778894472362,
      "loss": 2.1407,
      "step": 70930
    },
    {
      "epoch": 0.3547,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019456281407035177,
      "loss": 2.139,
      "step": 70940
    },
    {
      "epoch": 0.35475,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019454773869346732,
      "loss": 2.1904,
      "step": 70950
    },
    {
      "epoch": 0.3548,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001945326633165829,
      "loss": 2.1147,
      "step": 70960
    },
    {
      "epoch": 0.35485,
      "grad_norm": 0.578125,
      "learning_rate": 0.001945175879396985,
      "loss": 2.1494,
      "step": 70970
    },
    {
      "epoch": 0.3549,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019450251256281407,
      "loss": 2.15,
      "step": 70980
    },
    {
      "epoch": 0.35495,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019448743718592965,
      "loss": 2.1587,
      "step": 70990
    },
    {
      "epoch": 0.355,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0019447236180904525,
      "loss": 2.1582,
      "step": 71000
    },
    {
      "epoch": 0.35505,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001944572864321608,
      "loss": 2.1291,
      "step": 71010
    },
    {
      "epoch": 0.3551,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019444221105527637,
      "loss": 2.1485,
      "step": 71020
    },
    {
      "epoch": 0.35515,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019442713567839197,
      "loss": 2.1594,
      "step": 71030
    },
    {
      "epoch": 0.3552,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019441206030150755,
      "loss": 2.128,
      "step": 71040
    },
    {
      "epoch": 0.35525,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001943969849246231,
      "loss": 2.1697,
      "step": 71050
    },
    {
      "epoch": 0.3553,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0019438190954773871,
      "loss": 2.1003,
      "step": 71060
    },
    {
      "epoch": 0.35535,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0019436683417085427,
      "loss": 2.1929,
      "step": 71070
    },
    {
      "epoch": 0.3554,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019435175879396985,
      "loss": 2.0954,
      "step": 71080
    },
    {
      "epoch": 0.35545,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019433668341708545,
      "loss": 2.1317,
      "step": 71090
    },
    {
      "epoch": 0.3555,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019432160804020101,
      "loss": 2.1009,
      "step": 71100
    },
    {
      "epoch": 0.35555,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019430653266331657,
      "loss": 2.1236,
      "step": 71110
    },
    {
      "epoch": 0.3556,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019429145728643215,
      "loss": 2.1245,
      "step": 71120
    },
    {
      "epoch": 0.35565,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0019427638190954776,
      "loss": 2.1049,
      "step": 71130
    },
    {
      "epoch": 0.3557,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0019426130653266331,
      "loss": 2.1773,
      "step": 71140
    },
    {
      "epoch": 0.35575,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001942462311557789,
      "loss": 2.175,
      "step": 71150
    },
    {
      "epoch": 0.3558,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019423115577889448,
      "loss": 2.1497,
      "step": 71160
    },
    {
      "epoch": 0.35585,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019421608040201006,
      "loss": 2.1472,
      "step": 71170
    },
    {
      "epoch": 0.3559,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019420100502512562,
      "loss": 2.1547,
      "step": 71180
    },
    {
      "epoch": 0.35595,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019418592964824122,
      "loss": 2.164,
      "step": 71190
    },
    {
      "epoch": 0.356,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001941708542713568,
      "loss": 2.1403,
      "step": 71200
    },
    {
      "epoch": 0.35605,
      "grad_norm": 0.498046875,
      "learning_rate": 0.0019415577889447236,
      "loss": 2.1545,
      "step": 71210
    },
    {
      "epoch": 0.3561,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019414070351758796,
      "loss": 2.1385,
      "step": 71220
    },
    {
      "epoch": 0.35615,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0019412562814070352,
      "loss": 2.1623,
      "step": 71230
    },
    {
      "epoch": 0.3562,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001941105527638191,
      "loss": 2.2216,
      "step": 71240
    },
    {
      "epoch": 0.35625,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001940954773869347,
      "loss": 2.1537,
      "step": 71250
    },
    {
      "epoch": 0.3563,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019408040201005026,
      "loss": 2.1732,
      "step": 71260
    },
    {
      "epoch": 0.35635,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019406532663316582,
      "loss": 2.171,
      "step": 71270
    },
    {
      "epoch": 0.3564,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001940502512562814,
      "loss": 2.1422,
      "step": 71280
    },
    {
      "epoch": 0.35645,
      "grad_norm": 0.609375,
      "learning_rate": 0.00194035175879397,
      "loss": 2.1531,
      "step": 71290
    },
    {
      "epoch": 0.3565,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0019402010050251256,
      "loss": 2.1885,
      "step": 71300
    },
    {
      "epoch": 0.35655,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019400502512562812,
      "loss": 2.1795,
      "step": 71310
    },
    {
      "epoch": 0.3566,
      "grad_norm": 0.515625,
      "learning_rate": 0.0019398994974874372,
      "loss": 2.1555,
      "step": 71320
    },
    {
      "epoch": 0.35665,
      "grad_norm": 0.51171875,
      "learning_rate": 0.001939748743718593,
      "loss": 2.2084,
      "step": 71330
    },
    {
      "epoch": 0.3567,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0019395979899497486,
      "loss": 2.1972,
      "step": 71340
    },
    {
      "epoch": 0.35675,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019394472361809047,
      "loss": 2.1559,
      "step": 71350
    },
    {
      "epoch": 0.3568,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019392964824120605,
      "loss": 2.154,
      "step": 71360
    },
    {
      "epoch": 0.35685,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001939145728643216,
      "loss": 2.0861,
      "step": 71370
    },
    {
      "epoch": 0.3569,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001938994974874372,
      "loss": 2.14,
      "step": 71380
    },
    {
      "epoch": 0.35695,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0019388442211055277,
      "loss": 2.1537,
      "step": 71390
    },
    {
      "epoch": 0.357,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019386934673366835,
      "loss": 2.1864,
      "step": 71400
    },
    {
      "epoch": 0.35705,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019385427135678395,
      "loss": 2.1297,
      "step": 71410
    },
    {
      "epoch": 0.3571,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001938391959798995,
      "loss": 2.1625,
      "step": 71420
    },
    {
      "epoch": 0.35715,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019382412060301507,
      "loss": 2.1865,
      "step": 71430
    },
    {
      "epoch": 0.3572,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019380904522613065,
      "loss": 2.1638,
      "step": 71440
    },
    {
      "epoch": 0.35725,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0019379396984924625,
      "loss": 2.1505,
      "step": 71450
    },
    {
      "epoch": 0.3573,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001937788944723618,
      "loss": 2.172,
      "step": 71460
    },
    {
      "epoch": 0.35735,
      "grad_norm": 0.609375,
      "learning_rate": 0.0019376381909547737,
      "loss": 2.118,
      "step": 71470
    },
    {
      "epoch": 0.3574,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019374874371859297,
      "loss": 2.136,
      "step": 71480
    },
    {
      "epoch": 0.35745,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019373366834170855,
      "loss": 2.1301,
      "step": 71490
    },
    {
      "epoch": 0.3575,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001937185929648241,
      "loss": 2.1818,
      "step": 71500
    },
    {
      "epoch": 0.35755,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019370351758793971,
      "loss": 2.1173,
      "step": 71510
    },
    {
      "epoch": 0.3576,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019368844221105527,
      "loss": 2.1781,
      "step": 71520
    },
    {
      "epoch": 0.35765,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019367336683417085,
      "loss": 2.1816,
      "step": 71530
    },
    {
      "epoch": 0.3577,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019365829145728645,
      "loss": 2.154,
      "step": 71540
    },
    {
      "epoch": 0.35775,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019364321608040201,
      "loss": 2.147,
      "step": 71550
    },
    {
      "epoch": 0.3578,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001936281407035176,
      "loss": 2.1631,
      "step": 71560
    },
    {
      "epoch": 0.35785,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001936130653266332,
      "loss": 2.1603,
      "step": 71570
    },
    {
      "epoch": 0.3579,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0019359798994974876,
      "loss": 2.1894,
      "step": 71580
    },
    {
      "epoch": 0.35795,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019358291457286432,
      "loss": 2.1042,
      "step": 71590
    },
    {
      "epoch": 0.358,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001935678391959799,
      "loss": 2.1379,
      "step": 71600
    },
    {
      "epoch": 0.35805,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001935527638190955,
      "loss": 2.0902,
      "step": 71610
    },
    {
      "epoch": 0.3581,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019353768844221106,
      "loss": 2.1579,
      "step": 71620
    },
    {
      "epoch": 0.35815,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019352261306532662,
      "loss": 2.1287,
      "step": 71630
    },
    {
      "epoch": 0.3582,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019350753768844222,
      "loss": 2.1676,
      "step": 71640
    },
    {
      "epoch": 0.35825,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001934924623115578,
      "loss": 2.1478,
      "step": 71650
    },
    {
      "epoch": 0.3583,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019347738693467336,
      "loss": 2.1208,
      "step": 71660
    },
    {
      "epoch": 0.35835,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019346231155778896,
      "loss": 2.1794,
      "step": 71670
    },
    {
      "epoch": 0.3584,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019344723618090452,
      "loss": 2.1514,
      "step": 71680
    },
    {
      "epoch": 0.35845,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001934321608040201,
      "loss": 2.177,
      "step": 71690
    },
    {
      "epoch": 0.3585,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001934170854271357,
      "loss": 2.1649,
      "step": 71700
    },
    {
      "epoch": 0.35855,
      "grad_norm": 0.640625,
      "learning_rate": 0.0019340201005025126,
      "loss": 2.102,
      "step": 71710
    },
    {
      "epoch": 0.3586,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019338693467336684,
      "loss": 2.1493,
      "step": 71720
    },
    {
      "epoch": 0.35865,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001933718592964824,
      "loss": 2.1514,
      "step": 71730
    },
    {
      "epoch": 0.3587,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00193356783919598,
      "loss": 2.0886,
      "step": 71740
    },
    {
      "epoch": 0.35875,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019334170854271356,
      "loss": 2.1638,
      "step": 71750
    },
    {
      "epoch": 0.3588,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019332663316582914,
      "loss": 2.1264,
      "step": 71760
    },
    {
      "epoch": 0.35885,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019331155778894475,
      "loss": 2.2246,
      "step": 71770
    },
    {
      "epoch": 0.3589,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001932964824120603,
      "loss": 2.1806,
      "step": 71780
    },
    {
      "epoch": 0.35895,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019328140703517586,
      "loss": 2.1956,
      "step": 71790
    },
    {
      "epoch": 0.359,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019326633165829147,
      "loss": 2.1493,
      "step": 71800
    },
    {
      "epoch": 0.35905,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019325125628140705,
      "loss": 2.1643,
      "step": 71810
    },
    {
      "epoch": 0.3591,
      "grad_norm": 0.51171875,
      "learning_rate": 0.001932361809045226,
      "loss": 2.1598,
      "step": 71820
    },
    {
      "epoch": 0.35915,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001932211055276382,
      "loss": 2.1343,
      "step": 71830
    },
    {
      "epoch": 0.3592,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019320603015075377,
      "loss": 2.1407,
      "step": 71840
    },
    {
      "epoch": 0.35925,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019319095477386935,
      "loss": 2.1447,
      "step": 71850
    },
    {
      "epoch": 0.3593,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0019317587939698495,
      "loss": 2.116,
      "step": 71860
    },
    {
      "epoch": 0.35935,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001931608040201005,
      "loss": 2.1622,
      "step": 71870
    },
    {
      "epoch": 0.3594,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019314572864321607,
      "loss": 2.1401,
      "step": 71880
    },
    {
      "epoch": 0.35945,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019313065326633165,
      "loss": 2.1172,
      "step": 71890
    },
    {
      "epoch": 0.3595,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0019311557788944725,
      "loss": 2.1494,
      "step": 71900
    },
    {
      "epoch": 0.35955,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001931005025125628,
      "loss": 2.1236,
      "step": 71910
    },
    {
      "epoch": 0.3596,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001930854271356784,
      "loss": 2.1462,
      "step": 71920
    },
    {
      "epoch": 0.35965,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00193070351758794,
      "loss": 2.1383,
      "step": 71930
    },
    {
      "epoch": 0.3597,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019305527638190955,
      "loss": 2.1179,
      "step": 71940
    },
    {
      "epoch": 0.35975,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019304020100502511,
      "loss": 2.1107,
      "step": 71950
    },
    {
      "epoch": 0.3598,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0019302512562814071,
      "loss": 2.1639,
      "step": 71960
    },
    {
      "epoch": 0.35985,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001930100502512563,
      "loss": 2.1878,
      "step": 71970
    },
    {
      "epoch": 0.3599,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019299497487437185,
      "loss": 2.0979,
      "step": 71980
    },
    {
      "epoch": 0.35995,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019297989949748746,
      "loss": 2.188,
      "step": 71990
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019296482412060301,
      "loss": 2.1283,
      "step": 72000
    },
    {
      "epoch": 0.36,
      "eval_loss": 2.123234510421753,
      "eval_runtime": 48.6276,
      "eval_samples_per_second": 51.411,
      "eval_steps_per_second": 0.103,
      "step": 72000
    },
    {
      "epoch": 0.36005,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001929497487437186,
      "loss": 2.1431,
      "step": 72010
    },
    {
      "epoch": 0.3601,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001929346733668342,
      "loss": 2.1482,
      "step": 72020
    },
    {
      "epoch": 0.36015,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0019291959798994976,
      "loss": 2.1763,
      "step": 72030
    },
    {
      "epoch": 0.3602,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019290452261306532,
      "loss": 2.1821,
      "step": 72040
    },
    {
      "epoch": 0.36025,
      "grad_norm": 0.68359375,
      "learning_rate": 0.001928894472361809,
      "loss": 2.1481,
      "step": 72050
    },
    {
      "epoch": 0.3603,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001928743718592965,
      "loss": 2.1516,
      "step": 72060
    },
    {
      "epoch": 0.36035,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019285929648241206,
      "loss": 2.1209,
      "step": 72070
    },
    {
      "epoch": 0.3604,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019284422110552764,
      "loss": 2.148,
      "step": 72080
    },
    {
      "epoch": 0.36045,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019282914572864322,
      "loss": 2.1701,
      "step": 72090
    },
    {
      "epoch": 0.3605,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001928140703517588,
      "loss": 2.1217,
      "step": 72100
    },
    {
      "epoch": 0.36055,
      "grad_norm": 0.703125,
      "learning_rate": 0.0019279899497487436,
      "loss": 2.1552,
      "step": 72110
    },
    {
      "epoch": 0.3606,
      "grad_norm": 0.640625,
      "learning_rate": 0.0019278391959798996,
      "loss": 2.1451,
      "step": 72120
    },
    {
      "epoch": 0.36065,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0019276884422110554,
      "loss": 2.1223,
      "step": 72130
    },
    {
      "epoch": 0.3607,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001927537688442211,
      "loss": 2.1818,
      "step": 72140
    },
    {
      "epoch": 0.36075,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001927386934673367,
      "loss": 2.1152,
      "step": 72150
    },
    {
      "epoch": 0.3608,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019272361809045226,
      "loss": 2.1544,
      "step": 72160
    },
    {
      "epoch": 0.36085,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019270854271356784,
      "loss": 2.1502,
      "step": 72170
    },
    {
      "epoch": 0.3609,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019269346733668345,
      "loss": 2.1326,
      "step": 72180
    },
    {
      "epoch": 0.36095,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00192678391959799,
      "loss": 2.1771,
      "step": 72190
    },
    {
      "epoch": 0.361,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019266331658291456,
      "loss": 2.115,
      "step": 72200
    },
    {
      "epoch": 0.36105,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019264824120603014,
      "loss": 2.1586,
      "step": 72210
    },
    {
      "epoch": 0.3611,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019263316582914575,
      "loss": 2.1646,
      "step": 72220
    },
    {
      "epoch": 0.36115,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001926180904522613,
      "loss": 2.121,
      "step": 72230
    },
    {
      "epoch": 0.3612,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019260301507537686,
      "loss": 2.1456,
      "step": 72240
    },
    {
      "epoch": 0.36125,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0019258793969849247,
      "loss": 2.1777,
      "step": 72250
    },
    {
      "epoch": 0.3613,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0019257286432160805,
      "loss": 2.1413,
      "step": 72260
    },
    {
      "epoch": 0.36135,
      "grad_norm": 0.69140625,
      "learning_rate": 0.001925577889447236,
      "loss": 2.157,
      "step": 72270
    },
    {
      "epoch": 0.3614,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001925427135678392,
      "loss": 2.1397,
      "step": 72280
    },
    {
      "epoch": 0.36145,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001925276381909548,
      "loss": 2.1628,
      "step": 72290
    },
    {
      "epoch": 0.3615,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0019251256281407035,
      "loss": 2.1616,
      "step": 72300
    },
    {
      "epoch": 0.36155,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019249748743718595,
      "loss": 2.1329,
      "step": 72310
    },
    {
      "epoch": 0.3616,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001924824120603015,
      "loss": 2.1546,
      "step": 72320
    },
    {
      "epoch": 0.36165,
      "grad_norm": 0.53125,
      "learning_rate": 0.001924673366834171,
      "loss": 2.1469,
      "step": 72330
    },
    {
      "epoch": 0.3617,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001924522613065327,
      "loss": 2.157,
      "step": 72340
    },
    {
      "epoch": 0.36175,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019243718592964825,
      "loss": 2.1514,
      "step": 72350
    },
    {
      "epoch": 0.3618,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001924221105527638,
      "loss": 2.1012,
      "step": 72360
    },
    {
      "epoch": 0.36185,
      "grad_norm": 0.546875,
      "learning_rate": 0.001924070351758794,
      "loss": 2.1463,
      "step": 72370
    },
    {
      "epoch": 0.3619,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00192391959798995,
      "loss": 2.1266,
      "step": 72380
    },
    {
      "epoch": 0.36195,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0019237688442211055,
      "loss": 2.1175,
      "step": 72390
    },
    {
      "epoch": 0.362,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0019236180904522611,
      "loss": 2.0801,
      "step": 72400
    },
    {
      "epoch": 0.36205,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019234673366834171,
      "loss": 2.1727,
      "step": 72410
    },
    {
      "epoch": 0.3621,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001923316582914573,
      "loss": 2.157,
      "step": 72420
    },
    {
      "epoch": 0.36215,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0019231658291457285,
      "loss": 2.1133,
      "step": 72430
    },
    {
      "epoch": 0.3622,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019230150753768846,
      "loss": 2.1393,
      "step": 72440
    },
    {
      "epoch": 0.36225,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0019228643216080402,
      "loss": 2.1284,
      "step": 72450
    },
    {
      "epoch": 0.3623,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001922713567839196,
      "loss": 2.156,
      "step": 72460
    },
    {
      "epoch": 0.36235,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001922562814070352,
      "loss": 2.1308,
      "step": 72470
    },
    {
      "epoch": 0.3624,
      "grad_norm": 0.515625,
      "learning_rate": 0.0019224120603015076,
      "loss": 2.1767,
      "step": 72480
    },
    {
      "epoch": 0.36245,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0019222613065326634,
      "loss": 2.1386,
      "step": 72490
    },
    {
      "epoch": 0.3625,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019221105527638194,
      "loss": 2.1407,
      "step": 72500
    },
    {
      "epoch": 0.36255,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001921959798994975,
      "loss": 2.1565,
      "step": 72510
    },
    {
      "epoch": 0.3626,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019218090452261306,
      "loss": 2.1072,
      "step": 72520
    },
    {
      "epoch": 0.36265,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019216582914572864,
      "loss": 2.1796,
      "step": 72530
    },
    {
      "epoch": 0.3627,
      "grad_norm": 0.609375,
      "learning_rate": 0.0019215075376884424,
      "loss": 2.1334,
      "step": 72540
    },
    {
      "epoch": 0.36275,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001921356783919598,
      "loss": 2.1507,
      "step": 72550
    },
    {
      "epoch": 0.3628,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019212060301507536,
      "loss": 2.1557,
      "step": 72560
    },
    {
      "epoch": 0.36285,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019210552763819096,
      "loss": 2.1744,
      "step": 72570
    },
    {
      "epoch": 0.3629,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0019209045226130654,
      "loss": 2.1748,
      "step": 72580
    },
    {
      "epoch": 0.36295,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001920753768844221,
      "loss": 2.171,
      "step": 72590
    },
    {
      "epoch": 0.363,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001920603015075377,
      "loss": 2.1495,
      "step": 72600
    },
    {
      "epoch": 0.36305,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0019204522613065326,
      "loss": 2.1029,
      "step": 72610
    },
    {
      "epoch": 0.3631,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019203015075376884,
      "loss": 2.1178,
      "step": 72620
    },
    {
      "epoch": 0.36315,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019201507537688445,
      "loss": 2.1807,
      "step": 72630
    },
    {
      "epoch": 0.3632,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00192,
      "loss": 2.1861,
      "step": 72640
    },
    {
      "epoch": 0.36325,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0019198492462311559,
      "loss": 2.1283,
      "step": 72650
    },
    {
      "epoch": 0.3633,
      "grad_norm": 0.4921875,
      "learning_rate": 0.0019196984924623117,
      "loss": 2.1621,
      "step": 72660
    },
    {
      "epoch": 0.36335,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0019195477386934675,
      "loss": 2.1475,
      "step": 72670
    },
    {
      "epoch": 0.3634,
      "grad_norm": 0.578125,
      "learning_rate": 0.001919396984924623,
      "loss": 2.1279,
      "step": 72680
    },
    {
      "epoch": 0.36345,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019192462311557789,
      "loss": 2.1582,
      "step": 72690
    },
    {
      "epoch": 0.3635,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019190954773869349,
      "loss": 2.1435,
      "step": 72700
    },
    {
      "epoch": 0.36355,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019189447236180905,
      "loss": 2.1701,
      "step": 72710
    },
    {
      "epoch": 0.3636,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001918793969849246,
      "loss": 2.1104,
      "step": 72720
    },
    {
      "epoch": 0.36365,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001918643216080402,
      "loss": 2.1386,
      "step": 72730
    },
    {
      "epoch": 0.3637,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001918492462311558,
      "loss": 2.1188,
      "step": 72740
    },
    {
      "epoch": 0.36375,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019183417085427135,
      "loss": 2.1222,
      "step": 72750
    },
    {
      "epoch": 0.3638,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019181909547738695,
      "loss": 2.1723,
      "step": 72760
    },
    {
      "epoch": 0.36385,
      "grad_norm": 0.5078125,
      "learning_rate": 0.001918040201005025,
      "loss": 2.1042,
      "step": 72770
    },
    {
      "epoch": 0.3639,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001917889447236181,
      "loss": 2.1738,
      "step": 72780
    },
    {
      "epoch": 0.36395,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001917738693467337,
      "loss": 2.1074,
      "step": 72790
    },
    {
      "epoch": 0.364,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019175879396984925,
      "loss": 2.1417,
      "step": 72800
    },
    {
      "epoch": 0.36405,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0019174371859296481,
      "loss": 2.1259,
      "step": 72810
    },
    {
      "epoch": 0.3641,
      "grad_norm": 0.5625,
      "learning_rate": 0.001917286432160804,
      "loss": 2.1647,
      "step": 72820
    },
    {
      "epoch": 0.36415,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00191713567839196,
      "loss": 2.1213,
      "step": 72830
    },
    {
      "epoch": 0.3642,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019169849246231155,
      "loss": 2.1421,
      "step": 72840
    },
    {
      "epoch": 0.36425,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0019168341708542713,
      "loss": 2.112,
      "step": 72850
    },
    {
      "epoch": 0.3643,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0019166834170854274,
      "loss": 2.1487,
      "step": 72860
    },
    {
      "epoch": 0.36435,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001916532663316583,
      "loss": 2.1661,
      "step": 72870
    },
    {
      "epoch": 0.3644,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019163819095477385,
      "loss": 2.1109,
      "step": 72880
    },
    {
      "epoch": 0.36445,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019162311557788946,
      "loss": 2.1363,
      "step": 72890
    },
    {
      "epoch": 0.3645,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019160804020100504,
      "loss": 2.1021,
      "step": 72900
    },
    {
      "epoch": 0.36455,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001915929648241206,
      "loss": 2.1481,
      "step": 72910
    },
    {
      "epoch": 0.3646,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001915778894472362,
      "loss": 2.1934,
      "step": 72920
    },
    {
      "epoch": 0.36465,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019156281407035176,
      "loss": 2.1277,
      "step": 72930
    },
    {
      "epoch": 0.3647,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019154773869346734,
      "loss": 2.1635,
      "step": 72940
    },
    {
      "epoch": 0.36475,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019153266331658294,
      "loss": 2.1136,
      "step": 72950
    },
    {
      "epoch": 0.3648,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001915175879396985,
      "loss": 2.1444,
      "step": 72960
    },
    {
      "epoch": 0.36485,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019150251256281406,
      "loss": 2.153,
      "step": 72970
    },
    {
      "epoch": 0.3649,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019148743718592964,
      "loss": 2.0856,
      "step": 72980
    },
    {
      "epoch": 0.36495,
      "grad_norm": 0.640625,
      "learning_rate": 0.0019147236180904524,
      "loss": 2.1865,
      "step": 72990
    },
    {
      "epoch": 0.365,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001914572864321608,
      "loss": 2.1538,
      "step": 73000
    },
    {
      "epoch": 0.36505,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019144221105527638,
      "loss": 2.1498,
      "step": 73010
    },
    {
      "epoch": 0.3651,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019142713567839196,
      "loss": 2.1444,
      "step": 73020
    },
    {
      "epoch": 0.36515,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019141206030150754,
      "loss": 2.1017,
      "step": 73030
    },
    {
      "epoch": 0.3652,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001913969849246231,
      "loss": 2.1384,
      "step": 73040
    },
    {
      "epoch": 0.36525,
      "grad_norm": 0.625,
      "learning_rate": 0.001913819095477387,
      "loss": 2.1205,
      "step": 73050
    },
    {
      "epoch": 0.3653,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019136683417085429,
      "loss": 2.197,
      "step": 73060
    },
    {
      "epoch": 0.36535,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019135175879396984,
      "loss": 2.1705,
      "step": 73070
    },
    {
      "epoch": 0.3654,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019133668341708545,
      "loss": 2.1527,
      "step": 73080
    },
    {
      "epoch": 0.36545,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00191321608040201,
      "loss": 2.1859,
      "step": 73090
    },
    {
      "epoch": 0.3655,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019130653266331659,
      "loss": 2.1579,
      "step": 73100
    },
    {
      "epoch": 0.36555,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019129145728643219,
      "loss": 2.132,
      "step": 73110
    },
    {
      "epoch": 0.3656,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019127638190954775,
      "loss": 2.1197,
      "step": 73120
    },
    {
      "epoch": 0.36565,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001912613065326633,
      "loss": 2.0975,
      "step": 73130
    },
    {
      "epoch": 0.3657,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019124623115577889,
      "loss": 2.1467,
      "step": 73140
    },
    {
      "epoch": 0.36575,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001912311557788945,
      "loss": 2.098,
      "step": 73150
    },
    {
      "epoch": 0.3658,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019121608040201005,
      "loss": 2.1748,
      "step": 73160
    },
    {
      "epoch": 0.36585,
      "grad_norm": 0.5078125,
      "learning_rate": 0.001912010050251256,
      "loss": 2.1343,
      "step": 73170
    },
    {
      "epoch": 0.3659,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001911859296482412,
      "loss": 2.1274,
      "step": 73180
    },
    {
      "epoch": 0.36595,
      "grad_norm": 0.59375,
      "learning_rate": 0.001911708542713568,
      "loss": 2.1678,
      "step": 73190
    },
    {
      "epoch": 0.366,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019115577889447235,
      "loss": 2.1558,
      "step": 73200
    },
    {
      "epoch": 0.36605,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019114070351758795,
      "loss": 2.0789,
      "step": 73210
    },
    {
      "epoch": 0.3661,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019112562814070353,
      "loss": 2.1712,
      "step": 73220
    },
    {
      "epoch": 0.36615,
      "grad_norm": 0.59375,
      "learning_rate": 0.001911105527638191,
      "loss": 2.1287,
      "step": 73230
    },
    {
      "epoch": 0.3662,
      "grad_norm": 0.53125,
      "learning_rate": 0.001910954773869347,
      "loss": 2.1963,
      "step": 73240
    },
    {
      "epoch": 0.36625,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019108040201005025,
      "loss": 2.1179,
      "step": 73250
    },
    {
      "epoch": 0.3663,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019106532663316583,
      "loss": 2.1109,
      "step": 73260
    },
    {
      "epoch": 0.36635,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0019105025125628144,
      "loss": 2.169,
      "step": 73270
    },
    {
      "epoch": 0.3664,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00191035175879397,
      "loss": 2.1136,
      "step": 73280
    },
    {
      "epoch": 0.36645,
      "grad_norm": 0.484375,
      "learning_rate": 0.0019102010050251255,
      "loss": 2.1428,
      "step": 73290
    },
    {
      "epoch": 0.3665,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019100502512562813,
      "loss": 2.1347,
      "step": 73300
    },
    {
      "epoch": 0.36655,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0019098994974874374,
      "loss": 2.0871,
      "step": 73310
    },
    {
      "epoch": 0.3666,
      "grad_norm": 0.59375,
      "learning_rate": 0.001909748743718593,
      "loss": 2.1168,
      "step": 73320
    },
    {
      "epoch": 0.36665,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0019095979899497486,
      "loss": 2.1316,
      "step": 73330
    },
    {
      "epoch": 0.3667,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019094472361809046,
      "loss": 2.1792,
      "step": 73340
    },
    {
      "epoch": 0.36675,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0019092964824120604,
      "loss": 2.1856,
      "step": 73350
    },
    {
      "epoch": 0.3668,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001909145728643216,
      "loss": 2.1921,
      "step": 73360
    },
    {
      "epoch": 0.36685,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001908994974874372,
      "loss": 2.1446,
      "step": 73370
    },
    {
      "epoch": 0.3669,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019088442211055276,
      "loss": 2.1668,
      "step": 73380
    },
    {
      "epoch": 0.36695,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0019086934673366834,
      "loss": 2.1124,
      "step": 73390
    },
    {
      "epoch": 0.367,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019085427135678394,
      "loss": 2.1208,
      "step": 73400
    },
    {
      "epoch": 0.36705,
      "grad_norm": 0.5625,
      "learning_rate": 0.001908391959798995,
      "loss": 2.1466,
      "step": 73410
    },
    {
      "epoch": 0.3671,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019082412060301508,
      "loss": 2.1763,
      "step": 73420
    },
    {
      "epoch": 0.36715,
      "grad_norm": 0.59375,
      "learning_rate": 0.0019080904522613068,
      "loss": 2.1671,
      "step": 73430
    },
    {
      "epoch": 0.3672,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019079396984924624,
      "loss": 2.1383,
      "step": 73440
    },
    {
      "epoch": 0.36725,
      "grad_norm": 0.5625,
      "learning_rate": 0.001907788944723618,
      "loss": 2.1655,
      "step": 73450
    },
    {
      "epoch": 0.3673,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0019076381909547738,
      "loss": 2.1454,
      "step": 73460
    },
    {
      "epoch": 0.36735,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0019074874371859298,
      "loss": 2.1129,
      "step": 73470
    },
    {
      "epoch": 0.3674,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0019073366834170854,
      "loss": 2.168,
      "step": 73480
    },
    {
      "epoch": 0.36745,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001907185929648241,
      "loss": 2.1399,
      "step": 73490
    },
    {
      "epoch": 0.3675,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001907035175879397,
      "loss": 2.1665,
      "step": 73500
    },
    {
      "epoch": 0.36755,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0019068844221105529,
      "loss": 2.1038,
      "step": 73510
    },
    {
      "epoch": 0.3676,
      "grad_norm": 0.53125,
      "learning_rate": 0.0019067336683417084,
      "loss": 2.1278,
      "step": 73520
    },
    {
      "epoch": 0.36765,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0019065829145728645,
      "loss": 2.1884,
      "step": 73530
    },
    {
      "epoch": 0.3677,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00190643216080402,
      "loss": 2.1508,
      "step": 73540
    },
    {
      "epoch": 0.36775,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019062814070351759,
      "loss": 2.1246,
      "step": 73550
    },
    {
      "epoch": 0.3678,
      "grad_norm": 0.51953125,
      "learning_rate": 0.001906130653266332,
      "loss": 2.1437,
      "step": 73560
    },
    {
      "epoch": 0.36785,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0019059798994974875,
      "loss": 2.1024,
      "step": 73570
    },
    {
      "epoch": 0.3679,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0019058291457286433,
      "loss": 2.1618,
      "step": 73580
    },
    {
      "epoch": 0.36795,
      "grad_norm": 0.59375,
      "learning_rate": 0.001905678391959799,
      "loss": 2.1744,
      "step": 73590
    },
    {
      "epoch": 0.368,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001905527638190955,
      "loss": 2.1322,
      "step": 73600
    },
    {
      "epoch": 0.36805,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019053768844221105,
      "loss": 2.1204,
      "step": 73610
    },
    {
      "epoch": 0.3681,
      "grad_norm": 0.5,
      "learning_rate": 0.0019052261306532663,
      "loss": 2.151,
      "step": 73620
    },
    {
      "epoch": 0.36815,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019050753768844223,
      "loss": 2.1748,
      "step": 73630
    },
    {
      "epoch": 0.3682,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001904924623115578,
      "loss": 2.1504,
      "step": 73640
    },
    {
      "epoch": 0.36825,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019047738693467335,
      "loss": 2.1687,
      "step": 73650
    },
    {
      "epoch": 0.3683,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0019046231155778895,
      "loss": 2.1701,
      "step": 73660
    },
    {
      "epoch": 0.36835,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0019044723618090453,
      "loss": 2.0935,
      "step": 73670
    },
    {
      "epoch": 0.3684,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001904321608040201,
      "loss": 2.1777,
      "step": 73680
    },
    {
      "epoch": 0.36845,
      "grad_norm": 0.546875,
      "learning_rate": 0.001904170854271357,
      "loss": 2.1375,
      "step": 73690
    },
    {
      "epoch": 0.3685,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019040201005025125,
      "loss": 2.1352,
      "step": 73700
    },
    {
      "epoch": 0.36855,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0019038693467336683,
      "loss": 2.1412,
      "step": 73710
    },
    {
      "epoch": 0.3686,
      "grad_norm": 0.578125,
      "learning_rate": 0.0019037185929648244,
      "loss": 2.1482,
      "step": 73720
    },
    {
      "epoch": 0.36865,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00190356783919598,
      "loss": 2.1024,
      "step": 73730
    },
    {
      "epoch": 0.3687,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0019034170854271355,
      "loss": 2.134,
      "step": 73740
    },
    {
      "epoch": 0.36875,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0019032663316582916,
      "loss": 2.1401,
      "step": 73750
    },
    {
      "epoch": 0.3688,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0019031155778894474,
      "loss": 2.1735,
      "step": 73760
    },
    {
      "epoch": 0.36885,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001902964824120603,
      "loss": 2.1258,
      "step": 73770
    },
    {
      "epoch": 0.3689,
      "grad_norm": 0.65625,
      "learning_rate": 0.0019028140703517588,
      "loss": 2.1948,
      "step": 73780
    },
    {
      "epoch": 0.36895,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0019026633165829148,
      "loss": 2.1604,
      "step": 73790
    },
    {
      "epoch": 0.369,
      "grad_norm": 0.609375,
      "learning_rate": 0.0019025125628140704,
      "loss": 2.12,
      "step": 73800
    },
    {
      "epoch": 0.36905,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001902361809045226,
      "loss": 2.1146,
      "step": 73810
    },
    {
      "epoch": 0.3691,
      "grad_norm": 0.578125,
      "learning_rate": 0.001902211055276382,
      "loss": 2.1871,
      "step": 73820
    },
    {
      "epoch": 0.36915,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019020603015075378,
      "loss": 2.0841,
      "step": 73830
    },
    {
      "epoch": 0.3692,
      "grad_norm": 0.5625,
      "learning_rate": 0.0019019095477386934,
      "loss": 2.1568,
      "step": 73840
    },
    {
      "epoch": 0.36925,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0019017587939698494,
      "loss": 2.134,
      "step": 73850
    },
    {
      "epoch": 0.3693,
      "grad_norm": 0.625,
      "learning_rate": 0.001901608040201005,
      "loss": 2.1421,
      "step": 73860
    },
    {
      "epoch": 0.36935,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019014572864321608,
      "loss": 2.118,
      "step": 73870
    },
    {
      "epoch": 0.3694,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0019013065326633168,
      "loss": 2.0924,
      "step": 73880
    },
    {
      "epoch": 0.36945,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0019011557788944724,
      "loss": 2.1782,
      "step": 73890
    },
    {
      "epoch": 0.3695,
      "grad_norm": 0.5625,
      "learning_rate": 0.001901005025125628,
      "loss": 2.1338,
      "step": 73900
    },
    {
      "epoch": 0.36955,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0019008542713567838,
      "loss": 2.1655,
      "step": 73910
    },
    {
      "epoch": 0.3696,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0019007035175879399,
      "loss": 2.1434,
      "step": 73920
    },
    {
      "epoch": 0.36965,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0019005527638190954,
      "loss": 2.0953,
      "step": 73930
    },
    {
      "epoch": 0.3697,
      "grad_norm": 0.546875,
      "learning_rate": 0.0019004020100502513,
      "loss": 2.1481,
      "step": 73940
    },
    {
      "epoch": 0.36975,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001900251256281407,
      "loss": 2.1347,
      "step": 73950
    },
    {
      "epoch": 0.3698,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0019001005025125629,
      "loss": 2.1238,
      "step": 73960
    },
    {
      "epoch": 0.36985,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018999497487437185,
      "loss": 2.1878,
      "step": 73970
    },
    {
      "epoch": 0.3699,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018997989949748745,
      "loss": 2.1119,
      "step": 73980
    },
    {
      "epoch": 0.36995,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018996482412060303,
      "loss": 2.1479,
      "step": 73990
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018994974874371859,
      "loss": 2.126,
      "step": 74000
    },
    {
      "epoch": 0.37,
      "eval_loss": 2.1222848892211914,
      "eval_runtime": 46.5479,
      "eval_samples_per_second": 53.708,
      "eval_steps_per_second": 0.107,
      "step": 74000
    },
    {
      "epoch": 0.37005,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001899346733668342,
      "loss": 2.1712,
      "step": 74010
    },
    {
      "epoch": 0.3701,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018991959798994975,
      "loss": 2.1371,
      "step": 74020
    },
    {
      "epoch": 0.37015,
      "grad_norm": 0.53125,
      "learning_rate": 0.0018990452261306533,
      "loss": 2.1384,
      "step": 74030
    },
    {
      "epoch": 0.3702,
      "grad_norm": 0.625,
      "learning_rate": 0.0018988944723618093,
      "loss": 2.1967,
      "step": 74040
    },
    {
      "epoch": 0.37025,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001898743718592965,
      "loss": 2.1592,
      "step": 74050
    },
    {
      "epoch": 0.3703,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018985929648241205,
      "loss": 2.155,
      "step": 74060
    },
    {
      "epoch": 0.37035,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018984422110552763,
      "loss": 2.1645,
      "step": 74070
    },
    {
      "epoch": 0.3704,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018982914572864323,
      "loss": 2.1174,
      "step": 74080
    },
    {
      "epoch": 0.37045,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001898140703517588,
      "loss": 2.1772,
      "step": 74090
    },
    {
      "epoch": 0.3705,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018979899497487435,
      "loss": 2.1322,
      "step": 74100
    },
    {
      "epoch": 0.37055,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0018978391959798995,
      "loss": 2.1018,
      "step": 74110
    },
    {
      "epoch": 0.3706,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018976884422110553,
      "loss": 2.1742,
      "step": 74120
    },
    {
      "epoch": 0.37065,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001897537688442211,
      "loss": 2.1174,
      "step": 74130
    },
    {
      "epoch": 0.3707,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001897386934673367,
      "loss": 2.084,
      "step": 74140
    },
    {
      "epoch": 0.37075,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018972361809045228,
      "loss": 2.1744,
      "step": 74150
    },
    {
      "epoch": 0.3708,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018970854271356783,
      "loss": 2.1246,
      "step": 74160
    },
    {
      "epoch": 0.37085,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018969346733668344,
      "loss": 2.2004,
      "step": 74170
    },
    {
      "epoch": 0.3709,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00189678391959799,
      "loss": 2.1384,
      "step": 74180
    },
    {
      "epoch": 0.37095,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018966331658291458,
      "loss": 2.1288,
      "step": 74190
    },
    {
      "epoch": 0.371,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018964824120603018,
      "loss": 2.13,
      "step": 74200
    },
    {
      "epoch": 0.37105,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018963316582914574,
      "loss": 2.1548,
      "step": 74210
    },
    {
      "epoch": 0.3711,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001896180904522613,
      "loss": 2.1374,
      "step": 74220
    },
    {
      "epoch": 0.37115,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018960301507537688,
      "loss": 2.1868,
      "step": 74230
    },
    {
      "epoch": 0.3712,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0018958793969849248,
      "loss": 2.0975,
      "step": 74240
    },
    {
      "epoch": 0.37125,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018957286432160804,
      "loss": 2.1349,
      "step": 74250
    },
    {
      "epoch": 0.3713,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001895577889447236,
      "loss": 2.1122,
      "step": 74260
    },
    {
      "epoch": 0.37135,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001895427135678392,
      "loss": 2.1644,
      "step": 74270
    },
    {
      "epoch": 0.3714,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018952763819095478,
      "loss": 2.1711,
      "step": 74280
    },
    {
      "epoch": 0.37145,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018951256281407034,
      "loss": 2.1212,
      "step": 74290
    },
    {
      "epoch": 0.3715,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018949748743718594,
      "loss": 2.1768,
      "step": 74300
    },
    {
      "epoch": 0.37155,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001894824120603015,
      "loss": 2.1458,
      "step": 74310
    },
    {
      "epoch": 0.3716,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018946733668341708,
      "loss": 2.103,
      "step": 74320
    },
    {
      "epoch": 0.37165,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018945226130653268,
      "loss": 2.1574,
      "step": 74330
    },
    {
      "epoch": 0.3717,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018943718592964824,
      "loss": 2.162,
      "step": 74340
    },
    {
      "epoch": 0.37175,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0018942211055276382,
      "loss": 2.1543,
      "step": 74350
    },
    {
      "epoch": 0.3718,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018940703517587943,
      "loss": 2.1517,
      "step": 74360
    },
    {
      "epoch": 0.37185,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018939195979899499,
      "loss": 2.1078,
      "step": 74370
    },
    {
      "epoch": 0.3719,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0018937688442211054,
      "loss": 2.0862,
      "step": 74380
    },
    {
      "epoch": 0.37195,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018936180904522613,
      "loss": 2.1656,
      "step": 74390
    },
    {
      "epoch": 0.372,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018934673366834173,
      "loss": 2.1221,
      "step": 74400
    },
    {
      "epoch": 0.37205,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018933165829145729,
      "loss": 2.2114,
      "step": 74410
    },
    {
      "epoch": 0.3721,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018931658291457285,
      "loss": 2.1214,
      "step": 74420
    },
    {
      "epoch": 0.37215,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018930150753768845,
      "loss": 2.1051,
      "step": 74430
    },
    {
      "epoch": 0.3722,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018928643216080403,
      "loss": 2.1449,
      "step": 74440
    },
    {
      "epoch": 0.37225,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018927135678391959,
      "loss": 2.1366,
      "step": 74450
    },
    {
      "epoch": 0.3723,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001892562814070352,
      "loss": 2.0909,
      "step": 74460
    },
    {
      "epoch": 0.37235,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018924120603015075,
      "loss": 2.1703,
      "step": 74470
    },
    {
      "epoch": 0.3724,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0018922613065326633,
      "loss": 2.1522,
      "step": 74480
    },
    {
      "epoch": 0.37245,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018921105527638193,
      "loss": 2.1699,
      "step": 74490
    },
    {
      "epoch": 0.3725,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001891959798994975,
      "loss": 2.1258,
      "step": 74500
    },
    {
      "epoch": 0.37255,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018918090452261307,
      "loss": 2.1526,
      "step": 74510
    },
    {
      "epoch": 0.3726,
      "grad_norm": 0.703125,
      "learning_rate": 0.0018916582914572865,
      "loss": 2.1768,
      "step": 74520
    },
    {
      "epoch": 0.37265,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018915075376884423,
      "loss": 2.1819,
      "step": 74530
    },
    {
      "epoch": 0.3727,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001891356783919598,
      "loss": 2.1347,
      "step": 74540
    },
    {
      "epoch": 0.37275,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018912060301507537,
      "loss": 2.1881,
      "step": 74550
    },
    {
      "epoch": 0.3728,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018910552763819098,
      "loss": 2.1259,
      "step": 74560
    },
    {
      "epoch": 0.37285,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018909045226130653,
      "loss": 2.1092,
      "step": 74570
    },
    {
      "epoch": 0.3729,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001890753768844221,
      "loss": 2.1169,
      "step": 74580
    },
    {
      "epoch": 0.37295,
      "grad_norm": 0.5625,
      "learning_rate": 0.001890603015075377,
      "loss": 2.1384,
      "step": 74590
    },
    {
      "epoch": 0.373,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018904522613065328,
      "loss": 2.1617,
      "step": 74600
    },
    {
      "epoch": 0.37305,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018903015075376884,
      "loss": 2.1595,
      "step": 74610
    },
    {
      "epoch": 0.3731,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0018901507537688444,
      "loss": 2.129,
      "step": 74620
    },
    {
      "epoch": 0.37315,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00189,
      "loss": 2.111,
      "step": 74630
    },
    {
      "epoch": 0.3732,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018898492462311558,
      "loss": 2.139,
      "step": 74640
    },
    {
      "epoch": 0.37325,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018896984924623118,
      "loss": 2.1309,
      "step": 74650
    },
    {
      "epoch": 0.3733,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018895477386934674,
      "loss": 2.1099,
      "step": 74660
    },
    {
      "epoch": 0.37335,
      "grad_norm": 0.5625,
      "learning_rate": 0.001889396984924623,
      "loss": 2.139,
      "step": 74670
    },
    {
      "epoch": 0.3734,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001889246231155779,
      "loss": 2.1433,
      "step": 74680
    },
    {
      "epoch": 0.37345,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018890954773869348,
      "loss": 2.1556,
      "step": 74690
    },
    {
      "epoch": 0.3735,
      "grad_norm": 0.53125,
      "learning_rate": 0.0018889447236180904,
      "loss": 2.2029,
      "step": 74700
    },
    {
      "epoch": 0.37355,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018887939698492462,
      "loss": 2.1501,
      "step": 74710
    },
    {
      "epoch": 0.3736,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018886432160804022,
      "loss": 2.1213,
      "step": 74720
    },
    {
      "epoch": 0.37365,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018884924623115578,
      "loss": 2.1289,
      "step": 74730
    },
    {
      "epoch": 0.3737,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018883417085427134,
      "loss": 2.1221,
      "step": 74740
    },
    {
      "epoch": 0.37375,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018881909547738694,
      "loss": 2.1325,
      "step": 74750
    },
    {
      "epoch": 0.3738,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018880402010050252,
      "loss": 2.1538,
      "step": 74760
    },
    {
      "epoch": 0.37385,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018878894472361808,
      "loss": 2.1399,
      "step": 74770
    },
    {
      "epoch": 0.3739,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018877386934673369,
      "loss": 2.1747,
      "step": 74780
    },
    {
      "epoch": 0.37395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018875879396984924,
      "loss": 2.1958,
      "step": 74790
    },
    {
      "epoch": 0.374,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018874371859296483,
      "loss": 2.1787,
      "step": 74800
    },
    {
      "epoch": 0.37405,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018872864321608043,
      "loss": 2.1711,
      "step": 74810
    },
    {
      "epoch": 0.3741,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018871356783919599,
      "loss": 2.105,
      "step": 74820
    },
    {
      "epoch": 0.37415,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018869849246231155,
      "loss": 2.1842,
      "step": 74830
    },
    {
      "epoch": 0.3742,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018868341708542715,
      "loss": 2.1724,
      "step": 74840
    },
    {
      "epoch": 0.37425,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018866834170854273,
      "loss": 2.0778,
      "step": 74850
    },
    {
      "epoch": 0.3743,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018865326633165829,
      "loss": 2.1958,
      "step": 74860
    },
    {
      "epoch": 0.37435,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018863819095477387,
      "loss": 2.102,
      "step": 74870
    },
    {
      "epoch": 0.3744,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018862311557788945,
      "loss": 2.1979,
      "step": 74880
    },
    {
      "epoch": 0.37445,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018860804020100503,
      "loss": 2.1336,
      "step": 74890
    },
    {
      "epoch": 0.3745,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018859296482412059,
      "loss": 2.1416,
      "step": 74900
    },
    {
      "epoch": 0.37455,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001885778894472362,
      "loss": 2.1863,
      "step": 74910
    },
    {
      "epoch": 0.3746,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0018856281407035177,
      "loss": 2.1529,
      "step": 74920
    },
    {
      "epoch": 0.37465,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0018854773869346733,
      "loss": 2.0944,
      "step": 74930
    },
    {
      "epoch": 0.3747,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018853266331658293,
      "loss": 2.1553,
      "step": 74940
    },
    {
      "epoch": 0.37475,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001885175879396985,
      "loss": 2.1335,
      "step": 74950
    },
    {
      "epoch": 0.3748,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018850251256281407,
      "loss": 2.1539,
      "step": 74960
    },
    {
      "epoch": 0.37485,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018848743718592968,
      "loss": 2.1751,
      "step": 74970
    },
    {
      "epoch": 0.3749,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018847236180904523,
      "loss": 2.0865,
      "step": 74980
    },
    {
      "epoch": 0.37495,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001884572864321608,
      "loss": 2.164,
      "step": 74990
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001884422110552764,
      "loss": 2.0864,
      "step": 75000
    },
    {
      "epoch": 0.37505,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018842713567839198,
      "loss": 2.1462,
      "step": 75010
    },
    {
      "epoch": 0.3751,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018841206030150754,
      "loss": 2.1584,
      "step": 75020
    },
    {
      "epoch": 0.37515,
      "grad_norm": 0.5625,
      "learning_rate": 0.001883969849246231,
      "loss": 2.1225,
      "step": 75030
    },
    {
      "epoch": 0.3752,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001883819095477387,
      "loss": 2.1019,
      "step": 75040
    },
    {
      "epoch": 0.37525,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018836683417085428,
      "loss": 2.149,
      "step": 75050
    },
    {
      "epoch": 0.3753,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018835175879396984,
      "loss": 2.1256,
      "step": 75060
    },
    {
      "epoch": 0.37535,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018833668341708544,
      "loss": 2.1307,
      "step": 75070
    },
    {
      "epoch": 0.3754,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018832160804020102,
      "loss": 2.1171,
      "step": 75080
    },
    {
      "epoch": 0.37545,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0018830653266331658,
      "loss": 2.1219,
      "step": 75090
    },
    {
      "epoch": 0.3755,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018829145728643218,
      "loss": 2.1061,
      "step": 75100
    },
    {
      "epoch": 0.37555,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0018827638190954774,
      "loss": 2.1302,
      "step": 75110
    },
    {
      "epoch": 0.3756,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018826130653266332,
      "loss": 2.1281,
      "step": 75120
    },
    {
      "epoch": 0.37565,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0018824623115577892,
      "loss": 2.1365,
      "step": 75130
    },
    {
      "epoch": 0.3757,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018823115577889448,
      "loss": 2.1435,
      "step": 75140
    },
    {
      "epoch": 0.37575,
      "grad_norm": 0.65625,
      "learning_rate": 0.0018821608040201004,
      "loss": 2.1525,
      "step": 75150
    },
    {
      "epoch": 0.3758,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018820100502512562,
      "loss": 2.182,
      "step": 75160
    },
    {
      "epoch": 0.37585,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018818592964824122,
      "loss": 2.1179,
      "step": 75170
    },
    {
      "epoch": 0.3759,
      "grad_norm": 0.671875,
      "learning_rate": 0.0018817085427135678,
      "loss": 2.1752,
      "step": 75180
    },
    {
      "epoch": 0.37595,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018815577889447234,
      "loss": 2.1133,
      "step": 75190
    },
    {
      "epoch": 0.376,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018814070351758794,
      "loss": 2.1388,
      "step": 75200
    },
    {
      "epoch": 0.37605,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018812562814070352,
      "loss": 2.1714,
      "step": 75210
    },
    {
      "epoch": 0.3761,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018811055276381908,
      "loss": 2.1445,
      "step": 75220
    },
    {
      "epoch": 0.37615,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018809547738693469,
      "loss": 2.1156,
      "step": 75230
    },
    {
      "epoch": 0.3762,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018808040201005025,
      "loss": 2.1884,
      "step": 75240
    },
    {
      "epoch": 0.37625,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018806532663316583,
      "loss": 2.1842,
      "step": 75250
    },
    {
      "epoch": 0.3763,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018805025125628143,
      "loss": 2.1685,
      "step": 75260
    },
    {
      "epoch": 0.37635,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018803517587939699,
      "loss": 2.1473,
      "step": 75270
    },
    {
      "epoch": 0.3764,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018802010050251257,
      "loss": 2.1495,
      "step": 75280
    },
    {
      "epoch": 0.37645,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018800502512562817,
      "loss": 2.1432,
      "step": 75290
    },
    {
      "epoch": 0.3765,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018798994974874373,
      "loss": 2.1608,
      "step": 75300
    },
    {
      "epoch": 0.37655,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018797487437185929,
      "loss": 2.1289,
      "step": 75310
    },
    {
      "epoch": 0.3766,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018795979899497487,
      "loss": 2.1687,
      "step": 75320
    },
    {
      "epoch": 0.37665,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018794472361809047,
      "loss": 2.1471,
      "step": 75330
    },
    {
      "epoch": 0.3767,
      "grad_norm": 0.65625,
      "learning_rate": 0.0018792964824120603,
      "loss": 2.1512,
      "step": 75340
    },
    {
      "epoch": 0.37675,
      "grad_norm": 0.578125,
      "learning_rate": 0.001879145728643216,
      "loss": 2.1893,
      "step": 75350
    },
    {
      "epoch": 0.3768,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001878994974874372,
      "loss": 2.198,
      "step": 75360
    },
    {
      "epoch": 0.37685,
      "grad_norm": 0.53125,
      "learning_rate": 0.0018788442211055277,
      "loss": 2.1748,
      "step": 75370
    },
    {
      "epoch": 0.3769,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018786934673366833,
      "loss": 2.0851,
      "step": 75380
    },
    {
      "epoch": 0.37695,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018785427135678393,
      "loss": 2.0903,
      "step": 75390
    },
    {
      "epoch": 0.377,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001878391959798995,
      "loss": 2.116,
      "step": 75400
    },
    {
      "epoch": 0.37705,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018782412060301507,
      "loss": 2.1016,
      "step": 75410
    },
    {
      "epoch": 0.3771,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018780904522613068,
      "loss": 2.1575,
      "step": 75420
    },
    {
      "epoch": 0.37715,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0018779396984924623,
      "loss": 2.0974,
      "step": 75430
    },
    {
      "epoch": 0.3772,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018777889447236182,
      "loss": 2.1486,
      "step": 75440
    },
    {
      "epoch": 0.37725,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001877638190954774,
      "loss": 2.1476,
      "step": 75450
    },
    {
      "epoch": 0.3773,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018774874371859298,
      "loss": 2.1688,
      "step": 75460
    },
    {
      "epoch": 0.37735,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018773366834170854,
      "loss": 2.1117,
      "step": 75470
    },
    {
      "epoch": 0.3774,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018771859296482412,
      "loss": 2.1322,
      "step": 75480
    },
    {
      "epoch": 0.37745,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018770351758793972,
      "loss": 2.141,
      "step": 75490
    },
    {
      "epoch": 0.3775,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018768844221105528,
      "loss": 2.1117,
      "step": 75500
    },
    {
      "epoch": 0.37755,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0018767336683417084,
      "loss": 2.163,
      "step": 75510
    },
    {
      "epoch": 0.3776,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0018765829145728644,
      "loss": 2.1278,
      "step": 75520
    },
    {
      "epoch": 0.37765,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018764321608040202,
      "loss": 2.1617,
      "step": 75530
    },
    {
      "epoch": 0.3777,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0018762814070351758,
      "loss": 2.1777,
      "step": 75540
    },
    {
      "epoch": 0.37775,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0018761306532663318,
      "loss": 2.1438,
      "step": 75550
    },
    {
      "epoch": 0.3778,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018759798994974874,
      "loss": 2.165,
      "step": 75560
    },
    {
      "epoch": 0.37785,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018758291457286432,
      "loss": 2.1233,
      "step": 75570
    },
    {
      "epoch": 0.3779,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018756783919597992,
      "loss": 2.1617,
      "step": 75580
    },
    {
      "epoch": 0.37795,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018755276381909548,
      "loss": 2.1188,
      "step": 75590
    },
    {
      "epoch": 0.378,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018753768844221104,
      "loss": 2.1177,
      "step": 75600
    },
    {
      "epoch": 0.37805,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018752261306532664,
      "loss": 2.1675,
      "step": 75610
    },
    {
      "epoch": 0.3781,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018750753768844222,
      "loss": 2.1233,
      "step": 75620
    },
    {
      "epoch": 0.37815,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0018749246231155778,
      "loss": 2.1074,
      "step": 75630
    },
    {
      "epoch": 0.3782,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018747738693467336,
      "loss": 2.1999,
      "step": 75640
    },
    {
      "epoch": 0.37825,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018746231155778897,
      "loss": 2.1434,
      "step": 75650
    },
    {
      "epoch": 0.3783,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018744723618090453,
      "loss": 2.0972,
      "step": 75660
    },
    {
      "epoch": 0.37835,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018743216080402008,
      "loss": 2.1602,
      "step": 75670
    },
    {
      "epoch": 0.3784,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018741708542713569,
      "loss": 2.129,
      "step": 75680
    },
    {
      "epoch": 0.37845,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018740201005025127,
      "loss": 2.101,
      "step": 75690
    },
    {
      "epoch": 0.3785,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018738693467336683,
      "loss": 2.1304,
      "step": 75700
    },
    {
      "epoch": 0.37855,
      "grad_norm": 0.53125,
      "learning_rate": 0.0018737185929648243,
      "loss": 2.1497,
      "step": 75710
    },
    {
      "epoch": 0.3786,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018735678391959799,
      "loss": 2.1646,
      "step": 75720
    },
    {
      "epoch": 0.37865,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018734170854271357,
      "loss": 2.1745,
      "step": 75730
    },
    {
      "epoch": 0.3787,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018732663316582917,
      "loss": 2.1491,
      "step": 75740
    },
    {
      "epoch": 0.37875,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018731155778894473,
      "loss": 2.2163,
      "step": 75750
    },
    {
      "epoch": 0.3788,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018729648241206029,
      "loss": 2.1589,
      "step": 75760
    },
    {
      "epoch": 0.37885,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001872814070351759,
      "loss": 2.1533,
      "step": 75770
    },
    {
      "epoch": 0.3789,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018726633165829147,
      "loss": 2.1493,
      "step": 75780
    },
    {
      "epoch": 0.37895,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018725125628140703,
      "loss": 2.1018,
      "step": 75790
    },
    {
      "epoch": 0.379,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018723618090452261,
      "loss": 2.1222,
      "step": 75800
    },
    {
      "epoch": 0.37905,
      "grad_norm": 0.5625,
      "learning_rate": 0.001872211055276382,
      "loss": 2.1178,
      "step": 75810
    },
    {
      "epoch": 0.3791,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018720603015075377,
      "loss": 2.1313,
      "step": 75820
    },
    {
      "epoch": 0.37915,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018719095477386933,
      "loss": 2.1279,
      "step": 75830
    },
    {
      "epoch": 0.3792,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0018717587939698493,
      "loss": 2.1309,
      "step": 75840
    },
    {
      "epoch": 0.37925,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0018716080402010052,
      "loss": 2.1531,
      "step": 75850
    },
    {
      "epoch": 0.3793,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018714572864321607,
      "loss": 2.1496,
      "step": 75860
    },
    {
      "epoch": 0.37935,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018713065326633168,
      "loss": 2.1477,
      "step": 75870
    },
    {
      "epoch": 0.3794,
      "grad_norm": 0.625,
      "learning_rate": 0.0018711557788944724,
      "loss": 2.151,
      "step": 75880
    },
    {
      "epoch": 0.37945,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018710050251256282,
      "loss": 2.1619,
      "step": 75890
    },
    {
      "epoch": 0.3795,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018708542713567842,
      "loss": 2.1394,
      "step": 75900
    },
    {
      "epoch": 0.37955,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0018707035175879398,
      "loss": 2.1032,
      "step": 75910
    },
    {
      "epoch": 0.3796,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018705527638190954,
      "loss": 2.1212,
      "step": 75920
    },
    {
      "epoch": 0.37965,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018704020100502514,
      "loss": 2.138,
      "step": 75930
    },
    {
      "epoch": 0.3797,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018702512562814072,
      "loss": 2.1578,
      "step": 75940
    },
    {
      "epoch": 0.37975,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018701005025125628,
      "loss": 2.1596,
      "step": 75950
    },
    {
      "epoch": 0.3798,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018699497487437184,
      "loss": 2.1643,
      "step": 75960
    },
    {
      "epoch": 0.37985,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018697989949748744,
      "loss": 2.1195,
      "step": 75970
    },
    {
      "epoch": 0.3799,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018696482412060302,
      "loss": 2.1892,
      "step": 75980
    },
    {
      "epoch": 0.37995,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018694974874371858,
      "loss": 2.1517,
      "step": 75990
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.515625,
      "learning_rate": 0.0018693467336683418,
      "loss": 2.1669,
      "step": 76000
    },
    {
      "epoch": 0.38,
      "eval_loss": 2.1181187629699707,
      "eval_runtime": 51.0051,
      "eval_samples_per_second": 49.015,
      "eval_steps_per_second": 0.098,
      "step": 76000
    },
    {
      "epoch": 0.38005,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018691959798994976,
      "loss": 2.1276,
      "step": 76010
    },
    {
      "epoch": 0.3801,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0018690452261306532,
      "loss": 2.1568,
      "step": 76020
    },
    {
      "epoch": 0.38015,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018688944723618092,
      "loss": 2.1444,
      "step": 76030
    },
    {
      "epoch": 0.3802,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018687437185929648,
      "loss": 2.1254,
      "step": 76040
    },
    {
      "epoch": 0.38025,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018685929648241206,
      "loss": 2.1137,
      "step": 76050
    },
    {
      "epoch": 0.3803,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0018684422110552767,
      "loss": 2.1382,
      "step": 76060
    },
    {
      "epoch": 0.38035,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018682914572864323,
      "loss": 2.105,
      "step": 76070
    },
    {
      "epoch": 0.3804,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018681407035175878,
      "loss": 2.1328,
      "step": 76080
    },
    {
      "epoch": 0.38045,
      "grad_norm": 0.703125,
      "learning_rate": 0.0018679899497487439,
      "loss": 2.1498,
      "step": 76090
    },
    {
      "epoch": 0.3805,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0018678391959798997,
      "loss": 2.1491,
      "step": 76100
    },
    {
      "epoch": 0.38055,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018676884422110553,
      "loss": 2.1307,
      "step": 76110
    },
    {
      "epoch": 0.3806,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018675376884422109,
      "loss": 2.1707,
      "step": 76120
    },
    {
      "epoch": 0.38065,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018673869346733669,
      "loss": 2.096,
      "step": 76130
    },
    {
      "epoch": 0.3807,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018672361809045227,
      "loss": 2.1618,
      "step": 76140
    },
    {
      "epoch": 0.38075,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018670854271356783,
      "loss": 2.1205,
      "step": 76150
    },
    {
      "epoch": 0.3808,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018669346733668343,
      "loss": 2.1281,
      "step": 76160
    },
    {
      "epoch": 0.38085,
      "grad_norm": 0.625,
      "learning_rate": 0.0018667839195979899,
      "loss": 2.1508,
      "step": 76170
    },
    {
      "epoch": 0.3809,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018666331658291457,
      "loss": 2.1218,
      "step": 76180
    },
    {
      "epoch": 0.38095,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018664824120603017,
      "loss": 2.1325,
      "step": 76190
    },
    {
      "epoch": 0.381,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018663316582914573,
      "loss": 2.1355,
      "step": 76200
    },
    {
      "epoch": 0.38105,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018661809045226131,
      "loss": 2.1461,
      "step": 76210
    },
    {
      "epoch": 0.3811,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018660301507537691,
      "loss": 2.1516,
      "step": 76220
    },
    {
      "epoch": 0.38115,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018658793969849247,
      "loss": 2.1542,
      "step": 76230
    },
    {
      "epoch": 0.3812,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018657286432160803,
      "loss": 2.1467,
      "step": 76240
    },
    {
      "epoch": 0.38125,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018655778894472361,
      "loss": 2.1855,
      "step": 76250
    },
    {
      "epoch": 0.3813,
      "grad_norm": 0.625,
      "learning_rate": 0.0018654271356783921,
      "loss": 2.1232,
      "step": 76260
    },
    {
      "epoch": 0.38135,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018652763819095477,
      "loss": 2.109,
      "step": 76270
    },
    {
      "epoch": 0.3814,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018651256281407033,
      "loss": 2.225,
      "step": 76280
    },
    {
      "epoch": 0.38145,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018649748743718594,
      "loss": 2.1006,
      "step": 76290
    },
    {
      "epoch": 0.3815,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018648241206030152,
      "loss": 2.1513,
      "step": 76300
    },
    {
      "epoch": 0.38155,
      "grad_norm": 0.65625,
      "learning_rate": 0.0018646733668341707,
      "loss": 2.1837,
      "step": 76310
    },
    {
      "epoch": 0.3816,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018645226130653268,
      "loss": 2.1472,
      "step": 76320
    },
    {
      "epoch": 0.38165,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018643718592964824,
      "loss": 2.15,
      "step": 76330
    },
    {
      "epoch": 0.3817,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018642211055276382,
      "loss": 2.1655,
      "step": 76340
    },
    {
      "epoch": 0.38175,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018640703517587942,
      "loss": 2.0819,
      "step": 76350
    },
    {
      "epoch": 0.3818,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018639195979899498,
      "loss": 2.1579,
      "step": 76360
    },
    {
      "epoch": 0.38185,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018637688442211056,
      "loss": 2.11,
      "step": 76370
    },
    {
      "epoch": 0.3819,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018636180904522614,
      "loss": 2.1506,
      "step": 76380
    },
    {
      "epoch": 0.38195,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0018634673366834172,
      "loss": 2.155,
      "step": 76390
    },
    {
      "epoch": 0.382,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0018633165829145728,
      "loss": 2.1701,
      "step": 76400
    },
    {
      "epoch": 0.38205,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018631658291457286,
      "loss": 2.1359,
      "step": 76410
    },
    {
      "epoch": 0.3821,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018630150753768846,
      "loss": 2.1624,
      "step": 76420
    },
    {
      "epoch": 0.38215,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018628643216080402,
      "loss": 2.12,
      "step": 76430
    },
    {
      "epoch": 0.3822,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018627135678391958,
      "loss": 2.1955,
      "step": 76440
    },
    {
      "epoch": 0.38225,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0018625628140703518,
      "loss": 2.132,
      "step": 76450
    },
    {
      "epoch": 0.3823,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018624120603015076,
      "loss": 2.1589,
      "step": 76460
    },
    {
      "epoch": 0.38235,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0018622613065326632,
      "loss": 2.1483,
      "step": 76470
    },
    {
      "epoch": 0.3824,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018621105527638192,
      "loss": 2.122,
      "step": 76480
    },
    {
      "epoch": 0.38245,
      "grad_norm": 0.6875,
      "learning_rate": 0.0018619597989949748,
      "loss": 2.0569,
      "step": 76490
    },
    {
      "epoch": 0.3825,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0018618090452261306,
      "loss": 2.1341,
      "step": 76500
    },
    {
      "epoch": 0.38255,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018616582914572867,
      "loss": 2.1056,
      "step": 76510
    },
    {
      "epoch": 0.3826,
      "grad_norm": 1.2734375,
      "learning_rate": 0.0018615075376884423,
      "loss": 2.1432,
      "step": 76520
    },
    {
      "epoch": 0.38265,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018613567839195978,
      "loss": 2.1507,
      "step": 76530
    },
    {
      "epoch": 0.3827,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018612060301507539,
      "loss": 2.1587,
      "step": 76540
    },
    {
      "epoch": 0.38275,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018610552763819097,
      "loss": 2.111,
      "step": 76550
    },
    {
      "epoch": 0.3828,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018609045226130653,
      "loss": 2.0793,
      "step": 76560
    },
    {
      "epoch": 0.38285,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001860753768844221,
      "loss": 2.1706,
      "step": 76570
    },
    {
      "epoch": 0.3829,
      "grad_norm": 0.59375,
      "learning_rate": 0.001860603015075377,
      "loss": 2.108,
      "step": 76580
    },
    {
      "epoch": 0.38295,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018604522613065327,
      "loss": 2.0688,
      "step": 76590
    },
    {
      "epoch": 0.383,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018603015075376883,
      "loss": 2.1299,
      "step": 76600
    },
    {
      "epoch": 0.38305,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018601507537688443,
      "loss": 2.1096,
      "step": 76610
    },
    {
      "epoch": 0.3831,
      "grad_norm": 0.609375,
      "learning_rate": 0.00186,
      "loss": 2.1227,
      "step": 76620
    },
    {
      "epoch": 0.38315,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018598492462311557,
      "loss": 2.127,
      "step": 76630
    },
    {
      "epoch": 0.3832,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018596984924623117,
      "loss": 2.1673,
      "step": 76640
    },
    {
      "epoch": 0.38325,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018595477386934673,
      "loss": 2.0728,
      "step": 76650
    },
    {
      "epoch": 0.3833,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018593969849246231,
      "loss": 2.0662,
      "step": 76660
    },
    {
      "epoch": 0.38335,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018592462311557791,
      "loss": 2.1434,
      "step": 76670
    },
    {
      "epoch": 0.3834,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0018590954773869347,
      "loss": 2.1369,
      "step": 76680
    },
    {
      "epoch": 0.38345,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018589447236180903,
      "loss": 2.0659,
      "step": 76690
    },
    {
      "epoch": 0.3835,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018587939698492463,
      "loss": 2.1004,
      "step": 76700
    },
    {
      "epoch": 0.38355,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018586432160804022,
      "loss": 2.1456,
      "step": 76710
    },
    {
      "epoch": 0.3836,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018584924623115577,
      "loss": 2.1353,
      "step": 76720
    },
    {
      "epoch": 0.38365,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018583417085427135,
      "loss": 2.1298,
      "step": 76730
    },
    {
      "epoch": 0.3837,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018581909547738694,
      "loss": 2.1343,
      "step": 76740
    },
    {
      "epoch": 0.38375,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0018580402010050252,
      "loss": 2.0912,
      "step": 76750
    },
    {
      "epoch": 0.3838,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0018578894472361808,
      "loss": 2.1028,
      "step": 76760
    },
    {
      "epoch": 0.38385,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018577386934673368,
      "loss": 2.0967,
      "step": 76770
    },
    {
      "epoch": 0.3839,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018575879396984926,
      "loss": 2.1017,
      "step": 76780
    },
    {
      "epoch": 0.38395,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018574371859296482,
      "loss": 2.1451,
      "step": 76790
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018572864321608042,
      "loss": 2.1429,
      "step": 76800
    },
    {
      "epoch": 0.38405,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0018571356783919598,
      "loss": 2.0868,
      "step": 76810
    },
    {
      "epoch": 0.3841,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0018569849246231156,
      "loss": 2.16,
      "step": 76820
    },
    {
      "epoch": 0.38415,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0018568341708542716,
      "loss": 2.1054,
      "step": 76830
    },
    {
      "epoch": 0.3842,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018566834170854272,
      "loss": 2.1058,
      "step": 76840
    },
    {
      "epoch": 0.38425,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0018565326633165828,
      "loss": 2.0633,
      "step": 76850
    },
    {
      "epoch": 0.3843,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018563819095477388,
      "loss": 2.1487,
      "step": 76860
    },
    {
      "epoch": 0.38435,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018562311557788946,
      "loss": 2.1027,
      "step": 76870
    },
    {
      "epoch": 0.3844,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018560804020100502,
      "loss": 2.133,
      "step": 76880
    },
    {
      "epoch": 0.38445,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018559296482412058,
      "loss": 2.0833,
      "step": 76890
    },
    {
      "epoch": 0.3845,
      "grad_norm": 0.796875,
      "learning_rate": 0.0018557788944723618,
      "loss": 2.1123,
      "step": 76900
    },
    {
      "epoch": 0.38455,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018556281407035176,
      "loss": 2.1469,
      "step": 76910
    },
    {
      "epoch": 0.3846,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018554773869346732,
      "loss": 2.1636,
      "step": 76920
    },
    {
      "epoch": 0.38465,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018553266331658293,
      "loss": 2.1011,
      "step": 76930
    },
    {
      "epoch": 0.3847,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001855175879396985,
      "loss": 2.1177,
      "step": 76940
    },
    {
      "epoch": 0.38475,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018550251256281406,
      "loss": 2.0884,
      "step": 76950
    },
    {
      "epoch": 0.3848,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018548743718592967,
      "loss": 2.0705,
      "step": 76960
    },
    {
      "epoch": 0.38485,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018547236180904523,
      "loss": 2.1607,
      "step": 76970
    },
    {
      "epoch": 0.3849,
      "grad_norm": 0.75,
      "learning_rate": 0.001854572864321608,
      "loss": 2.0489,
      "step": 76980
    },
    {
      "epoch": 0.38495,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001854422110552764,
      "loss": 2.1061,
      "step": 76990
    },
    {
      "epoch": 0.385,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018542713567839197,
      "loss": 2.1484,
      "step": 77000
    },
    {
      "epoch": 0.38505,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018541206030150753,
      "loss": 2.0985,
      "step": 77010
    },
    {
      "epoch": 0.3851,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018539698492462313,
      "loss": 2.0631,
      "step": 77020
    },
    {
      "epoch": 0.38515,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001853819095477387,
      "loss": 2.1005,
      "step": 77030
    },
    {
      "epoch": 0.3852,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018536683417085427,
      "loss": 2.1013,
      "step": 77040
    },
    {
      "epoch": 0.38525,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018535175879396983,
      "loss": 2.0591,
      "step": 77050
    },
    {
      "epoch": 0.3853,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018533668341708543,
      "loss": 2.1246,
      "step": 77060
    },
    {
      "epoch": 0.38535,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018532160804020101,
      "loss": 2.1067,
      "step": 77070
    },
    {
      "epoch": 0.3854,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018530653266331657,
      "loss": 2.097,
      "step": 77080
    },
    {
      "epoch": 0.38545,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018529145728643217,
      "loss": 2.1463,
      "step": 77090
    },
    {
      "epoch": 0.3855,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018527638190954773,
      "loss": 2.0921,
      "step": 77100
    },
    {
      "epoch": 0.38555,
      "grad_norm": 0.625,
      "learning_rate": 0.0018526130653266331,
      "loss": 2.0797,
      "step": 77110
    },
    {
      "epoch": 0.3856,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0018524623115577891,
      "loss": 2.1391,
      "step": 77120
    },
    {
      "epoch": 0.38565,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0018523115577889447,
      "loss": 2.0703,
      "step": 77130
    },
    {
      "epoch": 0.3857,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0018521608040201005,
      "loss": 2.1422,
      "step": 77140
    },
    {
      "epoch": 0.38575,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018520100502512566,
      "loss": 2.1171,
      "step": 77150
    },
    {
      "epoch": 0.3858,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018518592964824122,
      "loss": 2.0992,
      "step": 77160
    },
    {
      "epoch": 0.38585,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018517085427135677,
      "loss": 2.0897,
      "step": 77170
    },
    {
      "epoch": 0.3859,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018515577889447238,
      "loss": 2.1185,
      "step": 77180
    },
    {
      "epoch": 0.38595,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018514070351758796,
      "loss": 2.1048,
      "step": 77190
    },
    {
      "epoch": 0.386,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018512562814070352,
      "loss": 2.103,
      "step": 77200
    },
    {
      "epoch": 0.38605,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018511055276381908,
      "loss": 2.1476,
      "step": 77210
    },
    {
      "epoch": 0.3861,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0018509547738693468,
      "loss": 2.1173,
      "step": 77220
    },
    {
      "epoch": 0.38615,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018508040201005026,
      "loss": 2.107,
      "step": 77230
    },
    {
      "epoch": 0.3862,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018506532663316582,
      "loss": 2.1451,
      "step": 77240
    },
    {
      "epoch": 0.38625,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018505025125628142,
      "loss": 2.1421,
      "step": 77250
    },
    {
      "epoch": 0.3863,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018503517587939698,
      "loss": 2.1236,
      "step": 77260
    },
    {
      "epoch": 0.38635,
      "grad_norm": 0.53125,
      "learning_rate": 0.0018502010050251256,
      "loss": 2.1223,
      "step": 77270
    },
    {
      "epoch": 0.3864,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018500502512562816,
      "loss": 2.0902,
      "step": 77280
    },
    {
      "epoch": 0.38645,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018498994974874372,
      "loss": 2.0811,
      "step": 77290
    },
    {
      "epoch": 0.3865,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001849748743718593,
      "loss": 2.1286,
      "step": 77300
    },
    {
      "epoch": 0.38655,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0018495979899497488,
      "loss": 2.0795,
      "step": 77310
    },
    {
      "epoch": 0.3866,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018494472361809046,
      "loss": 2.1446,
      "step": 77320
    },
    {
      "epoch": 0.38665,
      "grad_norm": 0.53125,
      "learning_rate": 0.0018492964824120602,
      "loss": 2.126,
      "step": 77330
    },
    {
      "epoch": 0.3867,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018491457286432162,
      "loss": 2.118,
      "step": 77340
    },
    {
      "epoch": 0.38675,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001848994974874372,
      "loss": 2.153,
      "step": 77350
    },
    {
      "epoch": 0.3868,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018488442211055276,
      "loss": 2.1367,
      "step": 77360
    },
    {
      "epoch": 0.38685,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018486934673366832,
      "loss": 2.1119,
      "step": 77370
    },
    {
      "epoch": 0.3869,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018485427135678393,
      "loss": 2.1386,
      "step": 77380
    },
    {
      "epoch": 0.38695,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001848391959798995,
      "loss": 2.0845,
      "step": 77390
    },
    {
      "epoch": 0.387,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018482412060301507,
      "loss": 2.1125,
      "step": 77400
    },
    {
      "epoch": 0.38705,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018480904522613067,
      "loss": 2.1372,
      "step": 77410
    },
    {
      "epoch": 0.3871,
      "grad_norm": 0.75,
      "learning_rate": 0.0018479396984924623,
      "loss": 2.0634,
      "step": 77420
    },
    {
      "epoch": 0.38715,
      "grad_norm": 0.578125,
      "learning_rate": 0.001847788944723618,
      "loss": 2.0798,
      "step": 77430
    },
    {
      "epoch": 0.3872,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001847638190954774,
      "loss": 2.1538,
      "step": 77440
    },
    {
      "epoch": 0.38725,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018474874371859297,
      "loss": 2.1102,
      "step": 77450
    },
    {
      "epoch": 0.3873,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018473366834170853,
      "loss": 2.1118,
      "step": 77460
    },
    {
      "epoch": 0.38735,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018471859296482413,
      "loss": 2.1466,
      "step": 77470
    },
    {
      "epoch": 0.3874,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0018470351758793971,
      "loss": 2.1106,
      "step": 77480
    },
    {
      "epoch": 0.38745,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018468844221105527,
      "loss": 2.1076,
      "step": 77490
    },
    {
      "epoch": 0.3875,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018467336683417085,
      "loss": 2.1056,
      "step": 77500
    },
    {
      "epoch": 0.38755,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018465829145728645,
      "loss": 2.0703,
      "step": 77510
    },
    {
      "epoch": 0.3876,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018464321608040201,
      "loss": 2.1393,
      "step": 77520
    },
    {
      "epoch": 0.38765,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018462814070351757,
      "loss": 2.1278,
      "step": 77530
    },
    {
      "epoch": 0.3877,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0018461306532663317,
      "loss": 2.1026,
      "step": 77540
    },
    {
      "epoch": 0.38775,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018459798994974875,
      "loss": 2.1559,
      "step": 77550
    },
    {
      "epoch": 0.3878,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0018458291457286431,
      "loss": 2.073,
      "step": 77560
    },
    {
      "epoch": 0.38785,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018456783919597992,
      "loss": 2.0654,
      "step": 77570
    },
    {
      "epoch": 0.3879,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0018455276381909547,
      "loss": 2.1249,
      "step": 77580
    },
    {
      "epoch": 0.38795,
      "grad_norm": 0.625,
      "learning_rate": 0.0018453768844221106,
      "loss": 2.0672,
      "step": 77590
    },
    {
      "epoch": 0.388,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018452261306532666,
      "loss": 2.0846,
      "step": 77600
    },
    {
      "epoch": 0.38805,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018450753768844222,
      "loss": 2.151,
      "step": 77610
    },
    {
      "epoch": 0.3881,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018449246231155778,
      "loss": 2.1056,
      "step": 77620
    },
    {
      "epoch": 0.38815,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018447738693467338,
      "loss": 2.1078,
      "step": 77630
    },
    {
      "epoch": 0.3882,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018446231155778896,
      "loss": 2.1502,
      "step": 77640
    },
    {
      "epoch": 0.38825,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018444723618090452,
      "loss": 2.1204,
      "step": 77650
    },
    {
      "epoch": 0.3883,
      "grad_norm": 0.5625,
      "learning_rate": 0.001844321608040201,
      "loss": 2.1232,
      "step": 77660
    },
    {
      "epoch": 0.38835,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018441708542713568,
      "loss": 2.0902,
      "step": 77670
    },
    {
      "epoch": 0.3884,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018440201005025126,
      "loss": 2.0887,
      "step": 77680
    },
    {
      "epoch": 0.38845,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018438693467336682,
      "loss": 2.1743,
      "step": 77690
    },
    {
      "epoch": 0.3885,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018437185929648242,
      "loss": 2.0732,
      "step": 77700
    },
    {
      "epoch": 0.38855,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00184356783919598,
      "loss": 2.0583,
      "step": 77710
    },
    {
      "epoch": 0.3886,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0018434170854271356,
      "loss": 2.188,
      "step": 77720
    },
    {
      "epoch": 0.38865,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018432663316582916,
      "loss": 2.0763,
      "step": 77730
    },
    {
      "epoch": 0.3887,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018431155778894472,
      "loss": 2.0892,
      "step": 77740
    },
    {
      "epoch": 0.38875,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001842964824120603,
      "loss": 2.1281,
      "step": 77750
    },
    {
      "epoch": 0.3888,
      "grad_norm": 0.578125,
      "learning_rate": 0.001842814070351759,
      "loss": 2.1587,
      "step": 77760
    },
    {
      "epoch": 0.38885,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018426633165829146,
      "loss": 2.0988,
      "step": 77770
    },
    {
      "epoch": 0.3889,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018425125628140702,
      "loss": 2.1286,
      "step": 77780
    },
    {
      "epoch": 0.38895,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018423618090452263,
      "loss": 2.0782,
      "step": 77790
    },
    {
      "epoch": 0.389,
      "grad_norm": 0.59375,
      "learning_rate": 0.001842211055276382,
      "loss": 2.1617,
      "step": 77800
    },
    {
      "epoch": 0.38905,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018420603015075377,
      "loss": 2.1209,
      "step": 77810
    },
    {
      "epoch": 0.3891,
      "grad_norm": 0.625,
      "learning_rate": 0.0018419095477386932,
      "loss": 2.0794,
      "step": 77820
    },
    {
      "epoch": 0.38915,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018417587939698493,
      "loss": 2.1679,
      "step": 77830
    },
    {
      "epoch": 0.3892,
      "grad_norm": 0.578125,
      "learning_rate": 0.001841608040201005,
      "loss": 2.0929,
      "step": 77840
    },
    {
      "epoch": 0.38925,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0018414572864321607,
      "loss": 2.1283,
      "step": 77850
    },
    {
      "epoch": 0.3893,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018413065326633167,
      "loss": 2.1283,
      "step": 77860
    },
    {
      "epoch": 0.38935,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018411557788944725,
      "loss": 2.0845,
      "step": 77870
    },
    {
      "epoch": 0.3894,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001841005025125628,
      "loss": 2.0845,
      "step": 77880
    },
    {
      "epoch": 0.38945,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001840854271356784,
      "loss": 2.1678,
      "step": 77890
    },
    {
      "epoch": 0.3895,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018407035175879397,
      "loss": 2.1132,
      "step": 77900
    },
    {
      "epoch": 0.38955,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018405527638190955,
      "loss": 2.1361,
      "step": 77910
    },
    {
      "epoch": 0.3896,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018404020100502515,
      "loss": 2.1223,
      "step": 77920
    },
    {
      "epoch": 0.38965,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0018402512562814071,
      "loss": 2.1169,
      "step": 77930
    },
    {
      "epoch": 0.3897,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0018401005025125627,
      "loss": 2.1643,
      "step": 77940
    },
    {
      "epoch": 0.38975,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018399497487437187,
      "loss": 2.0514,
      "step": 77950
    },
    {
      "epoch": 0.3898,
      "grad_norm": 0.53125,
      "learning_rate": 0.0018397989949748745,
      "loss": 2.1245,
      "step": 77960
    },
    {
      "epoch": 0.38985,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018396482412060301,
      "loss": 2.1667,
      "step": 77970
    },
    {
      "epoch": 0.3899,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018394974874371857,
      "loss": 2.1038,
      "step": 77980
    },
    {
      "epoch": 0.38995,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018393467336683417,
      "loss": 2.1053,
      "step": 77990
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018391959798994975,
      "loss": 2.0622,
      "step": 78000
    },
    {
      "epoch": 0.39,
      "eval_loss": 2.1149942874908447,
      "eval_runtime": 48.3745,
      "eval_samples_per_second": 51.68,
      "eval_steps_per_second": 0.103,
      "step": 78000
    },
    {
      "epoch": 0.39005,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018390452261306531,
      "loss": 2.0777,
      "step": 78010
    },
    {
      "epoch": 0.3901,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018388944723618092,
      "loss": 2.1776,
      "step": 78020
    },
    {
      "epoch": 0.39015,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018387437185929648,
      "loss": 2.1375,
      "step": 78030
    },
    {
      "epoch": 0.3902,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018385929648241206,
      "loss": 2.1035,
      "step": 78040
    },
    {
      "epoch": 0.39025,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018384422110552766,
      "loss": 2.1191,
      "step": 78050
    },
    {
      "epoch": 0.3903,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0018382914572864322,
      "loss": 2.0923,
      "step": 78060
    },
    {
      "epoch": 0.39035,
      "grad_norm": 0.6953125,
      "learning_rate": 0.001838140703517588,
      "loss": 2.0767,
      "step": 78070
    },
    {
      "epoch": 0.3904,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001837989949748744,
      "loss": 2.0969,
      "step": 78080
    },
    {
      "epoch": 0.39045,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018378391959798996,
      "loss": 2.0846,
      "step": 78090
    },
    {
      "epoch": 0.3905,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0018376884422110552,
      "loss": 2.1277,
      "step": 78100
    },
    {
      "epoch": 0.39055,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0018375376884422112,
      "loss": 2.1028,
      "step": 78110
    },
    {
      "epoch": 0.3906,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001837386934673367,
      "loss": 2.1261,
      "step": 78120
    },
    {
      "epoch": 0.39065,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018372361809045226,
      "loss": 2.1224,
      "step": 78130
    },
    {
      "epoch": 0.3907,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018370854271356782,
      "loss": 2.1258,
      "step": 78140
    },
    {
      "epoch": 0.39075,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018369346733668342,
      "loss": 2.0893,
      "step": 78150
    },
    {
      "epoch": 0.3908,
      "grad_norm": 0.546875,
      "learning_rate": 0.00183678391959799,
      "loss": 2.1432,
      "step": 78160
    },
    {
      "epoch": 0.39085,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018366331658291456,
      "loss": 2.0627,
      "step": 78170
    },
    {
      "epoch": 0.3909,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018364824120603016,
      "loss": 2.0975,
      "step": 78180
    },
    {
      "epoch": 0.39095,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018363316582914572,
      "loss": 2.1156,
      "step": 78190
    },
    {
      "epoch": 0.391,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001836180904522613,
      "loss": 2.0824,
      "step": 78200
    },
    {
      "epoch": 0.39105,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001836030150753769,
      "loss": 2.1281,
      "step": 78210
    },
    {
      "epoch": 0.3911,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018358793969849246,
      "loss": 2.0858,
      "step": 78220
    },
    {
      "epoch": 0.39115,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0018357286432160805,
      "loss": 2.0915,
      "step": 78230
    },
    {
      "epoch": 0.3912,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018355778894472363,
      "loss": 2.1368,
      "step": 78240
    },
    {
      "epoch": 0.39125,
      "grad_norm": 0.515625,
      "learning_rate": 0.001835427135678392,
      "loss": 2.0897,
      "step": 78250
    },
    {
      "epoch": 0.3913,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0018352763819095477,
      "loss": 2.1118,
      "step": 78260
    },
    {
      "epoch": 0.39135,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0018351256281407037,
      "loss": 2.1352,
      "step": 78270
    },
    {
      "epoch": 0.3914,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018349748743718595,
      "loss": 2.0571,
      "step": 78280
    },
    {
      "epoch": 0.39145,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001834824120603015,
      "loss": 2.1662,
      "step": 78290
    },
    {
      "epoch": 0.3915,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018346733668341707,
      "loss": 2.0813,
      "step": 78300
    },
    {
      "epoch": 0.39155,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018345226130653267,
      "loss": 2.0776,
      "step": 78310
    },
    {
      "epoch": 0.3916,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018343718592964825,
      "loss": 2.1329,
      "step": 78320
    },
    {
      "epoch": 0.39165,
      "grad_norm": 0.609375,
      "learning_rate": 0.001834221105527638,
      "loss": 2.075,
      "step": 78330
    },
    {
      "epoch": 0.3917,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018340703517587941,
      "loss": 2.0687,
      "step": 78340
    },
    {
      "epoch": 0.39175,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018339195979899497,
      "loss": 2.1673,
      "step": 78350
    },
    {
      "epoch": 0.3918,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018337688442211055,
      "loss": 2.0593,
      "step": 78360
    },
    {
      "epoch": 0.39185,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018336180904522615,
      "loss": 2.1019,
      "step": 78370
    },
    {
      "epoch": 0.3919,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018334673366834171,
      "loss": 2.1439,
      "step": 78380
    },
    {
      "epoch": 0.39195,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018333165829145727,
      "loss": 2.0552,
      "step": 78390
    },
    {
      "epoch": 0.392,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018331658291457287,
      "loss": 2.1709,
      "step": 78400
    },
    {
      "epoch": 0.39205,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018330150753768845,
      "loss": 2.132,
      "step": 78410
    },
    {
      "epoch": 0.3921,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018328643216080401,
      "loss": 2.0964,
      "step": 78420
    },
    {
      "epoch": 0.39215,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018327135678391962,
      "loss": 2.1552,
      "step": 78430
    },
    {
      "epoch": 0.3922,
      "grad_norm": 0.640625,
      "learning_rate": 0.001832562814070352,
      "loss": 2.1125,
      "step": 78440
    },
    {
      "epoch": 0.39225,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018324120603015076,
      "loss": 2.1337,
      "step": 78450
    },
    {
      "epoch": 0.3923,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018322613065326631,
      "loss": 2.1247,
      "step": 78460
    },
    {
      "epoch": 0.39235,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0018321105527638192,
      "loss": 2.125,
      "step": 78470
    },
    {
      "epoch": 0.3924,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001831959798994975,
      "loss": 2.1228,
      "step": 78480
    },
    {
      "epoch": 0.39245,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0018318090452261306,
      "loss": 2.1079,
      "step": 78490
    },
    {
      "epoch": 0.3925,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018316582914572866,
      "loss": 2.1455,
      "step": 78500
    },
    {
      "epoch": 0.39255,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018315075376884422,
      "loss": 2.1469,
      "step": 78510
    },
    {
      "epoch": 0.3926,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001831356783919598,
      "loss": 2.1054,
      "step": 78520
    },
    {
      "epoch": 0.39265,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001831206030150754,
      "loss": 2.1095,
      "step": 78530
    },
    {
      "epoch": 0.3927,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018310552763819096,
      "loss": 2.1262,
      "step": 78540
    },
    {
      "epoch": 0.39275,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018309045226130652,
      "loss": 2.1147,
      "step": 78550
    },
    {
      "epoch": 0.3928,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018307537688442212,
      "loss": 2.1378,
      "step": 78560
    },
    {
      "epoch": 0.39285,
      "grad_norm": 0.5625,
      "learning_rate": 0.001830603015075377,
      "loss": 2.1068,
      "step": 78570
    },
    {
      "epoch": 0.3929,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0018304522613065326,
      "loss": 2.1181,
      "step": 78580
    },
    {
      "epoch": 0.39295,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018303015075376884,
      "loss": 2.1743,
      "step": 78590
    },
    {
      "epoch": 0.393,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018301507537688442,
      "loss": 2.1174,
      "step": 78600
    },
    {
      "epoch": 0.39305,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00183,
      "loss": 2.1334,
      "step": 78610
    },
    {
      "epoch": 0.3931,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018298492462311556,
      "loss": 2.1363,
      "step": 78620
    },
    {
      "epoch": 0.39315,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018296984924623116,
      "loss": 2.1258,
      "step": 78630
    },
    {
      "epoch": 0.3932,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018295477386934674,
      "loss": 2.1121,
      "step": 78640
    },
    {
      "epoch": 0.39325,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001829396984924623,
      "loss": 2.0477,
      "step": 78650
    },
    {
      "epoch": 0.3933,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001829246231155779,
      "loss": 2.1302,
      "step": 78660
    },
    {
      "epoch": 0.39335,
      "grad_norm": 0.53125,
      "learning_rate": 0.0018290954773869347,
      "loss": 2.1366,
      "step": 78670
    },
    {
      "epoch": 0.3934,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018289447236180905,
      "loss": 2.0783,
      "step": 78680
    },
    {
      "epoch": 0.39345,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018287939698492465,
      "loss": 2.1246,
      "step": 78690
    },
    {
      "epoch": 0.3935,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001828643216080402,
      "loss": 2.1238,
      "step": 78700
    },
    {
      "epoch": 0.39355,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018284924623115577,
      "loss": 2.1445,
      "step": 78710
    },
    {
      "epoch": 0.3936,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018283417085427137,
      "loss": 2.1477,
      "step": 78720
    },
    {
      "epoch": 0.39365,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0018281909547738695,
      "loss": 2.1217,
      "step": 78730
    },
    {
      "epoch": 0.3937,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001828040201005025,
      "loss": 2.1645,
      "step": 78740
    },
    {
      "epoch": 0.39375,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018278894472361807,
      "loss": 2.1214,
      "step": 78750
    },
    {
      "epoch": 0.3938,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018277386934673367,
      "loss": 2.1094,
      "step": 78760
    },
    {
      "epoch": 0.39385,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018275879396984925,
      "loss": 2.1255,
      "step": 78770
    },
    {
      "epoch": 0.3939,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001827437185929648,
      "loss": 2.1231,
      "step": 78780
    },
    {
      "epoch": 0.39395,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018272864321608041,
      "loss": 2.106,
      "step": 78790
    },
    {
      "epoch": 0.394,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00182713567839196,
      "loss": 2.1146,
      "step": 78800
    },
    {
      "epoch": 0.39405,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018269849246231155,
      "loss": 2.1019,
      "step": 78810
    },
    {
      "epoch": 0.3941,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0018268341708542715,
      "loss": 2.1698,
      "step": 78820
    },
    {
      "epoch": 0.39415,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018266834170854271,
      "loss": 2.1419,
      "step": 78830
    },
    {
      "epoch": 0.3942,
      "grad_norm": 0.53125,
      "learning_rate": 0.001826532663316583,
      "loss": 2.1443,
      "step": 78840
    },
    {
      "epoch": 0.39425,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001826381909547739,
      "loss": 2.1173,
      "step": 78850
    },
    {
      "epoch": 0.3943,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0018262311557788945,
      "loss": 2.0922,
      "step": 78860
    },
    {
      "epoch": 0.39435,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018260804020100501,
      "loss": 2.1163,
      "step": 78870
    },
    {
      "epoch": 0.3944,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018259296482412062,
      "loss": 2.1261,
      "step": 78880
    },
    {
      "epoch": 0.39445,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001825778894472362,
      "loss": 2.0682,
      "step": 78890
    },
    {
      "epoch": 0.3945,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018256281407035176,
      "loss": 2.1208,
      "step": 78900
    },
    {
      "epoch": 0.39455,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0018254773869346732,
      "loss": 2.122,
      "step": 78910
    },
    {
      "epoch": 0.3946,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0018253266331658292,
      "loss": 2.1578,
      "step": 78920
    },
    {
      "epoch": 0.39465,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001825175879396985,
      "loss": 2.1189,
      "step": 78930
    },
    {
      "epoch": 0.3947,
      "grad_norm": 0.65625,
      "learning_rate": 0.0018250251256281406,
      "loss": 2.118,
      "step": 78940
    },
    {
      "epoch": 0.39475,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0018248743718592966,
      "loss": 2.1586,
      "step": 78950
    },
    {
      "epoch": 0.3948,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0018247236180904522,
      "loss": 2.1131,
      "step": 78960
    },
    {
      "epoch": 0.39485,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001824572864321608,
      "loss": 2.156,
      "step": 78970
    },
    {
      "epoch": 0.3949,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001824422110552764,
      "loss": 2.1171,
      "step": 78980
    },
    {
      "epoch": 0.39495,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018242713567839196,
      "loss": 2.0685,
      "step": 78990
    },
    {
      "epoch": 0.395,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018241206030150754,
      "loss": 2.1536,
      "step": 79000
    },
    {
      "epoch": 0.39505,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018239698492462314,
      "loss": 2.1129,
      "step": 79010
    },
    {
      "epoch": 0.3951,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001823819095477387,
      "loss": 2.1295,
      "step": 79020
    },
    {
      "epoch": 0.39515,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018236683417085426,
      "loss": 2.162,
      "step": 79030
    },
    {
      "epoch": 0.3952,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0018235175879396986,
      "loss": 2.0781,
      "step": 79040
    },
    {
      "epoch": 0.39525,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018233668341708544,
      "loss": 2.1566,
      "step": 79050
    },
    {
      "epoch": 0.3953,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00182321608040201,
      "loss": 2.1044,
      "step": 79060
    },
    {
      "epoch": 0.39535,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018230653266331656,
      "loss": 2.1042,
      "step": 79070
    },
    {
      "epoch": 0.3954,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018229145728643216,
      "loss": 2.1061,
      "step": 79080
    },
    {
      "epoch": 0.39545,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018227638190954775,
      "loss": 2.1141,
      "step": 79090
    },
    {
      "epoch": 0.3955,
      "grad_norm": 0.59375,
      "learning_rate": 0.001822613065326633,
      "loss": 2.0675,
      "step": 79100
    },
    {
      "epoch": 0.39555,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001822462311557789,
      "loss": 2.15,
      "step": 79110
    },
    {
      "epoch": 0.3956,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018223115577889447,
      "loss": 2.0975,
      "step": 79120
    },
    {
      "epoch": 0.39565,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018221608040201005,
      "loss": 2.1413,
      "step": 79130
    },
    {
      "epoch": 0.3957,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018220100502512565,
      "loss": 2.0969,
      "step": 79140
    },
    {
      "epoch": 0.39575,
      "grad_norm": 0.625,
      "learning_rate": 0.001821859296482412,
      "loss": 2.1143,
      "step": 79150
    },
    {
      "epoch": 0.3958,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0018217085427135679,
      "loss": 2.1113,
      "step": 79160
    },
    {
      "epoch": 0.39585,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018215577889447237,
      "loss": 2.1119,
      "step": 79170
    },
    {
      "epoch": 0.3959,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018214070351758795,
      "loss": 2.1856,
      "step": 79180
    },
    {
      "epoch": 0.39595,
      "grad_norm": 0.609375,
      "learning_rate": 0.001821256281407035,
      "loss": 2.1315,
      "step": 79190
    },
    {
      "epoch": 0.396,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018211055276381911,
      "loss": 2.1424,
      "step": 79200
    },
    {
      "epoch": 0.39605,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001820954773869347,
      "loss": 2.1476,
      "step": 79210
    },
    {
      "epoch": 0.3961,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018208040201005025,
      "loss": 2.0413,
      "step": 79220
    },
    {
      "epoch": 0.39615,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001820653266331658,
      "loss": 2.1369,
      "step": 79230
    },
    {
      "epoch": 0.3962,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018205025125628141,
      "loss": 2.1079,
      "step": 79240
    },
    {
      "epoch": 0.39625,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00182035175879397,
      "loss": 2.1346,
      "step": 79250
    },
    {
      "epoch": 0.3963,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018202010050251255,
      "loss": 2.2011,
      "step": 79260
    },
    {
      "epoch": 0.39635,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018200502512562815,
      "loss": 2.1032,
      "step": 79270
    },
    {
      "epoch": 0.3964,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0018198994974874371,
      "loss": 2.1459,
      "step": 79280
    },
    {
      "epoch": 0.39645,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001819748743718593,
      "loss": 2.1143,
      "step": 79290
    },
    {
      "epoch": 0.3965,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001819597989949749,
      "loss": 2.1041,
      "step": 79300
    },
    {
      "epoch": 0.39655,
      "grad_norm": 0.5625,
      "learning_rate": 0.0018194472361809046,
      "loss": 2.1499,
      "step": 79310
    },
    {
      "epoch": 0.3966,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018192964824120601,
      "loss": 2.0759,
      "step": 79320
    },
    {
      "epoch": 0.39665,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018191457286432162,
      "loss": 2.1908,
      "step": 79330
    },
    {
      "epoch": 0.3967,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001818994974874372,
      "loss": 2.1008,
      "step": 79340
    },
    {
      "epoch": 0.39675,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0018188442211055276,
      "loss": 2.0588,
      "step": 79350
    },
    {
      "epoch": 0.3968,
      "grad_norm": 0.625,
      "learning_rate": 0.0018186934673366836,
      "loss": 2.1589,
      "step": 79360
    },
    {
      "epoch": 0.39685,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0018185427135678394,
      "loss": 2.0998,
      "step": 79370
    },
    {
      "epoch": 0.3969,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001818391959798995,
      "loss": 2.1013,
      "step": 79380
    },
    {
      "epoch": 0.39695,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0018182412060301506,
      "loss": 2.1476,
      "step": 79390
    },
    {
      "epoch": 0.397,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018180904522613066,
      "loss": 2.0966,
      "step": 79400
    },
    {
      "epoch": 0.39705,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018179396984924624,
      "loss": 2.1468,
      "step": 79410
    },
    {
      "epoch": 0.3971,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001817788944723618,
      "loss": 2.0685,
      "step": 79420
    },
    {
      "epoch": 0.39715,
      "grad_norm": 0.671875,
      "learning_rate": 0.001817638190954774,
      "loss": 2.1345,
      "step": 79430
    },
    {
      "epoch": 0.3972,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018174874371859296,
      "loss": 2.1002,
      "step": 79440
    },
    {
      "epoch": 0.39725,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018173366834170854,
      "loss": 2.0883,
      "step": 79450
    },
    {
      "epoch": 0.3973,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018171859296482414,
      "loss": 2.1779,
      "step": 79460
    },
    {
      "epoch": 0.39735,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001817035175879397,
      "loss": 2.092,
      "step": 79470
    },
    {
      "epoch": 0.3974,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018168844221105526,
      "loss": 2.1072,
      "step": 79480
    },
    {
      "epoch": 0.39745,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018167336683417086,
      "loss": 2.1577,
      "step": 79490
    },
    {
      "epoch": 0.3975,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018165829145728645,
      "loss": 2.1181,
      "step": 79500
    },
    {
      "epoch": 0.39755,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00181643216080402,
      "loss": 2.1708,
      "step": 79510
    },
    {
      "epoch": 0.3976,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001816281407035176,
      "loss": 2.0817,
      "step": 79520
    },
    {
      "epoch": 0.39765,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018161306532663317,
      "loss": 2.0995,
      "step": 79530
    },
    {
      "epoch": 0.3977,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018159798994974875,
      "loss": 2.0811,
      "step": 79540
    },
    {
      "epoch": 0.39775,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001815829145728643,
      "loss": 2.1326,
      "step": 79550
    },
    {
      "epoch": 0.3978,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001815678391959799,
      "loss": 2.1818,
      "step": 79560
    },
    {
      "epoch": 0.39785,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0018155276381909549,
      "loss": 2.1143,
      "step": 79570
    },
    {
      "epoch": 0.3979,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018153768844221105,
      "loss": 2.1636,
      "step": 79580
    },
    {
      "epoch": 0.39795,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0018152261306532665,
      "loss": 2.1256,
      "step": 79590
    },
    {
      "epoch": 0.398,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001815075376884422,
      "loss": 2.1487,
      "step": 79600
    },
    {
      "epoch": 0.39805,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001814924623115578,
      "loss": 2.1463,
      "step": 79610
    },
    {
      "epoch": 0.3981,
      "grad_norm": 0.69921875,
      "learning_rate": 0.001814773869346734,
      "loss": 2.0687,
      "step": 79620
    },
    {
      "epoch": 0.39815,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018146231155778895,
      "loss": 2.1066,
      "step": 79630
    },
    {
      "epoch": 0.3982,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001814472361809045,
      "loss": 2.1176,
      "step": 79640
    },
    {
      "epoch": 0.39825,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018143216080402011,
      "loss": 2.1346,
      "step": 79650
    },
    {
      "epoch": 0.3983,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001814170854271357,
      "loss": 2.1384,
      "step": 79660
    },
    {
      "epoch": 0.39835,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0018140201005025125,
      "loss": 2.1215,
      "step": 79670
    },
    {
      "epoch": 0.3984,
      "grad_norm": 0.625,
      "learning_rate": 0.001813869346733668,
      "loss": 2.0791,
      "step": 79680
    },
    {
      "epoch": 0.39845,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018137185929648241,
      "loss": 2.1152,
      "step": 79690
    },
    {
      "epoch": 0.3985,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00181356783919598,
      "loss": 2.0448,
      "step": 79700
    },
    {
      "epoch": 0.39855,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018134170854271355,
      "loss": 2.1709,
      "step": 79710
    },
    {
      "epoch": 0.3986,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0018132663316582916,
      "loss": 2.1136,
      "step": 79720
    },
    {
      "epoch": 0.39865,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018131155778894474,
      "loss": 2.1335,
      "step": 79730
    },
    {
      "epoch": 0.3987,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001812964824120603,
      "loss": 2.1136,
      "step": 79740
    },
    {
      "epoch": 0.39875,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001812814070351759,
      "loss": 2.0979,
      "step": 79750
    },
    {
      "epoch": 0.3988,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0018126633165829146,
      "loss": 2.0725,
      "step": 79760
    },
    {
      "epoch": 0.39885,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018125125628140704,
      "loss": 2.1075,
      "step": 79770
    },
    {
      "epoch": 0.3989,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018123618090452264,
      "loss": 2.0917,
      "step": 79780
    },
    {
      "epoch": 0.39895,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001812211055276382,
      "loss": 2.1153,
      "step": 79790
    },
    {
      "epoch": 0.399,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018120603015075376,
      "loss": 2.1295,
      "step": 79800
    },
    {
      "epoch": 0.39905,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018119095477386936,
      "loss": 2.1089,
      "step": 79810
    },
    {
      "epoch": 0.3991,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018117587939698494,
      "loss": 2.1204,
      "step": 79820
    },
    {
      "epoch": 0.39915,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001811608040201005,
      "loss": 2.1425,
      "step": 79830
    },
    {
      "epoch": 0.3992,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0018114572864321606,
      "loss": 2.0649,
      "step": 79840
    },
    {
      "epoch": 0.39925,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0018113065326633166,
      "loss": 2.1329,
      "step": 79850
    },
    {
      "epoch": 0.3993,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018111557788944724,
      "loss": 2.0864,
      "step": 79860
    },
    {
      "epoch": 0.39935,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001811005025125628,
      "loss": 2.0911,
      "step": 79870
    },
    {
      "epoch": 0.3994,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001810854271356784,
      "loss": 2.1843,
      "step": 79880
    },
    {
      "epoch": 0.39945,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018107035175879396,
      "loss": 2.0722,
      "step": 79890
    },
    {
      "epoch": 0.3995,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018105527638190954,
      "loss": 2.1066,
      "step": 79900
    },
    {
      "epoch": 0.39955,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018104020100502514,
      "loss": 2.14,
      "step": 79910
    },
    {
      "epoch": 0.3996,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001810251256281407,
      "loss": 2.1303,
      "step": 79920
    },
    {
      "epoch": 0.39965,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018101005025125628,
      "loss": 2.1624,
      "step": 79930
    },
    {
      "epoch": 0.3997,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018099497487437189,
      "loss": 2.072,
      "step": 79940
    },
    {
      "epoch": 0.39975,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0018097989949748745,
      "loss": 2.1506,
      "step": 79950
    },
    {
      "epoch": 0.3998,
      "grad_norm": 0.609375,
      "learning_rate": 0.00180964824120603,
      "loss": 2.1024,
      "step": 79960
    },
    {
      "epoch": 0.39985,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001809497487437186,
      "loss": 2.1256,
      "step": 79970
    },
    {
      "epoch": 0.3999,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0018093467336683419,
      "loss": 2.1385,
      "step": 79980
    },
    {
      "epoch": 0.39995,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0018091959798994975,
      "loss": 2.0927,
      "step": 79990
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001809045226130653,
      "loss": 2.1328,
      "step": 80000
    },
    {
      "epoch": 0.4,
      "eval_loss": 2.1091673374176025,
      "eval_runtime": 48.6126,
      "eval_samples_per_second": 51.427,
      "eval_steps_per_second": 0.103,
      "step": 80000
    },
    {
      "epoch": 0.40005,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001808894472361809,
      "loss": 2.0859,
      "step": 80010
    },
    {
      "epoch": 0.4001,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018087437185929649,
      "loss": 2.1127,
      "step": 80020
    },
    {
      "epoch": 0.40015,
      "grad_norm": 0.546875,
      "learning_rate": 0.0018085929648241205,
      "loss": 2.113,
      "step": 80030
    },
    {
      "epoch": 0.4002,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018084422110552765,
      "loss": 2.0875,
      "step": 80040
    },
    {
      "epoch": 0.40025,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001808291457286432,
      "loss": 2.1089,
      "step": 80050
    },
    {
      "epoch": 0.4003,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001808140703517588,
      "loss": 2.0959,
      "step": 80060
    },
    {
      "epoch": 0.40035,
      "grad_norm": 0.59375,
      "learning_rate": 0.001807989949748744,
      "loss": 2.0598,
      "step": 80070
    },
    {
      "epoch": 0.4004,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0018078391959798995,
      "loss": 2.1249,
      "step": 80080
    },
    {
      "epoch": 0.40045,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018076884422110553,
      "loss": 2.1241,
      "step": 80090
    },
    {
      "epoch": 0.4005,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018075376884422111,
      "loss": 2.1172,
      "step": 80100
    },
    {
      "epoch": 0.40055,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001807386934673367,
      "loss": 2.0803,
      "step": 80110
    },
    {
      "epoch": 0.4006,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018072361809045225,
      "loss": 2.1088,
      "step": 80120
    },
    {
      "epoch": 0.40065,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0018070854271356785,
      "loss": 2.1569,
      "step": 80130
    },
    {
      "epoch": 0.4007,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0018069346733668344,
      "loss": 2.0698,
      "step": 80140
    },
    {
      "epoch": 0.40075,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00180678391959799,
      "loss": 2.1748,
      "step": 80150
    },
    {
      "epoch": 0.4008,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018066331658291455,
      "loss": 2.0819,
      "step": 80160
    },
    {
      "epoch": 0.40085,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0018064824120603016,
      "loss": 2.1532,
      "step": 80170
    },
    {
      "epoch": 0.4009,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018063316582914574,
      "loss": 2.1654,
      "step": 80180
    },
    {
      "epoch": 0.40095,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001806180904522613,
      "loss": 2.0978,
      "step": 80190
    },
    {
      "epoch": 0.401,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001806030150753769,
      "loss": 2.168,
      "step": 80200
    },
    {
      "epoch": 0.40105,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0018058793969849246,
      "loss": 2.1174,
      "step": 80210
    },
    {
      "epoch": 0.4011,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018057286432160804,
      "loss": 2.1526,
      "step": 80220
    },
    {
      "epoch": 0.40115,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018055778894472364,
      "loss": 2.0926,
      "step": 80230
    },
    {
      "epoch": 0.4012,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001805427135678392,
      "loss": 2.1056,
      "step": 80240
    },
    {
      "epoch": 0.40125,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018052763819095476,
      "loss": 2.1075,
      "step": 80250
    },
    {
      "epoch": 0.4013,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018051256281407036,
      "loss": 2.0912,
      "step": 80260
    },
    {
      "epoch": 0.40135,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0018049748743718594,
      "loss": 2.1665,
      "step": 80270
    },
    {
      "epoch": 0.4014,
      "grad_norm": 0.625,
      "learning_rate": 0.001804824120603015,
      "loss": 2.1221,
      "step": 80280
    },
    {
      "epoch": 0.40145,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001804673366834171,
      "loss": 2.0775,
      "step": 80290
    },
    {
      "epoch": 0.4015,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018045226130653268,
      "loss": 2.0621,
      "step": 80300
    },
    {
      "epoch": 0.40155,
      "grad_norm": 0.640625,
      "learning_rate": 0.0018043718592964824,
      "loss": 2.1091,
      "step": 80310
    },
    {
      "epoch": 0.4016,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001804221105527638,
      "loss": 2.1518,
      "step": 80320
    },
    {
      "epoch": 0.40165,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001804070351758794,
      "loss": 2.1087,
      "step": 80330
    },
    {
      "epoch": 0.4017,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0018039195979899498,
      "loss": 2.1511,
      "step": 80340
    },
    {
      "epoch": 0.40175,
      "grad_norm": 0.578125,
      "learning_rate": 0.0018037688442211054,
      "loss": 2.0748,
      "step": 80350
    },
    {
      "epoch": 0.4018,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0018036180904522615,
      "loss": 2.115,
      "step": 80360
    },
    {
      "epoch": 0.40185,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001803467336683417,
      "loss": 2.1503,
      "step": 80370
    },
    {
      "epoch": 0.4019,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0018033165829145729,
      "loss": 2.0729,
      "step": 80380
    },
    {
      "epoch": 0.40195,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018031658291457289,
      "loss": 2.1216,
      "step": 80390
    },
    {
      "epoch": 0.402,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0018030150753768845,
      "loss": 2.103,
      "step": 80400
    },
    {
      "epoch": 0.40205,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00180286432160804,
      "loss": 2.1415,
      "step": 80410
    },
    {
      "epoch": 0.4021,
      "grad_norm": 0.578125,
      "learning_rate": 0.001802713567839196,
      "loss": 2.1263,
      "step": 80420
    },
    {
      "epoch": 0.40215,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018025628140703519,
      "loss": 2.0808,
      "step": 80430
    },
    {
      "epoch": 0.4022,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0018024120603015075,
      "loss": 2.14,
      "step": 80440
    },
    {
      "epoch": 0.40225,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018022613065326635,
      "loss": 2.0982,
      "step": 80450
    },
    {
      "epoch": 0.4023,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001802110552763819,
      "loss": 2.1673,
      "step": 80460
    },
    {
      "epoch": 0.40235,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001801959798994975,
      "loss": 2.1108,
      "step": 80470
    },
    {
      "epoch": 0.4024,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0018018090452261305,
      "loss": 2.1525,
      "step": 80480
    },
    {
      "epoch": 0.40245,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018016582914572865,
      "loss": 2.1316,
      "step": 80490
    },
    {
      "epoch": 0.4025,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0018015075376884423,
      "loss": 2.1118,
      "step": 80500
    },
    {
      "epoch": 0.40255,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001801356783919598,
      "loss": 2.136,
      "step": 80510
    },
    {
      "epoch": 0.4026,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001801206030150754,
      "loss": 2.0952,
      "step": 80520
    },
    {
      "epoch": 0.40265,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0018010552763819095,
      "loss": 2.1005,
      "step": 80530
    },
    {
      "epoch": 0.4027,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0018009045226130653,
      "loss": 2.1458,
      "step": 80540
    },
    {
      "epoch": 0.40275,
      "grad_norm": 0.59375,
      "learning_rate": 0.0018007537688442214,
      "loss": 2.0936,
      "step": 80550
    },
    {
      "epoch": 0.4028,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001800603015075377,
      "loss": 2.1452,
      "step": 80560
    },
    {
      "epoch": 0.40285,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0018004522613065325,
      "loss": 2.1197,
      "step": 80570
    },
    {
      "epoch": 0.4029,
      "grad_norm": 0.609375,
      "learning_rate": 0.0018003015075376886,
      "loss": 2.1452,
      "step": 80580
    },
    {
      "epoch": 0.40295,
      "grad_norm": 0.515625,
      "learning_rate": 0.0018001507537688444,
      "loss": 2.1392,
      "step": 80590
    },
    {
      "epoch": 0.403,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0018,
      "loss": 2.0974,
      "step": 80600
    },
    {
      "epoch": 0.40305,
      "grad_norm": 0.7109375,
      "learning_rate": 0.001799849246231156,
      "loss": 2.1289,
      "step": 80610
    },
    {
      "epoch": 0.4031,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0017996984924623116,
      "loss": 2.0705,
      "step": 80620
    },
    {
      "epoch": 0.40315,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017995477386934674,
      "loss": 2.1299,
      "step": 80630
    },
    {
      "epoch": 0.4032,
      "grad_norm": 0.5625,
      "learning_rate": 0.001799396984924623,
      "loss": 2.1145,
      "step": 80640
    },
    {
      "epoch": 0.40325,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001799246231155779,
      "loss": 2.113,
      "step": 80650
    },
    {
      "epoch": 0.4033,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017990954773869348,
      "loss": 2.122,
      "step": 80660
    },
    {
      "epoch": 0.40335,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017989447236180904,
      "loss": 2.1168,
      "step": 80670
    },
    {
      "epoch": 0.4034,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0017987939698492464,
      "loss": 2.1455,
      "step": 80680
    },
    {
      "epoch": 0.40345,
      "grad_norm": 0.59375,
      "learning_rate": 0.001798643216080402,
      "loss": 2.0632,
      "step": 80690
    },
    {
      "epoch": 0.4035,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017984924623115578,
      "loss": 2.1033,
      "step": 80700
    },
    {
      "epoch": 0.40355,
      "grad_norm": 0.71875,
      "learning_rate": 0.0017983417085427138,
      "loss": 2.0845,
      "step": 80710
    },
    {
      "epoch": 0.4036,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017981909547738694,
      "loss": 2.1255,
      "step": 80720
    },
    {
      "epoch": 0.40365,
      "grad_norm": 0.53125,
      "learning_rate": 0.001798040201005025,
      "loss": 2.1424,
      "step": 80730
    },
    {
      "epoch": 0.4037,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001797889447236181,
      "loss": 2.0961,
      "step": 80740
    },
    {
      "epoch": 0.40375,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017977386934673368,
      "loss": 2.1769,
      "step": 80750
    },
    {
      "epoch": 0.4038,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017975879396984924,
      "loss": 2.0937,
      "step": 80760
    },
    {
      "epoch": 0.40385,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017974371859296485,
      "loss": 2.1362,
      "step": 80770
    },
    {
      "epoch": 0.4039,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001797286432160804,
      "loss": 2.1028,
      "step": 80780
    },
    {
      "epoch": 0.40395,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017971356783919598,
      "loss": 2.0764,
      "step": 80790
    },
    {
      "epoch": 0.404,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017969849246231154,
      "loss": 2.1848,
      "step": 80800
    },
    {
      "epoch": 0.40405,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0017968341708542715,
      "loss": 2.0952,
      "step": 80810
    },
    {
      "epoch": 0.4041,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001796683417085427,
      "loss": 2.16,
      "step": 80820
    },
    {
      "epoch": 0.40415,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017965326633165829,
      "loss": 2.1373,
      "step": 80830
    },
    {
      "epoch": 0.4042,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0017963819095477389,
      "loss": 2.1235,
      "step": 80840
    },
    {
      "epoch": 0.40425,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017962311557788945,
      "loss": 2.1357,
      "step": 80850
    },
    {
      "epoch": 0.4043,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0017960804020100503,
      "loss": 2.0887,
      "step": 80860
    },
    {
      "epoch": 0.40435,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017959296482412063,
      "loss": 2.1509,
      "step": 80870
    },
    {
      "epoch": 0.4044,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017957788944723619,
      "loss": 2.1181,
      "step": 80880
    },
    {
      "epoch": 0.40445,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017956281407035175,
      "loss": 2.1149,
      "step": 80890
    },
    {
      "epoch": 0.4045,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0017954773869346735,
      "loss": 2.1661,
      "step": 80900
    },
    {
      "epoch": 0.40455,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017953266331658293,
      "loss": 2.0967,
      "step": 80910
    },
    {
      "epoch": 0.4046,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001795175879396985,
      "loss": 2.1511,
      "step": 80920
    },
    {
      "epoch": 0.40465,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017950251256281405,
      "loss": 2.0827,
      "step": 80930
    },
    {
      "epoch": 0.4047,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017948743718592965,
      "loss": 2.1074,
      "step": 80940
    },
    {
      "epoch": 0.40475,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017947236180904523,
      "loss": 2.1341,
      "step": 80950
    },
    {
      "epoch": 0.4048,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001794572864321608,
      "loss": 2.0746,
      "step": 80960
    },
    {
      "epoch": 0.40485,
      "grad_norm": 0.50390625,
      "learning_rate": 0.001794422110552764,
      "loss": 2.1357,
      "step": 80970
    },
    {
      "epoch": 0.4049,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017942713567839195,
      "loss": 2.0634,
      "step": 80980
    },
    {
      "epoch": 0.40495,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017941206030150753,
      "loss": 2.0836,
      "step": 80990
    },
    {
      "epoch": 0.405,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0017939698492462314,
      "loss": 2.0987,
      "step": 81000
    },
    {
      "epoch": 0.40505,
      "grad_norm": 0.5625,
      "learning_rate": 0.001793819095477387,
      "loss": 2.1504,
      "step": 81010
    },
    {
      "epoch": 0.4051,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017936683417085428,
      "loss": 2.1137,
      "step": 81020
    },
    {
      "epoch": 0.40515,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017935175879396986,
      "loss": 2.137,
      "step": 81030
    },
    {
      "epoch": 0.4052,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017933668341708544,
      "loss": 2.1381,
      "step": 81040
    },
    {
      "epoch": 0.40525,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00179321608040201,
      "loss": 2.0924,
      "step": 81050
    },
    {
      "epoch": 0.4053,
      "grad_norm": 0.59375,
      "learning_rate": 0.001793065326633166,
      "loss": 2.1526,
      "step": 81060
    },
    {
      "epoch": 0.40535,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017929145728643218,
      "loss": 2.136,
      "step": 81070
    },
    {
      "epoch": 0.4054,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0017927638190954774,
      "loss": 2.138,
      "step": 81080
    },
    {
      "epoch": 0.40545,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001792613065326633,
      "loss": 2.1089,
      "step": 81090
    },
    {
      "epoch": 0.4055,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001792462311557789,
      "loss": 2.1008,
      "step": 81100
    },
    {
      "epoch": 0.40555,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0017923115577889448,
      "loss": 2.1537,
      "step": 81110
    },
    {
      "epoch": 0.4056,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017921608040201004,
      "loss": 2.1185,
      "step": 81120
    },
    {
      "epoch": 0.40565,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017920100502512564,
      "loss": 2.1314,
      "step": 81130
    },
    {
      "epoch": 0.4057,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001791859296482412,
      "loss": 2.0988,
      "step": 81140
    },
    {
      "epoch": 0.40575,
      "grad_norm": 0.65625,
      "learning_rate": 0.0017917085427135678,
      "loss": 2.113,
      "step": 81150
    },
    {
      "epoch": 0.4058,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0017915577889447238,
      "loss": 2.0908,
      "step": 81160
    },
    {
      "epoch": 0.40585,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0017914070351758794,
      "loss": 2.1014,
      "step": 81170
    },
    {
      "epoch": 0.4059,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001791256281407035,
      "loss": 2.167,
      "step": 81180
    },
    {
      "epoch": 0.40595,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001791105527638191,
      "loss": 2.0867,
      "step": 81190
    },
    {
      "epoch": 0.406,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017909547738693468,
      "loss": 2.1097,
      "step": 81200
    },
    {
      "epoch": 0.40605,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0017908040201005024,
      "loss": 2.1227,
      "step": 81210
    },
    {
      "epoch": 0.4061,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017906532663316585,
      "loss": 2.1403,
      "step": 81220
    },
    {
      "epoch": 0.40615,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017905025125628143,
      "loss": 2.2014,
      "step": 81230
    },
    {
      "epoch": 0.4062,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0017903517587939699,
      "loss": 2.1216,
      "step": 81240
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017902010050251254,
      "loss": 2.1366,
      "step": 81250
    },
    {
      "epoch": 0.4063,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017900502512562815,
      "loss": 2.0996,
      "step": 81260
    },
    {
      "epoch": 0.40635,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017898994974874373,
      "loss": 2.1425,
      "step": 81270
    },
    {
      "epoch": 0.4064,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017897487437185929,
      "loss": 2.1123,
      "step": 81280
    },
    {
      "epoch": 0.40645,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017895979899497489,
      "loss": 2.074,
      "step": 81290
    },
    {
      "epoch": 0.4065,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017894472361809045,
      "loss": 2.1252,
      "step": 81300
    },
    {
      "epoch": 0.40655,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017892964824120603,
      "loss": 2.1489,
      "step": 81310
    },
    {
      "epoch": 0.4066,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017891457286432163,
      "loss": 2.0926,
      "step": 81320
    },
    {
      "epoch": 0.40665,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001788994974874372,
      "loss": 2.1273,
      "step": 81330
    },
    {
      "epoch": 0.4067,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017888442211055275,
      "loss": 2.09,
      "step": 81340
    },
    {
      "epoch": 0.40675,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017886934673366835,
      "loss": 2.1147,
      "step": 81350
    },
    {
      "epoch": 0.4068,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017885427135678393,
      "loss": 2.1065,
      "step": 81360
    },
    {
      "epoch": 0.40685,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001788391959798995,
      "loss": 2.1212,
      "step": 81370
    },
    {
      "epoch": 0.4069,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001788241206030151,
      "loss": 2.0541,
      "step": 81380
    },
    {
      "epoch": 0.40695,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017880904522613065,
      "loss": 2.1432,
      "step": 81390
    },
    {
      "epoch": 0.407,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017879396984924623,
      "loss": 2.1069,
      "step": 81400
    },
    {
      "epoch": 0.40705,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001787788944723618,
      "loss": 2.1044,
      "step": 81410
    },
    {
      "epoch": 0.4071,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001787638190954774,
      "loss": 2.0966,
      "step": 81420
    },
    {
      "epoch": 0.40715,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017874874371859297,
      "loss": 2.0801,
      "step": 81430
    },
    {
      "epoch": 0.4072,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017873366834170853,
      "loss": 2.1277,
      "step": 81440
    },
    {
      "epoch": 0.40725,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017871859296482414,
      "loss": 2.0948,
      "step": 81450
    },
    {
      "epoch": 0.4073,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001787035175879397,
      "loss": 2.1009,
      "step": 81460
    },
    {
      "epoch": 0.40735,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017868844221105528,
      "loss": 2.1397,
      "step": 81470
    },
    {
      "epoch": 0.4074,
      "grad_norm": 0.703125,
      "learning_rate": 0.0017867336683417088,
      "loss": 2.1768,
      "step": 81480
    },
    {
      "epoch": 0.40745,
      "grad_norm": 0.53125,
      "learning_rate": 0.0017865829145728644,
      "loss": 2.1308,
      "step": 81490
    },
    {
      "epoch": 0.4075,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00178643216080402,
      "loss": 2.0867,
      "step": 81500
    },
    {
      "epoch": 0.40755,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001786281407035176,
      "loss": 2.1526,
      "step": 81510
    },
    {
      "epoch": 0.4076,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017861306532663318,
      "loss": 2.0742,
      "step": 81520
    },
    {
      "epoch": 0.40765,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017859798994974874,
      "loss": 2.1007,
      "step": 81530
    },
    {
      "epoch": 0.4077,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017858291457286434,
      "loss": 2.1325,
      "step": 81540
    },
    {
      "epoch": 0.40775,
      "grad_norm": 0.59375,
      "learning_rate": 0.001785678391959799,
      "loss": 2.1436,
      "step": 81550
    },
    {
      "epoch": 0.4078,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017855276381909548,
      "loss": 2.1245,
      "step": 81560
    },
    {
      "epoch": 0.40785,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017853768844221104,
      "loss": 2.0816,
      "step": 81570
    },
    {
      "epoch": 0.4079,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017852261306532664,
      "loss": 2.1556,
      "step": 81580
    },
    {
      "epoch": 0.40795,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017850753768844222,
      "loss": 2.144,
      "step": 81590
    },
    {
      "epoch": 0.408,
      "grad_norm": 0.625,
      "learning_rate": 0.0017849246231155778,
      "loss": 2.1052,
      "step": 81600
    },
    {
      "epoch": 0.40805,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017847738693467338,
      "loss": 2.1257,
      "step": 81610
    },
    {
      "epoch": 0.4081,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017846231155778894,
      "loss": 2.1089,
      "step": 81620
    },
    {
      "epoch": 0.40815,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017844723618090452,
      "loss": 2.1337,
      "step": 81630
    },
    {
      "epoch": 0.4082,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017843216080402013,
      "loss": 2.0717,
      "step": 81640
    },
    {
      "epoch": 0.40825,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0017841708542713568,
      "loss": 2.1568,
      "step": 81650
    },
    {
      "epoch": 0.4083,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017840201005025124,
      "loss": 2.0805,
      "step": 81660
    },
    {
      "epoch": 0.40835,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017838693467336685,
      "loss": 2.1211,
      "step": 81670
    },
    {
      "epoch": 0.4084,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0017837185929648243,
      "loss": 2.1539,
      "step": 81680
    },
    {
      "epoch": 0.40845,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017835678391959799,
      "loss": 2.1169,
      "step": 81690
    },
    {
      "epoch": 0.4085,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017834170854271359,
      "loss": 2.108,
      "step": 81700
    },
    {
      "epoch": 0.40855,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0017832663316582915,
      "loss": 2.0855,
      "step": 81710
    },
    {
      "epoch": 0.4086,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017831155778894473,
      "loss": 2.12,
      "step": 81720
    },
    {
      "epoch": 0.40865,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017829648241206029,
      "loss": 2.1142,
      "step": 81730
    },
    {
      "epoch": 0.4087,
      "grad_norm": 0.578125,
      "learning_rate": 0.001782814070351759,
      "loss": 2.1348,
      "step": 81740
    },
    {
      "epoch": 0.40875,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017826633165829145,
      "loss": 2.1023,
      "step": 81750
    },
    {
      "epoch": 0.4088,
      "grad_norm": 0.79296875,
      "learning_rate": 0.0017825125628140703,
      "loss": 2.0904,
      "step": 81760
    },
    {
      "epoch": 0.40885,
      "grad_norm": 0.625,
      "learning_rate": 0.0017823618090452263,
      "loss": 2.1431,
      "step": 81770
    },
    {
      "epoch": 0.4089,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001782211055276382,
      "loss": 2.0449,
      "step": 81780
    },
    {
      "epoch": 0.40895,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0017820603015075377,
      "loss": 2.1577,
      "step": 81790
    },
    {
      "epoch": 0.409,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017819095477386935,
      "loss": 2.1495,
      "step": 81800
    },
    {
      "epoch": 0.40905,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017817587939698493,
      "loss": 2.1067,
      "step": 81810
    },
    {
      "epoch": 0.4091,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001781608040201005,
      "loss": 2.0963,
      "step": 81820
    },
    {
      "epoch": 0.40915,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001781457286432161,
      "loss": 2.0971,
      "step": 81830
    },
    {
      "epoch": 0.4092,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0017813065326633167,
      "loss": 2.1457,
      "step": 81840
    },
    {
      "epoch": 0.40925,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017811557788944723,
      "loss": 2.092,
      "step": 81850
    },
    {
      "epoch": 0.4093,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017810050251256284,
      "loss": 2.1461,
      "step": 81860
    },
    {
      "epoch": 0.40935,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001780854271356784,
      "loss": 2.0968,
      "step": 81870
    },
    {
      "epoch": 0.4094,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017807035175879398,
      "loss": 2.1246,
      "step": 81880
    },
    {
      "epoch": 0.40945,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017805527638190953,
      "loss": 2.083,
      "step": 81890
    },
    {
      "epoch": 0.4095,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0017804020100502514,
      "loss": 2.0751,
      "step": 81900
    },
    {
      "epoch": 0.40955,
      "grad_norm": 0.640625,
      "learning_rate": 0.001780251256281407,
      "loss": 2.1319,
      "step": 81910
    },
    {
      "epoch": 0.4096,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017801005025125628,
      "loss": 2.1038,
      "step": 81920
    },
    {
      "epoch": 0.40965,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017799497487437188,
      "loss": 2.162,
      "step": 81930
    },
    {
      "epoch": 0.4097,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017797989949748744,
      "loss": 2.1012,
      "step": 81940
    },
    {
      "epoch": 0.40975,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017796482412060302,
      "loss": 2.0789,
      "step": 81950
    },
    {
      "epoch": 0.4098,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001779497487437186,
      "loss": 2.1418,
      "step": 81960
    },
    {
      "epoch": 0.40985,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017793467336683418,
      "loss": 2.0543,
      "step": 81970
    },
    {
      "epoch": 0.4099,
      "grad_norm": 0.703125,
      "learning_rate": 0.0017791959798994974,
      "loss": 2.1493,
      "step": 81980
    },
    {
      "epoch": 0.40995,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017790452261306534,
      "loss": 2.1,
      "step": 81990
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017788944723618092,
      "loss": 2.172,
      "step": 82000
    },
    {
      "epoch": 0.41,
      "eval_loss": 2.1074347496032715,
      "eval_runtime": 46.3102,
      "eval_samples_per_second": 53.984,
      "eval_steps_per_second": 0.108,
      "step": 82000
    },
    {
      "epoch": 0.41005,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0017787437185929648,
      "loss": 2.108,
      "step": 82010
    },
    {
      "epoch": 0.4101,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017785929648241204,
      "loss": 2.1187,
      "step": 82020
    },
    {
      "epoch": 0.41015,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017784422110552764,
      "loss": 2.1181,
      "step": 82030
    },
    {
      "epoch": 0.4102,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017782914572864322,
      "loss": 2.1106,
      "step": 82040
    },
    {
      "epoch": 0.41025,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0017781407035175878,
      "loss": 2.1843,
      "step": 82050
    },
    {
      "epoch": 0.4103,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017779899497487438,
      "loss": 2.0794,
      "step": 82060
    },
    {
      "epoch": 0.41035,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017778391959798994,
      "loss": 2.1238,
      "step": 82070
    },
    {
      "epoch": 0.4104,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017776884422110552,
      "loss": 2.0841,
      "step": 82080
    },
    {
      "epoch": 0.41045,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017775376884422113,
      "loss": 2.178,
      "step": 82090
    },
    {
      "epoch": 0.4105,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017773869346733669,
      "loss": 2.0948,
      "step": 82100
    },
    {
      "epoch": 0.41055,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017772361809045224,
      "loss": 2.1201,
      "step": 82110
    },
    {
      "epoch": 0.4106,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017770854271356785,
      "loss": 2.0539,
      "step": 82120
    },
    {
      "epoch": 0.41065,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0017769346733668343,
      "loss": 2.0451,
      "step": 82130
    },
    {
      "epoch": 0.4107,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017767839195979899,
      "loss": 2.1436,
      "step": 82140
    },
    {
      "epoch": 0.41075,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017766331658291459,
      "loss": 2.0824,
      "step": 82150
    },
    {
      "epoch": 0.4108,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0017764824120603017,
      "loss": 2.1241,
      "step": 82160
    },
    {
      "epoch": 0.41085,
      "grad_norm": 0.71875,
      "learning_rate": 0.0017763316582914573,
      "loss": 2.0927,
      "step": 82170
    },
    {
      "epoch": 0.4109,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017761809045226129,
      "loss": 2.1089,
      "step": 82180
    },
    {
      "epoch": 0.41095,
      "grad_norm": 0.53125,
      "learning_rate": 0.001776030150753769,
      "loss": 2.1536,
      "step": 82190
    },
    {
      "epoch": 0.411,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017758793969849247,
      "loss": 2.0597,
      "step": 82200
    },
    {
      "epoch": 0.41105,
      "grad_norm": 0.703125,
      "learning_rate": 0.0017757286432160803,
      "loss": 2.1433,
      "step": 82210
    },
    {
      "epoch": 0.4111,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017755778894472363,
      "loss": 2.0856,
      "step": 82220
    },
    {
      "epoch": 0.41115,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001775427135678392,
      "loss": 2.1145,
      "step": 82230
    },
    {
      "epoch": 0.4112,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017752763819095477,
      "loss": 2.1109,
      "step": 82240
    },
    {
      "epoch": 0.41125,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017751256281407037,
      "loss": 2.1439,
      "step": 82250
    },
    {
      "epoch": 0.4113,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017749748743718593,
      "loss": 2.1235,
      "step": 82260
    },
    {
      "epoch": 0.41135,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001774824120603015,
      "loss": 2.1049,
      "step": 82270
    },
    {
      "epoch": 0.4114,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001774673366834171,
      "loss": 2.1222,
      "step": 82280
    },
    {
      "epoch": 0.41145,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017745226130653268,
      "loss": 2.0931,
      "step": 82290
    },
    {
      "epoch": 0.4115,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017743718592964823,
      "loss": 2.1251,
      "step": 82300
    },
    {
      "epoch": 0.41155,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0017742211055276384,
      "loss": 2.1236,
      "step": 82310
    },
    {
      "epoch": 0.4116,
      "grad_norm": 0.53125,
      "learning_rate": 0.001774070351758794,
      "loss": 2.1458,
      "step": 82320
    },
    {
      "epoch": 0.41165,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017739195979899498,
      "loss": 2.1315,
      "step": 82330
    },
    {
      "epoch": 0.4117,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017737688442211054,
      "loss": 2.1137,
      "step": 82340
    },
    {
      "epoch": 0.41175,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017736180904522614,
      "loss": 2.1298,
      "step": 82350
    },
    {
      "epoch": 0.4118,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0017734673366834172,
      "loss": 2.12,
      "step": 82360
    },
    {
      "epoch": 0.41185,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017733165829145728,
      "loss": 2.1399,
      "step": 82370
    },
    {
      "epoch": 0.4119,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0017731658291457288,
      "loss": 2.0875,
      "step": 82380
    },
    {
      "epoch": 0.41195,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017730150753768844,
      "loss": 2.1553,
      "step": 82390
    },
    {
      "epoch": 0.412,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017728643216080402,
      "loss": 2.0678,
      "step": 82400
    },
    {
      "epoch": 0.41205,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017727135678391962,
      "loss": 2.1159,
      "step": 82410
    },
    {
      "epoch": 0.4121,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017725628140703518,
      "loss": 2.0959,
      "step": 82420
    },
    {
      "epoch": 0.41215,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017724120603015074,
      "loss": 2.1294,
      "step": 82430
    },
    {
      "epoch": 0.4122,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017722613065326634,
      "loss": 2.0953,
      "step": 82440
    },
    {
      "epoch": 0.41225,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017721105527638192,
      "loss": 2.0513,
      "step": 82450
    },
    {
      "epoch": 0.4123,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017719597989949748,
      "loss": 2.151,
      "step": 82460
    },
    {
      "epoch": 0.41235,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017718090452261308,
      "loss": 2.118,
      "step": 82470
    },
    {
      "epoch": 0.4124,
      "grad_norm": 0.53125,
      "learning_rate": 0.0017716582914572864,
      "loss": 2.1588,
      "step": 82480
    },
    {
      "epoch": 0.41245,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017715075376884422,
      "loss": 2.0987,
      "step": 82490
    },
    {
      "epoch": 0.4125,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017713567839195978,
      "loss": 2.1373,
      "step": 82500
    },
    {
      "epoch": 0.41255,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017712060301507539,
      "loss": 2.1551,
      "step": 82510
    },
    {
      "epoch": 0.4126,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017710552763819097,
      "loss": 2.0655,
      "step": 82520
    },
    {
      "epoch": 0.41265,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017709045226130652,
      "loss": 2.1633,
      "step": 82530
    },
    {
      "epoch": 0.4127,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017707537688442213,
      "loss": 2.1143,
      "step": 82540
    },
    {
      "epoch": 0.41275,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017706030150753769,
      "loss": 2.1124,
      "step": 82550
    },
    {
      "epoch": 0.4128,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017704522613065327,
      "loss": 2.0699,
      "step": 82560
    },
    {
      "epoch": 0.41285,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017703015075376887,
      "loss": 2.1011,
      "step": 82570
    },
    {
      "epoch": 0.4129,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017701507537688443,
      "loss": 2.0816,
      "step": 82580
    },
    {
      "epoch": 0.41295,
      "grad_norm": 0.65625,
      "learning_rate": 0.0017699999999999999,
      "loss": 2.0954,
      "step": 82590
    },
    {
      "epoch": 0.413,
      "grad_norm": 0.68359375,
      "learning_rate": 0.001769849246231156,
      "loss": 2.1409,
      "step": 82600
    },
    {
      "epoch": 0.41305,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017696984924623117,
      "loss": 2.0683,
      "step": 82610
    },
    {
      "epoch": 0.4131,
      "grad_norm": 0.671875,
      "learning_rate": 0.0017695477386934673,
      "loss": 2.1184,
      "step": 82620
    },
    {
      "epoch": 0.41315,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017693969849246233,
      "loss": 2.0762,
      "step": 82630
    },
    {
      "epoch": 0.4132,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001769246231155779,
      "loss": 2.1827,
      "step": 82640
    },
    {
      "epoch": 0.41325,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0017690954773869347,
      "loss": 2.1324,
      "step": 82650
    },
    {
      "epoch": 0.4133,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017689447236180903,
      "loss": 2.1563,
      "step": 82660
    },
    {
      "epoch": 0.41335,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017687939698492463,
      "loss": 2.1363,
      "step": 82670
    },
    {
      "epoch": 0.4134,
      "grad_norm": 0.6875,
      "learning_rate": 0.001768643216080402,
      "loss": 2.1629,
      "step": 82680
    },
    {
      "epoch": 0.41345,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017684924623115577,
      "loss": 2.1054,
      "step": 82690
    },
    {
      "epoch": 0.4135,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017683417085427137,
      "loss": 2.0746,
      "step": 82700
    },
    {
      "epoch": 0.41355,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017681909547738693,
      "loss": 2.0903,
      "step": 82710
    },
    {
      "epoch": 0.4136,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017680402010050251,
      "loss": 2.0817,
      "step": 82720
    },
    {
      "epoch": 0.41365,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001767889447236181,
      "loss": 2.1188,
      "step": 82730
    },
    {
      "epoch": 0.4137,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017677386934673368,
      "loss": 2.131,
      "step": 82740
    },
    {
      "epoch": 0.41375,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017675879396984923,
      "loss": 2.1148,
      "step": 82750
    },
    {
      "epoch": 0.4138,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017674371859296484,
      "loss": 2.1383,
      "step": 82760
    },
    {
      "epoch": 0.41385,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0017672864321608042,
      "loss": 2.1296,
      "step": 82770
    },
    {
      "epoch": 0.4139,
      "grad_norm": 0.625,
      "learning_rate": 0.0017671356783919598,
      "loss": 2.1873,
      "step": 82780
    },
    {
      "epoch": 0.41395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017669849246231158,
      "loss": 2.108,
      "step": 82790
    },
    {
      "epoch": 0.414,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017668341708542714,
      "loss": 2.1321,
      "step": 82800
    },
    {
      "epoch": 0.41405,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0017666834170854272,
      "loss": 2.1432,
      "step": 82810
    },
    {
      "epoch": 0.4141,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0017665326633165828,
      "loss": 2.1167,
      "step": 82820
    },
    {
      "epoch": 0.41415,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017663819095477388,
      "loss": 2.0879,
      "step": 82830
    },
    {
      "epoch": 0.4142,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017662311557788944,
      "loss": 2.1568,
      "step": 82840
    },
    {
      "epoch": 0.41425,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017660804020100502,
      "loss": 2.1493,
      "step": 82850
    },
    {
      "epoch": 0.4143,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017659296482412062,
      "loss": 2.0891,
      "step": 82860
    },
    {
      "epoch": 0.41435,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017657788944723618,
      "loss": 2.2381,
      "step": 82870
    },
    {
      "epoch": 0.4144,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017656281407035176,
      "loss": 2.1142,
      "step": 82880
    },
    {
      "epoch": 0.41445,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0017654773869346734,
      "loss": 2.1896,
      "step": 82890
    },
    {
      "epoch": 0.4145,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0017653266331658292,
      "loss": 2.117,
      "step": 82900
    },
    {
      "epoch": 0.41455,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017651758793969848,
      "loss": 2.1494,
      "step": 82910
    },
    {
      "epoch": 0.4146,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017650251256281408,
      "loss": 2.1221,
      "step": 82920
    },
    {
      "epoch": 0.41465,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017648743718592967,
      "loss": 2.0946,
      "step": 82930
    },
    {
      "epoch": 0.4147,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017647236180904522,
      "loss": 2.1248,
      "step": 82940
    },
    {
      "epoch": 0.41475,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017645728643216083,
      "loss": 2.0941,
      "step": 82950
    },
    {
      "epoch": 0.4148,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017644221105527639,
      "loss": 2.1376,
      "step": 82960
    },
    {
      "epoch": 0.41485,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017642713567839197,
      "loss": 2.0649,
      "step": 82970
    },
    {
      "epoch": 0.4149,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017641206030150753,
      "loss": 2.1066,
      "step": 82980
    },
    {
      "epoch": 0.41495,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0017639698492462313,
      "loss": 2.0727,
      "step": 82990
    },
    {
      "epoch": 0.415,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017638190954773869,
      "loss": 2.0927,
      "step": 83000
    },
    {
      "epoch": 0.41505,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017636683417085427,
      "loss": 2.1167,
      "step": 83010
    },
    {
      "epoch": 0.4151,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017635175879396987,
      "loss": 2.1213,
      "step": 83020
    },
    {
      "epoch": 0.41515,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017633668341708543,
      "loss": 2.0934,
      "step": 83030
    },
    {
      "epoch": 0.4152,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017632160804020099,
      "loss": 2.1248,
      "step": 83040
    },
    {
      "epoch": 0.41525,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001763065326633166,
      "loss": 2.1795,
      "step": 83050
    },
    {
      "epoch": 0.4153,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017629145728643217,
      "loss": 2.1288,
      "step": 83060
    },
    {
      "epoch": 0.41535,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017627638190954773,
      "loss": 2.1266,
      "step": 83070
    },
    {
      "epoch": 0.4154,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017626130653266333,
      "loss": 2.0931,
      "step": 83080
    },
    {
      "epoch": 0.41545,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017624623115577891,
      "loss": 2.1122,
      "step": 83090
    },
    {
      "epoch": 0.4155,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017623115577889447,
      "loss": 2.0885,
      "step": 83100
    },
    {
      "epoch": 0.41555,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017621608040201007,
      "loss": 2.1145,
      "step": 83110
    },
    {
      "epoch": 0.4156,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017620100502512563,
      "loss": 2.1151,
      "step": 83120
    },
    {
      "epoch": 0.41565,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017618592964824121,
      "loss": 2.1275,
      "step": 83130
    },
    {
      "epoch": 0.4157,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017617085427135677,
      "loss": 2.1119,
      "step": 83140
    },
    {
      "epoch": 0.41575,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017615577889447238,
      "loss": 2.1623,
      "step": 83150
    },
    {
      "epoch": 0.4158,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017614070351758793,
      "loss": 2.1438,
      "step": 83160
    },
    {
      "epoch": 0.41585,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0017612562814070352,
      "loss": 2.0713,
      "step": 83170
    },
    {
      "epoch": 0.4159,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017611055276381912,
      "loss": 2.1289,
      "step": 83180
    },
    {
      "epoch": 0.41595,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017609547738693468,
      "loss": 2.0974,
      "step": 83190
    },
    {
      "epoch": 0.416,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0017608040201005024,
      "loss": 2.1337,
      "step": 83200
    },
    {
      "epoch": 0.41605,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017606532663316584,
      "loss": 2.0687,
      "step": 83210
    },
    {
      "epoch": 0.4161,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017605025125628142,
      "loss": 2.1129,
      "step": 83220
    },
    {
      "epoch": 0.41615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017603517587939698,
      "loss": 2.0842,
      "step": 83230
    },
    {
      "epoch": 0.4162,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017602010050251258,
      "loss": 2.1049,
      "step": 83240
    },
    {
      "epoch": 0.41625,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017600502512562814,
      "loss": 2.1249,
      "step": 83250
    },
    {
      "epoch": 0.4163,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017598994974874372,
      "loss": 2.0645,
      "step": 83260
    },
    {
      "epoch": 0.41635,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017597487437185928,
      "loss": 2.0976,
      "step": 83270
    },
    {
      "epoch": 0.4164,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017595979899497488,
      "loss": 2.0922,
      "step": 83280
    },
    {
      "epoch": 0.41645,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017594472361809046,
      "loss": 2.0988,
      "step": 83290
    },
    {
      "epoch": 0.4165,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017592964824120602,
      "loss": 2.0816,
      "step": 83300
    },
    {
      "epoch": 0.41655,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017591457286432162,
      "loss": 2.102,
      "step": 83310
    },
    {
      "epoch": 0.4166,
      "grad_norm": 0.625,
      "learning_rate": 0.0017589949748743718,
      "loss": 2.0424,
      "step": 83320
    },
    {
      "epoch": 0.41665,
      "grad_norm": 0.78125,
      "learning_rate": 0.0017588442211055276,
      "loss": 2.1527,
      "step": 83330
    },
    {
      "epoch": 0.4167,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017586934673366836,
      "loss": 2.1298,
      "step": 83340
    },
    {
      "epoch": 0.41675,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017585427135678392,
      "loss": 2.0787,
      "step": 83350
    },
    {
      "epoch": 0.4168,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017583919597989948,
      "loss": 2.1032,
      "step": 83360
    },
    {
      "epoch": 0.41685,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017582412060301509,
      "loss": 2.1085,
      "step": 83370
    },
    {
      "epoch": 0.4169,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0017580904522613067,
      "loss": 2.134,
      "step": 83380
    },
    {
      "epoch": 0.41695,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0017579396984924623,
      "loss": 2.11,
      "step": 83390
    },
    {
      "epoch": 0.417,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017577889447236183,
      "loss": 2.1346,
      "step": 83400
    },
    {
      "epoch": 0.41705,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017576381909547739,
      "loss": 2.1146,
      "step": 83410
    },
    {
      "epoch": 0.4171,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017574874371859297,
      "loss": 2.1763,
      "step": 83420
    },
    {
      "epoch": 0.41715,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017573366834170853,
      "loss": 2.1201,
      "step": 83430
    },
    {
      "epoch": 0.4172,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017571859296482413,
      "loss": 2.1022,
      "step": 83440
    },
    {
      "epoch": 0.41725,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001757035175879397,
      "loss": 2.1336,
      "step": 83450
    },
    {
      "epoch": 0.4173,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017568844221105527,
      "loss": 2.162,
      "step": 83460
    },
    {
      "epoch": 0.41735,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0017567336683417087,
      "loss": 2.125,
      "step": 83470
    },
    {
      "epoch": 0.4174,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017565829145728643,
      "loss": 2.1243,
      "step": 83480
    },
    {
      "epoch": 0.41745,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00175643216080402,
      "loss": 2.1101,
      "step": 83490
    },
    {
      "epoch": 0.4175,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017562814070351761,
      "loss": 2.0896,
      "step": 83500
    },
    {
      "epoch": 0.41755,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017561306532663317,
      "loss": 2.1505,
      "step": 83510
    },
    {
      "epoch": 0.4176,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017559798994974873,
      "loss": 2.1108,
      "step": 83520
    },
    {
      "epoch": 0.41765,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0017558291457286433,
      "loss": 2.1044,
      "step": 83530
    },
    {
      "epoch": 0.4177,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017556783919597991,
      "loss": 2.0506,
      "step": 83540
    },
    {
      "epoch": 0.41775,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017555276381909547,
      "loss": 2.1431,
      "step": 83550
    },
    {
      "epoch": 0.4178,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017553768844221107,
      "loss": 2.1052,
      "step": 83560
    },
    {
      "epoch": 0.41785,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017552261306532663,
      "loss": 2.1092,
      "step": 83570
    },
    {
      "epoch": 0.4179,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017550753768844221,
      "loss": 2.0983,
      "step": 83580
    },
    {
      "epoch": 0.41795,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017549246231155777,
      "loss": 2.1249,
      "step": 83590
    },
    {
      "epoch": 0.418,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017547738693467338,
      "loss": 2.1106,
      "step": 83600
    },
    {
      "epoch": 0.41805,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017546231155778893,
      "loss": 2.1026,
      "step": 83610
    },
    {
      "epoch": 0.4181,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0017544723618090452,
      "loss": 2.1195,
      "step": 83620
    },
    {
      "epoch": 0.41815,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017543216080402012,
      "loss": 2.0863,
      "step": 83630
    },
    {
      "epoch": 0.4182,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0017541708542713568,
      "loss": 2.1295,
      "step": 83640
    },
    {
      "epoch": 0.41825,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017540201005025126,
      "loss": 2.116,
      "step": 83650
    },
    {
      "epoch": 0.4183,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017538693467336684,
      "loss": 2.1755,
      "step": 83660
    },
    {
      "epoch": 0.41835,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017537185929648242,
      "loss": 2.1036,
      "step": 83670
    },
    {
      "epoch": 0.4184,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017535678391959798,
      "loss": 2.105,
      "step": 83680
    },
    {
      "epoch": 0.41845,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017534170854271358,
      "loss": 2.1336,
      "step": 83690
    },
    {
      "epoch": 0.4185,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017532663316582916,
      "loss": 2.1081,
      "step": 83700
    },
    {
      "epoch": 0.41855,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017531155778894472,
      "loss": 2.0592,
      "step": 83710
    },
    {
      "epoch": 0.4186,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017529648241206032,
      "loss": 2.1282,
      "step": 83720
    },
    {
      "epoch": 0.41865,
      "grad_norm": 0.53125,
      "learning_rate": 0.0017528140703517588,
      "loss": 2.1401,
      "step": 83730
    },
    {
      "epoch": 0.4187,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017526633165829146,
      "loss": 2.1189,
      "step": 83740
    },
    {
      "epoch": 0.41875,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017525125628140702,
      "loss": 2.1453,
      "step": 83750
    },
    {
      "epoch": 0.4188,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017523618090452262,
      "loss": 2.0601,
      "step": 83760
    },
    {
      "epoch": 0.41885,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017522110552763818,
      "loss": 2.1636,
      "step": 83770
    },
    {
      "epoch": 0.4189,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0017520603015075376,
      "loss": 2.0669,
      "step": 83780
    },
    {
      "epoch": 0.41895,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0017519095477386937,
      "loss": 2.1353,
      "step": 83790
    },
    {
      "epoch": 0.419,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017517587939698492,
      "loss": 2.0692,
      "step": 83800
    },
    {
      "epoch": 0.41905,
      "grad_norm": 0.578125,
      "learning_rate": 0.001751608040201005,
      "loss": 2.1148,
      "step": 83810
    },
    {
      "epoch": 0.4191,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017514572864321609,
      "loss": 2.0901,
      "step": 83820
    },
    {
      "epoch": 0.41915,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0017513065326633167,
      "loss": 2.1026,
      "step": 83830
    },
    {
      "epoch": 0.4192,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0017511557788944723,
      "loss": 2.1197,
      "step": 83840
    },
    {
      "epoch": 0.41925,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017510050251256283,
      "loss": 2.0568,
      "step": 83850
    },
    {
      "epoch": 0.4193,
      "grad_norm": 0.5625,
      "learning_rate": 0.001750854271356784,
      "loss": 2.1006,
      "step": 83860
    },
    {
      "epoch": 0.41935,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0017507035175879397,
      "loss": 2.0948,
      "step": 83870
    },
    {
      "epoch": 0.4194,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0017505527638190957,
      "loss": 2.124,
      "step": 83880
    },
    {
      "epoch": 0.41945,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017504020100502513,
      "loss": 2.0681,
      "step": 83890
    },
    {
      "epoch": 0.4195,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001750251256281407,
      "loss": 2.1569,
      "step": 83900
    },
    {
      "epoch": 0.41955,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017501005025125627,
      "loss": 2.1249,
      "step": 83910
    },
    {
      "epoch": 0.4196,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017499497487437187,
      "loss": 2.12,
      "step": 83920
    },
    {
      "epoch": 0.41965,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0017497989949748743,
      "loss": 2.0612,
      "step": 83930
    },
    {
      "epoch": 0.4197,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00174964824120603,
      "loss": 2.1293,
      "step": 83940
    },
    {
      "epoch": 0.41975,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017494974874371861,
      "loss": 2.1382,
      "step": 83950
    },
    {
      "epoch": 0.4198,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017493467336683417,
      "loss": 2.1318,
      "step": 83960
    },
    {
      "epoch": 0.41985,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017491959798994973,
      "loss": 2.123,
      "step": 83970
    },
    {
      "epoch": 0.4199,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0017490452261306533,
      "loss": 2.1022,
      "step": 83980
    },
    {
      "epoch": 0.41995,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017488944723618091,
      "loss": 2.0717,
      "step": 83990
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017487437185929647,
      "loss": 2.0473,
      "step": 84000
    },
    {
      "epoch": 0.42,
      "eval_loss": 2.104365587234497,
      "eval_runtime": 47.4422,
      "eval_samples_per_second": 52.696,
      "eval_steps_per_second": 0.105,
      "step": 84000
    },
    {
      "epoch": 0.42005,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017485929648241208,
      "loss": 2.0971,
      "step": 84010
    },
    {
      "epoch": 0.4201,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0017484422110552766,
      "loss": 2.1222,
      "step": 84020
    },
    {
      "epoch": 0.42015,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017482914572864322,
      "loss": 2.1444,
      "step": 84030
    },
    {
      "epoch": 0.4202,
      "grad_norm": 0.65625,
      "learning_rate": 0.0017481407035175882,
      "loss": 2.1,
      "step": 84040
    },
    {
      "epoch": 0.42025,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017479899497487438,
      "loss": 2.1576,
      "step": 84050
    },
    {
      "epoch": 0.4203,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017478391959798996,
      "loss": 2.0503,
      "step": 84060
    },
    {
      "epoch": 0.42035,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017476884422110552,
      "loss": 2.1531,
      "step": 84070
    },
    {
      "epoch": 0.4204,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017475376884422112,
      "loss": 2.0787,
      "step": 84080
    },
    {
      "epoch": 0.42045,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017473869346733668,
      "loss": 2.1342,
      "step": 84090
    },
    {
      "epoch": 0.4205,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017472361809045226,
      "loss": 2.149,
      "step": 84100
    },
    {
      "epoch": 0.42055,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017470854271356786,
      "loss": 2.1001,
      "step": 84110
    },
    {
      "epoch": 0.4206,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017469346733668342,
      "loss": 2.1016,
      "step": 84120
    },
    {
      "epoch": 0.42065,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017467839195979898,
      "loss": 2.0475,
      "step": 84130
    },
    {
      "epoch": 0.4207,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0017466331658291458,
      "loss": 2.1498,
      "step": 84140
    },
    {
      "epoch": 0.42075,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017464824120603016,
      "loss": 2.1394,
      "step": 84150
    },
    {
      "epoch": 0.4208,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017463316582914572,
      "loss": 2.1209,
      "step": 84160
    },
    {
      "epoch": 0.42085,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017461809045226132,
      "loss": 2.0941,
      "step": 84170
    },
    {
      "epoch": 0.4209,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017460301507537688,
      "loss": 2.1128,
      "step": 84180
    },
    {
      "epoch": 0.42095,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017458793969849246,
      "loss": 2.1345,
      "step": 84190
    },
    {
      "epoch": 0.421,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017457286432160807,
      "loss": 2.1256,
      "step": 84200
    },
    {
      "epoch": 0.42105,
      "grad_norm": 0.65625,
      "learning_rate": 0.0017455778894472362,
      "loss": 2.1114,
      "step": 84210
    },
    {
      "epoch": 0.4211,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001745427135678392,
      "loss": 2.128,
      "step": 84220
    },
    {
      "epoch": 0.42115,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017452763819095476,
      "loss": 2.1025,
      "step": 84230
    },
    {
      "epoch": 0.4212,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017451256281407037,
      "loss": 2.1254,
      "step": 84240
    },
    {
      "epoch": 0.42125,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017449748743718593,
      "loss": 2.0962,
      "step": 84250
    },
    {
      "epoch": 0.4213,
      "grad_norm": 0.5625,
      "learning_rate": 0.001744824120603015,
      "loss": 2.122,
      "step": 84260
    },
    {
      "epoch": 0.42135,
      "grad_norm": 0.609375,
      "learning_rate": 0.001744673366834171,
      "loss": 2.1462,
      "step": 84270
    },
    {
      "epoch": 0.4214,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0017445226130653267,
      "loss": 2.1068,
      "step": 84280
    },
    {
      "epoch": 0.42145,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017443718592964823,
      "loss": 2.1329,
      "step": 84290
    },
    {
      "epoch": 0.4215,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0017442211055276383,
      "loss": 2.1011,
      "step": 84300
    },
    {
      "epoch": 0.42155,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001744070351758794,
      "loss": 2.1511,
      "step": 84310
    },
    {
      "epoch": 0.4216,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017439195979899497,
      "loss": 2.1034,
      "step": 84320
    },
    {
      "epoch": 0.42165,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017437688442211057,
      "loss": 2.1673,
      "step": 84330
    },
    {
      "epoch": 0.4217,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017436180904522613,
      "loss": 2.0995,
      "step": 84340
    },
    {
      "epoch": 0.42175,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001743467336683417,
      "loss": 2.1439,
      "step": 84350
    },
    {
      "epoch": 0.4218,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017433165829145727,
      "loss": 2.117,
      "step": 84360
    },
    {
      "epoch": 0.42185,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0017431658291457287,
      "loss": 2.1553,
      "step": 84370
    },
    {
      "epoch": 0.4219,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017430150753768845,
      "loss": 2.1767,
      "step": 84380
    },
    {
      "epoch": 0.42195,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017428643216080401,
      "loss": 2.0708,
      "step": 84390
    },
    {
      "epoch": 0.422,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017427135678391961,
      "loss": 2.0984,
      "step": 84400
    },
    {
      "epoch": 0.42205,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017425628140703517,
      "loss": 2.1331,
      "step": 84410
    },
    {
      "epoch": 0.4221,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017424120603015075,
      "loss": 2.1275,
      "step": 84420
    },
    {
      "epoch": 0.42215,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017422613065326636,
      "loss": 2.135,
      "step": 84430
    },
    {
      "epoch": 0.4222,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017421105527638191,
      "loss": 2.1348,
      "step": 84440
    },
    {
      "epoch": 0.42225,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017419597989949747,
      "loss": 2.0986,
      "step": 84450
    },
    {
      "epoch": 0.4223,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017418090452261308,
      "loss": 2.1349,
      "step": 84460
    },
    {
      "epoch": 0.42235,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017416582914572866,
      "loss": 2.1106,
      "step": 84470
    },
    {
      "epoch": 0.4224,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017415075376884422,
      "loss": 2.1776,
      "step": 84480
    },
    {
      "epoch": 0.42245,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0017413567839195982,
      "loss": 2.0952,
      "step": 84490
    },
    {
      "epoch": 0.4225,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017412060301507538,
      "loss": 2.1782,
      "step": 84500
    },
    {
      "epoch": 0.42255,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017410552763819096,
      "loss": 2.0826,
      "step": 84510
    },
    {
      "epoch": 0.4226,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017409045226130652,
      "loss": 2.0306,
      "step": 84520
    },
    {
      "epoch": 0.42265,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017407537688442212,
      "loss": 2.1053,
      "step": 84530
    },
    {
      "epoch": 0.4227,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017406030150753768,
      "loss": 2.1456,
      "step": 84540
    },
    {
      "epoch": 0.42275,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017404522613065326,
      "loss": 2.0996,
      "step": 84550
    },
    {
      "epoch": 0.4228,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017403015075376886,
      "loss": 2.1055,
      "step": 84560
    },
    {
      "epoch": 0.42285,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017401507537688442,
      "loss": 2.1431,
      "step": 84570
    },
    {
      "epoch": 0.4229,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00174,
      "loss": 2.0653,
      "step": 84580
    },
    {
      "epoch": 0.42295,
      "grad_norm": 0.65625,
      "learning_rate": 0.0017398492462311558,
      "loss": 2.1285,
      "step": 84590
    },
    {
      "epoch": 0.423,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017396984924623116,
      "loss": 2.1085,
      "step": 84600
    },
    {
      "epoch": 0.42305,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0017395477386934672,
      "loss": 2.1526,
      "step": 84610
    },
    {
      "epoch": 0.4231,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017393969849246232,
      "loss": 2.0838,
      "step": 84620
    },
    {
      "epoch": 0.42315,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001739246231155779,
      "loss": 2.1685,
      "step": 84630
    },
    {
      "epoch": 0.4232,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017390954773869346,
      "loss": 2.0636,
      "step": 84640
    },
    {
      "epoch": 0.42325,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017389447236180907,
      "loss": 2.1004,
      "step": 84650
    },
    {
      "epoch": 0.4233,
      "grad_norm": 0.75,
      "learning_rate": 0.0017387939698492462,
      "loss": 2.0487,
      "step": 84660
    },
    {
      "epoch": 0.42335,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001738643216080402,
      "loss": 2.1365,
      "step": 84670
    },
    {
      "epoch": 0.4234,
      "grad_norm": 0.625,
      "learning_rate": 0.0017384924623115576,
      "loss": 2.0882,
      "step": 84680
    },
    {
      "epoch": 0.42345,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017383417085427137,
      "loss": 2.1291,
      "step": 84690
    },
    {
      "epoch": 0.4235,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017381909547738693,
      "loss": 2.0972,
      "step": 84700
    },
    {
      "epoch": 0.42355,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001738040201005025,
      "loss": 2.1573,
      "step": 84710
    },
    {
      "epoch": 0.4236,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001737889447236181,
      "loss": 2.0844,
      "step": 84720
    },
    {
      "epoch": 0.42365,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017377386934673367,
      "loss": 2.1179,
      "step": 84730
    },
    {
      "epoch": 0.4237,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017375879396984925,
      "loss": 2.1366,
      "step": 84740
    },
    {
      "epoch": 0.42375,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0017374371859296483,
      "loss": 2.0537,
      "step": 84750
    },
    {
      "epoch": 0.4238,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001737286432160804,
      "loss": 2.1288,
      "step": 84760
    },
    {
      "epoch": 0.42385,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017371356783919597,
      "loss": 2.1047,
      "step": 84770
    },
    {
      "epoch": 0.4239,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0017369849246231157,
      "loss": 2.1311,
      "step": 84780
    },
    {
      "epoch": 0.42395,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017368341708542715,
      "loss": 2.0939,
      "step": 84790
    },
    {
      "epoch": 0.424,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017366834170854271,
      "loss": 2.1234,
      "step": 84800
    },
    {
      "epoch": 0.42405,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017365326633165831,
      "loss": 2.0407,
      "step": 84810
    },
    {
      "epoch": 0.4241,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0017363819095477387,
      "loss": 2.1226,
      "step": 84820
    },
    {
      "epoch": 0.42415,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017362311557788945,
      "loss": 2.1033,
      "step": 84830
    },
    {
      "epoch": 0.4242,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017360804020100501,
      "loss": 2.1093,
      "step": 84840
    },
    {
      "epoch": 0.42425,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017359296482412061,
      "loss": 2.1154,
      "step": 84850
    },
    {
      "epoch": 0.4243,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017357788944723617,
      "loss": 2.1213,
      "step": 84860
    },
    {
      "epoch": 0.42435,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017356281407035175,
      "loss": 2.0917,
      "step": 84870
    },
    {
      "epoch": 0.4244,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017354773869346736,
      "loss": 2.1055,
      "step": 84880
    },
    {
      "epoch": 0.42445,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017353266331658292,
      "loss": 2.1142,
      "step": 84890
    },
    {
      "epoch": 0.4245,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017351758793969847,
      "loss": 2.0987,
      "step": 84900
    },
    {
      "epoch": 0.42455,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017350251256281408,
      "loss": 2.1072,
      "step": 84910
    },
    {
      "epoch": 0.4246,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017348743718592966,
      "loss": 2.0956,
      "step": 84920
    },
    {
      "epoch": 0.42465,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017347236180904522,
      "loss": 2.1276,
      "step": 84930
    },
    {
      "epoch": 0.4247,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017345728643216082,
      "loss": 2.0929,
      "step": 84940
    },
    {
      "epoch": 0.42475,
      "grad_norm": 0.59375,
      "learning_rate": 0.001734422110552764,
      "loss": 2.1302,
      "step": 84950
    },
    {
      "epoch": 0.4248,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017342713567839196,
      "loss": 2.1147,
      "step": 84960
    },
    {
      "epoch": 0.42485,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017341206030150756,
      "loss": 2.1359,
      "step": 84970
    },
    {
      "epoch": 0.4249,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017339698492462312,
      "loss": 2.1149,
      "step": 84980
    },
    {
      "epoch": 0.42495,
      "grad_norm": 1.078125,
      "learning_rate": 0.001733819095477387,
      "loss": 2.108,
      "step": 84990
    },
    {
      "epoch": 0.425,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017336683417085426,
      "loss": 2.0934,
      "step": 85000
    },
    {
      "epoch": 0.42505,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017335175879396986,
      "loss": 2.1224,
      "step": 85010
    },
    {
      "epoch": 0.4251,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017333668341708542,
      "loss": 2.0946,
      "step": 85020
    },
    {
      "epoch": 0.42515,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00173321608040201,
      "loss": 2.0854,
      "step": 85030
    },
    {
      "epoch": 0.4252,
      "grad_norm": 0.609375,
      "learning_rate": 0.001733065326633166,
      "loss": 2.0897,
      "step": 85040
    },
    {
      "epoch": 0.42525,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017329145728643216,
      "loss": 2.1195,
      "step": 85050
    },
    {
      "epoch": 0.4253,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017327638190954772,
      "loss": 2.1678,
      "step": 85060
    },
    {
      "epoch": 0.42535,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017326130653266332,
      "loss": 2.1309,
      "step": 85070
    },
    {
      "epoch": 0.4254,
      "grad_norm": 0.578125,
      "learning_rate": 0.001732462311557789,
      "loss": 2.1315,
      "step": 85080
    },
    {
      "epoch": 0.42545,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017323115577889446,
      "loss": 2.0945,
      "step": 85090
    },
    {
      "epoch": 0.4255,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017321608040201007,
      "loss": 2.0632,
      "step": 85100
    },
    {
      "epoch": 0.42555,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017320100502512563,
      "loss": 2.1076,
      "step": 85110
    },
    {
      "epoch": 0.4256,
      "grad_norm": 0.77734375,
      "learning_rate": 0.001731859296482412,
      "loss": 2.1439,
      "step": 85120
    },
    {
      "epoch": 0.42565,
      "grad_norm": 0.578125,
      "learning_rate": 0.001731708542713568,
      "loss": 2.0572,
      "step": 85130
    },
    {
      "epoch": 0.4257,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017315577889447237,
      "loss": 2.1145,
      "step": 85140
    },
    {
      "epoch": 0.42575,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017314070351758795,
      "loss": 2.1298,
      "step": 85150
    },
    {
      "epoch": 0.4258,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001731256281407035,
      "loss": 2.14,
      "step": 85160
    },
    {
      "epoch": 0.42585,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001731105527638191,
      "loss": 2.0664,
      "step": 85170
    },
    {
      "epoch": 0.4259,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017309547738693467,
      "loss": 2.1242,
      "step": 85180
    },
    {
      "epoch": 0.42595,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017308040201005025,
      "loss": 2.0676,
      "step": 85190
    },
    {
      "epoch": 0.426,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017306532663316585,
      "loss": 2.1628,
      "step": 85200
    },
    {
      "epoch": 0.42605,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001730502512562814,
      "loss": 2.1202,
      "step": 85210
    },
    {
      "epoch": 0.4261,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017303517587939697,
      "loss": 2.1222,
      "step": 85220
    },
    {
      "epoch": 0.42615,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0017302010050251257,
      "loss": 2.1278,
      "step": 85230
    },
    {
      "epoch": 0.4262,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017300502512562815,
      "loss": 2.0891,
      "step": 85240
    },
    {
      "epoch": 0.42625,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017298994974874371,
      "loss": 2.1432,
      "step": 85250
    },
    {
      "epoch": 0.4263,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017297487437185931,
      "loss": 2.1572,
      "step": 85260
    },
    {
      "epoch": 0.42635,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017295979899497487,
      "loss": 2.1573,
      "step": 85270
    },
    {
      "epoch": 0.4264,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017294472361809045,
      "loss": 2.0697,
      "step": 85280
    },
    {
      "epoch": 0.42645,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017292964824120606,
      "loss": 2.1156,
      "step": 85290
    },
    {
      "epoch": 0.4265,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017291457286432162,
      "loss": 2.0543,
      "step": 85300
    },
    {
      "epoch": 0.42655,
      "grad_norm": 0.515625,
      "learning_rate": 0.001728994974874372,
      "loss": 2.179,
      "step": 85310
    },
    {
      "epoch": 0.4266,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017288442211055275,
      "loss": 2.081,
      "step": 85320
    },
    {
      "epoch": 0.42665,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017286934673366836,
      "loss": 2.1002,
      "step": 85330
    },
    {
      "epoch": 0.4267,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017285427135678392,
      "loss": 2.0921,
      "step": 85340
    },
    {
      "epoch": 0.42675,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001728391959798995,
      "loss": 2.1101,
      "step": 85350
    },
    {
      "epoch": 0.4268,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001728241206030151,
      "loss": 2.1014,
      "step": 85360
    },
    {
      "epoch": 0.42685,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017280904522613066,
      "loss": 2.1224,
      "step": 85370
    },
    {
      "epoch": 0.4269,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0017279396984924622,
      "loss": 2.1146,
      "step": 85380
    },
    {
      "epoch": 0.42695,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017277889447236182,
      "loss": 2.1549,
      "step": 85390
    },
    {
      "epoch": 0.427,
      "grad_norm": 0.59375,
      "learning_rate": 0.001727638190954774,
      "loss": 2.1209,
      "step": 85400
    },
    {
      "epoch": 0.42705,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017274874371859296,
      "loss": 2.1352,
      "step": 85410
    },
    {
      "epoch": 0.4271,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017273366834170856,
      "loss": 2.1008,
      "step": 85420
    },
    {
      "epoch": 0.42715,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017271859296482412,
      "loss": 2.1262,
      "step": 85430
    },
    {
      "epoch": 0.4272,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001727035175879397,
      "loss": 2.0451,
      "step": 85440
    },
    {
      "epoch": 0.42725,
      "grad_norm": 0.609375,
      "learning_rate": 0.001726884422110553,
      "loss": 2.1069,
      "step": 85450
    },
    {
      "epoch": 0.4273,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017267336683417086,
      "loss": 2.0859,
      "step": 85460
    },
    {
      "epoch": 0.42735,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017265829145728642,
      "loss": 2.1129,
      "step": 85470
    },
    {
      "epoch": 0.4274,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00172643216080402,
      "loss": 2.1061,
      "step": 85480
    },
    {
      "epoch": 0.42745,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001726281407035176,
      "loss": 2.12,
      "step": 85490
    },
    {
      "epoch": 0.4275,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017261306532663316,
      "loss": 2.1359,
      "step": 85500
    },
    {
      "epoch": 0.42755,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017259798994974874,
      "loss": 2.1101,
      "step": 85510
    },
    {
      "epoch": 0.4276,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017258291457286433,
      "loss": 2.1372,
      "step": 85520
    },
    {
      "epoch": 0.42765,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001725678391959799,
      "loss": 2.0544,
      "step": 85530
    },
    {
      "epoch": 0.4277,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017255276381909546,
      "loss": 2.1548,
      "step": 85540
    },
    {
      "epoch": 0.42775,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017253768844221107,
      "loss": 2.0509,
      "step": 85550
    },
    {
      "epoch": 0.4278,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017252261306532665,
      "loss": 2.1263,
      "step": 85560
    },
    {
      "epoch": 0.42785,
      "grad_norm": 0.625,
      "learning_rate": 0.001725075376884422,
      "loss": 2.0702,
      "step": 85570
    },
    {
      "epoch": 0.4279,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001724924623115578,
      "loss": 2.1059,
      "step": 85580
    },
    {
      "epoch": 0.42795,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017247738693467337,
      "loss": 2.0958,
      "step": 85590
    },
    {
      "epoch": 0.428,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017246231155778895,
      "loss": 2.1204,
      "step": 85600
    },
    {
      "epoch": 0.42805,
      "grad_norm": 0.609375,
      "learning_rate": 0.001724472361809045,
      "loss": 2.0911,
      "step": 85610
    },
    {
      "epoch": 0.4281,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001724321608040201,
      "loss": 2.1217,
      "step": 85620
    },
    {
      "epoch": 0.42815,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017241708542713567,
      "loss": 2.1328,
      "step": 85630
    },
    {
      "epoch": 0.4282,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017240201005025125,
      "loss": 2.1441,
      "step": 85640
    },
    {
      "epoch": 0.42825,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0017238693467336685,
      "loss": 2.0777,
      "step": 85650
    },
    {
      "epoch": 0.4283,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0017237185929648241,
      "loss": 2.1487,
      "step": 85660
    },
    {
      "epoch": 0.42835,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00172356783919598,
      "loss": 2.1408,
      "step": 85670
    },
    {
      "epoch": 0.4284,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0017234170854271357,
      "loss": 2.1213,
      "step": 85680
    },
    {
      "epoch": 0.42845,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017232663316582915,
      "loss": 2.1287,
      "step": 85690
    },
    {
      "epoch": 0.4285,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017231155778894471,
      "loss": 2.1033,
      "step": 85700
    },
    {
      "epoch": 0.42855,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017229648241206031,
      "loss": 2.1372,
      "step": 85710
    },
    {
      "epoch": 0.4286,
      "grad_norm": 0.609375,
      "learning_rate": 0.001722814070351759,
      "loss": 2.0696,
      "step": 85720
    },
    {
      "epoch": 0.42865,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017226633165829145,
      "loss": 2.1242,
      "step": 85730
    },
    {
      "epoch": 0.4287,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017225125628140706,
      "loss": 2.0589,
      "step": 85740
    },
    {
      "epoch": 0.42875,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017223618090452262,
      "loss": 2.1032,
      "step": 85750
    },
    {
      "epoch": 0.4288,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001722211055276382,
      "loss": 2.1065,
      "step": 85760
    },
    {
      "epoch": 0.42885,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0017220603015075376,
      "loss": 2.1109,
      "step": 85770
    },
    {
      "epoch": 0.4289,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017219095477386936,
      "loss": 2.1024,
      "step": 85780
    },
    {
      "epoch": 0.42895,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017217587939698492,
      "loss": 2.1506,
      "step": 85790
    },
    {
      "epoch": 0.429,
      "grad_norm": 0.49609375,
      "learning_rate": 0.001721608040201005,
      "loss": 2.0749,
      "step": 85800
    },
    {
      "epoch": 0.42905,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001721457286432161,
      "loss": 2.1458,
      "step": 85810
    },
    {
      "epoch": 0.4291,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017213065326633166,
      "loss": 2.1112,
      "step": 85820
    },
    {
      "epoch": 0.42915,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017211557788944722,
      "loss": 2.1282,
      "step": 85830
    },
    {
      "epoch": 0.4292,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017210050251256282,
      "loss": 2.1111,
      "step": 85840
    },
    {
      "epoch": 0.42925,
      "grad_norm": 0.609375,
      "learning_rate": 0.001720854271356784,
      "loss": 2.0944,
      "step": 85850
    },
    {
      "epoch": 0.4293,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017207035175879396,
      "loss": 2.0884,
      "step": 85860
    },
    {
      "epoch": 0.42935,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017205527638190956,
      "loss": 2.1043,
      "step": 85870
    },
    {
      "epoch": 0.4294,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0017204020100502514,
      "loss": 2.1572,
      "step": 85880
    },
    {
      "epoch": 0.42945,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001720251256281407,
      "loss": 2.0712,
      "step": 85890
    },
    {
      "epoch": 0.4295,
      "grad_norm": 0.546875,
      "learning_rate": 0.001720100502512563,
      "loss": 2.0904,
      "step": 85900
    },
    {
      "epoch": 0.42955,
      "grad_norm": 0.625,
      "learning_rate": 0.0017199497487437186,
      "loss": 2.1092,
      "step": 85910
    },
    {
      "epoch": 0.4296,
      "grad_norm": 0.515625,
      "learning_rate": 0.0017197989949748744,
      "loss": 2.1076,
      "step": 85920
    },
    {
      "epoch": 0.42965,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00171964824120603,
      "loss": 2.0786,
      "step": 85930
    },
    {
      "epoch": 0.4297,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001719497487437186,
      "loss": 2.1356,
      "step": 85940
    },
    {
      "epoch": 0.42975,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017193467336683416,
      "loss": 2.1227,
      "step": 85950
    },
    {
      "epoch": 0.4298,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017191959798994974,
      "loss": 2.1106,
      "step": 85960
    },
    {
      "epoch": 0.42985,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017190452261306535,
      "loss": 2.054,
      "step": 85970
    },
    {
      "epoch": 0.4299,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001718894472361809,
      "loss": 2.1748,
      "step": 85980
    },
    {
      "epoch": 0.42995,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017187437185929647,
      "loss": 2.1188,
      "step": 85990
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017185929648241207,
      "loss": 2.1434,
      "step": 86000
    },
    {
      "epoch": 0.43,
      "eval_loss": 2.1015379428863525,
      "eval_runtime": 46.2568,
      "eval_samples_per_second": 54.046,
      "eval_steps_per_second": 0.108,
      "step": 86000
    },
    {
      "epoch": 0.43005,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017184422110552765,
      "loss": 2.1154,
      "step": 86010
    },
    {
      "epoch": 0.4301,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001718291457286432,
      "loss": 2.1072,
      "step": 86020
    },
    {
      "epoch": 0.43015,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001718140703517588,
      "loss": 2.0933,
      "step": 86030
    },
    {
      "epoch": 0.4302,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017179899497487437,
      "loss": 2.1182,
      "step": 86040
    },
    {
      "epoch": 0.43025,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0017178391959798995,
      "loss": 2.1207,
      "step": 86050
    },
    {
      "epoch": 0.4303,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017176884422110555,
      "loss": 2.0968,
      "step": 86060
    },
    {
      "epoch": 0.43035,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001717537688442211,
      "loss": 2.1136,
      "step": 86070
    },
    {
      "epoch": 0.4304,
      "grad_norm": 0.5625,
      "learning_rate": 0.001717386934673367,
      "loss": 2.1172,
      "step": 86080
    },
    {
      "epoch": 0.43045,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017172361809045225,
      "loss": 2.0964,
      "step": 86090
    },
    {
      "epoch": 0.4305,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017170854271356785,
      "loss": 2.0917,
      "step": 86100
    },
    {
      "epoch": 0.43055,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017169346733668341,
      "loss": 2.0571,
      "step": 86110
    },
    {
      "epoch": 0.4306,
      "grad_norm": 0.609375,
      "learning_rate": 0.00171678391959799,
      "loss": 2.1102,
      "step": 86120
    },
    {
      "epoch": 0.43065,
      "grad_norm": 0.546875,
      "learning_rate": 0.001716633165829146,
      "loss": 2.0979,
      "step": 86130
    },
    {
      "epoch": 0.4307,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017164824120603015,
      "loss": 2.1554,
      "step": 86140
    },
    {
      "epoch": 0.43075,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017163316582914571,
      "loss": 2.0898,
      "step": 86150
    },
    {
      "epoch": 0.4308,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017161809045226132,
      "loss": 2.1319,
      "step": 86160
    },
    {
      "epoch": 0.43085,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001716030150753769,
      "loss": 2.1052,
      "step": 86170
    },
    {
      "epoch": 0.4309,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017158793969849245,
      "loss": 2.1132,
      "step": 86180
    },
    {
      "epoch": 0.43095,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0017157286432160806,
      "loss": 2.0804,
      "step": 86190
    },
    {
      "epoch": 0.431,
      "grad_norm": 0.640625,
      "learning_rate": 0.0017155778894472362,
      "loss": 2.1016,
      "step": 86200
    },
    {
      "epoch": 0.43105,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001715427135678392,
      "loss": 2.1441,
      "step": 86210
    },
    {
      "epoch": 0.4311,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001715276381909548,
      "loss": 2.061,
      "step": 86220
    },
    {
      "epoch": 0.43115,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017151256281407036,
      "loss": 2.1102,
      "step": 86230
    },
    {
      "epoch": 0.4312,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017149748743718594,
      "loss": 2.1213,
      "step": 86240
    },
    {
      "epoch": 0.43125,
      "grad_norm": 0.609375,
      "learning_rate": 0.001714824120603015,
      "loss": 2.1091,
      "step": 86250
    },
    {
      "epoch": 0.4313,
      "grad_norm": 0.625,
      "learning_rate": 0.001714673366834171,
      "loss": 2.1031,
      "step": 86260
    },
    {
      "epoch": 0.43135,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017145226130653266,
      "loss": 2.1448,
      "step": 86270
    },
    {
      "epoch": 0.4314,
      "grad_norm": 0.625,
      "learning_rate": 0.0017143718592964824,
      "loss": 2.1232,
      "step": 86280
    },
    {
      "epoch": 0.43145,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017142211055276384,
      "loss": 2.1484,
      "step": 86290
    },
    {
      "epoch": 0.4315,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001714070351758794,
      "loss": 2.1139,
      "step": 86300
    },
    {
      "epoch": 0.43155,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017139195979899496,
      "loss": 2.1186,
      "step": 86310
    },
    {
      "epoch": 0.4316,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017137688442211056,
      "loss": 2.1173,
      "step": 86320
    },
    {
      "epoch": 0.43165,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017136180904522614,
      "loss": 2.1073,
      "step": 86330
    },
    {
      "epoch": 0.4317,
      "grad_norm": 0.625,
      "learning_rate": 0.001713467336683417,
      "loss": 2.0998,
      "step": 86340
    },
    {
      "epoch": 0.43175,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001713316582914573,
      "loss": 2.1409,
      "step": 86350
    },
    {
      "epoch": 0.4318,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0017131658291457286,
      "loss": 2.1163,
      "step": 86360
    },
    {
      "epoch": 0.43185,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017130150753768844,
      "loss": 2.1816,
      "step": 86370
    },
    {
      "epoch": 0.4319,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017128643216080405,
      "loss": 2.0843,
      "step": 86380
    },
    {
      "epoch": 0.43195,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001712713567839196,
      "loss": 2.1509,
      "step": 86390
    },
    {
      "epoch": 0.432,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017125628140703516,
      "loss": 2.1486,
      "step": 86400
    },
    {
      "epoch": 0.43205,
      "grad_norm": 0.5625,
      "learning_rate": 0.0017124120603015075,
      "loss": 2.1485,
      "step": 86410
    },
    {
      "epoch": 0.4321,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017122613065326635,
      "loss": 2.0765,
      "step": 86420
    },
    {
      "epoch": 0.43215,
      "grad_norm": 0.53125,
      "learning_rate": 0.001712110552763819,
      "loss": 2.104,
      "step": 86430
    },
    {
      "epoch": 0.4322,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017119597989949749,
      "loss": 2.0839,
      "step": 86440
    },
    {
      "epoch": 0.43225,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0017118090452261307,
      "loss": 2.1478,
      "step": 86450
    },
    {
      "epoch": 0.4323,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0017116582914572865,
      "loss": 2.1042,
      "step": 86460
    },
    {
      "epoch": 0.43235,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001711507537688442,
      "loss": 2.1483,
      "step": 86470
    },
    {
      "epoch": 0.4324,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001711356783919598,
      "loss": 2.1741,
      "step": 86480
    },
    {
      "epoch": 0.43245,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001711206030150754,
      "loss": 2.151,
      "step": 86490
    },
    {
      "epoch": 0.4325,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0017110552763819095,
      "loss": 2.1012,
      "step": 86500
    },
    {
      "epoch": 0.43255,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017109045226130655,
      "loss": 2.1364,
      "step": 86510
    },
    {
      "epoch": 0.4326,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017107537688442211,
      "loss": 2.0671,
      "step": 86520
    },
    {
      "epoch": 0.43265,
      "grad_norm": 0.6953125,
      "learning_rate": 0.001710603015075377,
      "loss": 2.1149,
      "step": 86530
    },
    {
      "epoch": 0.4327,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001710452261306533,
      "loss": 2.0598,
      "step": 86540
    },
    {
      "epoch": 0.43275,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0017103015075376885,
      "loss": 2.1316,
      "step": 86550
    },
    {
      "epoch": 0.4328,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0017101507537688441,
      "loss": 2.0934,
      "step": 86560
    },
    {
      "epoch": 0.43285,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00171,
      "loss": 2.1514,
      "step": 86570
    },
    {
      "epoch": 0.4329,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001709849246231156,
      "loss": 2.0995,
      "step": 86580
    },
    {
      "epoch": 0.43295,
      "grad_norm": 0.578125,
      "learning_rate": 0.0017096984924623115,
      "loss": 2.1288,
      "step": 86590
    },
    {
      "epoch": 0.433,
      "grad_norm": 0.609375,
      "learning_rate": 0.0017095477386934674,
      "loss": 2.0994,
      "step": 86600
    },
    {
      "epoch": 0.43305,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017093969849246232,
      "loss": 2.1068,
      "step": 86610
    },
    {
      "epoch": 0.4331,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001709246231155779,
      "loss": 2.1127,
      "step": 86620
    },
    {
      "epoch": 0.43315,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017090954773869346,
      "loss": 2.1189,
      "step": 86630
    },
    {
      "epoch": 0.4332,
      "grad_norm": 0.625,
      "learning_rate": 0.0017089447236180906,
      "loss": 2.1049,
      "step": 86640
    },
    {
      "epoch": 0.43325,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0017087939698492464,
      "loss": 2.1141,
      "step": 86650
    },
    {
      "epoch": 0.4333,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001708643216080402,
      "loss": 2.0847,
      "step": 86660
    },
    {
      "epoch": 0.43335,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001708492462311558,
      "loss": 2.1804,
      "step": 86670
    },
    {
      "epoch": 0.4334,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017083417085427136,
      "loss": 2.1208,
      "step": 86680
    },
    {
      "epoch": 0.43345,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0017081909547738694,
      "loss": 2.1169,
      "step": 86690
    },
    {
      "epoch": 0.4335,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001708040201005025,
      "loss": 2.0904,
      "step": 86700
    },
    {
      "epoch": 0.43355,
      "grad_norm": 0.578125,
      "learning_rate": 0.001707889447236181,
      "loss": 2.0984,
      "step": 86710
    },
    {
      "epoch": 0.4336,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017077386934673366,
      "loss": 2.1001,
      "step": 86720
    },
    {
      "epoch": 0.43365,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0017075879396984924,
      "loss": 2.0993,
      "step": 86730
    },
    {
      "epoch": 0.4337,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0017074371859296484,
      "loss": 2.1131,
      "step": 86740
    },
    {
      "epoch": 0.43375,
      "grad_norm": 0.578125,
      "learning_rate": 0.001707286432160804,
      "loss": 2.1204,
      "step": 86750
    },
    {
      "epoch": 0.4338,
      "grad_norm": 0.59375,
      "learning_rate": 0.0017071356783919596,
      "loss": 2.0983,
      "step": 86760
    },
    {
      "epoch": 0.43385,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017069849246231156,
      "loss": 2.1216,
      "step": 86770
    },
    {
      "epoch": 0.4339,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0017068341708542714,
      "loss": 2.0837,
      "step": 86780
    },
    {
      "epoch": 0.43395,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001706683417085427,
      "loss": 2.1324,
      "step": 86790
    },
    {
      "epoch": 0.434,
      "grad_norm": 0.71484375,
      "learning_rate": 0.001706532663316583,
      "loss": 2.0867,
      "step": 86800
    },
    {
      "epoch": 0.43405,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0017063819095477386,
      "loss": 2.1396,
      "step": 86810
    },
    {
      "epoch": 0.4341,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0017062311557788945,
      "loss": 2.0628,
      "step": 86820
    },
    {
      "epoch": 0.43415,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017060804020100505,
      "loss": 2.1254,
      "step": 86830
    },
    {
      "epoch": 0.4342,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001705929648241206,
      "loss": 2.0632,
      "step": 86840
    },
    {
      "epoch": 0.43425,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0017057788944723619,
      "loss": 2.1092,
      "step": 86850
    },
    {
      "epoch": 0.4343,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0017056281407035175,
      "loss": 2.1107,
      "step": 86860
    },
    {
      "epoch": 0.43435,
      "grad_norm": 0.546875,
      "learning_rate": 0.0017054773869346735,
      "loss": 2.1104,
      "step": 86870
    },
    {
      "epoch": 0.4344,
      "grad_norm": 0.578125,
      "learning_rate": 0.001705326633165829,
      "loss": 2.1321,
      "step": 86880
    },
    {
      "epoch": 0.43445,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017051758793969849,
      "loss": 2.1006,
      "step": 86890
    },
    {
      "epoch": 0.4345,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001705025125628141,
      "loss": 2.1638,
      "step": 86900
    },
    {
      "epoch": 0.43455,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0017048743718592965,
      "loss": 2.0988,
      "step": 86910
    },
    {
      "epoch": 0.4346,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001704723618090452,
      "loss": 2.0489,
      "step": 86920
    },
    {
      "epoch": 0.43465,
      "grad_norm": 0.625,
      "learning_rate": 0.0017045728643216081,
      "loss": 2.1434,
      "step": 86930
    },
    {
      "epoch": 0.4347,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001704422110552764,
      "loss": 2.0859,
      "step": 86940
    },
    {
      "epoch": 0.43475,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017042713567839195,
      "loss": 2.0914,
      "step": 86950
    },
    {
      "epoch": 0.4348,
      "grad_norm": 0.625,
      "learning_rate": 0.0017041206030150755,
      "loss": 2.1713,
      "step": 86960
    },
    {
      "epoch": 0.43485,
      "grad_norm": 0.53125,
      "learning_rate": 0.0017039698492462311,
      "loss": 2.0542,
      "step": 86970
    },
    {
      "epoch": 0.4349,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001703819095477387,
      "loss": 2.1233,
      "step": 86980
    },
    {
      "epoch": 0.43495,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001703668341708543,
      "loss": 2.127,
      "step": 86990
    },
    {
      "epoch": 0.435,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0017035175879396985,
      "loss": 2.1276,
      "step": 87000
    },
    {
      "epoch": 0.43505,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0017033668341708543,
      "loss": 2.1021,
      "step": 87010
    },
    {
      "epoch": 0.4351,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00170321608040201,
      "loss": 2.095,
      "step": 87020
    },
    {
      "epoch": 0.43515,
      "grad_norm": 0.609375,
      "learning_rate": 0.001703065326633166,
      "loss": 2.1118,
      "step": 87030
    },
    {
      "epoch": 0.4352,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0017029145728643216,
      "loss": 2.1586,
      "step": 87040
    },
    {
      "epoch": 0.43525,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0017027638190954774,
      "loss": 2.0944,
      "step": 87050
    },
    {
      "epoch": 0.4353,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017026130653266334,
      "loss": 2.0864,
      "step": 87060
    },
    {
      "epoch": 0.43535,
      "grad_norm": 0.5625,
      "learning_rate": 0.001702462311557789,
      "loss": 2.1313,
      "step": 87070
    },
    {
      "epoch": 0.4354,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0017023115577889446,
      "loss": 2.0848,
      "step": 87080
    },
    {
      "epoch": 0.43545,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017021608040201006,
      "loss": 2.1122,
      "step": 87090
    },
    {
      "epoch": 0.4355,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0017020100502512564,
      "loss": 2.1062,
      "step": 87100
    },
    {
      "epoch": 0.43555,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001701859296482412,
      "loss": 2.1179,
      "step": 87110
    },
    {
      "epoch": 0.4356,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001701708542713568,
      "loss": 2.1002,
      "step": 87120
    },
    {
      "epoch": 0.43565,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0017015577889447236,
      "loss": 2.0735,
      "step": 87130
    },
    {
      "epoch": 0.4357,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017014070351758794,
      "loss": 2.121,
      "step": 87140
    },
    {
      "epoch": 0.43575,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0017012562814070354,
      "loss": 2.1147,
      "step": 87150
    },
    {
      "epoch": 0.4358,
      "grad_norm": 0.546875,
      "learning_rate": 0.001701105527638191,
      "loss": 2.0948,
      "step": 87160
    },
    {
      "epoch": 0.43585,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017009547738693468,
      "loss": 2.1216,
      "step": 87170
    },
    {
      "epoch": 0.4359,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0017008040201005024,
      "loss": 2.0673,
      "step": 87180
    },
    {
      "epoch": 0.43595,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0017006532663316584,
      "loss": 2.1871,
      "step": 87190
    },
    {
      "epoch": 0.436,
      "grad_norm": 0.5234375,
      "learning_rate": 0.001700502512562814,
      "loss": 2.0942,
      "step": 87200
    },
    {
      "epoch": 0.43605,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0017003517587939698,
      "loss": 2.1112,
      "step": 87210
    },
    {
      "epoch": 0.4361,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0017002010050251259,
      "loss": 2.1073,
      "step": 87220
    },
    {
      "epoch": 0.43615,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0017000502512562814,
      "loss": 2.1455,
      "step": 87230
    },
    {
      "epoch": 0.4362,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001699899497487437,
      "loss": 2.1165,
      "step": 87240
    },
    {
      "epoch": 0.43625,
      "grad_norm": 0.609375,
      "learning_rate": 0.001699748743718593,
      "loss": 2.0675,
      "step": 87250
    },
    {
      "epoch": 0.4363,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016995979899497489,
      "loss": 2.1445,
      "step": 87260
    },
    {
      "epoch": 0.43635,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016994472361809045,
      "loss": 2.1499,
      "step": 87270
    },
    {
      "epoch": 0.4364,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016992964824120605,
      "loss": 2.132,
      "step": 87280
    },
    {
      "epoch": 0.43645,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001699145728643216,
      "loss": 2.1098,
      "step": 87290
    },
    {
      "epoch": 0.4365,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0016989949748743719,
      "loss": 2.1593,
      "step": 87300
    },
    {
      "epoch": 0.43655,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001698844221105528,
      "loss": 2.0836,
      "step": 87310
    },
    {
      "epoch": 0.4366,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016986934673366835,
      "loss": 2.148,
      "step": 87320
    },
    {
      "epoch": 0.43665,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001698542713567839,
      "loss": 2.0872,
      "step": 87330
    },
    {
      "epoch": 0.4367,
      "grad_norm": 0.546875,
      "learning_rate": 0.0016983919597989949,
      "loss": 2.1137,
      "step": 87340
    },
    {
      "epoch": 0.43675,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001698241206030151,
      "loss": 2.1451,
      "step": 87350
    },
    {
      "epoch": 0.4368,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016980904522613065,
      "loss": 2.1333,
      "step": 87360
    },
    {
      "epoch": 0.43685,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016979396984924623,
      "loss": 2.1369,
      "step": 87370
    },
    {
      "epoch": 0.4369,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0016977889447236181,
      "loss": 2.1092,
      "step": 87380
    },
    {
      "epoch": 0.43695,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001697638190954774,
      "loss": 2.1075,
      "step": 87390
    },
    {
      "epoch": 0.437,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016974874371859295,
      "loss": 2.1437,
      "step": 87400
    },
    {
      "epoch": 0.43705,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0016973366834170855,
      "loss": 2.113,
      "step": 87410
    },
    {
      "epoch": 0.4371,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0016971859296482413,
      "loss": 2.0932,
      "step": 87420
    },
    {
      "epoch": 0.43715,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001697035175879397,
      "loss": 2.147,
      "step": 87430
    },
    {
      "epoch": 0.4372,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001696884422110553,
      "loss": 2.1221,
      "step": 87440
    },
    {
      "epoch": 0.43725,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016967336683417085,
      "loss": 2.1145,
      "step": 87450
    },
    {
      "epoch": 0.4373,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016965829145728644,
      "loss": 2.0699,
      "step": 87460
    },
    {
      "epoch": 0.43735,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016964321608040204,
      "loss": 2.1021,
      "step": 87470
    },
    {
      "epoch": 0.4374,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001696281407035176,
      "loss": 2.0682,
      "step": 87480
    },
    {
      "epoch": 0.43745,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016961306532663316,
      "loss": 2.115,
      "step": 87490
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016959798994974874,
      "loss": 2.1526,
      "step": 87500
    },
    {
      "epoch": 0.43755,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016958291457286434,
      "loss": 2.1147,
      "step": 87510
    },
    {
      "epoch": 0.4376,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001695678391959799,
      "loss": 2.117,
      "step": 87520
    },
    {
      "epoch": 0.43765,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016955276381909548,
      "loss": 2.1268,
      "step": 87530
    },
    {
      "epoch": 0.4377,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016953768844221106,
      "loss": 2.0767,
      "step": 87540
    },
    {
      "epoch": 0.43775,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016952261306532664,
      "loss": 2.1347,
      "step": 87550
    },
    {
      "epoch": 0.4378,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001695075376884422,
      "loss": 2.0758,
      "step": 87560
    },
    {
      "epoch": 0.43785,
      "grad_norm": 0.5625,
      "learning_rate": 0.001694924623115578,
      "loss": 2.105,
      "step": 87570
    },
    {
      "epoch": 0.4379,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016947738693467338,
      "loss": 2.1023,
      "step": 87580
    },
    {
      "epoch": 0.43795,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016946231155778894,
      "loss": 2.1287,
      "step": 87590
    },
    {
      "epoch": 0.438,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016944723618090454,
      "loss": 2.0969,
      "step": 87600
    },
    {
      "epoch": 0.43805,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001694321608040201,
      "loss": 2.106,
      "step": 87610
    },
    {
      "epoch": 0.4381,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016941708542713568,
      "loss": 2.0467,
      "step": 87620
    },
    {
      "epoch": 0.43815,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016940201005025129,
      "loss": 2.1618,
      "step": 87630
    },
    {
      "epoch": 0.4382,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016938693467336684,
      "loss": 2.0864,
      "step": 87640
    },
    {
      "epoch": 0.43825,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001693718592964824,
      "loss": 2.154,
      "step": 87650
    },
    {
      "epoch": 0.4383,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016935678391959798,
      "loss": 2.1359,
      "step": 87660
    },
    {
      "epoch": 0.43835,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016934170854271359,
      "loss": 2.1216,
      "step": 87670
    },
    {
      "epoch": 0.4384,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016932663316582915,
      "loss": 2.1334,
      "step": 87680
    },
    {
      "epoch": 0.43845,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001693115577889447,
      "loss": 2.1561,
      "step": 87690
    },
    {
      "epoch": 0.4385,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001692964824120603,
      "loss": 2.1016,
      "step": 87700
    },
    {
      "epoch": 0.43855,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016928140703517589,
      "loss": 2.1279,
      "step": 87710
    },
    {
      "epoch": 0.4386,
      "grad_norm": 0.625,
      "learning_rate": 0.0016926633165829145,
      "loss": 2.0562,
      "step": 87720
    },
    {
      "epoch": 0.43865,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016925125628140705,
      "loss": 2.1183,
      "step": 87730
    },
    {
      "epoch": 0.4387,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001692361809045226,
      "loss": 2.0881,
      "step": 87740
    },
    {
      "epoch": 0.43875,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016922110552763819,
      "loss": 2.09,
      "step": 87750
    },
    {
      "epoch": 0.4388,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001692060301507538,
      "loss": 2.0965,
      "step": 87760
    },
    {
      "epoch": 0.43885,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016919095477386935,
      "loss": 2.1887,
      "step": 87770
    },
    {
      "epoch": 0.4389,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016917587939698493,
      "loss": 2.0814,
      "step": 87780
    },
    {
      "epoch": 0.43895,
      "grad_norm": 0.609375,
      "learning_rate": 0.001691608040201005,
      "loss": 2.1588,
      "step": 87790
    },
    {
      "epoch": 0.439,
      "grad_norm": 0.5625,
      "learning_rate": 0.001691457286432161,
      "loss": 2.1314,
      "step": 87800
    },
    {
      "epoch": 0.43905,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016913065326633165,
      "loss": 2.1579,
      "step": 87810
    },
    {
      "epoch": 0.4391,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0016911557788944723,
      "loss": 2.0728,
      "step": 87820
    },
    {
      "epoch": 0.43915,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016910050251256283,
      "loss": 2.0994,
      "step": 87830
    },
    {
      "epoch": 0.4392,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001690854271356784,
      "loss": 2.1387,
      "step": 87840
    },
    {
      "epoch": 0.43925,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016907035175879395,
      "loss": 2.1653,
      "step": 87850
    },
    {
      "epoch": 0.4393,
      "grad_norm": 0.625,
      "learning_rate": 0.0016905527638190955,
      "loss": 2.0776,
      "step": 87860
    },
    {
      "epoch": 0.43935,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016904020100502513,
      "loss": 2.1789,
      "step": 87870
    },
    {
      "epoch": 0.4394,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001690251256281407,
      "loss": 2.0748,
      "step": 87880
    },
    {
      "epoch": 0.43945,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001690100502512563,
      "loss": 2.1088,
      "step": 87890
    },
    {
      "epoch": 0.4395,
      "grad_norm": 0.546875,
      "learning_rate": 0.0016899497487437186,
      "loss": 2.0942,
      "step": 87900
    },
    {
      "epoch": 0.43955,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016897989949748744,
      "loss": 2.1226,
      "step": 87910
    },
    {
      "epoch": 0.4396,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016896482412060304,
      "loss": 2.0781,
      "step": 87920
    },
    {
      "epoch": 0.43965,
      "grad_norm": 0.71484375,
      "learning_rate": 0.001689497487437186,
      "loss": 2.1264,
      "step": 87930
    },
    {
      "epoch": 0.4397,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016893467336683418,
      "loss": 2.0872,
      "step": 87940
    },
    {
      "epoch": 0.43975,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016891959798994974,
      "loss": 2.1272,
      "step": 87950
    },
    {
      "epoch": 0.4398,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016890452261306534,
      "loss": 2.1027,
      "step": 87960
    },
    {
      "epoch": 0.43985,
      "grad_norm": 0.578125,
      "learning_rate": 0.001688894472361809,
      "loss": 2.1382,
      "step": 87970
    },
    {
      "epoch": 0.4399,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016887437185929648,
      "loss": 2.0984,
      "step": 87980
    },
    {
      "epoch": 0.43995,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016885929648241208,
      "loss": 2.1156,
      "step": 87990
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016884422110552764,
      "loss": 2.0994,
      "step": 88000
    },
    {
      "epoch": 0.44,
      "eval_loss": 2.100985288619995,
      "eval_runtime": 50.0645,
      "eval_samples_per_second": 49.936,
      "eval_steps_per_second": 0.1,
      "step": 88000
    },
    {
      "epoch": 0.44005,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001688291457286432,
      "loss": 2.1417,
      "step": 88010
    },
    {
      "epoch": 0.4401,
      "grad_norm": 0.625,
      "learning_rate": 0.001688140703517588,
      "loss": 2.0953,
      "step": 88020
    },
    {
      "epoch": 0.44015,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016879899497487438,
      "loss": 2.1331,
      "step": 88030
    },
    {
      "epoch": 0.4402,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016878391959798994,
      "loss": 2.1335,
      "step": 88040
    },
    {
      "epoch": 0.44025,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016876884422110554,
      "loss": 2.1319,
      "step": 88050
    },
    {
      "epoch": 0.4403,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001687537688442211,
      "loss": 2.1122,
      "step": 88060
    },
    {
      "epoch": 0.44035,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0016873869346733668,
      "loss": 2.0966,
      "step": 88070
    },
    {
      "epoch": 0.4404,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016872361809045229,
      "loss": 2.0954,
      "step": 88080
    },
    {
      "epoch": 0.44045,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0016870854271356784,
      "loss": 2.0935,
      "step": 88090
    },
    {
      "epoch": 0.4405,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0016869346733668343,
      "loss": 2.1101,
      "step": 88100
    },
    {
      "epoch": 0.44055,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016867839195979898,
      "loss": 2.1599,
      "step": 88110
    },
    {
      "epoch": 0.4406,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016866331658291459,
      "loss": 2.1207,
      "step": 88120
    },
    {
      "epoch": 0.44065,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016864824120603015,
      "loss": 2.1142,
      "step": 88130
    },
    {
      "epoch": 0.4407,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0016863316582914573,
      "loss": 2.1363,
      "step": 88140
    },
    {
      "epoch": 0.44075,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016861809045226133,
      "loss": 2.1099,
      "step": 88150
    },
    {
      "epoch": 0.4408,
      "grad_norm": 0.734375,
      "learning_rate": 0.0016860301507537689,
      "loss": 2.0979,
      "step": 88160
    },
    {
      "epoch": 0.44085,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0016858793969849245,
      "loss": 2.1338,
      "step": 88170
    },
    {
      "epoch": 0.4409,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016857286432160805,
      "loss": 2.1025,
      "step": 88180
    },
    {
      "epoch": 0.44095,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016855778894472363,
      "loss": 2.1188,
      "step": 88190
    },
    {
      "epoch": 0.441,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016854271356783919,
      "loss": 2.1234,
      "step": 88200
    },
    {
      "epoch": 0.44105,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001685276381909548,
      "loss": 2.0958,
      "step": 88210
    },
    {
      "epoch": 0.4411,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0016851256281407035,
      "loss": 2.1134,
      "step": 88220
    },
    {
      "epoch": 0.44115,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016849748743718593,
      "loss": 2.1022,
      "step": 88230
    },
    {
      "epoch": 0.4412,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016848241206030153,
      "loss": 2.1343,
      "step": 88240
    },
    {
      "epoch": 0.44125,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001684673366834171,
      "loss": 2.1036,
      "step": 88250
    },
    {
      "epoch": 0.4413,
      "grad_norm": 0.53125,
      "learning_rate": 0.0016845226130653265,
      "loss": 2.1559,
      "step": 88260
    },
    {
      "epoch": 0.44135,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016843718592964823,
      "loss": 2.0854,
      "step": 88270
    },
    {
      "epoch": 0.4414,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0016842211055276383,
      "loss": 2.0619,
      "step": 88280
    },
    {
      "epoch": 0.44145,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001684070351758794,
      "loss": 2.0747,
      "step": 88290
    },
    {
      "epoch": 0.4415,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016839195979899497,
      "loss": 2.125,
      "step": 88300
    },
    {
      "epoch": 0.44155,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0016837688442211055,
      "loss": 2.095,
      "step": 88310
    },
    {
      "epoch": 0.4416,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0016836180904522614,
      "loss": 2.1042,
      "step": 88320
    },
    {
      "epoch": 0.44165,
      "grad_norm": 0.5625,
      "learning_rate": 0.001683467336683417,
      "loss": 2.0773,
      "step": 88330
    },
    {
      "epoch": 0.4417,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001683316582914573,
      "loss": 2.1289,
      "step": 88340
    },
    {
      "epoch": 0.44175,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016831658291457288,
      "loss": 2.1107,
      "step": 88350
    },
    {
      "epoch": 0.4418,
      "grad_norm": 0.703125,
      "learning_rate": 0.0016830150753768844,
      "loss": 2.1615,
      "step": 88360
    },
    {
      "epoch": 0.44185,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016828643216080404,
      "loss": 2.1582,
      "step": 88370
    },
    {
      "epoch": 0.4419,
      "grad_norm": 0.640625,
      "learning_rate": 0.001682713567839196,
      "loss": 2.1211,
      "step": 88380
    },
    {
      "epoch": 0.44195,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016825628140703518,
      "loss": 2.0936,
      "step": 88390
    },
    {
      "epoch": 0.442,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016824120603015078,
      "loss": 2.1062,
      "step": 88400
    },
    {
      "epoch": 0.44205,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0016822613065326634,
      "loss": 2.0835,
      "step": 88410
    },
    {
      "epoch": 0.4421,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001682110552763819,
      "loss": 2.128,
      "step": 88420
    },
    {
      "epoch": 0.44215,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016819597989949748,
      "loss": 2.1321,
      "step": 88430
    },
    {
      "epoch": 0.4422,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0016818090452261308,
      "loss": 2.151,
      "step": 88440
    },
    {
      "epoch": 0.44225,
      "grad_norm": 0.8359375,
      "learning_rate": 0.0016816582914572864,
      "loss": 2.0775,
      "step": 88450
    },
    {
      "epoch": 0.4423,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0016815075376884422,
      "loss": 2.0785,
      "step": 88460
    },
    {
      "epoch": 0.44235,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001681356783919598,
      "loss": 2.0836,
      "step": 88470
    },
    {
      "epoch": 0.4424,
      "grad_norm": 0.625,
      "learning_rate": 0.0016812060301507538,
      "loss": 2.1384,
      "step": 88480
    },
    {
      "epoch": 0.44245,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016810552763819094,
      "loss": 2.0739,
      "step": 88490
    },
    {
      "epoch": 0.4425,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0016809045226130654,
      "loss": 2.0705,
      "step": 88500
    },
    {
      "epoch": 0.44255,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016807537688442213,
      "loss": 2.1335,
      "step": 88510
    },
    {
      "epoch": 0.4426,
      "grad_norm": 0.765625,
      "learning_rate": 0.0016806030150753768,
      "loss": 2.0924,
      "step": 88520
    },
    {
      "epoch": 0.44265,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016804522613065329,
      "loss": 2.1844,
      "step": 88530
    },
    {
      "epoch": 0.4427,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016803015075376885,
      "loss": 2.1385,
      "step": 88540
    },
    {
      "epoch": 0.44275,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016801507537688443,
      "loss": 2.0829,
      "step": 88550
    },
    {
      "epoch": 0.4428,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016800000000000003,
      "loss": 2.1155,
      "step": 88560
    },
    {
      "epoch": 0.44285,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016798492462311559,
      "loss": 2.1343,
      "step": 88570
    },
    {
      "epoch": 0.4429,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016796984924623115,
      "loss": 2.1293,
      "step": 88580
    },
    {
      "epoch": 0.44295,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016795477386934673,
      "loss": 2.1549,
      "step": 88590
    },
    {
      "epoch": 0.443,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016793969849246233,
      "loss": 2.0837,
      "step": 88600
    },
    {
      "epoch": 0.44305,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016792462311557789,
      "loss": 2.1317,
      "step": 88610
    },
    {
      "epoch": 0.4431,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016790954773869345,
      "loss": 2.0783,
      "step": 88620
    },
    {
      "epoch": 0.44315,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016789447236180905,
      "loss": 2.1079,
      "step": 88630
    },
    {
      "epoch": 0.4432,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016787939698492463,
      "loss": 2.0589,
      "step": 88640
    },
    {
      "epoch": 0.44325,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001678643216080402,
      "loss": 2.0856,
      "step": 88650
    },
    {
      "epoch": 0.4433,
      "grad_norm": 0.578125,
      "learning_rate": 0.001678492462311558,
      "loss": 2.114,
      "step": 88660
    },
    {
      "epoch": 0.44335,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016783417085427135,
      "loss": 2.1482,
      "step": 88670
    },
    {
      "epoch": 0.4434,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016781909547738693,
      "loss": 2.1108,
      "step": 88680
    },
    {
      "epoch": 0.44345,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016780402010050253,
      "loss": 2.1123,
      "step": 88690
    },
    {
      "epoch": 0.4435,
      "grad_norm": 0.625,
      "learning_rate": 0.001677889447236181,
      "loss": 2.1059,
      "step": 88700
    },
    {
      "epoch": 0.44355,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016777386934673367,
      "loss": 2.1228,
      "step": 88710
    },
    {
      "epoch": 0.4436,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016775879396984928,
      "loss": 2.0797,
      "step": 88720
    },
    {
      "epoch": 0.44365,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016774371859296484,
      "loss": 2.0992,
      "step": 88730
    },
    {
      "epoch": 0.4437,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001677286432160804,
      "loss": 2.1081,
      "step": 88740
    },
    {
      "epoch": 0.44375,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016771356783919597,
      "loss": 2.1603,
      "step": 88750
    },
    {
      "epoch": 0.4438,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016769849246231158,
      "loss": 2.1104,
      "step": 88760
    },
    {
      "epoch": 0.44385,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016768341708542714,
      "loss": 2.1091,
      "step": 88770
    },
    {
      "epoch": 0.4439,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001676683417085427,
      "loss": 2.0925,
      "step": 88780
    },
    {
      "epoch": 0.44395,
      "grad_norm": 0.5625,
      "learning_rate": 0.001676532663316583,
      "loss": 2.1046,
      "step": 88790
    },
    {
      "epoch": 0.444,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016763819095477388,
      "loss": 2.1293,
      "step": 88800
    },
    {
      "epoch": 0.44405,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016762311557788944,
      "loss": 2.1581,
      "step": 88810
    },
    {
      "epoch": 0.4441,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016760804020100504,
      "loss": 2.0838,
      "step": 88820
    },
    {
      "epoch": 0.44415,
      "grad_norm": 0.640625,
      "learning_rate": 0.001675929648241206,
      "loss": 2.0881,
      "step": 88830
    },
    {
      "epoch": 0.4442,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016757788944723618,
      "loss": 2.1018,
      "step": 88840
    },
    {
      "epoch": 0.44425,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016756281407035178,
      "loss": 2.1196,
      "step": 88850
    },
    {
      "epoch": 0.4443,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016754773869346734,
      "loss": 2.094,
      "step": 88860
    },
    {
      "epoch": 0.44435,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016753266331658292,
      "loss": 2.1086,
      "step": 88870
    },
    {
      "epoch": 0.4444,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001675175879396985,
      "loss": 2.1226,
      "step": 88880
    },
    {
      "epoch": 0.44445,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016750251256281408,
      "loss": 2.156,
      "step": 88890
    },
    {
      "epoch": 0.4445,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016748743718592964,
      "loss": 2.1437,
      "step": 88900
    },
    {
      "epoch": 0.44455,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016747236180904522,
      "loss": 2.116,
      "step": 88910
    },
    {
      "epoch": 0.4446,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016745728643216082,
      "loss": 2.1201,
      "step": 88920
    },
    {
      "epoch": 0.44465,
      "grad_norm": 0.6875,
      "learning_rate": 0.0016744221105527638,
      "loss": 2.0655,
      "step": 88930
    },
    {
      "epoch": 0.4447,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016742713567839194,
      "loss": 2.1826,
      "step": 88940
    },
    {
      "epoch": 0.44475,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016741206030150755,
      "loss": 2.0889,
      "step": 88950
    },
    {
      "epoch": 0.4448,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0016739698492462313,
      "loss": 2.1467,
      "step": 88960
    },
    {
      "epoch": 0.44485,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016738190954773868,
      "loss": 2.0856,
      "step": 88970
    },
    {
      "epoch": 0.4449,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016736683417085429,
      "loss": 2.1355,
      "step": 88980
    },
    {
      "epoch": 0.44495,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016735175879396985,
      "loss": 2.1032,
      "step": 88990
    },
    {
      "epoch": 0.445,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016733668341708543,
      "loss": 2.0941,
      "step": 89000
    },
    {
      "epoch": 0.44505,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016732160804020103,
      "loss": 2.0602,
      "step": 89010
    },
    {
      "epoch": 0.4451,
      "grad_norm": 0.546875,
      "learning_rate": 0.0016730653266331659,
      "loss": 2.109,
      "step": 89020
    },
    {
      "epoch": 0.44515,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016729145728643217,
      "loss": 2.1069,
      "step": 89030
    },
    {
      "epoch": 0.4452,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016727638190954773,
      "loss": 2.1429,
      "step": 89040
    },
    {
      "epoch": 0.44525,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016726130653266333,
      "loss": 2.0849,
      "step": 89050
    },
    {
      "epoch": 0.4453,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001672462311557789,
      "loss": 2.1555,
      "step": 89060
    },
    {
      "epoch": 0.44535,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016723115577889447,
      "loss": 2.1234,
      "step": 89070
    },
    {
      "epoch": 0.4454,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016721608040201007,
      "loss": 2.1202,
      "step": 89080
    },
    {
      "epoch": 0.44545,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0016720100502512563,
      "loss": 2.0852,
      "step": 89090
    },
    {
      "epoch": 0.4455,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001671859296482412,
      "loss": 2.1062,
      "step": 89100
    },
    {
      "epoch": 0.44555,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001671708542713568,
      "loss": 2.1462,
      "step": 89110
    },
    {
      "epoch": 0.4456,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016715577889447237,
      "loss": 2.0779,
      "step": 89120
    },
    {
      "epoch": 0.44565,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016714070351758793,
      "loss": 2.0966,
      "step": 89130
    },
    {
      "epoch": 0.4457,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0016712562814070353,
      "loss": 2.1042,
      "step": 89140
    },
    {
      "epoch": 0.44575,
      "grad_norm": 0.5625,
      "learning_rate": 0.001671105527638191,
      "loss": 2.1107,
      "step": 89150
    },
    {
      "epoch": 0.4458,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016709547738693467,
      "loss": 2.1388,
      "step": 89160
    },
    {
      "epoch": 0.44585,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016708040201005028,
      "loss": 2.1117,
      "step": 89170
    },
    {
      "epoch": 0.4459,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016706532663316584,
      "loss": 2.089,
      "step": 89180
    },
    {
      "epoch": 0.44595,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001670502512562814,
      "loss": 2.0783,
      "step": 89190
    },
    {
      "epoch": 0.446,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016703517587939698,
      "loss": 2.1058,
      "step": 89200
    },
    {
      "epoch": 0.44605,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016702010050251258,
      "loss": 2.1573,
      "step": 89210
    },
    {
      "epoch": 0.4461,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016700502512562814,
      "loss": 2.1162,
      "step": 89220
    },
    {
      "epoch": 0.44615,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016698994974874372,
      "loss": 2.1377,
      "step": 89230
    },
    {
      "epoch": 0.4462,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001669748743718593,
      "loss": 2.1226,
      "step": 89240
    },
    {
      "epoch": 0.44625,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016695979899497488,
      "loss": 2.1117,
      "step": 89250
    },
    {
      "epoch": 0.4463,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016694472361809044,
      "loss": 2.104,
      "step": 89260
    },
    {
      "epoch": 0.44635,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016692964824120604,
      "loss": 2.1078,
      "step": 89270
    },
    {
      "epoch": 0.4464,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016691457286432162,
      "loss": 2.0681,
      "step": 89280
    },
    {
      "epoch": 0.44645,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016689949748743718,
      "loss": 2.1105,
      "step": 89290
    },
    {
      "epoch": 0.4465,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016688442211055278,
      "loss": 2.1025,
      "step": 89300
    },
    {
      "epoch": 0.44655,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016686934673366834,
      "loss": 2.1047,
      "step": 89310
    },
    {
      "epoch": 0.4466,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016685427135678392,
      "loss": 2.1158,
      "step": 89320
    },
    {
      "epoch": 0.44665,
      "grad_norm": 0.671875,
      "learning_rate": 0.0016683919597989952,
      "loss": 2.1174,
      "step": 89330
    },
    {
      "epoch": 0.4467,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016682412060301508,
      "loss": 2.1219,
      "step": 89340
    },
    {
      "epoch": 0.44675,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016680904522613064,
      "loss": 2.0881,
      "step": 89350
    },
    {
      "epoch": 0.4468,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016679396984924622,
      "loss": 2.1164,
      "step": 89360
    },
    {
      "epoch": 0.44685,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016677889447236183,
      "loss": 2.1572,
      "step": 89370
    },
    {
      "epoch": 0.4469,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016676381909547738,
      "loss": 2.0961,
      "step": 89380
    },
    {
      "epoch": 0.44695,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016674874371859297,
      "loss": 2.1079,
      "step": 89390
    },
    {
      "epoch": 0.447,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016673366834170855,
      "loss": 2.1234,
      "step": 89400
    },
    {
      "epoch": 0.44705,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016671859296482413,
      "loss": 2.0587,
      "step": 89410
    },
    {
      "epoch": 0.4471,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016670351758793969,
      "loss": 2.1103,
      "step": 89420
    },
    {
      "epoch": 0.44715,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016668844221105529,
      "loss": 2.1638,
      "step": 89430
    },
    {
      "epoch": 0.4472,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016667336683417087,
      "loss": 2.1023,
      "step": 89440
    },
    {
      "epoch": 0.44725,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016665829145728643,
      "loss": 2.0913,
      "step": 89450
    },
    {
      "epoch": 0.4473,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016664321608040203,
      "loss": 2.1333,
      "step": 89460
    },
    {
      "epoch": 0.44735,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016662814070351759,
      "loss": 2.0936,
      "step": 89470
    },
    {
      "epoch": 0.4474,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0016661306532663317,
      "loss": 2.1014,
      "step": 89480
    },
    {
      "epoch": 0.44745,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0016659798994974877,
      "loss": 2.0992,
      "step": 89490
    },
    {
      "epoch": 0.4475,
      "grad_norm": 0.546875,
      "learning_rate": 0.0016658291457286433,
      "loss": 2.0927,
      "step": 89500
    },
    {
      "epoch": 0.44755,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001665678391959799,
      "loss": 2.0712,
      "step": 89510
    },
    {
      "epoch": 0.4476,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016655276381909547,
      "loss": 2.1351,
      "step": 89520
    },
    {
      "epoch": 0.44765,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016653768844221107,
      "loss": 2.1115,
      "step": 89530
    },
    {
      "epoch": 0.4477,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016652261306532663,
      "loss": 2.1059,
      "step": 89540
    },
    {
      "epoch": 0.44775,
      "grad_norm": 0.625,
      "learning_rate": 0.001665075376884422,
      "loss": 2.1544,
      "step": 89550
    },
    {
      "epoch": 0.4478,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001664924623115578,
      "loss": 2.0591,
      "step": 89560
    },
    {
      "epoch": 0.44785,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016647738693467337,
      "loss": 2.1216,
      "step": 89570
    },
    {
      "epoch": 0.4479,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016646231155778893,
      "loss": 2.1159,
      "step": 89580
    },
    {
      "epoch": 0.44795,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016644723618090454,
      "loss": 2.0938,
      "step": 89590
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001664321608040201,
      "loss": 2.0951,
      "step": 89600
    },
    {
      "epoch": 0.44805,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016641708542713568,
      "loss": 2.168,
      "step": 89610
    },
    {
      "epoch": 0.4481,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016640201005025128,
      "loss": 2.0781,
      "step": 89620
    },
    {
      "epoch": 0.44815,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016638693467336684,
      "loss": 2.1218,
      "step": 89630
    },
    {
      "epoch": 0.4482,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0016637185929648242,
      "loss": 2.0858,
      "step": 89640
    },
    {
      "epoch": 0.44825,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016635678391959802,
      "loss": 2.1831,
      "step": 89650
    },
    {
      "epoch": 0.4483,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016634170854271358,
      "loss": 2.0479,
      "step": 89660
    },
    {
      "epoch": 0.44835,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016632663316582914,
      "loss": 2.1154,
      "step": 89670
    },
    {
      "epoch": 0.4484,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016631155778894472,
      "loss": 2.0785,
      "step": 89680
    },
    {
      "epoch": 0.44845,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016629648241206032,
      "loss": 2.1358,
      "step": 89690
    },
    {
      "epoch": 0.4485,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016628140703517588,
      "loss": 2.1057,
      "step": 89700
    },
    {
      "epoch": 0.44855,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016626633165829144,
      "loss": 2.1016,
      "step": 89710
    },
    {
      "epoch": 0.4486,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016625125628140704,
      "loss": 2.0995,
      "step": 89720
    },
    {
      "epoch": 0.44865,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0016623618090452262,
      "loss": 2.1266,
      "step": 89730
    },
    {
      "epoch": 0.4487,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016622110552763818,
      "loss": 2.103,
      "step": 89740
    },
    {
      "epoch": 0.44875,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016620603015075378,
      "loss": 2.0744,
      "step": 89750
    },
    {
      "epoch": 0.4488,
      "grad_norm": 0.625,
      "learning_rate": 0.0016619095477386934,
      "loss": 2.1175,
      "step": 89760
    },
    {
      "epoch": 0.44885,
      "grad_norm": 0.546875,
      "learning_rate": 0.0016617587939698492,
      "loss": 2.1093,
      "step": 89770
    },
    {
      "epoch": 0.4489,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016616080402010053,
      "loss": 2.1854,
      "step": 89780
    },
    {
      "epoch": 0.44895,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016614572864321608,
      "loss": 2.1229,
      "step": 89790
    },
    {
      "epoch": 0.449,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016613065326633166,
      "loss": 2.1364,
      "step": 89800
    },
    {
      "epoch": 0.44905,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016611557788944725,
      "loss": 2.086,
      "step": 89810
    },
    {
      "epoch": 0.4491,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016610050251256283,
      "loss": 2.1516,
      "step": 89820
    },
    {
      "epoch": 0.44915,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016608542713567839,
      "loss": 2.0374,
      "step": 89830
    },
    {
      "epoch": 0.4492,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016607035175879397,
      "loss": 2.1387,
      "step": 89840
    },
    {
      "epoch": 0.44925,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016605527638190957,
      "loss": 2.083,
      "step": 89850
    },
    {
      "epoch": 0.4493,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016604020100502513,
      "loss": 2.1235,
      "step": 89860
    },
    {
      "epoch": 0.44935,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016602512562814069,
      "loss": 2.0941,
      "step": 89870
    },
    {
      "epoch": 0.4494,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016601005025125629,
      "loss": 2.102,
      "step": 89880
    },
    {
      "epoch": 0.44945,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016599497487437187,
      "loss": 2.0991,
      "step": 89890
    },
    {
      "epoch": 0.4495,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016597989949748743,
      "loss": 2.0843,
      "step": 89900
    },
    {
      "epoch": 0.44955,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016596482412060303,
      "loss": 2.1485,
      "step": 89910
    },
    {
      "epoch": 0.4496,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001659497487437186,
      "loss": 2.1344,
      "step": 89920
    },
    {
      "epoch": 0.44965,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016593467336683417,
      "loss": 2.1802,
      "step": 89930
    },
    {
      "epoch": 0.4497,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016591959798994977,
      "loss": 2.086,
      "step": 89940
    },
    {
      "epoch": 0.44975,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016590452261306533,
      "loss": 2.0699,
      "step": 89950
    },
    {
      "epoch": 0.4498,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0016588944723618091,
      "loss": 2.1803,
      "step": 89960
    },
    {
      "epoch": 0.44985,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001658743718592965,
      "loss": 2.1036,
      "step": 89970
    },
    {
      "epoch": 0.4499,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0016585929648241207,
      "loss": 2.1403,
      "step": 89980
    },
    {
      "epoch": 0.44995,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016584422110552763,
      "loss": 2.1197,
      "step": 89990
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016582914572864321,
      "loss": 2.1161,
      "step": 90000
    },
    {
      "epoch": 0.45,
      "eval_loss": 2.0980236530303955,
      "eval_runtime": 46.7135,
      "eval_samples_per_second": 53.518,
      "eval_steps_per_second": 0.107,
      "step": 90000
    },
    {
      "epoch": 0.45005,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016581407035175882,
      "loss": 2.1131,
      "step": 90010
    },
    {
      "epoch": 0.4501,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016579899497487437,
      "loss": 2.0642,
      "step": 90020
    },
    {
      "epoch": 0.45015,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016578391959798993,
      "loss": 2.1029,
      "step": 90030
    },
    {
      "epoch": 0.4502,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0016576884422110554,
      "loss": 2.1314,
      "step": 90040
    },
    {
      "epoch": 0.45025,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016575376884422112,
      "loss": 2.0978,
      "step": 90050
    },
    {
      "epoch": 0.4503,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016573869346733668,
      "loss": 2.1672,
      "step": 90060
    },
    {
      "epoch": 0.45035,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016572361809045228,
      "loss": 2.1103,
      "step": 90070
    },
    {
      "epoch": 0.4504,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016570854271356784,
      "loss": 2.1018,
      "step": 90080
    },
    {
      "epoch": 0.45045,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016569346733668342,
      "loss": 2.0179,
      "step": 90090
    },
    {
      "epoch": 0.4505,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0016567839195979902,
      "loss": 2.1426,
      "step": 90100
    },
    {
      "epoch": 0.45055,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016566331658291458,
      "loss": 2.0714,
      "step": 90110
    },
    {
      "epoch": 0.4506,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016564824120603014,
      "loss": 2.1168,
      "step": 90120
    },
    {
      "epoch": 0.45065,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016563316582914572,
      "loss": 2.0836,
      "step": 90130
    },
    {
      "epoch": 0.4507,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016561809045226132,
      "loss": 2.1139,
      "step": 90140
    },
    {
      "epoch": 0.45075,
      "grad_norm": 0.6875,
      "learning_rate": 0.0016560301507537688,
      "loss": 2.1212,
      "step": 90150
    },
    {
      "epoch": 0.4508,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016558793969849246,
      "loss": 2.0851,
      "step": 90160
    },
    {
      "epoch": 0.45085,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016557286432160804,
      "loss": 2.1423,
      "step": 90170
    },
    {
      "epoch": 0.4509,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016555778894472362,
      "loss": 2.0993,
      "step": 90180
    },
    {
      "epoch": 0.45095,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016554271356783918,
      "loss": 2.14,
      "step": 90190
    },
    {
      "epoch": 0.451,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0016552763819095478,
      "loss": 2.0953,
      "step": 90200
    },
    {
      "epoch": 0.45105,
      "grad_norm": 0.6875,
      "learning_rate": 0.0016551256281407036,
      "loss": 2.1562,
      "step": 90210
    },
    {
      "epoch": 0.4511,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016549748743718592,
      "loss": 2.0935,
      "step": 90220
    },
    {
      "epoch": 0.45115,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016548241206030153,
      "loss": 2.1349,
      "step": 90230
    },
    {
      "epoch": 0.4512,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016546733668341708,
      "loss": 2.1185,
      "step": 90240
    },
    {
      "epoch": 0.45125,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016545226130653267,
      "loss": 2.1091,
      "step": 90250
    },
    {
      "epoch": 0.4513,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016543718592964827,
      "loss": 2.0746,
      "step": 90260
    },
    {
      "epoch": 0.45135,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016542211055276383,
      "loss": 2.119,
      "step": 90270
    },
    {
      "epoch": 0.4514,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016540703517587939,
      "loss": 2.1224,
      "step": 90280
    },
    {
      "epoch": 0.45145,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016539195979899497,
      "loss": 2.079,
      "step": 90290
    },
    {
      "epoch": 0.4515,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0016537688442211057,
      "loss": 2.161,
      "step": 90300
    },
    {
      "epoch": 0.45155,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016536180904522613,
      "loss": 2.1264,
      "step": 90310
    },
    {
      "epoch": 0.4516,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001653467336683417,
      "loss": 2.1294,
      "step": 90320
    },
    {
      "epoch": 0.45165,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016533165829145729,
      "loss": 2.0537,
      "step": 90330
    },
    {
      "epoch": 0.4517,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016531658291457287,
      "loss": 2.1618,
      "step": 90340
    },
    {
      "epoch": 0.45175,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016530150753768843,
      "loss": 2.0671,
      "step": 90350
    },
    {
      "epoch": 0.4518,
      "grad_norm": 0.671875,
      "learning_rate": 0.0016528643216080403,
      "loss": 2.1532,
      "step": 90360
    },
    {
      "epoch": 0.45185,
      "grad_norm": 0.671875,
      "learning_rate": 0.0016527135678391961,
      "loss": 2.1199,
      "step": 90370
    },
    {
      "epoch": 0.4519,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016525628140703517,
      "loss": 2.1317,
      "step": 90380
    },
    {
      "epoch": 0.45195,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016524120603015077,
      "loss": 2.1293,
      "step": 90390
    },
    {
      "epoch": 0.452,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016522613065326633,
      "loss": 2.0891,
      "step": 90400
    },
    {
      "epoch": 0.45205,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016521105527638191,
      "loss": 2.1707,
      "step": 90410
    },
    {
      "epoch": 0.4521,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016519597989949752,
      "loss": 2.0605,
      "step": 90420
    },
    {
      "epoch": 0.45215,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016518090452261307,
      "loss": 2.1148,
      "step": 90430
    },
    {
      "epoch": 0.4522,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016516582914572863,
      "loss": 2.0974,
      "step": 90440
    },
    {
      "epoch": 0.45225,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016515075376884421,
      "loss": 2.1301,
      "step": 90450
    },
    {
      "epoch": 0.4523,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016513567839195982,
      "loss": 2.1003,
      "step": 90460
    },
    {
      "epoch": 0.45235,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016512060301507538,
      "loss": 2.1397,
      "step": 90470
    },
    {
      "epoch": 0.4524,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016510552763819093,
      "loss": 2.1051,
      "step": 90480
    },
    {
      "epoch": 0.45245,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016509045226130654,
      "loss": 2.1788,
      "step": 90490
    },
    {
      "epoch": 0.4525,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016507537688442212,
      "loss": 2.1158,
      "step": 90500
    },
    {
      "epoch": 0.45255,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016506030150753768,
      "loss": 2.0767,
      "step": 90510
    },
    {
      "epoch": 0.4526,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016504522613065328,
      "loss": 2.158,
      "step": 90520
    },
    {
      "epoch": 0.45265,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016503015075376884,
      "loss": 2.0738,
      "step": 90530
    },
    {
      "epoch": 0.4527,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0016501507537688442,
      "loss": 2.1273,
      "step": 90540
    },
    {
      "epoch": 0.45275,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016500000000000002,
      "loss": 2.1108,
      "step": 90550
    },
    {
      "epoch": 0.4528,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016498492462311558,
      "loss": 2.1398,
      "step": 90560
    },
    {
      "epoch": 0.45285,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016496984924623116,
      "loss": 2.1355,
      "step": 90570
    },
    {
      "epoch": 0.4529,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016495477386934676,
      "loss": 2.1247,
      "step": 90580
    },
    {
      "epoch": 0.45295,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016493969849246232,
      "loss": 2.1314,
      "step": 90590
    },
    {
      "epoch": 0.453,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016492462311557788,
      "loss": 2.0634,
      "step": 90600
    },
    {
      "epoch": 0.45305,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016490954773869346,
      "loss": 2.1123,
      "step": 90610
    },
    {
      "epoch": 0.4531,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016489447236180906,
      "loss": 2.0902,
      "step": 90620
    },
    {
      "epoch": 0.45315,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0016487939698492462,
      "loss": 2.1133,
      "step": 90630
    },
    {
      "epoch": 0.4532,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016486432160804018,
      "loss": 2.1437,
      "step": 90640
    },
    {
      "epoch": 0.45325,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0016484924623115578,
      "loss": 2.1005,
      "step": 90650
    },
    {
      "epoch": 0.4533,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016483417085427136,
      "loss": 2.1072,
      "step": 90660
    },
    {
      "epoch": 0.45335,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016481909547738692,
      "loss": 2.1215,
      "step": 90670
    },
    {
      "epoch": 0.4534,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0016480402010050253,
      "loss": 2.1511,
      "step": 90680
    },
    {
      "epoch": 0.45345,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016478894472361809,
      "loss": 2.0995,
      "step": 90690
    },
    {
      "epoch": 0.4535,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016477386934673367,
      "loss": 2.0855,
      "step": 90700
    },
    {
      "epoch": 0.45355,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016475879396984927,
      "loss": 2.1257,
      "step": 90710
    },
    {
      "epoch": 0.4536,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016474371859296483,
      "loss": 2.0853,
      "step": 90720
    },
    {
      "epoch": 0.45365,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001647286432160804,
      "loss": 2.1225,
      "step": 90730
    },
    {
      "epoch": 0.4537,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016471356783919599,
      "loss": 2.1059,
      "step": 90740
    },
    {
      "epoch": 0.45375,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016469849246231157,
      "loss": 2.1133,
      "step": 90750
    },
    {
      "epoch": 0.4538,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016468341708542713,
      "loss": 2.1208,
      "step": 90760
    },
    {
      "epoch": 0.45385,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001646683417085427,
      "loss": 2.0918,
      "step": 90770
    },
    {
      "epoch": 0.4539,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016465326633165831,
      "loss": 2.1359,
      "step": 90780
    },
    {
      "epoch": 0.45395,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016463819095477387,
      "loss": 2.0836,
      "step": 90790
    },
    {
      "epoch": 0.454,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016462311557788943,
      "loss": 2.1422,
      "step": 90800
    },
    {
      "epoch": 0.45405,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016460804020100503,
      "loss": 2.0806,
      "step": 90810
    },
    {
      "epoch": 0.4541,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016459296482412061,
      "loss": 2.1203,
      "step": 90820
    },
    {
      "epoch": 0.45415,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016457788944723617,
      "loss": 2.1067,
      "step": 90830
    },
    {
      "epoch": 0.4542,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016456281407035177,
      "loss": 2.0443,
      "step": 90840
    },
    {
      "epoch": 0.45425,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016454773869346733,
      "loss": 2.1408,
      "step": 90850
    },
    {
      "epoch": 0.4543,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016453266331658291,
      "loss": 2.08,
      "step": 90860
    },
    {
      "epoch": 0.45435,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016451758793969852,
      "loss": 2.1396,
      "step": 90870
    },
    {
      "epoch": 0.4544,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016450251256281407,
      "loss": 2.076,
      "step": 90880
    },
    {
      "epoch": 0.45445,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016448743718592966,
      "loss": 2.1394,
      "step": 90890
    },
    {
      "epoch": 0.4545,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016447236180904524,
      "loss": 2.0616,
      "step": 90900
    },
    {
      "epoch": 0.45455,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016445728643216082,
      "loss": 2.1476,
      "step": 90910
    },
    {
      "epoch": 0.4546,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016444221105527638,
      "loss": 2.1464,
      "step": 90920
    },
    {
      "epoch": 0.45465,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016442713567839196,
      "loss": 2.1354,
      "step": 90930
    },
    {
      "epoch": 0.4547,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016441206030150756,
      "loss": 2.1439,
      "step": 90940
    },
    {
      "epoch": 0.45475,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016439698492462312,
      "loss": 2.1057,
      "step": 90950
    },
    {
      "epoch": 0.4548,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016438190954773868,
      "loss": 2.0932,
      "step": 90960
    },
    {
      "epoch": 0.45485,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016436683417085428,
      "loss": 2.1087,
      "step": 90970
    },
    {
      "epoch": 0.4549,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016435175879396986,
      "loss": 2.1102,
      "step": 90980
    },
    {
      "epoch": 0.45495,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016433668341708542,
      "loss": 2.1197,
      "step": 90990
    },
    {
      "epoch": 0.455,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016432160804020102,
      "loss": 2.1117,
      "step": 91000
    },
    {
      "epoch": 0.45505,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016430653266331658,
      "loss": 2.0797,
      "step": 91010
    },
    {
      "epoch": 0.4551,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016429145728643216,
      "loss": 2.1326,
      "step": 91020
    },
    {
      "epoch": 0.45515,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016427638190954776,
      "loss": 2.1063,
      "step": 91030
    },
    {
      "epoch": 0.4552,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016426130653266332,
      "loss": 2.1091,
      "step": 91040
    },
    {
      "epoch": 0.45525,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016424623115577888,
      "loss": 2.1768,
      "step": 91050
    },
    {
      "epoch": 0.4553,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016423115577889448,
      "loss": 2.0657,
      "step": 91060
    },
    {
      "epoch": 0.45535,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016421608040201006,
      "loss": 2.1317,
      "step": 91070
    },
    {
      "epoch": 0.4554,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016420100502512562,
      "loss": 2.1075,
      "step": 91080
    },
    {
      "epoch": 0.45545,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001641859296482412,
      "loss": 2.1936,
      "step": 91090
    },
    {
      "epoch": 0.4555,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016417085427135678,
      "loss": 2.1441,
      "step": 91100
    },
    {
      "epoch": 0.45555,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0016415577889447237,
      "loss": 2.1492,
      "step": 91110
    },
    {
      "epoch": 0.4556,
      "grad_norm": 0.625,
      "learning_rate": 0.0016414070351758792,
      "loss": 2.111,
      "step": 91120
    },
    {
      "epoch": 0.45565,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016412562814070353,
      "loss": 2.1231,
      "step": 91130
    },
    {
      "epoch": 0.4557,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001641105527638191,
      "loss": 2.1147,
      "step": 91140
    },
    {
      "epoch": 0.45575,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016409547738693467,
      "loss": 2.1107,
      "step": 91150
    },
    {
      "epoch": 0.4558,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016408040201005027,
      "loss": 2.1361,
      "step": 91160
    },
    {
      "epoch": 0.45585,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016406532663316583,
      "loss": 2.0971,
      "step": 91170
    },
    {
      "epoch": 0.4559,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001640502512562814,
      "loss": 2.0922,
      "step": 91180
    },
    {
      "epoch": 0.45595,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016403517587939701,
      "loss": 2.0778,
      "step": 91190
    },
    {
      "epoch": 0.456,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016402010050251257,
      "loss": 2.1178,
      "step": 91200
    },
    {
      "epoch": 0.45605,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016400502512562813,
      "loss": 2.0709,
      "step": 91210
    },
    {
      "epoch": 0.4561,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016398994974874373,
      "loss": 2.0913,
      "step": 91220
    },
    {
      "epoch": 0.45615,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0016397487437185931,
      "loss": 2.1474,
      "step": 91230
    },
    {
      "epoch": 0.4562,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016395979899497487,
      "loss": 2.0972,
      "step": 91240
    },
    {
      "epoch": 0.45625,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016394472361809045,
      "loss": 2.1519,
      "step": 91250
    },
    {
      "epoch": 0.4563,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016392964824120603,
      "loss": 2.088,
      "step": 91260
    },
    {
      "epoch": 0.45635,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016391457286432161,
      "loss": 2.1271,
      "step": 91270
    },
    {
      "epoch": 0.4564,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016389949748743717,
      "loss": 2.1291,
      "step": 91280
    },
    {
      "epoch": 0.45645,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016388442211055277,
      "loss": 2.0586,
      "step": 91290
    },
    {
      "epoch": 0.4565,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0016386934673366836,
      "loss": 2.1045,
      "step": 91300
    },
    {
      "epoch": 0.45655,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016385427135678391,
      "loss": 2.1571,
      "step": 91310
    },
    {
      "epoch": 0.4566,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016383919597989952,
      "loss": 2.1017,
      "step": 91320
    },
    {
      "epoch": 0.45665,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016382412060301508,
      "loss": 2.0986,
      "step": 91330
    },
    {
      "epoch": 0.4567,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016380904522613066,
      "loss": 2.1005,
      "step": 91340
    },
    {
      "epoch": 0.45675,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016379396984924626,
      "loss": 2.1253,
      "step": 91350
    },
    {
      "epoch": 0.4568,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016377889447236182,
      "loss": 2.1306,
      "step": 91360
    },
    {
      "epoch": 0.45685,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016376381909547738,
      "loss": 2.0948,
      "step": 91370
    },
    {
      "epoch": 0.4569,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016374874371859296,
      "loss": 2.1288,
      "step": 91380
    },
    {
      "epoch": 0.45695,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016373366834170856,
      "loss": 2.0676,
      "step": 91390
    },
    {
      "epoch": 0.457,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016371859296482412,
      "loss": 2.156,
      "step": 91400
    },
    {
      "epoch": 0.45705,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016370351758793968,
      "loss": 2.0847,
      "step": 91410
    },
    {
      "epoch": 0.4571,
      "grad_norm": 0.625,
      "learning_rate": 0.0016368844221105528,
      "loss": 2.103,
      "step": 91420
    },
    {
      "epoch": 0.45715,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016367336683417086,
      "loss": 2.1612,
      "step": 91430
    },
    {
      "epoch": 0.4572,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016365829145728642,
      "loss": 2.0849,
      "step": 91440
    },
    {
      "epoch": 0.45725,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016364321608040202,
      "loss": 2.1476,
      "step": 91450
    },
    {
      "epoch": 0.4573,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016362814070351758,
      "loss": 2.0977,
      "step": 91460
    },
    {
      "epoch": 0.45735,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016361306532663316,
      "loss": 2.1461,
      "step": 91470
    },
    {
      "epoch": 0.4574,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016359798994974876,
      "loss": 2.0894,
      "step": 91480
    },
    {
      "epoch": 0.45745,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0016358291457286432,
      "loss": 2.1211,
      "step": 91490
    },
    {
      "epoch": 0.4575,
      "grad_norm": 0.609375,
      "learning_rate": 0.001635678391959799,
      "loss": 2.1138,
      "step": 91500
    },
    {
      "epoch": 0.45755,
      "grad_norm": 0.7109375,
      "learning_rate": 0.001635527638190955,
      "loss": 2.1055,
      "step": 91510
    },
    {
      "epoch": 0.4576,
      "grad_norm": 0.546875,
      "learning_rate": 0.0016353768844221107,
      "loss": 2.1111,
      "step": 91520
    },
    {
      "epoch": 0.45765,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016352261306532662,
      "loss": 2.1157,
      "step": 91530
    },
    {
      "epoch": 0.4577,
      "grad_norm": 0.546875,
      "learning_rate": 0.001635075376884422,
      "loss": 2.0918,
      "step": 91540
    },
    {
      "epoch": 0.45775,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001634924623115578,
      "loss": 2.1113,
      "step": 91550
    },
    {
      "epoch": 0.4578,
      "grad_norm": 0.625,
      "learning_rate": 0.0016347738693467337,
      "loss": 2.1829,
      "step": 91560
    },
    {
      "epoch": 0.45785,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016346231155778893,
      "loss": 2.1477,
      "step": 91570
    },
    {
      "epoch": 0.4579,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016344723618090453,
      "loss": 2.102,
      "step": 91580
    },
    {
      "epoch": 0.45795,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001634321608040201,
      "loss": 2.1466,
      "step": 91590
    },
    {
      "epoch": 0.458,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016341708542713567,
      "loss": 2.1144,
      "step": 91600
    },
    {
      "epoch": 0.45805,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016340201005025127,
      "loss": 2.1339,
      "step": 91610
    },
    {
      "epoch": 0.4581,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016338693467336683,
      "loss": 2.1013,
      "step": 91620
    },
    {
      "epoch": 0.45815,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001633718592964824,
      "loss": 2.1524,
      "step": 91630
    },
    {
      "epoch": 0.4582,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0016335678391959801,
      "loss": 2.097,
      "step": 91640
    },
    {
      "epoch": 0.45825,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016334170854271357,
      "loss": 2.1066,
      "step": 91650
    },
    {
      "epoch": 0.4583,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016332663316582915,
      "loss": 2.0837,
      "step": 91660
    },
    {
      "epoch": 0.45835,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016331155778894473,
      "loss": 2.1023,
      "step": 91670
    },
    {
      "epoch": 0.4584,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016329648241206031,
      "loss": 2.1255,
      "step": 91680
    },
    {
      "epoch": 0.45845,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016328140703517587,
      "loss": 2.1075,
      "step": 91690
    },
    {
      "epoch": 0.4585,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016326633165829145,
      "loss": 2.1392,
      "step": 91700
    },
    {
      "epoch": 0.45855,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016325125628140705,
      "loss": 2.1647,
      "step": 91710
    },
    {
      "epoch": 0.4586,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016323618090452261,
      "loss": 2.1005,
      "step": 91720
    },
    {
      "epoch": 0.45865,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0016322110552763817,
      "loss": 2.0886,
      "step": 91730
    },
    {
      "epoch": 0.4587,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016320603015075378,
      "loss": 2.0483,
      "step": 91740
    },
    {
      "epoch": 0.45875,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016319095477386936,
      "loss": 2.1087,
      "step": 91750
    },
    {
      "epoch": 0.4588,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016317587939698491,
      "loss": 2.1273,
      "step": 91760
    },
    {
      "epoch": 0.45885,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016316080402010052,
      "loss": 2.1042,
      "step": 91770
    },
    {
      "epoch": 0.4589,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016314572864321608,
      "loss": 2.0711,
      "step": 91780
    },
    {
      "epoch": 0.45895,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016313065326633166,
      "loss": 2.1661,
      "step": 91790
    },
    {
      "epoch": 0.459,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016311557788944726,
      "loss": 2.056,
      "step": 91800
    },
    {
      "epoch": 0.45905,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016310050251256282,
      "loss": 2.1333,
      "step": 91810
    },
    {
      "epoch": 0.4591,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001630854271356784,
      "loss": 2.0395,
      "step": 91820
    },
    {
      "epoch": 0.45915,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016307035175879398,
      "loss": 2.0818,
      "step": 91830
    },
    {
      "epoch": 0.4592,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016305527638190956,
      "loss": 2.0516,
      "step": 91840
    },
    {
      "epoch": 0.45925,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016304020100502512,
      "loss": 2.0987,
      "step": 91850
    },
    {
      "epoch": 0.4593,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001630251256281407,
      "loss": 2.1282,
      "step": 91860
    },
    {
      "epoch": 0.45935,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001630100502512563,
      "loss": 2.0525,
      "step": 91870
    },
    {
      "epoch": 0.4594,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016299497487437186,
      "loss": 2.156,
      "step": 91880
    },
    {
      "epoch": 0.45945,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016297989949748742,
      "loss": 2.0394,
      "step": 91890
    },
    {
      "epoch": 0.4595,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016296482412060302,
      "loss": 2.1337,
      "step": 91900
    },
    {
      "epoch": 0.45955,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001629497487437186,
      "loss": 2.1541,
      "step": 91910
    },
    {
      "epoch": 0.4596,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0016293467336683416,
      "loss": 2.1768,
      "step": 91920
    },
    {
      "epoch": 0.45965,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016291959798994976,
      "loss": 2.1049,
      "step": 91930
    },
    {
      "epoch": 0.4597,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016290452261306532,
      "loss": 2.0943,
      "step": 91940
    },
    {
      "epoch": 0.45975,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001628894472361809,
      "loss": 2.1162,
      "step": 91950
    },
    {
      "epoch": 0.4598,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001628743718592965,
      "loss": 2.0941,
      "step": 91960
    },
    {
      "epoch": 0.45985,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016285929648241207,
      "loss": 2.1206,
      "step": 91970
    },
    {
      "epoch": 0.4599,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0016284422110552762,
      "loss": 2.1218,
      "step": 91980
    },
    {
      "epoch": 0.45995,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016282914572864323,
      "loss": 2.1102,
      "step": 91990
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.59375,
      "learning_rate": 0.001628140703517588,
      "loss": 2.1251,
      "step": 92000
    },
    {
      "epoch": 0.46,
      "eval_loss": 2.0956878662109375,
      "eval_runtime": 49.7455,
      "eval_samples_per_second": 50.256,
      "eval_steps_per_second": 0.101,
      "step": 92000
    },
    {
      "epoch": 0.46005,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016279899497487437,
      "loss": 2.1595,
      "step": 92010
    },
    {
      "epoch": 0.4601,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0016278391959798995,
      "loss": 2.1493,
      "step": 92020
    },
    {
      "epoch": 0.46015,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016276884422110553,
      "loss": 2.1212,
      "step": 92030
    },
    {
      "epoch": 0.4602,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001627537688442211,
      "loss": 2.1037,
      "step": 92040
    },
    {
      "epoch": 0.46025,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016273869346733667,
      "loss": 2.0873,
      "step": 92050
    },
    {
      "epoch": 0.4603,
      "grad_norm": 0.546875,
      "learning_rate": 0.0016272361809045227,
      "loss": 2.1694,
      "step": 92060
    },
    {
      "epoch": 0.46035,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0016270854271356785,
      "loss": 2.1309,
      "step": 92070
    },
    {
      "epoch": 0.4604,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001626934673366834,
      "loss": 2.0718,
      "step": 92080
    },
    {
      "epoch": 0.46045,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016267839195979901,
      "loss": 2.1224,
      "step": 92090
    },
    {
      "epoch": 0.4605,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016266331658291457,
      "loss": 2.1479,
      "step": 92100
    },
    {
      "epoch": 0.46055,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016264824120603015,
      "loss": 2.1038,
      "step": 92110
    },
    {
      "epoch": 0.4606,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0016263316582914575,
      "loss": 2.1127,
      "step": 92120
    },
    {
      "epoch": 0.46065,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016261809045226131,
      "loss": 2.1289,
      "step": 92130
    },
    {
      "epoch": 0.4607,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016260301507537687,
      "loss": 2.0979,
      "step": 92140
    },
    {
      "epoch": 0.46075,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016258793969849247,
      "loss": 2.1488,
      "step": 92150
    },
    {
      "epoch": 0.4608,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0016257286432160806,
      "loss": 2.1091,
      "step": 92160
    },
    {
      "epoch": 0.46085,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016255778894472361,
      "loss": 2.1043,
      "step": 92170
    },
    {
      "epoch": 0.4609,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001625427135678392,
      "loss": 2.125,
      "step": 92180
    },
    {
      "epoch": 0.46095,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016252763819095478,
      "loss": 2.0833,
      "step": 92190
    },
    {
      "epoch": 0.461,
      "grad_norm": 0.625,
      "learning_rate": 0.0016251256281407036,
      "loss": 2.1323,
      "step": 92200
    },
    {
      "epoch": 0.46105,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016249748743718592,
      "loss": 2.0643,
      "step": 92210
    },
    {
      "epoch": 0.4611,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0016248241206030152,
      "loss": 2.1578,
      "step": 92220
    },
    {
      "epoch": 0.46115,
      "grad_norm": 0.625,
      "learning_rate": 0.001624673366834171,
      "loss": 2.1186,
      "step": 92230
    },
    {
      "epoch": 0.4612,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016245226130653266,
      "loss": 2.108,
      "step": 92240
    },
    {
      "epoch": 0.46125,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016243718592964826,
      "loss": 2.1559,
      "step": 92250
    },
    {
      "epoch": 0.4613,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0016242211055276382,
      "loss": 2.1046,
      "step": 92260
    },
    {
      "epoch": 0.46135,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001624070351758794,
      "loss": 2.0972,
      "step": 92270
    },
    {
      "epoch": 0.4614,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00162391959798995,
      "loss": 2.0934,
      "step": 92280
    },
    {
      "epoch": 0.46145,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0016237688442211056,
      "loss": 2.146,
      "step": 92290
    },
    {
      "epoch": 0.4615,
      "grad_norm": 0.6875,
      "learning_rate": 0.0016236180904522612,
      "loss": 2.1211,
      "step": 92300
    },
    {
      "epoch": 0.46155,
      "grad_norm": 0.671875,
      "learning_rate": 0.0016234673366834172,
      "loss": 2.1069,
      "step": 92310
    },
    {
      "epoch": 0.4616,
      "grad_norm": 0.578125,
      "learning_rate": 0.001623316582914573,
      "loss": 2.1207,
      "step": 92320
    },
    {
      "epoch": 0.46165,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0016231658291457286,
      "loss": 2.1663,
      "step": 92330
    },
    {
      "epoch": 0.4617,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016230150753768842,
      "loss": 2.1302,
      "step": 92340
    },
    {
      "epoch": 0.46175,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016228643216080402,
      "loss": 2.124,
      "step": 92350
    },
    {
      "epoch": 0.4618,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001622713567839196,
      "loss": 2.1524,
      "step": 92360
    },
    {
      "epoch": 0.46185,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016225628140703516,
      "loss": 2.0736,
      "step": 92370
    },
    {
      "epoch": 0.4619,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016224120603015077,
      "loss": 2.1263,
      "step": 92380
    },
    {
      "epoch": 0.46195,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0016222613065326632,
      "loss": 2.1205,
      "step": 92390
    },
    {
      "epoch": 0.462,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001622110552763819,
      "loss": 2.1309,
      "step": 92400
    },
    {
      "epoch": 0.46205,
      "grad_norm": 0.6875,
      "learning_rate": 0.001621959798994975,
      "loss": 2.1311,
      "step": 92410
    },
    {
      "epoch": 0.4621,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016218090452261307,
      "loss": 2.0892,
      "step": 92420
    },
    {
      "epoch": 0.46215,
      "grad_norm": 0.625,
      "learning_rate": 0.0016216582914572865,
      "loss": 2.1202,
      "step": 92430
    },
    {
      "epoch": 0.4622,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016215075376884425,
      "loss": 2.0148,
      "step": 92440
    },
    {
      "epoch": 0.46225,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001621356783919598,
      "loss": 2.1527,
      "step": 92450
    },
    {
      "epoch": 0.4623,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016212060301507537,
      "loss": 2.12,
      "step": 92460
    },
    {
      "epoch": 0.46235,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0016210552763819095,
      "loss": 2.0975,
      "step": 92470
    },
    {
      "epoch": 0.4624,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016209045226130655,
      "loss": 2.1585,
      "step": 92480
    },
    {
      "epoch": 0.46245,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001620753768844221,
      "loss": 2.0564,
      "step": 92490
    },
    {
      "epoch": 0.4625,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016206030150753767,
      "loss": 2.1271,
      "step": 92500
    },
    {
      "epoch": 0.46255,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016204522613065327,
      "loss": 2.0541,
      "step": 92510
    },
    {
      "epoch": 0.4626,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016203015075376885,
      "loss": 2.1412,
      "step": 92520
    },
    {
      "epoch": 0.46265,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001620150753768844,
      "loss": 2.0826,
      "step": 92530
    },
    {
      "epoch": 0.4627,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016200000000000001,
      "loss": 2.1058,
      "step": 92540
    },
    {
      "epoch": 0.46275,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016198492462311557,
      "loss": 2.0592,
      "step": 92550
    },
    {
      "epoch": 0.4628,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016196984924623115,
      "loss": 2.1213,
      "step": 92560
    },
    {
      "epoch": 0.46285,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0016195477386934675,
      "loss": 2.1643,
      "step": 92570
    },
    {
      "epoch": 0.4629,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016193969849246231,
      "loss": 2.1202,
      "step": 92580
    },
    {
      "epoch": 0.46295,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001619246231155779,
      "loss": 2.1135,
      "step": 92590
    },
    {
      "epoch": 0.463,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0016190954773869348,
      "loss": 2.0516,
      "step": 92600
    },
    {
      "epoch": 0.46305,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016189447236180906,
      "loss": 2.186,
      "step": 92610
    },
    {
      "epoch": 0.4631,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016187939698492462,
      "loss": 2.0895,
      "step": 92620
    },
    {
      "epoch": 0.46315,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001618643216080402,
      "loss": 2.1192,
      "step": 92630
    },
    {
      "epoch": 0.4632,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001618492462311558,
      "loss": 2.1142,
      "step": 92640
    },
    {
      "epoch": 0.46325,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016183417085427136,
      "loss": 2.0596,
      "step": 92650
    },
    {
      "epoch": 0.4633,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0016181909547738692,
      "loss": 2.1341,
      "step": 92660
    },
    {
      "epoch": 0.46335,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016180402010050252,
      "loss": 2.1215,
      "step": 92670
    },
    {
      "epoch": 0.4634,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001617889447236181,
      "loss": 2.1117,
      "step": 92680
    },
    {
      "epoch": 0.46345,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0016177386934673366,
      "loss": 2.0763,
      "step": 92690
    },
    {
      "epoch": 0.4635,
      "grad_norm": 0.625,
      "learning_rate": 0.0016175879396984926,
      "loss": 2.1136,
      "step": 92700
    },
    {
      "epoch": 0.46355,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016174371859296482,
      "loss": 2.1578,
      "step": 92710
    },
    {
      "epoch": 0.4636,
      "grad_norm": 0.71875,
      "learning_rate": 0.001617286432160804,
      "loss": 2.0707,
      "step": 92720
    },
    {
      "epoch": 0.46365,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00161713567839196,
      "loss": 2.1638,
      "step": 92730
    },
    {
      "epoch": 0.4637,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016169849246231156,
      "loss": 2.0971,
      "step": 92740
    },
    {
      "epoch": 0.46375,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016168341708542712,
      "loss": 2.1194,
      "step": 92750
    },
    {
      "epoch": 0.4638,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016166834170854272,
      "loss": 2.174,
      "step": 92760
    },
    {
      "epoch": 0.46385,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001616532663316583,
      "loss": 2.1089,
      "step": 92770
    },
    {
      "epoch": 0.4639,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016163819095477386,
      "loss": 2.1319,
      "step": 92780
    },
    {
      "epoch": 0.46395,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016162311557788944,
      "loss": 2.0869,
      "step": 92790
    },
    {
      "epoch": 0.464,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016160804020100505,
      "loss": 2.0985,
      "step": 92800
    },
    {
      "epoch": 0.46405,
      "grad_norm": 0.625,
      "learning_rate": 0.001615929648241206,
      "loss": 2.0913,
      "step": 92810
    },
    {
      "epoch": 0.4641,
      "grad_norm": 0.53125,
      "learning_rate": 0.0016157788944723616,
      "loss": 2.0916,
      "step": 92820
    },
    {
      "epoch": 0.46415,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016156281407035177,
      "loss": 2.1119,
      "step": 92830
    },
    {
      "epoch": 0.4642,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016154773869346735,
      "loss": 2.0967,
      "step": 92840
    },
    {
      "epoch": 0.46425,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001615326633165829,
      "loss": 2.1165,
      "step": 92850
    },
    {
      "epoch": 0.4643,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001615175879396985,
      "loss": 2.0437,
      "step": 92860
    },
    {
      "epoch": 0.46435,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016150251256281407,
      "loss": 2.1088,
      "step": 92870
    },
    {
      "epoch": 0.4644,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016148743718592965,
      "loss": 2.1077,
      "step": 92880
    },
    {
      "epoch": 0.46445,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016147236180904525,
      "loss": 2.0889,
      "step": 92890
    },
    {
      "epoch": 0.4645,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001614572864321608,
      "loss": 2.1075,
      "step": 92900
    },
    {
      "epoch": 0.46455,
      "grad_norm": 0.65625,
      "learning_rate": 0.0016144221105527637,
      "loss": 2.1379,
      "step": 92910
    },
    {
      "epoch": 0.4646,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016142713567839197,
      "loss": 2.1411,
      "step": 92920
    },
    {
      "epoch": 0.46465,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016141206030150755,
      "loss": 2.0496,
      "step": 92930
    },
    {
      "epoch": 0.4647,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001613969849246231,
      "loss": 2.1173,
      "step": 92940
    },
    {
      "epoch": 0.46475,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001613819095477387,
      "loss": 2.0667,
      "step": 92950
    },
    {
      "epoch": 0.4648,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016136683417085427,
      "loss": 2.1072,
      "step": 92960
    },
    {
      "epoch": 0.46485,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0016135175879396985,
      "loss": 2.0873,
      "step": 92970
    },
    {
      "epoch": 0.4649,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0016133668341708541,
      "loss": 2.1165,
      "step": 92980
    },
    {
      "epoch": 0.46495,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016132160804020101,
      "loss": 2.1252,
      "step": 92990
    },
    {
      "epoch": 0.465,
      "grad_norm": 0.7109375,
      "learning_rate": 0.001613065326633166,
      "loss": 2.1056,
      "step": 93000
    },
    {
      "epoch": 0.46505,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016129145728643215,
      "loss": 2.1378,
      "step": 93010
    },
    {
      "epoch": 0.4651,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016127638190954776,
      "loss": 2.0564,
      "step": 93020
    },
    {
      "epoch": 0.46515,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0016126130653266331,
      "loss": 2.1345,
      "step": 93030
    },
    {
      "epoch": 0.4652,
      "grad_norm": 0.609375,
      "learning_rate": 0.001612462311557789,
      "loss": 2.085,
      "step": 93040
    },
    {
      "epoch": 0.46525,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001612311557788945,
      "loss": 2.1191,
      "step": 93050
    },
    {
      "epoch": 0.4653,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016121608040201006,
      "loss": 2.1097,
      "step": 93060
    },
    {
      "epoch": 0.46535,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016120100502512562,
      "loss": 2.071,
      "step": 93070
    },
    {
      "epoch": 0.4654,
      "grad_norm": 0.625,
      "learning_rate": 0.0016118592964824122,
      "loss": 2.0997,
      "step": 93080
    },
    {
      "epoch": 0.46545,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001611708542713568,
      "loss": 2.0844,
      "step": 93090
    },
    {
      "epoch": 0.4655,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016115577889447236,
      "loss": 2.1122,
      "step": 93100
    },
    {
      "epoch": 0.46555,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016114070351758794,
      "loss": 2.108,
      "step": 93110
    },
    {
      "epoch": 0.4656,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016112562814070352,
      "loss": 2.1207,
      "step": 93120
    },
    {
      "epoch": 0.46565,
      "grad_norm": 0.71484375,
      "learning_rate": 0.001611105527638191,
      "loss": 2.1545,
      "step": 93130
    },
    {
      "epoch": 0.4657,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016109547738693466,
      "loss": 2.1284,
      "step": 93140
    },
    {
      "epoch": 0.46575,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016108040201005026,
      "loss": 2.1608,
      "step": 93150
    },
    {
      "epoch": 0.4658,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0016106532663316584,
      "loss": 2.0977,
      "step": 93160
    },
    {
      "epoch": 0.46585,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001610502512562814,
      "loss": 2.1243,
      "step": 93170
    },
    {
      "epoch": 0.4659,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00161035175879397,
      "loss": 2.1044,
      "step": 93180
    },
    {
      "epoch": 0.46595,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016102010050251256,
      "loss": 2.0707,
      "step": 93190
    },
    {
      "epoch": 0.466,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0016100502512562814,
      "loss": 2.1746,
      "step": 93200
    },
    {
      "epoch": 0.46605,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016098994974874375,
      "loss": 2.0959,
      "step": 93210
    },
    {
      "epoch": 0.4661,
      "grad_norm": 0.546875,
      "learning_rate": 0.001609748743718593,
      "loss": 2.1354,
      "step": 93220
    },
    {
      "epoch": 0.46615,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016095979899497486,
      "loss": 2.0991,
      "step": 93230
    },
    {
      "epoch": 0.4662,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016094472361809047,
      "loss": 2.0786,
      "step": 93240
    },
    {
      "epoch": 0.46625,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016092964824120605,
      "loss": 2.0986,
      "step": 93250
    },
    {
      "epoch": 0.4663,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001609145728643216,
      "loss": 2.1333,
      "step": 93260
    },
    {
      "epoch": 0.46635,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016089949748743716,
      "loss": 2.1729,
      "step": 93270
    },
    {
      "epoch": 0.4664,
      "grad_norm": 0.625,
      "learning_rate": 0.0016088442211055277,
      "loss": 2.1264,
      "step": 93280
    },
    {
      "epoch": 0.46645,
      "grad_norm": 0.59375,
      "learning_rate": 0.0016086934673366835,
      "loss": 2.1481,
      "step": 93290
    },
    {
      "epoch": 0.4665,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001608542713567839,
      "loss": 2.0779,
      "step": 93300
    },
    {
      "epoch": 0.46655,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001608391959798995,
      "loss": 2.116,
      "step": 93310
    },
    {
      "epoch": 0.4666,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0016082412060301507,
      "loss": 2.1174,
      "step": 93320
    },
    {
      "epoch": 0.46665,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0016080904522613065,
      "loss": 2.0686,
      "step": 93330
    },
    {
      "epoch": 0.4667,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016079396984924625,
      "loss": 2.089,
      "step": 93340
    },
    {
      "epoch": 0.46675,
      "grad_norm": 0.59375,
      "learning_rate": 0.001607788944723618,
      "loss": 2.0755,
      "step": 93350
    },
    {
      "epoch": 0.4668,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001607638190954774,
      "loss": 2.1172,
      "step": 93360
    },
    {
      "epoch": 0.46685,
      "grad_norm": 0.609375,
      "learning_rate": 0.00160748743718593,
      "loss": 2.1097,
      "step": 93370
    },
    {
      "epoch": 0.4669,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0016073366834170855,
      "loss": 2.0691,
      "step": 93380
    },
    {
      "epoch": 0.46695,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001607185929648241,
      "loss": 2.115,
      "step": 93390
    },
    {
      "epoch": 0.467,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016070351758793971,
      "loss": 2.1231,
      "step": 93400
    },
    {
      "epoch": 0.46705,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001606884422110553,
      "loss": 2.1039,
      "step": 93410
    },
    {
      "epoch": 0.4671,
      "grad_norm": 0.625,
      "learning_rate": 0.0016067336683417085,
      "loss": 2.1342,
      "step": 93420
    },
    {
      "epoch": 0.46715,
      "grad_norm": 0.5625,
      "learning_rate": 0.0016065829145728641,
      "loss": 2.0963,
      "step": 93430
    },
    {
      "epoch": 0.4672,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016064321608040201,
      "loss": 2.1001,
      "step": 93440
    },
    {
      "epoch": 0.46725,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001606281407035176,
      "loss": 2.1118,
      "step": 93450
    },
    {
      "epoch": 0.4673,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0016061306532663315,
      "loss": 2.0967,
      "step": 93460
    },
    {
      "epoch": 0.46735,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016059798994974876,
      "loss": 2.0858,
      "step": 93470
    },
    {
      "epoch": 0.4674,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0016058291457286432,
      "loss": 2.1006,
      "step": 93480
    },
    {
      "epoch": 0.46745,
      "grad_norm": 0.68359375,
      "learning_rate": 0.001605678391959799,
      "loss": 2.1121,
      "step": 93490
    },
    {
      "epoch": 0.4675,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001605527638190955,
      "loss": 2.1322,
      "step": 93500
    },
    {
      "epoch": 0.46755,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016053768844221106,
      "loss": 2.0884,
      "step": 93510
    },
    {
      "epoch": 0.4676,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016052261306532664,
      "loss": 2.1042,
      "step": 93520
    },
    {
      "epoch": 0.46765,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0016050753768844222,
      "loss": 2.1127,
      "step": 93530
    },
    {
      "epoch": 0.4677,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001604924623115578,
      "loss": 2.1259,
      "step": 93540
    },
    {
      "epoch": 0.46775,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016047738693467336,
      "loss": 2.1146,
      "step": 93550
    },
    {
      "epoch": 0.4678,
      "grad_norm": 0.578125,
      "learning_rate": 0.0016046231155778894,
      "loss": 2.1488,
      "step": 93560
    },
    {
      "epoch": 0.46785,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016044723618090454,
      "loss": 2.0608,
      "step": 93570
    },
    {
      "epoch": 0.4679,
      "grad_norm": 0.5625,
      "learning_rate": 0.001604321608040201,
      "loss": 2.1122,
      "step": 93580
    },
    {
      "epoch": 0.46795,
      "grad_norm": 0.71875,
      "learning_rate": 0.0016041708542713566,
      "loss": 2.1269,
      "step": 93590
    },
    {
      "epoch": 0.468,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016040201005025126,
      "loss": 2.1717,
      "step": 93600
    },
    {
      "epoch": 0.46805,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016038693467336684,
      "loss": 2.1052,
      "step": 93610
    },
    {
      "epoch": 0.4681,
      "grad_norm": 0.51953125,
      "learning_rate": 0.001603718592964824,
      "loss": 2.093,
      "step": 93620
    },
    {
      "epoch": 0.46815,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00160356783919598,
      "loss": 2.0837,
      "step": 93630
    },
    {
      "epoch": 0.4682,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016034170854271356,
      "loss": 2.1238,
      "step": 93640
    },
    {
      "epoch": 0.46825,
      "grad_norm": 0.609375,
      "learning_rate": 0.0016032663316582914,
      "loss": 2.1335,
      "step": 93650
    },
    {
      "epoch": 0.4683,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0016031155778894475,
      "loss": 2.1045,
      "step": 93660
    },
    {
      "epoch": 0.46835,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001602964824120603,
      "loss": 2.1149,
      "step": 93670
    },
    {
      "epoch": 0.4684,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0016028140703517586,
      "loss": 2.0797,
      "step": 93680
    },
    {
      "epoch": 0.46845,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0016026633165829147,
      "loss": 2.1304,
      "step": 93690
    },
    {
      "epoch": 0.4685,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0016025125628140705,
      "loss": 2.1057,
      "step": 93700
    },
    {
      "epoch": 0.46855,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001602361809045226,
      "loss": 2.0612,
      "step": 93710
    },
    {
      "epoch": 0.4686,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0016022110552763819,
      "loss": 2.0747,
      "step": 93720
    },
    {
      "epoch": 0.46865,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0016020603015075379,
      "loss": 2.0715,
      "step": 93730
    },
    {
      "epoch": 0.4687,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0016019095477386935,
      "loss": 2.1809,
      "step": 93740
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001601758793969849,
      "loss": 2.1043,
      "step": 93750
    },
    {
      "epoch": 0.4688,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001601608040201005,
      "loss": 2.0565,
      "step": 93760
    },
    {
      "epoch": 0.46885,
      "grad_norm": 0.5625,
      "learning_rate": 0.001601457286432161,
      "loss": 2.1341,
      "step": 93770
    },
    {
      "epoch": 0.4689,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0016013065326633165,
      "loss": 2.1102,
      "step": 93780
    },
    {
      "epoch": 0.46895,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0016011557788944725,
      "loss": 2.1566,
      "step": 93790
    },
    {
      "epoch": 0.469,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001601005025125628,
      "loss": 2.1048,
      "step": 93800
    },
    {
      "epoch": 0.46905,
      "grad_norm": 0.671875,
      "learning_rate": 0.001600854271356784,
      "loss": 2.098,
      "step": 93810
    },
    {
      "epoch": 0.4691,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00160070351758794,
      "loss": 2.1577,
      "step": 93820
    },
    {
      "epoch": 0.46915,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0016005527638190955,
      "loss": 2.0639,
      "step": 93830
    },
    {
      "epoch": 0.4692,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0016004020100502511,
      "loss": 2.1215,
      "step": 93840
    },
    {
      "epoch": 0.46925,
      "grad_norm": 0.640625,
      "learning_rate": 0.0016002512562814071,
      "loss": 2.1005,
      "step": 93850
    },
    {
      "epoch": 0.4693,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001600100502512563,
      "loss": 2.0778,
      "step": 93860
    },
    {
      "epoch": 0.46935,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015999497487437185,
      "loss": 2.0838,
      "step": 93870
    },
    {
      "epoch": 0.4694,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015997989949748743,
      "loss": 2.0197,
      "step": 93880
    },
    {
      "epoch": 0.46945,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015996482412060301,
      "loss": 2.0427,
      "step": 93890
    },
    {
      "epoch": 0.4695,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001599497487437186,
      "loss": 2.0985,
      "step": 93900
    },
    {
      "epoch": 0.46955,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015993467336683415,
      "loss": 2.1322,
      "step": 93910
    },
    {
      "epoch": 0.4696,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015991959798994976,
      "loss": 2.0998,
      "step": 93920
    },
    {
      "epoch": 0.46965,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015990452261306534,
      "loss": 2.0831,
      "step": 93930
    },
    {
      "epoch": 0.4697,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001598894472361809,
      "loss": 2.1016,
      "step": 93940
    },
    {
      "epoch": 0.46975,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001598743718592965,
      "loss": 2.0792,
      "step": 93950
    },
    {
      "epoch": 0.4698,
      "grad_norm": 0.546875,
      "learning_rate": 0.0015985929648241206,
      "loss": 2.1138,
      "step": 93960
    },
    {
      "epoch": 0.46985,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015984422110552764,
      "loss": 2.0744,
      "step": 93970
    },
    {
      "epoch": 0.4699,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015982914572864324,
      "loss": 2.0641,
      "step": 93980
    },
    {
      "epoch": 0.46995,
      "grad_norm": 0.625,
      "learning_rate": 0.001598140703517588,
      "loss": 2.0874,
      "step": 93990
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0015979899497487436,
      "loss": 2.0928,
      "step": 94000
    },
    {
      "epoch": 0.47,
      "eval_loss": 2.093522071838379,
      "eval_runtime": 47.2121,
      "eval_samples_per_second": 52.953,
      "eval_steps_per_second": 0.106,
      "step": 94000
    },
    {
      "epoch": 0.47005,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015978391959798996,
      "loss": 2.1423,
      "step": 94010
    },
    {
      "epoch": 0.4701,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0015976884422110554,
      "loss": 2.0773,
      "step": 94020
    },
    {
      "epoch": 0.47015,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001597537688442211,
      "loss": 2.1209,
      "step": 94030
    },
    {
      "epoch": 0.4702,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015973869346733668,
      "loss": 2.1226,
      "step": 94040
    },
    {
      "epoch": 0.47025,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015972361809045226,
      "loss": 2.0199,
      "step": 94050
    },
    {
      "epoch": 0.4703,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015970854271356784,
      "loss": 2.1265,
      "step": 94060
    },
    {
      "epoch": 0.47035,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001596934673366834,
      "loss": 2.104,
      "step": 94070
    },
    {
      "epoch": 0.4704,
      "grad_norm": 0.546875,
      "learning_rate": 0.00159678391959799,
      "loss": 2.0911,
      "step": 94080
    },
    {
      "epoch": 0.47045,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015966331658291459,
      "loss": 2.1178,
      "step": 94090
    },
    {
      "epoch": 0.4705,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015964824120603014,
      "loss": 2.1036,
      "step": 94100
    },
    {
      "epoch": 0.47055,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015963316582914575,
      "loss": 2.1055,
      "step": 94110
    },
    {
      "epoch": 0.4706,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001596180904522613,
      "loss": 2.1017,
      "step": 94120
    },
    {
      "epoch": 0.47065,
      "grad_norm": 0.53125,
      "learning_rate": 0.0015960301507537689,
      "loss": 2.1528,
      "step": 94130
    },
    {
      "epoch": 0.4707,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015958793969849249,
      "loss": 2.1419,
      "step": 94140
    },
    {
      "epoch": 0.47075,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015957286432160805,
      "loss": 2.0755,
      "step": 94150
    },
    {
      "epoch": 0.4708,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001595577889447236,
      "loss": 2.0941,
      "step": 94160
    },
    {
      "epoch": 0.47085,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001595427135678392,
      "loss": 2.0792,
      "step": 94170
    },
    {
      "epoch": 0.4709,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001595276381909548,
      "loss": 2.1592,
      "step": 94180
    },
    {
      "epoch": 0.47095,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015951256281407035,
      "loss": 2.0619,
      "step": 94190
    },
    {
      "epoch": 0.471,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001594974874371859,
      "loss": 2.1256,
      "step": 94200
    },
    {
      "epoch": 0.47105,
      "grad_norm": 0.69140625,
      "learning_rate": 0.001594824120603015,
      "loss": 2.1,
      "step": 94210
    },
    {
      "epoch": 0.4711,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001594673366834171,
      "loss": 2.1399,
      "step": 94220
    },
    {
      "epoch": 0.47115,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015945226130653265,
      "loss": 2.1392,
      "step": 94230
    },
    {
      "epoch": 0.4712,
      "grad_norm": 0.625,
      "learning_rate": 0.0015943718592964825,
      "loss": 2.1062,
      "step": 94240
    },
    {
      "epoch": 0.47125,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015942211055276381,
      "loss": 2.0969,
      "step": 94250
    },
    {
      "epoch": 0.4713,
      "grad_norm": 0.76171875,
      "learning_rate": 0.001594070351758794,
      "loss": 2.1256,
      "step": 94260
    },
    {
      "epoch": 0.47135,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00159391959798995,
      "loss": 2.1287,
      "step": 94270
    },
    {
      "epoch": 0.4714,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015937688442211055,
      "loss": 2.1057,
      "step": 94280
    },
    {
      "epoch": 0.47145,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015936180904522613,
      "loss": 2.0999,
      "step": 94290
    },
    {
      "epoch": 0.4715,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015934673366834174,
      "loss": 2.1444,
      "step": 94300
    },
    {
      "epoch": 0.47155,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001593316582914573,
      "loss": 2.1637,
      "step": 94310
    },
    {
      "epoch": 0.4716,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015931658291457285,
      "loss": 2.1102,
      "step": 94320
    },
    {
      "epoch": 0.47165,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0015930150753768846,
      "loss": 2.1546,
      "step": 94330
    },
    {
      "epoch": 0.4717,
      "grad_norm": 0.625,
      "learning_rate": 0.0015928643216080404,
      "loss": 2.1356,
      "step": 94340
    },
    {
      "epoch": 0.47175,
      "grad_norm": 0.5625,
      "learning_rate": 0.001592713567839196,
      "loss": 2.1136,
      "step": 94350
    },
    {
      "epoch": 0.4718,
      "grad_norm": 0.625,
      "learning_rate": 0.0015925628140703516,
      "loss": 2.116,
      "step": 94360
    },
    {
      "epoch": 0.47185,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015924120603015076,
      "loss": 2.0998,
      "step": 94370
    },
    {
      "epoch": 0.4719,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0015922613065326634,
      "loss": 2.1251,
      "step": 94380
    },
    {
      "epoch": 0.47195,
      "grad_norm": 0.65625,
      "learning_rate": 0.001592110552763819,
      "loss": 2.0731,
      "step": 94390
    },
    {
      "epoch": 0.472,
      "grad_norm": 0.59375,
      "learning_rate": 0.001591959798994975,
      "loss": 2.1083,
      "step": 94400
    },
    {
      "epoch": 0.47205,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015918090452261306,
      "loss": 2.1221,
      "step": 94410
    },
    {
      "epoch": 0.4721,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015916582914572864,
      "loss": 2.1275,
      "step": 94420
    },
    {
      "epoch": 0.47215,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015915075376884424,
      "loss": 2.0902,
      "step": 94430
    },
    {
      "epoch": 0.4722,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001591356783919598,
      "loss": 2.0688,
      "step": 94440
    },
    {
      "epoch": 0.47225,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015912060301507538,
      "loss": 2.1008,
      "step": 94450
    },
    {
      "epoch": 0.4723,
      "grad_norm": 0.671875,
      "learning_rate": 0.0015910552763819096,
      "loss": 2.1098,
      "step": 94460
    },
    {
      "epoch": 0.47235,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015909045226130654,
      "loss": 2.0934,
      "step": 94470
    },
    {
      "epoch": 0.4724,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001590753768844221,
      "loss": 2.0799,
      "step": 94480
    },
    {
      "epoch": 0.47245,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001590603015075377,
      "loss": 2.1065,
      "step": 94490
    },
    {
      "epoch": 0.4725,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015904522613065328,
      "loss": 2.1043,
      "step": 94500
    },
    {
      "epoch": 0.47255,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015903015075376884,
      "loss": 2.0885,
      "step": 94510
    },
    {
      "epoch": 0.4726,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001590150753768844,
      "loss": 2.1087,
      "step": 94520
    },
    {
      "epoch": 0.47265,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00159,
      "loss": 2.1105,
      "step": 94530
    },
    {
      "epoch": 0.4727,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015898492462311559,
      "loss": 2.0931,
      "step": 94540
    },
    {
      "epoch": 0.47275,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0015896984924623114,
      "loss": 2.1509,
      "step": 94550
    },
    {
      "epoch": 0.4728,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015895477386934675,
      "loss": 2.1139,
      "step": 94560
    },
    {
      "epoch": 0.47285,
      "grad_norm": 0.59375,
      "learning_rate": 0.001589396984924623,
      "loss": 2.0781,
      "step": 94570
    },
    {
      "epoch": 0.4729,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015892462311557789,
      "loss": 2.1129,
      "step": 94580
    },
    {
      "epoch": 0.47295,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015890954773869349,
      "loss": 2.1278,
      "step": 94590
    },
    {
      "epoch": 0.473,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015889447236180905,
      "loss": 2.1392,
      "step": 94600
    },
    {
      "epoch": 0.47305,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001588793969849246,
      "loss": 2.1176,
      "step": 94610
    },
    {
      "epoch": 0.4731,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001588643216080402,
      "loss": 2.114,
      "step": 94620
    },
    {
      "epoch": 0.47315,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001588492462311558,
      "loss": 2.0475,
      "step": 94630
    },
    {
      "epoch": 0.4732,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015883417085427135,
      "loss": 2.0841,
      "step": 94640
    },
    {
      "epoch": 0.47325,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015881909547738695,
      "loss": 2.1508,
      "step": 94650
    },
    {
      "epoch": 0.4733,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015880402010050253,
      "loss": 2.0975,
      "step": 94660
    },
    {
      "epoch": 0.47335,
      "grad_norm": 0.5625,
      "learning_rate": 0.001587889447236181,
      "loss": 2.1454,
      "step": 94670
    },
    {
      "epoch": 0.4734,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015877386934673365,
      "loss": 2.1255,
      "step": 94680
    },
    {
      "epoch": 0.47345,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015875879396984925,
      "loss": 2.1243,
      "step": 94690
    },
    {
      "epoch": 0.4735,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015874371859296483,
      "loss": 2.1481,
      "step": 94700
    },
    {
      "epoch": 0.47355,
      "grad_norm": 0.546875,
      "learning_rate": 0.001587286432160804,
      "loss": 2.1011,
      "step": 94710
    },
    {
      "epoch": 0.4736,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00158713567839196,
      "loss": 2.1871,
      "step": 94720
    },
    {
      "epoch": 0.47365,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015869849246231155,
      "loss": 2.0993,
      "step": 94730
    },
    {
      "epoch": 0.4737,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015868341708542713,
      "loss": 2.1366,
      "step": 94740
    },
    {
      "epoch": 0.47375,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015866834170854274,
      "loss": 2.1618,
      "step": 94750
    },
    {
      "epoch": 0.4738,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001586532663316583,
      "loss": 2.1306,
      "step": 94760
    },
    {
      "epoch": 0.47385,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015863819095477385,
      "loss": 2.1501,
      "step": 94770
    },
    {
      "epoch": 0.4739,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015862311557788946,
      "loss": 2.0798,
      "step": 94780
    },
    {
      "epoch": 0.47395,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015860804020100504,
      "loss": 2.1094,
      "step": 94790
    },
    {
      "epoch": 0.474,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001585929648241206,
      "loss": 2.0846,
      "step": 94800
    },
    {
      "epoch": 0.47405,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015857788944723618,
      "loss": 2.0902,
      "step": 94810
    },
    {
      "epoch": 0.4741,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015856281407035176,
      "loss": 2.1443,
      "step": 94820
    },
    {
      "epoch": 0.47415,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015854773869346734,
      "loss": 2.0597,
      "step": 94830
    },
    {
      "epoch": 0.4742,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001585326633165829,
      "loss": 2.1687,
      "step": 94840
    },
    {
      "epoch": 0.47425,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001585175879396985,
      "loss": 2.1289,
      "step": 94850
    },
    {
      "epoch": 0.4743,
      "grad_norm": 0.65625,
      "learning_rate": 0.0015850251256281408,
      "loss": 2.0946,
      "step": 94860
    },
    {
      "epoch": 0.47435,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015848743718592964,
      "loss": 2.1475,
      "step": 94870
    },
    {
      "epoch": 0.4744,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0015847236180904524,
      "loss": 2.0887,
      "step": 94880
    },
    {
      "epoch": 0.47445,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001584572864321608,
      "loss": 2.1354,
      "step": 94890
    },
    {
      "epoch": 0.4745,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015844221105527638,
      "loss": 2.1442,
      "step": 94900
    },
    {
      "epoch": 0.47455,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015842713567839198,
      "loss": 2.0807,
      "step": 94910
    },
    {
      "epoch": 0.4746,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0015841206030150754,
      "loss": 2.2003,
      "step": 94920
    },
    {
      "epoch": 0.47465,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001583969849246231,
      "loss": 2.0574,
      "step": 94930
    },
    {
      "epoch": 0.4747,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001583819095477387,
      "loss": 2.128,
      "step": 94940
    },
    {
      "epoch": 0.47475,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015836683417085429,
      "loss": 2.08,
      "step": 94950
    },
    {
      "epoch": 0.4748,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015835175879396984,
      "loss": 2.1131,
      "step": 94960
    },
    {
      "epoch": 0.47485,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015833668341708542,
      "loss": 2.099,
      "step": 94970
    },
    {
      "epoch": 0.4749,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00158321608040201,
      "loss": 2.1251,
      "step": 94980
    },
    {
      "epoch": 0.47495,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015830653266331659,
      "loss": 2.1381,
      "step": 94990
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015829145728643215,
      "loss": 2.0827,
      "step": 95000
    },
    {
      "epoch": 0.47505,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015827638190954775,
      "loss": 2.0428,
      "step": 95010
    },
    {
      "epoch": 0.4751,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015826130653266333,
      "loss": 2.1525,
      "step": 95020
    },
    {
      "epoch": 0.47515,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015824623115577889,
      "loss": 2.1234,
      "step": 95030
    },
    {
      "epoch": 0.4752,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001582311557788945,
      "loss": 2.1098,
      "step": 95040
    },
    {
      "epoch": 0.47525,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015821608040201005,
      "loss": 2.1112,
      "step": 95050
    },
    {
      "epoch": 0.4753,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015820100502512563,
      "loss": 2.1008,
      "step": 95060
    },
    {
      "epoch": 0.47535,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015818592964824123,
      "loss": 2.1462,
      "step": 95070
    },
    {
      "epoch": 0.4754,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001581708542713568,
      "loss": 2.0562,
      "step": 95080
    },
    {
      "epoch": 0.47545,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015815577889447235,
      "loss": 2.0996,
      "step": 95090
    },
    {
      "epoch": 0.4755,
      "grad_norm": 0.625,
      "learning_rate": 0.0015814070351758795,
      "loss": 2.1012,
      "step": 95100
    },
    {
      "epoch": 0.47555,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0015812562814070353,
      "loss": 2.107,
      "step": 95110
    },
    {
      "epoch": 0.4756,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001581105527638191,
      "loss": 2.1145,
      "step": 95120
    },
    {
      "epoch": 0.47565,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015809547738693465,
      "loss": 2.1132,
      "step": 95130
    },
    {
      "epoch": 0.4757,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015808040201005025,
      "loss": 2.1494,
      "step": 95140
    },
    {
      "epoch": 0.47575,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015806532663316583,
      "loss": 2.1402,
      "step": 95150
    },
    {
      "epoch": 0.4758,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001580502512562814,
      "loss": 2.1039,
      "step": 95160
    },
    {
      "epoch": 0.47585,
      "grad_norm": 0.609375,
      "learning_rate": 0.00158035175879397,
      "loss": 2.1022,
      "step": 95170
    },
    {
      "epoch": 0.4759,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015802010050251255,
      "loss": 2.1618,
      "step": 95180
    },
    {
      "epoch": 0.47595,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015800502512562813,
      "loss": 2.1245,
      "step": 95190
    },
    {
      "epoch": 0.476,
      "grad_norm": 0.6875,
      "learning_rate": 0.0015798994974874374,
      "loss": 2.1067,
      "step": 95200
    },
    {
      "epoch": 0.47605,
      "grad_norm": 0.76171875,
      "learning_rate": 0.001579748743718593,
      "loss": 2.1372,
      "step": 95210
    },
    {
      "epoch": 0.4761,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015795979899497488,
      "loss": 2.1152,
      "step": 95220
    },
    {
      "epoch": 0.47615,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0015794472361809048,
      "loss": 2.103,
      "step": 95230
    },
    {
      "epoch": 0.4762,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015792964824120604,
      "loss": 2.1065,
      "step": 95240
    },
    {
      "epoch": 0.47625,
      "grad_norm": 0.640625,
      "learning_rate": 0.001579145728643216,
      "loss": 2.0871,
      "step": 95250
    },
    {
      "epoch": 0.4763,
      "grad_norm": 0.5625,
      "learning_rate": 0.001578994974874372,
      "loss": 2.1416,
      "step": 95260
    },
    {
      "epoch": 0.47635,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015788442211055278,
      "loss": 2.1032,
      "step": 95270
    },
    {
      "epoch": 0.4764,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0015786934673366834,
      "loss": 2.1281,
      "step": 95280
    },
    {
      "epoch": 0.47645,
      "grad_norm": 0.609375,
      "learning_rate": 0.001578542713567839,
      "loss": 2.1311,
      "step": 95290
    },
    {
      "epoch": 0.4765,
      "grad_norm": 0.7109375,
      "learning_rate": 0.001578391959798995,
      "loss": 2.0888,
      "step": 95300
    },
    {
      "epoch": 0.47655,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0015782412060301508,
      "loss": 2.161,
      "step": 95310
    },
    {
      "epoch": 0.4766,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0015780904522613064,
      "loss": 2.1363,
      "step": 95320
    },
    {
      "epoch": 0.47665,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015779396984924624,
      "loss": 2.174,
      "step": 95330
    },
    {
      "epoch": 0.4767,
      "grad_norm": 0.546875,
      "learning_rate": 0.001577788944723618,
      "loss": 2.095,
      "step": 95340
    },
    {
      "epoch": 0.47675,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0015776381909547738,
      "loss": 2.0895,
      "step": 95350
    },
    {
      "epoch": 0.4768,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015774874371859298,
      "loss": 2.0838,
      "step": 95360
    },
    {
      "epoch": 0.47685,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015773366834170854,
      "loss": 2.1343,
      "step": 95370
    },
    {
      "epoch": 0.4769,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015771859296482412,
      "loss": 2.0846,
      "step": 95380
    },
    {
      "epoch": 0.47695,
      "grad_norm": 0.578125,
      "learning_rate": 0.001577035175879397,
      "loss": 2.0878,
      "step": 95390
    },
    {
      "epoch": 0.477,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015768844221105529,
      "loss": 2.0603,
      "step": 95400
    },
    {
      "epoch": 0.47705,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015767336683417084,
      "loss": 2.1032,
      "step": 95410
    },
    {
      "epoch": 0.4771,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015765829145728645,
      "loss": 2.0818,
      "step": 95420
    },
    {
      "epoch": 0.47715,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015764321608040203,
      "loss": 2.1463,
      "step": 95430
    },
    {
      "epoch": 0.4772,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015762814070351759,
      "loss": 2.1268,
      "step": 95440
    },
    {
      "epoch": 0.47725,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015761306532663315,
      "loss": 2.1229,
      "step": 95450
    },
    {
      "epoch": 0.4773,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015759798994974875,
      "loss": 2.131,
      "step": 95460
    },
    {
      "epoch": 0.47735,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015758291457286433,
      "loss": 2.0945,
      "step": 95470
    },
    {
      "epoch": 0.4774,
      "grad_norm": 0.65625,
      "learning_rate": 0.0015756783919597989,
      "loss": 2.105,
      "step": 95480
    },
    {
      "epoch": 0.47745,
      "grad_norm": 0.578125,
      "learning_rate": 0.001575527638190955,
      "loss": 2.1451,
      "step": 95490
    },
    {
      "epoch": 0.4775,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0015753768844221105,
      "loss": 2.1167,
      "step": 95500
    },
    {
      "epoch": 0.47755,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015752261306532663,
      "loss": 2.1264,
      "step": 95510
    },
    {
      "epoch": 0.4776,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0015750753768844223,
      "loss": 2.1334,
      "step": 95520
    },
    {
      "epoch": 0.47765,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001574924623115578,
      "loss": 2.0842,
      "step": 95530
    },
    {
      "epoch": 0.4777,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015747738693467335,
      "loss": 2.1604,
      "step": 95540
    },
    {
      "epoch": 0.47775,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015746231155778895,
      "loss": 2.0489,
      "step": 95550
    },
    {
      "epoch": 0.4778,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015744723618090453,
      "loss": 2.1065,
      "step": 95560
    },
    {
      "epoch": 0.47785,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001574321608040201,
      "loss": 2.0997,
      "step": 95570
    },
    {
      "epoch": 0.4779,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001574170854271357,
      "loss": 2.0734,
      "step": 95580
    },
    {
      "epoch": 0.47795,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0015740201005025128,
      "loss": 2.1427,
      "step": 95590
    },
    {
      "epoch": 0.478,
      "grad_norm": 0.625,
      "learning_rate": 0.0015738693467336683,
      "loss": 2.0923,
      "step": 95600
    },
    {
      "epoch": 0.47805,
      "grad_norm": 0.625,
      "learning_rate": 0.001573718592964824,
      "loss": 2.115,
      "step": 95610
    },
    {
      "epoch": 0.4781,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00157356783919598,
      "loss": 2.1581,
      "step": 95620
    },
    {
      "epoch": 0.47815,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015734170854271358,
      "loss": 2.1095,
      "step": 95630
    },
    {
      "epoch": 0.4782,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015732663316582914,
      "loss": 2.1624,
      "step": 95640
    },
    {
      "epoch": 0.47825,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015731155778894474,
      "loss": 2.1209,
      "step": 95650
    },
    {
      "epoch": 0.4783,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001572964824120603,
      "loss": 2.0968,
      "step": 95660
    },
    {
      "epoch": 0.47835,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015728140703517588,
      "loss": 2.1322,
      "step": 95670
    },
    {
      "epoch": 0.4784,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015726633165829148,
      "loss": 2.0952,
      "step": 95680
    },
    {
      "epoch": 0.47845,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015725125628140704,
      "loss": 2.1511,
      "step": 95690
    },
    {
      "epoch": 0.4785,
      "grad_norm": 0.51953125,
      "learning_rate": 0.001572361809045226,
      "loss": 2.0733,
      "step": 95700
    },
    {
      "epoch": 0.47855,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001572211055276382,
      "loss": 2.0925,
      "step": 95710
    },
    {
      "epoch": 0.4786,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015720603015075378,
      "loss": 2.1287,
      "step": 95720
    },
    {
      "epoch": 0.47865,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015719095477386934,
      "loss": 2.1253,
      "step": 95730
    },
    {
      "epoch": 0.4787,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015717587939698494,
      "loss": 2.1646,
      "step": 95740
    },
    {
      "epoch": 0.47875,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001571608040201005,
      "loss": 2.0683,
      "step": 95750
    },
    {
      "epoch": 0.4788,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015714572864321608,
      "loss": 2.1325,
      "step": 95760
    },
    {
      "epoch": 0.47885,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015713065326633164,
      "loss": 2.1184,
      "step": 95770
    },
    {
      "epoch": 0.4789,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015711557788944724,
      "loss": 2.1297,
      "step": 95780
    },
    {
      "epoch": 0.47895,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015710050251256282,
      "loss": 2.0757,
      "step": 95790
    },
    {
      "epoch": 0.479,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015708542713567838,
      "loss": 2.1531,
      "step": 95800
    },
    {
      "epoch": 0.47905,
      "grad_norm": 0.625,
      "learning_rate": 0.0015707035175879399,
      "loss": 2.1362,
      "step": 95810
    },
    {
      "epoch": 0.4791,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015705527638190954,
      "loss": 2.1147,
      "step": 95820
    },
    {
      "epoch": 0.47915,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015704020100502513,
      "loss": 2.0977,
      "step": 95830
    },
    {
      "epoch": 0.4792,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015702512562814073,
      "loss": 2.1525,
      "step": 95840
    },
    {
      "epoch": 0.47925,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015701005025125629,
      "loss": 2.1401,
      "step": 95850
    },
    {
      "epoch": 0.4793,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015699497487437185,
      "loss": 2.0823,
      "step": 95860
    },
    {
      "epoch": 0.47935,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015697989949748745,
      "loss": 2.1028,
      "step": 95870
    },
    {
      "epoch": 0.4794,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015696482412060303,
      "loss": 2.0695,
      "step": 95880
    },
    {
      "epoch": 0.47945,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0015694974874371859,
      "loss": 2.1462,
      "step": 95890
    },
    {
      "epoch": 0.4795,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0015693467336683417,
      "loss": 2.1173,
      "step": 95900
    },
    {
      "epoch": 0.47955,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015691959798994975,
      "loss": 2.1168,
      "step": 95910
    },
    {
      "epoch": 0.4796,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015690452261306533,
      "loss": 2.06,
      "step": 95920
    },
    {
      "epoch": 0.47965,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015688944723618089,
      "loss": 2.091,
      "step": 95930
    },
    {
      "epoch": 0.4797,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001568743718592965,
      "loss": 2.1571,
      "step": 95940
    },
    {
      "epoch": 0.47975,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015685929648241207,
      "loss": 2.1244,
      "step": 95950
    },
    {
      "epoch": 0.4798,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015684422110552763,
      "loss": 2.147,
      "step": 95960
    },
    {
      "epoch": 0.47985,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015682914572864323,
      "loss": 2.126,
      "step": 95970
    },
    {
      "epoch": 0.4799,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001568140703517588,
      "loss": 2.1047,
      "step": 95980
    },
    {
      "epoch": 0.47995,
      "grad_norm": 0.546875,
      "learning_rate": 0.0015679899497487437,
      "loss": 2.0924,
      "step": 95990
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015678391959798998,
      "loss": 2.1284,
      "step": 96000
    },
    {
      "epoch": 0.48,
      "eval_loss": 2.0952703952789307,
      "eval_runtime": 45.9332,
      "eval_samples_per_second": 54.427,
      "eval_steps_per_second": 0.109,
      "step": 96000
    },
    {
      "epoch": 0.48005,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015676884422110553,
      "loss": 2.0993,
      "step": 96010
    },
    {
      "epoch": 0.4801,
      "grad_norm": 0.578125,
      "learning_rate": 0.001567537688442211,
      "loss": 2.1632,
      "step": 96020
    },
    {
      "epoch": 0.48015,
      "grad_norm": 0.640625,
      "learning_rate": 0.001567386934673367,
      "loss": 2.1266,
      "step": 96030
    },
    {
      "epoch": 0.4802,
      "grad_norm": 0.78125,
      "learning_rate": 0.0015672361809045228,
      "loss": 2.1137,
      "step": 96040
    },
    {
      "epoch": 0.48025,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015670854271356784,
      "loss": 2.1446,
      "step": 96050
    },
    {
      "epoch": 0.4803,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001566934673366834,
      "loss": 2.0964,
      "step": 96060
    },
    {
      "epoch": 0.48035,
      "grad_norm": 0.625,
      "learning_rate": 0.00156678391959799,
      "loss": 2.1481,
      "step": 96070
    },
    {
      "epoch": 0.4804,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015666331658291458,
      "loss": 2.1406,
      "step": 96080
    },
    {
      "epoch": 0.48045,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015664824120603014,
      "loss": 2.0335,
      "step": 96090
    },
    {
      "epoch": 0.4805,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015663316582914574,
      "loss": 2.1204,
      "step": 96100
    },
    {
      "epoch": 0.48055,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001566180904522613,
      "loss": 2.0931,
      "step": 96110
    },
    {
      "epoch": 0.4806,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0015660301507537688,
      "loss": 2.0697,
      "step": 96120
    },
    {
      "epoch": 0.48065,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015658793969849248,
      "loss": 2.1642,
      "step": 96130
    },
    {
      "epoch": 0.4807,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015657286432160804,
      "loss": 2.12,
      "step": 96140
    },
    {
      "epoch": 0.48075,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015655778894472362,
      "loss": 2.1109,
      "step": 96150
    },
    {
      "epoch": 0.4808,
      "grad_norm": 0.625,
      "learning_rate": 0.0015654271356783922,
      "loss": 2.1167,
      "step": 96160
    },
    {
      "epoch": 0.48085,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015652763819095478,
      "loss": 2.0453,
      "step": 96170
    },
    {
      "epoch": 0.4809,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015651256281407034,
      "loss": 2.0987,
      "step": 96180
    },
    {
      "epoch": 0.48095,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015649748743718594,
      "loss": 2.1089,
      "step": 96190
    },
    {
      "epoch": 0.481,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015648241206030152,
      "loss": 2.1124,
      "step": 96200
    },
    {
      "epoch": 0.48105,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015646733668341708,
      "loss": 2.1025,
      "step": 96210
    },
    {
      "epoch": 0.4811,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015645226130653264,
      "loss": 2.1077,
      "step": 96220
    },
    {
      "epoch": 0.48115,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0015643718592964824,
      "loss": 2.1244,
      "step": 96230
    },
    {
      "epoch": 0.4812,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015642211055276382,
      "loss": 2.1138,
      "step": 96240
    },
    {
      "epoch": 0.48125,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015640703517587938,
      "loss": 2.1732,
      "step": 96250
    },
    {
      "epoch": 0.4813,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015639195979899499,
      "loss": 2.1338,
      "step": 96260
    },
    {
      "epoch": 0.48135,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0015637688442211055,
      "loss": 2.0947,
      "step": 96270
    },
    {
      "epoch": 0.4814,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015636180904522613,
      "loss": 2.135,
      "step": 96280
    },
    {
      "epoch": 0.48145,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015634673366834173,
      "loss": 2.0672,
      "step": 96290
    },
    {
      "epoch": 0.4815,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015633165829145729,
      "loss": 2.133,
      "step": 96300
    },
    {
      "epoch": 0.48155,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0015631658291457287,
      "loss": 2.113,
      "step": 96310
    },
    {
      "epoch": 0.4816,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015630150753768845,
      "loss": 2.0884,
      "step": 96320
    },
    {
      "epoch": 0.48165,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015628643216080403,
      "loss": 2.1332,
      "step": 96330
    },
    {
      "epoch": 0.4817,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015627135678391959,
      "loss": 2.0853,
      "step": 96340
    },
    {
      "epoch": 0.48175,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001562562814070352,
      "loss": 2.1303,
      "step": 96350
    },
    {
      "epoch": 0.4818,
      "grad_norm": 0.65625,
      "learning_rate": 0.0015624120603015077,
      "loss": 2.0869,
      "step": 96360
    },
    {
      "epoch": 0.48185,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0015622613065326633,
      "loss": 2.0836,
      "step": 96370
    },
    {
      "epoch": 0.4819,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001562110552763819,
      "loss": 2.2163,
      "step": 96380
    },
    {
      "epoch": 0.48195,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001561959798994975,
      "loss": 2.0962,
      "step": 96390
    },
    {
      "epoch": 0.482,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015618090452261307,
      "loss": 2.1067,
      "step": 96400
    },
    {
      "epoch": 0.48205,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015616582914572863,
      "loss": 2.0671,
      "step": 96410
    },
    {
      "epoch": 0.4821,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0015615075376884423,
      "loss": 2.0666,
      "step": 96420
    },
    {
      "epoch": 0.48215,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001561356783919598,
      "loss": 2.096,
      "step": 96430
    },
    {
      "epoch": 0.4822,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015612060301507537,
      "loss": 2.1086,
      "step": 96440
    },
    {
      "epoch": 0.48225,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0015610552763819098,
      "loss": 2.0853,
      "step": 96450
    },
    {
      "epoch": 0.4823,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015609045226130653,
      "loss": 2.1715,
      "step": 96460
    },
    {
      "epoch": 0.48235,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001560753768844221,
      "loss": 2.1014,
      "step": 96470
    },
    {
      "epoch": 0.4824,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001560603015075377,
      "loss": 2.0955,
      "step": 96480
    },
    {
      "epoch": 0.48245,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0015604522613065328,
      "loss": 2.108,
      "step": 96490
    },
    {
      "epoch": 0.4825,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015603015075376884,
      "loss": 2.1075,
      "step": 96500
    },
    {
      "epoch": 0.48255,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015601507537688444,
      "loss": 2.0853,
      "step": 96510
    },
    {
      "epoch": 0.4826,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015600000000000002,
      "loss": 2.1274,
      "step": 96520
    },
    {
      "epoch": 0.48265,
      "grad_norm": 0.625,
      "learning_rate": 0.0015598492462311558,
      "loss": 2.1265,
      "step": 96530
    },
    {
      "epoch": 0.4827,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015596984924623114,
      "loss": 2.1355,
      "step": 96540
    },
    {
      "epoch": 0.48275,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015595477386934674,
      "loss": 2.1173,
      "step": 96550
    },
    {
      "epoch": 0.4828,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015593969849246232,
      "loss": 2.1491,
      "step": 96560
    },
    {
      "epoch": 0.48285,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015592462311557788,
      "loss": 2.1414,
      "step": 96570
    },
    {
      "epoch": 0.4829,
      "grad_norm": 0.625,
      "learning_rate": 0.0015590954773869348,
      "loss": 2.1316,
      "step": 96580
    },
    {
      "epoch": 0.48295,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0015589447236180904,
      "loss": 2.1023,
      "step": 96590
    },
    {
      "epoch": 0.483,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015587939698492462,
      "loss": 2.0855,
      "step": 96600
    },
    {
      "epoch": 0.48305,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015586432160804022,
      "loss": 2.1045,
      "step": 96610
    },
    {
      "epoch": 0.4831,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015584924623115578,
      "loss": 2.1264,
      "step": 96620
    },
    {
      "epoch": 0.48315,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0015583417085427134,
      "loss": 2.1267,
      "step": 96630
    },
    {
      "epoch": 0.4832,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015581909547738694,
      "loss": 2.1255,
      "step": 96640
    },
    {
      "epoch": 0.48325,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015580402010050252,
      "loss": 2.1195,
      "step": 96650
    },
    {
      "epoch": 0.4833,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015578894472361808,
      "loss": 2.1035,
      "step": 96660
    },
    {
      "epoch": 0.48335,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015577386934673369,
      "loss": 2.0487,
      "step": 96670
    },
    {
      "epoch": 0.4834,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015575879396984924,
      "loss": 2.0848,
      "step": 96680
    },
    {
      "epoch": 0.48345,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015574371859296483,
      "loss": 2.1198,
      "step": 96690
    },
    {
      "epoch": 0.4835,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015572864321608038,
      "loss": 2.1258,
      "step": 96700
    },
    {
      "epoch": 0.48355,
      "grad_norm": 0.6875,
      "learning_rate": 0.0015571356783919599,
      "loss": 2.0758,
      "step": 96710
    },
    {
      "epoch": 0.4836,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015569849246231157,
      "loss": 2.087,
      "step": 96720
    },
    {
      "epoch": 0.48365,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0015568341708542713,
      "loss": 2.1065,
      "step": 96730
    },
    {
      "epoch": 0.4837,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015566834170854273,
      "loss": 2.0661,
      "step": 96740
    },
    {
      "epoch": 0.48375,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0015565326633165829,
      "loss": 2.1208,
      "step": 96750
    },
    {
      "epoch": 0.4838,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015563819095477387,
      "loss": 2.1037,
      "step": 96760
    },
    {
      "epoch": 0.48385,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015562311557788947,
      "loss": 2.0971,
      "step": 96770
    },
    {
      "epoch": 0.4839,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015560804020100503,
      "loss": 2.1426,
      "step": 96780
    },
    {
      "epoch": 0.48395,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015559296482412059,
      "loss": 2.1217,
      "step": 96790
    },
    {
      "epoch": 0.484,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001555778894472362,
      "loss": 2.1554,
      "step": 96800
    },
    {
      "epoch": 0.48405,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0015556281407035177,
      "loss": 2.0754,
      "step": 96810
    },
    {
      "epoch": 0.4841,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015554773869346733,
      "loss": 2.0506,
      "step": 96820
    },
    {
      "epoch": 0.48415,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0015553266331658293,
      "loss": 2.0743,
      "step": 96830
    },
    {
      "epoch": 0.4842,
      "grad_norm": 0.65625,
      "learning_rate": 0.001555175879396985,
      "loss": 2.1179,
      "step": 96840
    },
    {
      "epoch": 0.48425,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015550251256281407,
      "loss": 2.1512,
      "step": 96850
    },
    {
      "epoch": 0.4843,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015548743718592963,
      "loss": 2.1159,
      "step": 96860
    },
    {
      "epoch": 0.48435,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015547236180904523,
      "loss": 2.1193,
      "step": 96870
    },
    {
      "epoch": 0.4844,
      "grad_norm": 0.546875,
      "learning_rate": 0.0015545728643216082,
      "loss": 2.0871,
      "step": 96880
    },
    {
      "epoch": 0.48445,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015544221105527637,
      "loss": 2.103,
      "step": 96890
    },
    {
      "epoch": 0.4845,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015542713567839198,
      "loss": 2.1014,
      "step": 96900
    },
    {
      "epoch": 0.48455,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015541206030150754,
      "loss": 2.1338,
      "step": 96910
    },
    {
      "epoch": 0.4846,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015539698492462312,
      "loss": 2.0702,
      "step": 96920
    },
    {
      "epoch": 0.48465,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015538190954773872,
      "loss": 2.0833,
      "step": 96930
    },
    {
      "epoch": 0.4847,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015536683417085428,
      "loss": 2.1072,
      "step": 96940
    },
    {
      "epoch": 0.48475,
      "grad_norm": 0.625,
      "learning_rate": 0.0015535175879396984,
      "loss": 2.1133,
      "step": 96950
    },
    {
      "epoch": 0.4848,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015533668341708544,
      "loss": 2.0801,
      "step": 96960
    },
    {
      "epoch": 0.48485,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015532160804020102,
      "loss": 2.1054,
      "step": 96970
    },
    {
      "epoch": 0.4849,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015530653266331658,
      "loss": 2.0529,
      "step": 96980
    },
    {
      "epoch": 0.48495,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015529145728643218,
      "loss": 2.0673,
      "step": 96990
    },
    {
      "epoch": 0.485,
      "grad_norm": 0.65625,
      "learning_rate": 0.0015527638190954774,
      "loss": 2.1295,
      "step": 97000
    },
    {
      "epoch": 0.48505,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015526130653266332,
      "loss": 2.0839,
      "step": 97010
    },
    {
      "epoch": 0.4851,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015524623115577888,
      "loss": 2.0739,
      "step": 97020
    },
    {
      "epoch": 0.48515,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015523115577889448,
      "loss": 2.1336,
      "step": 97030
    },
    {
      "epoch": 0.4852,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015521608040201004,
      "loss": 2.0632,
      "step": 97040
    },
    {
      "epoch": 0.48525,
      "grad_norm": 0.703125,
      "learning_rate": 0.0015520100502512562,
      "loss": 2.0565,
      "step": 97050
    },
    {
      "epoch": 0.4853,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015518592964824122,
      "loss": 2.1088,
      "step": 97060
    },
    {
      "epoch": 0.48535,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015517085427135678,
      "loss": 2.0939,
      "step": 97070
    },
    {
      "epoch": 0.4854,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015515577889447236,
      "loss": 2.0343,
      "step": 97080
    },
    {
      "epoch": 0.48545,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015514070351758797,
      "loss": 2.1073,
      "step": 97090
    },
    {
      "epoch": 0.4855,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015512562814070353,
      "loss": 2.1046,
      "step": 97100
    },
    {
      "epoch": 0.48555,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0015511055276381908,
      "loss": 2.0136,
      "step": 97110
    },
    {
      "epoch": 0.4856,
      "grad_norm": 0.546875,
      "learning_rate": 0.0015509547738693469,
      "loss": 2.1428,
      "step": 97120
    },
    {
      "epoch": 0.48565,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015508040201005027,
      "loss": 2.0018,
      "step": 97130
    },
    {
      "epoch": 0.4857,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015506532663316583,
      "loss": 2.0735,
      "step": 97140
    },
    {
      "epoch": 0.48575,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015505025125628139,
      "loss": 2.1216,
      "step": 97150
    },
    {
      "epoch": 0.4858,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015503517587939699,
      "loss": 2.0654,
      "step": 97160
    },
    {
      "epoch": 0.48585,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015502010050251257,
      "loss": 2.0591,
      "step": 97170
    },
    {
      "epoch": 0.4859,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015500502512562813,
      "loss": 2.1221,
      "step": 97180
    },
    {
      "epoch": 0.48595,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015498994974874373,
      "loss": 2.0906,
      "step": 97190
    },
    {
      "epoch": 0.486,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015497487437185929,
      "loss": 2.0735,
      "step": 97200
    },
    {
      "epoch": 0.48605,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015495979899497487,
      "loss": 2.1074,
      "step": 97210
    },
    {
      "epoch": 0.4861,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015494472361809047,
      "loss": 2.0836,
      "step": 97220
    },
    {
      "epoch": 0.48615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015492964824120603,
      "loss": 2.1342,
      "step": 97230
    },
    {
      "epoch": 0.4862,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015491457286432161,
      "loss": 2.1139,
      "step": 97240
    },
    {
      "epoch": 0.48625,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001548994974874372,
      "loss": 2.0705,
      "step": 97250
    },
    {
      "epoch": 0.4863,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015488442211055277,
      "loss": 2.1233,
      "step": 97260
    },
    {
      "epoch": 0.48635,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015486934673366833,
      "loss": 2.0892,
      "step": 97270
    },
    {
      "epoch": 0.4864,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015485427135678393,
      "loss": 2.0432,
      "step": 97280
    },
    {
      "epoch": 0.48645,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015483919597989951,
      "loss": 2.1114,
      "step": 97290
    },
    {
      "epoch": 0.4865,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015482412060301507,
      "loss": 2.0472,
      "step": 97300
    },
    {
      "epoch": 0.48655,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015480904522613063,
      "loss": 2.0848,
      "step": 97310
    },
    {
      "epoch": 0.4866,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015479396984924623,
      "loss": 2.1268,
      "step": 97320
    },
    {
      "epoch": 0.48665,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015477889447236182,
      "loss": 2.0783,
      "step": 97330
    },
    {
      "epoch": 0.4867,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015476381909547737,
      "loss": 2.0825,
      "step": 97340
    },
    {
      "epoch": 0.48675,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0015474874371859298,
      "loss": 2.1192,
      "step": 97350
    },
    {
      "epoch": 0.4868,
      "grad_norm": 0.625,
      "learning_rate": 0.0015473366834170854,
      "loss": 2.1095,
      "step": 97360
    },
    {
      "epoch": 0.48685,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0015471859296482412,
      "loss": 2.1552,
      "step": 97370
    },
    {
      "epoch": 0.4869,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015470351758793972,
      "loss": 2.1211,
      "step": 97380
    },
    {
      "epoch": 0.48695,
      "grad_norm": 0.625,
      "learning_rate": 0.0015468844221105528,
      "loss": 2.0196,
      "step": 97390
    },
    {
      "epoch": 0.487,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015467336683417084,
      "loss": 2.0706,
      "step": 97400
    },
    {
      "epoch": 0.48705,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015465829145728644,
      "loss": 2.1068,
      "step": 97410
    },
    {
      "epoch": 0.4871,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015464321608040202,
      "loss": 2.0799,
      "step": 97420
    },
    {
      "epoch": 0.48715,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015462814070351758,
      "loss": 2.136,
      "step": 97430
    },
    {
      "epoch": 0.4872,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015461306532663318,
      "loss": 2.0762,
      "step": 97440
    },
    {
      "epoch": 0.48725,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015459798994974876,
      "loss": 2.0602,
      "step": 97450
    },
    {
      "epoch": 0.4873,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015458291457286432,
      "loss": 2.0992,
      "step": 97460
    },
    {
      "epoch": 0.48735,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015456783919597988,
      "loss": 2.0775,
      "step": 97470
    },
    {
      "epoch": 0.4874,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015455276381909548,
      "loss": 2.0728,
      "step": 97480
    },
    {
      "epoch": 0.48745,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015453768844221106,
      "loss": 2.1106,
      "step": 97490
    },
    {
      "epoch": 0.4875,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0015452261306532662,
      "loss": 2.0958,
      "step": 97500
    },
    {
      "epoch": 0.48755,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015450753768844222,
      "loss": 2.0524,
      "step": 97510
    },
    {
      "epoch": 0.4876,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015449246231155778,
      "loss": 2.1436,
      "step": 97520
    },
    {
      "epoch": 0.48765,
      "grad_norm": 0.625,
      "learning_rate": 0.0015447738693467336,
      "loss": 2.016,
      "step": 97530
    },
    {
      "epoch": 0.4877,
      "grad_norm": 0.796875,
      "learning_rate": 0.0015446231155778897,
      "loss": 2.0765,
      "step": 97540
    },
    {
      "epoch": 0.48775,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015444723618090453,
      "loss": 2.1113,
      "step": 97550
    },
    {
      "epoch": 0.4878,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015443216080402008,
      "loss": 2.0727,
      "step": 97560
    },
    {
      "epoch": 0.48785,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015441708542713569,
      "loss": 2.1427,
      "step": 97570
    },
    {
      "epoch": 0.4879,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0015440201005025127,
      "loss": 2.1182,
      "step": 97580
    },
    {
      "epoch": 0.48795,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0015438693467336683,
      "loss": 2.0912,
      "step": 97590
    },
    {
      "epoch": 0.488,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015437185929648243,
      "loss": 2.131,
      "step": 97600
    },
    {
      "epoch": 0.48805,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015435678391959799,
      "loss": 2.0546,
      "step": 97610
    },
    {
      "epoch": 0.4881,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015434170854271357,
      "loss": 2.1242,
      "step": 97620
    },
    {
      "epoch": 0.48815,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015432663316582913,
      "loss": 2.1512,
      "step": 97630
    },
    {
      "epoch": 0.4882,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015431155778894473,
      "loss": 2.0302,
      "step": 97640
    },
    {
      "epoch": 0.48825,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001542964824120603,
      "loss": 2.1052,
      "step": 97650
    },
    {
      "epoch": 0.4883,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015428140703517587,
      "loss": 2.1125,
      "step": 97660
    },
    {
      "epoch": 0.48835,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015426633165829147,
      "loss": 2.0355,
      "step": 97670
    },
    {
      "epoch": 0.4884,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015425125628140703,
      "loss": 2.1091,
      "step": 97680
    },
    {
      "epoch": 0.48845,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0015423618090452261,
      "loss": 2.1105,
      "step": 97690
    },
    {
      "epoch": 0.4885,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015422110552763821,
      "loss": 2.0624,
      "step": 97700
    },
    {
      "epoch": 0.48855,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015420603015075377,
      "loss": 2.1575,
      "step": 97710
    },
    {
      "epoch": 0.4886,
      "grad_norm": 0.625,
      "learning_rate": 0.0015419095477386933,
      "loss": 2.0503,
      "step": 97720
    },
    {
      "epoch": 0.48865,
      "grad_norm": 0.625,
      "learning_rate": 0.0015417587939698493,
      "loss": 2.0459,
      "step": 97730
    },
    {
      "epoch": 0.4887,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015416080402010052,
      "loss": 2.1346,
      "step": 97740
    },
    {
      "epoch": 0.48875,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015414572864321607,
      "loss": 2.1106,
      "step": 97750
    },
    {
      "epoch": 0.4888,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015413065326633168,
      "loss": 2.1299,
      "step": 97760
    },
    {
      "epoch": 0.48885,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015411557788944724,
      "loss": 2.0832,
      "step": 97770
    },
    {
      "epoch": 0.4889,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015410050251256282,
      "loss": 2.0594,
      "step": 97780
    },
    {
      "epoch": 0.48895,
      "grad_norm": 0.625,
      "learning_rate": 0.0015408542713567838,
      "loss": 2.1043,
      "step": 97790
    },
    {
      "epoch": 0.489,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015407035175879398,
      "loss": 2.0614,
      "step": 97800
    },
    {
      "epoch": 0.48905,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015405527638190956,
      "loss": 2.0992,
      "step": 97810
    },
    {
      "epoch": 0.4891,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015404020100502512,
      "loss": 2.1103,
      "step": 97820
    },
    {
      "epoch": 0.48915,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015402512562814072,
      "loss": 2.0595,
      "step": 97830
    },
    {
      "epoch": 0.4892,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015401005025125628,
      "loss": 2.0965,
      "step": 97840
    },
    {
      "epoch": 0.48925,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015399497487437186,
      "loss": 2.0962,
      "step": 97850
    },
    {
      "epoch": 0.4893,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015397989949748746,
      "loss": 2.0313,
      "step": 97860
    },
    {
      "epoch": 0.48935,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015396482412060302,
      "loss": 2.0666,
      "step": 97870
    },
    {
      "epoch": 0.4894,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015394974874371858,
      "loss": 2.0984,
      "step": 97880
    },
    {
      "epoch": 0.48945,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015393467336683418,
      "loss": 2.116,
      "step": 97890
    },
    {
      "epoch": 0.4895,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015391959798994976,
      "loss": 2.0975,
      "step": 97900
    },
    {
      "epoch": 0.48955,
      "grad_norm": 0.625,
      "learning_rate": 0.0015390452261306532,
      "loss": 2.0552,
      "step": 97910
    },
    {
      "epoch": 0.4896,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015388944723618092,
      "loss": 2.1381,
      "step": 97920
    },
    {
      "epoch": 0.48965,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015387437185929648,
      "loss": 2.0964,
      "step": 97930
    },
    {
      "epoch": 0.4897,
      "grad_norm": 0.75,
      "learning_rate": 0.0015385929648241206,
      "loss": 2.0275,
      "step": 97940
    },
    {
      "epoch": 0.48975,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015384422110552762,
      "loss": 2.1399,
      "step": 97950
    },
    {
      "epoch": 0.4898,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015382914572864323,
      "loss": 2.0857,
      "step": 97960
    },
    {
      "epoch": 0.48985,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0015381407035175878,
      "loss": 2.1066,
      "step": 97970
    },
    {
      "epoch": 0.4899,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0015379899497487436,
      "loss": 2.1188,
      "step": 97980
    },
    {
      "epoch": 0.48995,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015378391959798997,
      "loss": 2.0382,
      "step": 97990
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0015376884422110553,
      "loss": 2.0969,
      "step": 98000
    },
    {
      "epoch": 0.49,
      "eval_loss": 2.095621109008789,
      "eval_runtime": 47.1544,
      "eval_samples_per_second": 53.017,
      "eval_steps_per_second": 0.106,
      "step": 98000
    },
    {
      "epoch": 0.49005,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001537537688442211,
      "loss": 2.0753,
      "step": 98010
    },
    {
      "epoch": 0.4901,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001537386934673367,
      "loss": 2.0881,
      "step": 98020
    },
    {
      "epoch": 0.49015,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0015372361809045227,
      "loss": 2.0647,
      "step": 98030
    },
    {
      "epoch": 0.4902,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015370854271356783,
      "loss": 2.075,
      "step": 98040
    },
    {
      "epoch": 0.49025,
      "grad_norm": 0.734375,
      "learning_rate": 0.0015369346733668343,
      "loss": 2.0143,
      "step": 98050
    },
    {
      "epoch": 0.4903,
      "grad_norm": 0.578125,
      "learning_rate": 0.00153678391959799,
      "loss": 2.1123,
      "step": 98060
    },
    {
      "epoch": 0.49035,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015366331658291457,
      "loss": 2.0593,
      "step": 98070
    },
    {
      "epoch": 0.4904,
      "grad_norm": 0.6875,
      "learning_rate": 0.0015364824120603017,
      "loss": 2.1016,
      "step": 98080
    },
    {
      "epoch": 0.49045,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015363316582914573,
      "loss": 2.1066,
      "step": 98090
    },
    {
      "epoch": 0.4905,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015361809045226131,
      "loss": 2.1044,
      "step": 98100
    },
    {
      "epoch": 0.49055,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015360301507537687,
      "loss": 2.0626,
      "step": 98110
    },
    {
      "epoch": 0.4906,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015358793969849247,
      "loss": 2.0978,
      "step": 98120
    },
    {
      "epoch": 0.49065,
      "grad_norm": 0.625,
      "learning_rate": 0.0015357286432160803,
      "loss": 2.0956,
      "step": 98130
    },
    {
      "epoch": 0.4907,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015355778894472361,
      "loss": 2.1321,
      "step": 98140
    },
    {
      "epoch": 0.49075,
      "grad_norm": 0.703125,
      "learning_rate": 0.0015354271356783921,
      "loss": 2.1011,
      "step": 98150
    },
    {
      "epoch": 0.4908,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015352763819095477,
      "loss": 2.1523,
      "step": 98160
    },
    {
      "epoch": 0.49085,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0015351256281407035,
      "loss": 2.0978,
      "step": 98170
    },
    {
      "epoch": 0.4909,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015349748743718594,
      "loss": 2.1012,
      "step": 98180
    },
    {
      "epoch": 0.49095,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015348241206030152,
      "loss": 2.0487,
      "step": 98190
    },
    {
      "epoch": 0.491,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015346733668341707,
      "loss": 2.0584,
      "step": 98200
    },
    {
      "epoch": 0.49105,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015345226130653268,
      "loss": 2.1168,
      "step": 98210
    },
    {
      "epoch": 0.4911,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015343718592964826,
      "loss": 2.1027,
      "step": 98220
    },
    {
      "epoch": 0.49115,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015342211055276382,
      "loss": 2.0792,
      "step": 98230
    },
    {
      "epoch": 0.4912,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015340703517587938,
      "loss": 2.0557,
      "step": 98240
    },
    {
      "epoch": 0.49125,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015339195979899498,
      "loss": 2.0756,
      "step": 98250
    },
    {
      "epoch": 0.4913,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015337688442211056,
      "loss": 2.0883,
      "step": 98260
    },
    {
      "epoch": 0.49135,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015336180904522612,
      "loss": 2.1121,
      "step": 98270
    },
    {
      "epoch": 0.4914,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0015334673366834172,
      "loss": 2.0709,
      "step": 98280
    },
    {
      "epoch": 0.49145,
      "grad_norm": 0.671875,
      "learning_rate": 0.0015333165829145728,
      "loss": 2.1147,
      "step": 98290
    },
    {
      "epoch": 0.4915,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0015331658291457286,
      "loss": 2.034,
      "step": 98300
    },
    {
      "epoch": 0.49155,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015330150753768846,
      "loss": 2.0352,
      "step": 98310
    },
    {
      "epoch": 0.4916,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015328643216080402,
      "loss": 2.1077,
      "step": 98320
    },
    {
      "epoch": 0.49165,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015327135678391958,
      "loss": 2.0552,
      "step": 98330
    },
    {
      "epoch": 0.4917,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015325628140703518,
      "loss": 2.0912,
      "step": 98340
    },
    {
      "epoch": 0.49175,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015324120603015076,
      "loss": 2.1219,
      "step": 98350
    },
    {
      "epoch": 0.4918,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015322613065326632,
      "loss": 2.0499,
      "step": 98360
    },
    {
      "epoch": 0.49185,
      "grad_norm": 0.671875,
      "learning_rate": 0.0015321105527638192,
      "loss": 2.0988,
      "step": 98370
    },
    {
      "epoch": 0.4919,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001531959798994975,
      "loss": 2.0765,
      "step": 98380
    },
    {
      "epoch": 0.49195,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015318090452261306,
      "loss": 2.0682,
      "step": 98390
    },
    {
      "epoch": 0.492,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015316582914572862,
      "loss": 2.1327,
      "step": 98400
    },
    {
      "epoch": 0.49205,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015315075376884423,
      "loss": 2.0971,
      "step": 98410
    },
    {
      "epoch": 0.4921,
      "grad_norm": 0.625,
      "learning_rate": 0.001531356783919598,
      "loss": 2.1324,
      "step": 98420
    },
    {
      "epoch": 0.49215,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015312060301507537,
      "loss": 2.1128,
      "step": 98430
    },
    {
      "epoch": 0.4922,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015310552763819097,
      "loss": 2.0618,
      "step": 98440
    },
    {
      "epoch": 0.49225,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0015309045226130653,
      "loss": 2.052,
      "step": 98450
    },
    {
      "epoch": 0.4923,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001530753768844221,
      "loss": 2.0372,
      "step": 98460
    },
    {
      "epoch": 0.49235,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001530603015075377,
      "loss": 2.0727,
      "step": 98470
    },
    {
      "epoch": 0.4924,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0015304522613065327,
      "loss": 2.0738,
      "step": 98480
    },
    {
      "epoch": 0.49245,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015303015075376883,
      "loss": 2.0587,
      "step": 98490
    },
    {
      "epoch": 0.4925,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015301507537688443,
      "loss": 2.1088,
      "step": 98500
    },
    {
      "epoch": 0.49255,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015300000000000001,
      "loss": 2.044,
      "step": 98510
    },
    {
      "epoch": 0.4926,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015298492462311557,
      "loss": 2.0589,
      "step": 98520
    },
    {
      "epoch": 0.49265,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015296984924623117,
      "loss": 2.0856,
      "step": 98530
    },
    {
      "epoch": 0.4927,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015295477386934673,
      "loss": 2.066,
      "step": 98540
    },
    {
      "epoch": 0.49275,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015293969849246231,
      "loss": 2.1078,
      "step": 98550
    },
    {
      "epoch": 0.4928,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015292462311557787,
      "loss": 2.1212,
      "step": 98560
    },
    {
      "epoch": 0.49285,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015290954773869347,
      "loss": 2.038,
      "step": 98570
    },
    {
      "epoch": 0.4929,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0015289447236180905,
      "loss": 2.1259,
      "step": 98580
    },
    {
      "epoch": 0.49295,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015287939698492461,
      "loss": 2.066,
      "step": 98590
    },
    {
      "epoch": 0.493,
      "grad_norm": 0.625,
      "learning_rate": 0.0015286432160804022,
      "loss": 2.0745,
      "step": 98600
    },
    {
      "epoch": 0.49305,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015284924623115577,
      "loss": 2.0867,
      "step": 98610
    },
    {
      "epoch": 0.4931,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015283417085427136,
      "loss": 2.1039,
      "step": 98620
    },
    {
      "epoch": 0.49315,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015281909547738696,
      "loss": 2.1069,
      "step": 98630
    },
    {
      "epoch": 0.4932,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015280402010050252,
      "loss": 2.1098,
      "step": 98640
    },
    {
      "epoch": 0.49325,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015278894472361808,
      "loss": 2.1058,
      "step": 98650
    },
    {
      "epoch": 0.4933,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0015277386934673368,
      "loss": 2.1342,
      "step": 98660
    },
    {
      "epoch": 0.49335,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015275879396984926,
      "loss": 2.0715,
      "step": 98670
    },
    {
      "epoch": 0.4934,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015274371859296482,
      "loss": 2.0975,
      "step": 98680
    },
    {
      "epoch": 0.49345,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015272864321608042,
      "loss": 2.1062,
      "step": 98690
    },
    {
      "epoch": 0.4935,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015271356783919598,
      "loss": 2.06,
      "step": 98700
    },
    {
      "epoch": 0.49355,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015269849246231156,
      "loss": 2.0611,
      "step": 98710
    },
    {
      "epoch": 0.4936,
      "grad_norm": 0.546875,
      "learning_rate": 0.0015268341708542712,
      "loss": 2.0761,
      "step": 98720
    },
    {
      "epoch": 0.49365,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015266834170854272,
      "loss": 2.0874,
      "step": 98730
    },
    {
      "epoch": 0.4937,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001526532663316583,
      "loss": 2.0842,
      "step": 98740
    },
    {
      "epoch": 0.49375,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015263819095477386,
      "loss": 2.0733,
      "step": 98750
    },
    {
      "epoch": 0.4938,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015262311557788946,
      "loss": 2.0901,
      "step": 98760
    },
    {
      "epoch": 0.49385,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015260804020100502,
      "loss": 2.0855,
      "step": 98770
    },
    {
      "epoch": 0.4939,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001525929648241206,
      "loss": 2.0792,
      "step": 98780
    },
    {
      "epoch": 0.49395,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001525778894472362,
      "loss": 2.1243,
      "step": 98790
    },
    {
      "epoch": 0.494,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015256281407035176,
      "loss": 2.0748,
      "step": 98800
    },
    {
      "epoch": 0.49405,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015254773869346732,
      "loss": 2.1168,
      "step": 98810
    },
    {
      "epoch": 0.4941,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015253266331658293,
      "loss": 2.0544,
      "step": 98820
    },
    {
      "epoch": 0.49415,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001525175879396985,
      "loss": 2.1013,
      "step": 98830
    },
    {
      "epoch": 0.4942,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015250251256281407,
      "loss": 2.0996,
      "step": 98840
    },
    {
      "epoch": 0.49425,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0015248743718592967,
      "loss": 2.0635,
      "step": 98850
    },
    {
      "epoch": 0.4943,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015247236180904523,
      "loss": 2.1231,
      "step": 98860
    },
    {
      "epoch": 0.49435,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001524572864321608,
      "loss": 2.1535,
      "step": 98870
    },
    {
      "epoch": 0.4944,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015244221105527637,
      "loss": 2.0964,
      "step": 98880
    },
    {
      "epoch": 0.49445,
      "grad_norm": 0.546875,
      "learning_rate": 0.0015242713567839197,
      "loss": 2.0677,
      "step": 98890
    },
    {
      "epoch": 0.4945,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0015241206030150753,
      "loss": 2.0876,
      "step": 98900
    },
    {
      "epoch": 0.49455,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001523969849246231,
      "loss": 2.1118,
      "step": 98910
    },
    {
      "epoch": 0.4946,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001523819095477387,
      "loss": 2.0734,
      "step": 98920
    },
    {
      "epoch": 0.49465,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015236683417085427,
      "loss": 2.1193,
      "step": 98930
    },
    {
      "epoch": 0.4947,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015235175879396985,
      "loss": 2.051,
      "step": 98940
    },
    {
      "epoch": 0.49475,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015233668341708545,
      "loss": 2.0623,
      "step": 98950
    },
    {
      "epoch": 0.4948,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0015232160804020101,
      "loss": 2.1048,
      "step": 98960
    },
    {
      "epoch": 0.49485,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015230653266331657,
      "loss": 2.1293,
      "step": 98970
    },
    {
      "epoch": 0.4949,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015229145728643217,
      "loss": 2.1568,
      "step": 98980
    },
    {
      "epoch": 0.49495,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015227638190954775,
      "loss": 2.117,
      "step": 98990
    },
    {
      "epoch": 0.495,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015226130653266331,
      "loss": 2.1155,
      "step": 99000
    },
    {
      "epoch": 0.49505,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015224623115577892,
      "loss": 2.1156,
      "step": 99010
    },
    {
      "epoch": 0.4951,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015223115577889447,
      "loss": 2.0802,
      "step": 99020
    },
    {
      "epoch": 0.49515,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015221608040201005,
      "loss": 2.0954,
      "step": 99030
    },
    {
      "epoch": 0.4952,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015220100502512561,
      "loss": 2.0931,
      "step": 99040
    },
    {
      "epoch": 0.49525,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015218592964824122,
      "loss": 2.0775,
      "step": 99050
    },
    {
      "epoch": 0.4953,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0015217085427135678,
      "loss": 2.0784,
      "step": 99060
    },
    {
      "epoch": 0.49535,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0015215577889447236,
      "loss": 2.1174,
      "step": 99070
    },
    {
      "epoch": 0.4954,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015214070351758796,
      "loss": 2.0763,
      "step": 99080
    },
    {
      "epoch": 0.49545,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015212562814070352,
      "loss": 2.1182,
      "step": 99090
    },
    {
      "epoch": 0.4955,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001521105527638191,
      "loss": 2.0727,
      "step": 99100
    },
    {
      "epoch": 0.49555,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0015209547738693468,
      "loss": 2.1576,
      "step": 99110
    },
    {
      "epoch": 0.4956,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015208040201005026,
      "loss": 2.0998,
      "step": 99120
    },
    {
      "epoch": 0.49565,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015206532663316582,
      "loss": 2.1278,
      "step": 99130
    },
    {
      "epoch": 0.4957,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015205025125628142,
      "loss": 2.1043,
      "step": 99140
    },
    {
      "epoch": 0.49575,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00152035175879397,
      "loss": 2.055,
      "step": 99150
    },
    {
      "epoch": 0.4958,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015202010050251256,
      "loss": 2.172,
      "step": 99160
    },
    {
      "epoch": 0.49585,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015200502512562816,
      "loss": 2.0847,
      "step": 99170
    },
    {
      "epoch": 0.4959,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015198994974874372,
      "loss": 2.109,
      "step": 99180
    },
    {
      "epoch": 0.49595,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001519748743718593,
      "loss": 2.103,
      "step": 99190
    },
    {
      "epoch": 0.496,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015195979899497486,
      "loss": 2.0776,
      "step": 99200
    },
    {
      "epoch": 0.49605,
      "grad_norm": 0.65625,
      "learning_rate": 0.0015194472361809046,
      "loss": 2.1445,
      "step": 99210
    },
    {
      "epoch": 0.4961,
      "grad_norm": 0.625,
      "learning_rate": 0.0015192964824120602,
      "loss": 2.0191,
      "step": 99220
    },
    {
      "epoch": 0.49615,
      "grad_norm": 0.609375,
      "learning_rate": 0.001519145728643216,
      "loss": 2.086,
      "step": 99230
    },
    {
      "epoch": 0.4962,
      "grad_norm": 0.59375,
      "learning_rate": 0.001518994974874372,
      "loss": 2.1385,
      "step": 99240
    },
    {
      "epoch": 0.49625,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015188442211055276,
      "loss": 2.089,
      "step": 99250
    },
    {
      "epoch": 0.4963,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015186934673366832,
      "loss": 2.1302,
      "step": 99260
    },
    {
      "epoch": 0.49635,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015185427135678393,
      "loss": 2.1167,
      "step": 99270
    },
    {
      "epoch": 0.4964,
      "grad_norm": 0.609375,
      "learning_rate": 0.001518391959798995,
      "loss": 2.1223,
      "step": 99280
    },
    {
      "epoch": 0.49645,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0015182412060301507,
      "loss": 2.1203,
      "step": 99290
    },
    {
      "epoch": 0.4965,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015180904522613067,
      "loss": 2.0887,
      "step": 99300
    },
    {
      "epoch": 0.49655,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015179396984924625,
      "loss": 2.1462,
      "step": 99310
    },
    {
      "epoch": 0.4966,
      "grad_norm": 0.578125,
      "learning_rate": 0.001517788944723618,
      "loss": 2.079,
      "step": 99320
    },
    {
      "epoch": 0.49665,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001517638190954774,
      "loss": 2.0883,
      "step": 99330
    },
    {
      "epoch": 0.4967,
      "grad_norm": 0.546875,
      "learning_rate": 0.0015174874371859297,
      "loss": 2.0844,
      "step": 99340
    },
    {
      "epoch": 0.49675,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015173366834170855,
      "loss": 2.096,
      "step": 99350
    },
    {
      "epoch": 0.4968,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001517185929648241,
      "loss": 2.092,
      "step": 99360
    },
    {
      "epoch": 0.49685,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015170351758793971,
      "loss": 2.071,
      "step": 99370
    },
    {
      "epoch": 0.4969,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015168844221105527,
      "loss": 2.1008,
      "step": 99380
    },
    {
      "epoch": 0.49695,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015167336683417085,
      "loss": 2.1052,
      "step": 99390
    },
    {
      "epoch": 0.497,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015165829145728645,
      "loss": 2.1407,
      "step": 99400
    },
    {
      "epoch": 0.49705,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015164321608040201,
      "loss": 2.0541,
      "step": 99410
    },
    {
      "epoch": 0.4971,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015162814070351757,
      "loss": 2.1171,
      "step": 99420
    },
    {
      "epoch": 0.49715,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0015161306532663317,
      "loss": 2.132,
      "step": 99430
    },
    {
      "epoch": 0.4972,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015159798994974875,
      "loss": 2.1326,
      "step": 99440
    },
    {
      "epoch": 0.49725,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015158291457286431,
      "loss": 2.0892,
      "step": 99450
    },
    {
      "epoch": 0.4973,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015156783919597992,
      "loss": 2.1461,
      "step": 99460
    },
    {
      "epoch": 0.49735,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015155276381909547,
      "loss": 2.0761,
      "step": 99470
    },
    {
      "epoch": 0.4974,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015153768844221106,
      "loss": 2.0958,
      "step": 99480
    },
    {
      "epoch": 0.49745,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015152261306532661,
      "loss": 2.0785,
      "step": 99490
    },
    {
      "epoch": 0.4975,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015150753768844222,
      "loss": 2.0388,
      "step": 99500
    },
    {
      "epoch": 0.49755,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001514924623115578,
      "loss": 2.0843,
      "step": 99510
    },
    {
      "epoch": 0.4976,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015147738693467336,
      "loss": 2.0431,
      "step": 99520
    },
    {
      "epoch": 0.49765,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0015146231155778896,
      "loss": 2.0594,
      "step": 99530
    },
    {
      "epoch": 0.4977,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015144723618090452,
      "loss": 2.0733,
      "step": 99540
    },
    {
      "epoch": 0.49775,
      "grad_norm": 0.65625,
      "learning_rate": 0.001514321608040201,
      "loss": 2.063,
      "step": 99550
    },
    {
      "epoch": 0.4978,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001514170854271357,
      "loss": 2.124,
      "step": 99560
    },
    {
      "epoch": 0.49785,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015140201005025126,
      "loss": 2.0684,
      "step": 99570
    },
    {
      "epoch": 0.4979,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015138693467336682,
      "loss": 2.0281,
      "step": 99580
    },
    {
      "epoch": 0.49795,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015137185929648242,
      "loss": 2.115,
      "step": 99590
    },
    {
      "epoch": 0.498,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00151356783919598,
      "loss": 2.018,
      "step": 99600
    },
    {
      "epoch": 0.49805,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015134170854271356,
      "loss": 2.1412,
      "step": 99610
    },
    {
      "epoch": 0.4981,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015132663316582916,
      "loss": 2.0874,
      "step": 99620
    },
    {
      "epoch": 0.49815,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015131155778894472,
      "loss": 2.0769,
      "step": 99630
    },
    {
      "epoch": 0.4982,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001512964824120603,
      "loss": 2.0937,
      "step": 99640
    },
    {
      "epoch": 0.49825,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015128140703517586,
      "loss": 2.0485,
      "step": 99650
    },
    {
      "epoch": 0.4983,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015126633165829146,
      "loss": 2.071,
      "step": 99660
    },
    {
      "epoch": 0.49835,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015125125628140704,
      "loss": 2.061,
      "step": 99670
    },
    {
      "epoch": 0.4984,
      "grad_norm": 0.71484375,
      "learning_rate": 0.001512361809045226,
      "loss": 2.1227,
      "step": 99680
    },
    {
      "epoch": 0.49845,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001512211055276382,
      "loss": 2.0749,
      "step": 99690
    },
    {
      "epoch": 0.4985,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015120603015075377,
      "loss": 2.0293,
      "step": 99700
    },
    {
      "epoch": 0.49855,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015119095477386935,
      "loss": 2.0745,
      "step": 99710
    },
    {
      "epoch": 0.4986,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015117587939698495,
      "loss": 2.0687,
      "step": 99720
    },
    {
      "epoch": 0.49865,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001511608040201005,
      "loss": 2.0863,
      "step": 99730
    },
    {
      "epoch": 0.4987,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015114572864321607,
      "loss": 2.0699,
      "step": 99740
    },
    {
      "epoch": 0.49875,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0015113065326633167,
      "loss": 2.0841,
      "step": 99750
    },
    {
      "epoch": 0.4988,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015111557788944725,
      "loss": 2.0777,
      "step": 99760
    },
    {
      "epoch": 0.49885,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001511005025125628,
      "loss": 2.0836,
      "step": 99770
    },
    {
      "epoch": 0.4989,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001510854271356784,
      "loss": 2.1416,
      "step": 99780
    },
    {
      "epoch": 0.49895,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015107035175879397,
      "loss": 2.0633,
      "step": 99790
    },
    {
      "epoch": 0.499,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0015105527638190955,
      "loss": 2.1191,
      "step": 99800
    },
    {
      "epoch": 0.49905,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001510402010050251,
      "loss": 2.091,
      "step": 99810
    },
    {
      "epoch": 0.4991,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0015102512562814071,
      "loss": 2.0886,
      "step": 99820
    },
    {
      "epoch": 0.49915,
      "grad_norm": 0.79296875,
      "learning_rate": 0.0015101005025125627,
      "loss": 2.1171,
      "step": 99830
    },
    {
      "epoch": 0.4992,
      "grad_norm": 0.76171875,
      "learning_rate": 0.0015099497487437185,
      "loss": 2.0373,
      "step": 99840
    },
    {
      "epoch": 0.49925,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0015097989949748745,
      "loss": 2.1103,
      "step": 99850
    },
    {
      "epoch": 0.4993,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015096482412060301,
      "loss": 2.1232,
      "step": 99860
    },
    {
      "epoch": 0.49935,
      "grad_norm": 0.609375,
      "learning_rate": 0.001509497487437186,
      "loss": 2.0812,
      "step": 99870
    },
    {
      "epoch": 0.4994,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001509346733668342,
      "loss": 2.1453,
      "step": 99880
    },
    {
      "epoch": 0.49945,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015091959798994975,
      "loss": 2.0719,
      "step": 99890
    },
    {
      "epoch": 0.4995,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0015090452261306531,
      "loss": 2.1335,
      "step": 99900
    },
    {
      "epoch": 0.49955,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015088944723618092,
      "loss": 2.0504,
      "step": 99910
    },
    {
      "epoch": 0.4996,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001508743718592965,
      "loss": 2.0784,
      "step": 99920
    },
    {
      "epoch": 0.49965,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0015085929648241206,
      "loss": 2.1172,
      "step": 99930
    },
    {
      "epoch": 0.4997,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015084422110552766,
      "loss": 2.0423,
      "step": 99940
    },
    {
      "epoch": 0.49975,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015082914572864322,
      "loss": 2.072,
      "step": 99950
    },
    {
      "epoch": 0.4998,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001508140703517588,
      "loss": 2.0468,
      "step": 99960
    },
    {
      "epoch": 0.49985,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0015079899497487436,
      "loss": 2.1182,
      "step": 99970
    },
    {
      "epoch": 0.4999,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015078391959798996,
      "loss": 2.0988,
      "step": 99980
    },
    {
      "epoch": 0.49995,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0015076884422110552,
      "loss": 2.0816,
      "step": 99990
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001507537688442211,
      "loss": 2.0959,
      "step": 100000
    },
    {
      "epoch": 0.5,
      "eval_loss": 2.0935399532318115,
      "eval_runtime": 52.0029,
      "eval_samples_per_second": 48.074,
      "eval_steps_per_second": 0.096,
      "step": 100000
    },
    {
      "epoch": 0.50005,
      "grad_norm": 0.65625,
      "learning_rate": 0.001507386934673367,
      "loss": 2.1178,
      "step": 100010
    },
    {
      "epoch": 0.5001,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015072361809045226,
      "loss": 2.0935,
      "step": 100020
    },
    {
      "epoch": 0.50015,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015070854271356784,
      "loss": 2.074,
      "step": 100030
    },
    {
      "epoch": 0.5002,
      "grad_norm": 0.609375,
      "learning_rate": 0.0015069346733668342,
      "loss": 2.1268,
      "step": 100040
    },
    {
      "epoch": 0.50025,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00150678391959799,
      "loss": 2.102,
      "step": 100050
    },
    {
      "epoch": 0.5003,
      "grad_norm": 0.59375,
      "learning_rate": 0.0015066331658291456,
      "loss": 2.09,
      "step": 100060
    },
    {
      "epoch": 0.50035,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015064824120603016,
      "loss": 2.1526,
      "step": 100070
    },
    {
      "epoch": 0.5004,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0015063316582914574,
      "loss": 2.1179,
      "step": 100080
    },
    {
      "epoch": 0.50045,
      "grad_norm": 0.703125,
      "learning_rate": 0.001506180904522613,
      "loss": 2.0908,
      "step": 100090
    },
    {
      "epoch": 0.5005,
      "grad_norm": 0.7109375,
      "learning_rate": 0.001506030150753769,
      "loss": 2.1201,
      "step": 100100
    },
    {
      "epoch": 0.50055,
      "grad_norm": 0.671875,
      "learning_rate": 0.0015058793969849246,
      "loss": 2.0495,
      "step": 100110
    },
    {
      "epoch": 0.5006,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015057286432160805,
      "loss": 2.1512,
      "step": 100120
    },
    {
      "epoch": 0.50065,
      "grad_norm": 0.578125,
      "learning_rate": 0.001505577889447236,
      "loss": 2.0769,
      "step": 100130
    },
    {
      "epoch": 0.5007,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001505427135678392,
      "loss": 2.1121,
      "step": 100140
    },
    {
      "epoch": 0.50075,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015052763819095477,
      "loss": 2.0989,
      "step": 100150
    },
    {
      "epoch": 0.5008,
      "grad_norm": 0.7734375,
      "learning_rate": 0.0015051256281407035,
      "loss": 2.1345,
      "step": 100160
    },
    {
      "epoch": 0.50085,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015049748743718595,
      "loss": 2.1526,
      "step": 100170
    },
    {
      "epoch": 0.5009,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001504824120603015,
      "loss": 2.063,
      "step": 100180
    },
    {
      "epoch": 0.50095,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0015046733668341707,
      "loss": 2.1129,
      "step": 100190
    },
    {
      "epoch": 0.501,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0015045226130653267,
      "loss": 2.0805,
      "step": 100200
    },
    {
      "epoch": 0.50105,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0015043718592964825,
      "loss": 2.0861,
      "step": 100210
    },
    {
      "epoch": 0.5011,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001504221105527638,
      "loss": 2.0629,
      "step": 100220
    },
    {
      "epoch": 0.50115,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0015040703517587941,
      "loss": 2.0742,
      "step": 100230
    },
    {
      "epoch": 0.5012,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00150391959798995,
      "loss": 2.1048,
      "step": 100240
    },
    {
      "epoch": 0.50125,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0015037688442211055,
      "loss": 2.0812,
      "step": 100250
    },
    {
      "epoch": 0.5013,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0015036180904522615,
      "loss": 2.0748,
      "step": 100260
    },
    {
      "epoch": 0.50135,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015034673366834171,
      "loss": 2.1135,
      "step": 100270
    },
    {
      "epoch": 0.5014,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001503316582914573,
      "loss": 2.0981,
      "step": 100280
    },
    {
      "epoch": 0.50145,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0015031658291457285,
      "loss": 2.1,
      "step": 100290
    },
    {
      "epoch": 0.5015,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0015030150753768845,
      "loss": 2.0638,
      "step": 100300
    },
    {
      "epoch": 0.50155,
      "grad_norm": 0.578125,
      "learning_rate": 0.0015028643216080401,
      "loss": 2.0976,
      "step": 100310
    },
    {
      "epoch": 0.5016,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001502713567839196,
      "loss": 2.0752,
      "step": 100320
    },
    {
      "epoch": 0.50165,
      "grad_norm": 0.65625,
      "learning_rate": 0.001502562814070352,
      "loss": 2.1371,
      "step": 100330
    },
    {
      "epoch": 0.5017,
      "grad_norm": 0.625,
      "learning_rate": 0.0015024120603015076,
      "loss": 2.1269,
      "step": 100340
    },
    {
      "epoch": 0.50175,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015022613065326631,
      "loss": 2.0841,
      "step": 100350
    },
    {
      "epoch": 0.5018,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015021105527638192,
      "loss": 2.0945,
      "step": 100360
    },
    {
      "epoch": 0.50185,
      "grad_norm": 0.59375,
      "learning_rate": 0.001501959798994975,
      "loss": 2.0537,
      "step": 100370
    },
    {
      "epoch": 0.5019,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0015018090452261306,
      "loss": 2.0942,
      "step": 100380
    },
    {
      "epoch": 0.50195,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0015016582914572866,
      "loss": 2.1317,
      "step": 100390
    },
    {
      "epoch": 0.502,
      "grad_norm": 0.546875,
      "learning_rate": 0.0015015075376884422,
      "loss": 2.0807,
      "step": 100400
    },
    {
      "epoch": 0.50205,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001501356783919598,
      "loss": 2.1104,
      "step": 100410
    },
    {
      "epoch": 0.5021,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001501206030150754,
      "loss": 2.0878,
      "step": 100420
    },
    {
      "epoch": 0.50215,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0015010552763819096,
      "loss": 2.1319,
      "step": 100430
    },
    {
      "epoch": 0.5022,
      "grad_norm": 0.5625,
      "learning_rate": 0.0015009045226130654,
      "loss": 2.1089,
      "step": 100440
    },
    {
      "epoch": 0.50225,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001500753768844221,
      "loss": 2.1364,
      "step": 100450
    },
    {
      "epoch": 0.5023,
      "grad_norm": 0.51953125,
      "learning_rate": 0.001500603015075377,
      "loss": 2.0559,
      "step": 100460
    },
    {
      "epoch": 0.50235,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0015004522613065326,
      "loss": 2.0763,
      "step": 100470
    },
    {
      "epoch": 0.5024,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0015003015075376884,
      "loss": 2.1083,
      "step": 100480
    },
    {
      "epoch": 0.50245,
      "grad_norm": 0.640625,
      "learning_rate": 0.0015001507537688444,
      "loss": 2.0751,
      "step": 100490
    },
    {
      "epoch": 0.5025,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0015,
      "loss": 2.1025,
      "step": 100500
    },
    {
      "epoch": 0.50255,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014998492462311558,
      "loss": 2.0849,
      "step": 100510
    },
    {
      "epoch": 0.5026,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0014996984924623116,
      "loss": 2.0913,
      "step": 100520
    },
    {
      "epoch": 0.50265,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014995477386934675,
      "loss": 2.1482,
      "step": 100530
    },
    {
      "epoch": 0.5027,
      "grad_norm": 0.578125,
      "learning_rate": 0.001499396984924623,
      "loss": 2.0777,
      "step": 100540
    },
    {
      "epoch": 0.50275,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014992462311557788,
      "loss": 2.1191,
      "step": 100550
    },
    {
      "epoch": 0.5028,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014990954773869347,
      "loss": 2.1025,
      "step": 100560
    },
    {
      "epoch": 0.50285,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014989447236180905,
      "loss": 2.0313,
      "step": 100570
    },
    {
      "epoch": 0.5029,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014987939698492463,
      "loss": 2.0629,
      "step": 100580
    },
    {
      "epoch": 0.50295,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001498643216080402,
      "loss": 2.1141,
      "step": 100590
    },
    {
      "epoch": 0.503,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014984924623115579,
      "loss": 2.0987,
      "step": 100600
    },
    {
      "epoch": 0.50305,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014983417085427137,
      "loss": 2.1398,
      "step": 100610
    },
    {
      "epoch": 0.5031,
      "grad_norm": 0.625,
      "learning_rate": 0.0014981909547738693,
      "loss": 2.1465,
      "step": 100620
    },
    {
      "epoch": 0.50315,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001498040201005025,
      "loss": 2.1171,
      "step": 100630
    },
    {
      "epoch": 0.5032,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001497889447236181,
      "loss": 2.1542,
      "step": 100640
    },
    {
      "epoch": 0.50325,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0014977386934673367,
      "loss": 2.0678,
      "step": 100650
    },
    {
      "epoch": 0.5033,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0014975879396984925,
      "loss": 2.0527,
      "step": 100660
    },
    {
      "epoch": 0.50335,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014974371859296483,
      "loss": 2.1378,
      "step": 100670
    },
    {
      "epoch": 0.5034,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014972864321608041,
      "loss": 2.0716,
      "step": 100680
    },
    {
      "epoch": 0.50345,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00149713567839196,
      "loss": 2.1318,
      "step": 100690
    },
    {
      "epoch": 0.5035,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014969849246231155,
      "loss": 2.0863,
      "step": 100700
    },
    {
      "epoch": 0.50355,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014968341708542713,
      "loss": 2.1281,
      "step": 100710
    },
    {
      "epoch": 0.5036,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014966834170854271,
      "loss": 2.0994,
      "step": 100720
    },
    {
      "epoch": 0.50365,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001496532663316583,
      "loss": 2.0482,
      "step": 100730
    },
    {
      "epoch": 0.5037,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014963819095477387,
      "loss": 2.0976,
      "step": 100740
    },
    {
      "epoch": 0.50375,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0014962311557788946,
      "loss": 2.0441,
      "step": 100750
    },
    {
      "epoch": 0.5038,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014960804020100501,
      "loss": 2.1164,
      "step": 100760
    },
    {
      "epoch": 0.50385,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0014959296482412062,
      "loss": 2.0588,
      "step": 100770
    },
    {
      "epoch": 0.5039,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014957788944723618,
      "loss": 2.0993,
      "step": 100780
    },
    {
      "epoch": 0.50395,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0014956281407035176,
      "loss": 2.076,
      "step": 100790
    },
    {
      "epoch": 0.504,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0014954773869346734,
      "loss": 2.1041,
      "step": 100800
    },
    {
      "epoch": 0.50405,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014953266331658292,
      "loss": 2.1028,
      "step": 100810
    },
    {
      "epoch": 0.5041,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001495175879396985,
      "loss": 2.096,
      "step": 100820
    },
    {
      "epoch": 0.50415,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0014950251256281408,
      "loss": 2.128,
      "step": 100830
    },
    {
      "epoch": 0.5042,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014948743718592964,
      "loss": 2.0786,
      "step": 100840
    },
    {
      "epoch": 0.50425,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0014947236180904524,
      "loss": 2.0802,
      "step": 100850
    },
    {
      "epoch": 0.5043,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001494572864321608,
      "loss": 2.1043,
      "step": 100860
    },
    {
      "epoch": 0.50435,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014944221105527638,
      "loss": 2.063,
      "step": 100870
    },
    {
      "epoch": 0.5044,
      "grad_norm": 0.625,
      "learning_rate": 0.0014942713567839196,
      "loss": 2.1439,
      "step": 100880
    },
    {
      "epoch": 0.50445,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0014941206030150754,
      "loss": 2.0606,
      "step": 100890
    },
    {
      "epoch": 0.5045,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0014939698492462312,
      "loss": 2.1113,
      "step": 100900
    },
    {
      "epoch": 0.50455,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001493819095477387,
      "loss": 2.0975,
      "step": 100910
    },
    {
      "epoch": 0.5046,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014936683417085426,
      "loss": 2.0542,
      "step": 100920
    },
    {
      "epoch": 0.50465,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014935175879396986,
      "loss": 2.0495,
      "step": 100930
    },
    {
      "epoch": 0.5047,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014933668341708542,
      "loss": 2.0424,
      "step": 100940
    },
    {
      "epoch": 0.50475,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00149321608040201,
      "loss": 2.1886,
      "step": 100950
    },
    {
      "epoch": 0.5048,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014930653266331658,
      "loss": 2.0414,
      "step": 100960
    },
    {
      "epoch": 0.50485,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014929145728643217,
      "loss": 2.1288,
      "step": 100970
    },
    {
      "epoch": 0.5049,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014927638190954775,
      "loss": 2.0633,
      "step": 100980
    },
    {
      "epoch": 0.50495,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014926130653266333,
      "loss": 2.0738,
      "step": 100990
    },
    {
      "epoch": 0.505,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0014924623115577889,
      "loss": 2.0854,
      "step": 101000
    },
    {
      "epoch": 0.50505,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014923115577889449,
      "loss": 2.0589,
      "step": 101010
    },
    {
      "epoch": 0.5051,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014921608040201005,
      "loss": 2.1323,
      "step": 101020
    },
    {
      "epoch": 0.50515,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014920100502512563,
      "loss": 2.0297,
      "step": 101030
    },
    {
      "epoch": 0.5052,
      "grad_norm": 0.5078125,
      "learning_rate": 0.001491859296482412,
      "loss": 2.1249,
      "step": 101040
    },
    {
      "epoch": 0.50525,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014917085427135679,
      "loss": 2.0589,
      "step": 101050
    },
    {
      "epoch": 0.5053,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014915577889447237,
      "loss": 2.0648,
      "step": 101060
    },
    {
      "epoch": 0.50535,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014914070351758795,
      "loss": 2.1002,
      "step": 101070
    },
    {
      "epoch": 0.5054,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001491256281407035,
      "loss": 2.1154,
      "step": 101080
    },
    {
      "epoch": 0.50545,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014911055276381911,
      "loss": 2.127,
      "step": 101090
    },
    {
      "epoch": 0.5055,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0014909547738693467,
      "loss": 2.1378,
      "step": 101100
    },
    {
      "epoch": 0.50555,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014908040201005025,
      "loss": 2.0913,
      "step": 101110
    },
    {
      "epoch": 0.5056,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014906532663316583,
      "loss": 2.0743,
      "step": 101120
    },
    {
      "epoch": 0.50565,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014905025125628141,
      "loss": 2.0971,
      "step": 101130
    },
    {
      "epoch": 0.5057,
      "grad_norm": 0.5625,
      "learning_rate": 0.00149035175879397,
      "loss": 2.1038,
      "step": 101140
    },
    {
      "epoch": 0.50575,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0014902010050251257,
      "loss": 2.0761,
      "step": 101150
    },
    {
      "epoch": 0.5058,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014900502512562813,
      "loss": 2.0661,
      "step": 101160
    },
    {
      "epoch": 0.50585,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014898994974874374,
      "loss": 2.0426,
      "step": 101170
    },
    {
      "epoch": 0.5059,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001489748743718593,
      "loss": 2.092,
      "step": 101180
    },
    {
      "epoch": 0.50595,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014895979899497488,
      "loss": 2.0797,
      "step": 101190
    },
    {
      "epoch": 0.506,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014894472361809046,
      "loss": 2.0956,
      "step": 101200
    },
    {
      "epoch": 0.50605,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014892964824120604,
      "loss": 2.1339,
      "step": 101210
    },
    {
      "epoch": 0.5061,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014891457286432162,
      "loss": 2.0684,
      "step": 101220
    },
    {
      "epoch": 0.50615,
      "grad_norm": 0.59375,
      "learning_rate": 0.001488994974874372,
      "loss": 2.1086,
      "step": 101230
    },
    {
      "epoch": 0.5062,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014888442211055276,
      "loss": 2.0587,
      "step": 101240
    },
    {
      "epoch": 0.50625,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014886934673366834,
      "loss": 2.0664,
      "step": 101250
    },
    {
      "epoch": 0.5063,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014885427135678392,
      "loss": 2.069,
      "step": 101260
    },
    {
      "epoch": 0.50635,
      "grad_norm": 0.640625,
      "learning_rate": 0.001488391959798995,
      "loss": 2.1294,
      "step": 101270
    },
    {
      "epoch": 0.5064,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014882412060301508,
      "loss": 2.0807,
      "step": 101280
    },
    {
      "epoch": 0.50645,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014880904522613066,
      "loss": 2.1054,
      "step": 101290
    },
    {
      "epoch": 0.5065,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014879396984924624,
      "loss": 2.0688,
      "step": 101300
    },
    {
      "epoch": 0.50655,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014877889447236182,
      "loss": 2.0678,
      "step": 101310
    },
    {
      "epoch": 0.5066,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014876381909547738,
      "loss": 2.1322,
      "step": 101320
    },
    {
      "epoch": 0.50665,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014874874371859296,
      "loss": 2.0584,
      "step": 101330
    },
    {
      "epoch": 0.5067,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0014873366834170854,
      "loss": 2.0878,
      "step": 101340
    },
    {
      "epoch": 0.50675,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014871859296482412,
      "loss": 2.1348,
      "step": 101350
    },
    {
      "epoch": 0.5068,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001487035175879397,
      "loss": 2.0798,
      "step": 101360
    },
    {
      "epoch": 0.50685,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014868844221105528,
      "loss": 2.1381,
      "step": 101370
    },
    {
      "epoch": 0.5069,
      "grad_norm": 0.625,
      "learning_rate": 0.0014867336683417086,
      "loss": 2.0578,
      "step": 101380
    },
    {
      "epoch": 0.50695,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0014865829145728645,
      "loss": 2.1392,
      "step": 101390
    },
    {
      "epoch": 0.507,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00148643216080402,
      "loss": 2.0951,
      "step": 101400
    },
    {
      "epoch": 0.50705,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0014862814070351759,
      "loss": 2.0645,
      "step": 101410
    },
    {
      "epoch": 0.5071,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014861306532663317,
      "loss": 2.0792,
      "step": 101420
    },
    {
      "epoch": 0.50715,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014859798994974875,
      "loss": 2.0558,
      "step": 101430
    },
    {
      "epoch": 0.5072,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014858291457286433,
      "loss": 2.1401,
      "step": 101440
    },
    {
      "epoch": 0.50725,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001485678391959799,
      "loss": 2.0852,
      "step": 101450
    },
    {
      "epoch": 0.5073,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0014855276381909549,
      "loss": 2.1816,
      "step": 101460
    },
    {
      "epoch": 0.50735,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014853768844221107,
      "loss": 2.0524,
      "step": 101470
    },
    {
      "epoch": 0.5074,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014852261306532663,
      "loss": 2.0895,
      "step": 101480
    },
    {
      "epoch": 0.50745,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001485075376884422,
      "loss": 2.1047,
      "step": 101490
    },
    {
      "epoch": 0.5075,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001484924623115578,
      "loss": 2.0737,
      "step": 101500
    },
    {
      "epoch": 0.50755,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014847738693467337,
      "loss": 2.1434,
      "step": 101510
    },
    {
      "epoch": 0.5076,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014846231155778895,
      "loss": 2.0739,
      "step": 101520
    },
    {
      "epoch": 0.50765,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014844723618090453,
      "loss": 2.1267,
      "step": 101530
    },
    {
      "epoch": 0.5077,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014843216080402011,
      "loss": 2.088,
      "step": 101540
    },
    {
      "epoch": 0.50775,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001484170854271357,
      "loss": 2.0929,
      "step": 101550
    },
    {
      "epoch": 0.5078,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014840201005025125,
      "loss": 2.0941,
      "step": 101560
    },
    {
      "epoch": 0.50785,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0014838693467336683,
      "loss": 2.1026,
      "step": 101570
    },
    {
      "epoch": 0.5079,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014837185929648241,
      "loss": 2.149,
      "step": 101580
    },
    {
      "epoch": 0.50795,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00148356783919598,
      "loss": 2.0411,
      "step": 101590
    },
    {
      "epoch": 0.508,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014834170854271357,
      "loss": 2.057,
      "step": 101600
    },
    {
      "epoch": 0.50805,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014832663316582916,
      "loss": 2.0222,
      "step": 101610
    },
    {
      "epoch": 0.5081,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014831155778894474,
      "loss": 2.1678,
      "step": 101620
    },
    {
      "epoch": 0.50815,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014829648241206032,
      "loss": 2.0695,
      "step": 101630
    },
    {
      "epoch": 0.5082,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014828140703517588,
      "loss": 2.0842,
      "step": 101640
    },
    {
      "epoch": 0.50825,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0014826633165829146,
      "loss": 2.0673,
      "step": 101650
    },
    {
      "epoch": 0.5083,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014825125628140704,
      "loss": 2.103,
      "step": 101660
    },
    {
      "epoch": 0.50835,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014823618090452262,
      "loss": 2.1284,
      "step": 101670
    },
    {
      "epoch": 0.5084,
      "grad_norm": 0.546875,
      "learning_rate": 0.001482211055276382,
      "loss": 2.0781,
      "step": 101680
    },
    {
      "epoch": 0.50845,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014820603015075376,
      "loss": 2.1317,
      "step": 101690
    },
    {
      "epoch": 0.5085,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014819095477386936,
      "loss": 2.1406,
      "step": 101700
    },
    {
      "epoch": 0.50855,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014817587939698492,
      "loss": 2.0671,
      "step": 101710
    },
    {
      "epoch": 0.5086,
      "grad_norm": 0.609375,
      "learning_rate": 0.001481608040201005,
      "loss": 2.0769,
      "step": 101720
    },
    {
      "epoch": 0.50865,
      "grad_norm": 0.671875,
      "learning_rate": 0.0014814572864321608,
      "loss": 2.0761,
      "step": 101730
    },
    {
      "epoch": 0.5087,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014813065326633166,
      "loss": 2.1011,
      "step": 101740
    },
    {
      "epoch": 0.50875,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014811557788944724,
      "loss": 2.1002,
      "step": 101750
    },
    {
      "epoch": 0.5088,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0014810050251256282,
      "loss": 2.0824,
      "step": 101760
    },
    {
      "epoch": 0.50885,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014808542713567838,
      "loss": 2.0556,
      "step": 101770
    },
    {
      "epoch": 0.5089,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014807035175879398,
      "loss": 2.1036,
      "step": 101780
    },
    {
      "epoch": 0.50895,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014805527638190954,
      "loss": 2.0753,
      "step": 101790
    },
    {
      "epoch": 0.509,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014804020100502512,
      "loss": 2.0301,
      "step": 101800
    },
    {
      "epoch": 0.50905,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001480251256281407,
      "loss": 2.1005,
      "step": 101810
    },
    {
      "epoch": 0.5091,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014801005025125628,
      "loss": 2.0823,
      "step": 101820
    },
    {
      "epoch": 0.50915,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014799497487437187,
      "loss": 2.1387,
      "step": 101830
    },
    {
      "epoch": 0.5092,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014797989949748745,
      "loss": 2.0692,
      "step": 101840
    },
    {
      "epoch": 0.50925,
      "grad_norm": 0.625,
      "learning_rate": 0.00147964824120603,
      "loss": 2.1375,
      "step": 101850
    },
    {
      "epoch": 0.5093,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001479497487437186,
      "loss": 2.0741,
      "step": 101860
    },
    {
      "epoch": 0.50935,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014793467336683417,
      "loss": 2.1021,
      "step": 101870
    },
    {
      "epoch": 0.5094,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014791959798994975,
      "loss": 2.1713,
      "step": 101880
    },
    {
      "epoch": 0.50945,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014790452261306533,
      "loss": 2.094,
      "step": 101890
    },
    {
      "epoch": 0.5095,
      "grad_norm": 0.578125,
      "learning_rate": 0.001478894472361809,
      "loss": 2.1166,
      "step": 101900
    },
    {
      "epoch": 0.50955,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014787437185929649,
      "loss": 2.0834,
      "step": 101910
    },
    {
      "epoch": 0.5096,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014785929648241207,
      "loss": 2.1074,
      "step": 101920
    },
    {
      "epoch": 0.50965,
      "grad_norm": 0.75,
      "learning_rate": 0.0014784422110552763,
      "loss": 2.102,
      "step": 101930
    },
    {
      "epoch": 0.5097,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014782914572864323,
      "loss": 2.1258,
      "step": 101940
    },
    {
      "epoch": 0.50975,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001478140703517588,
      "loss": 2.0857,
      "step": 101950
    },
    {
      "epoch": 0.5098,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014779899497487437,
      "loss": 2.0867,
      "step": 101960
    },
    {
      "epoch": 0.50985,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014778391959798995,
      "loss": 2.1349,
      "step": 101970
    },
    {
      "epoch": 0.5099,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014776884422110553,
      "loss": 2.1043,
      "step": 101980
    },
    {
      "epoch": 0.50995,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014775376884422111,
      "loss": 2.1528,
      "step": 101990
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001477386934673367,
      "loss": 2.0512,
      "step": 102000
    },
    {
      "epoch": 0.51,
      "eval_loss": 2.0922532081604004,
      "eval_runtime": 48.8593,
      "eval_samples_per_second": 51.167,
      "eval_steps_per_second": 0.102,
      "step": 102000
    },
    {
      "epoch": 0.51005,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014772361809045225,
      "loss": 2.0874,
      "step": 102010
    },
    {
      "epoch": 0.5101,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014770854271356785,
      "loss": 2.1077,
      "step": 102020
    },
    {
      "epoch": 0.51015,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014769346733668341,
      "loss": 2.0533,
      "step": 102030
    },
    {
      "epoch": 0.5102,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00147678391959799,
      "loss": 2.1105,
      "step": 102040
    },
    {
      "epoch": 0.51025,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014766331658291458,
      "loss": 2.0646,
      "step": 102050
    },
    {
      "epoch": 0.5103,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014764824120603016,
      "loss": 2.1082,
      "step": 102060
    },
    {
      "epoch": 0.51035,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014763316582914574,
      "loss": 2.1075,
      "step": 102070
    },
    {
      "epoch": 0.5104,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014761809045226132,
      "loss": 2.14,
      "step": 102080
    },
    {
      "epoch": 0.51045,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014760301507537688,
      "loss": 2.0612,
      "step": 102090
    },
    {
      "epoch": 0.5105,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014758793969849248,
      "loss": 2.0892,
      "step": 102100
    },
    {
      "epoch": 0.51055,
      "grad_norm": 0.6875,
      "learning_rate": 0.0014757286432160804,
      "loss": 2.112,
      "step": 102110
    },
    {
      "epoch": 0.5106,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014755778894472362,
      "loss": 2.1196,
      "step": 102120
    },
    {
      "epoch": 0.51065,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001475427135678392,
      "loss": 2.1054,
      "step": 102130
    },
    {
      "epoch": 0.5107,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0014752763819095478,
      "loss": 2.0921,
      "step": 102140
    },
    {
      "epoch": 0.51075,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014751256281407036,
      "loss": 2.1074,
      "step": 102150
    },
    {
      "epoch": 0.5108,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014749748743718594,
      "loss": 2.0607,
      "step": 102160
    },
    {
      "epoch": 0.51085,
      "grad_norm": 0.5625,
      "learning_rate": 0.001474824120603015,
      "loss": 2.1336,
      "step": 102170
    },
    {
      "epoch": 0.5109,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014746733668341708,
      "loss": 2.1093,
      "step": 102180
    },
    {
      "epoch": 0.51095,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014745226130653266,
      "loss": 2.0998,
      "step": 102190
    },
    {
      "epoch": 0.511,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014743718592964824,
      "loss": 2.0695,
      "step": 102200
    },
    {
      "epoch": 0.51105,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014742211055276382,
      "loss": 2.0548,
      "step": 102210
    },
    {
      "epoch": 0.5111,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001474070351758794,
      "loss": 2.1076,
      "step": 102220
    },
    {
      "epoch": 0.51115,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014739195979899498,
      "loss": 2.061,
      "step": 102230
    },
    {
      "epoch": 0.5112,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014737688442211056,
      "loss": 2.1084,
      "step": 102240
    },
    {
      "epoch": 0.51125,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014736180904522612,
      "loss": 2.0726,
      "step": 102250
    },
    {
      "epoch": 0.5113,
      "grad_norm": 0.5625,
      "learning_rate": 0.001473467336683417,
      "loss": 2.1286,
      "step": 102260
    },
    {
      "epoch": 0.51135,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014733165829145729,
      "loss": 2.1336,
      "step": 102270
    },
    {
      "epoch": 0.5114,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0014731658291457287,
      "loss": 2.1521,
      "step": 102280
    },
    {
      "epoch": 0.51145,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014730150753768845,
      "loss": 2.0605,
      "step": 102290
    },
    {
      "epoch": 0.5115,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014728643216080403,
      "loss": 2.1024,
      "step": 102300
    },
    {
      "epoch": 0.51155,
      "grad_norm": 0.6875,
      "learning_rate": 0.001472713567839196,
      "loss": 2.0985,
      "step": 102310
    },
    {
      "epoch": 0.5116,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0014725628140703519,
      "loss": 2.086,
      "step": 102320
    },
    {
      "epoch": 0.51165,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014724120603015075,
      "loss": 2.087,
      "step": 102330
    },
    {
      "epoch": 0.5117,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014722613065326633,
      "loss": 2.0567,
      "step": 102340
    },
    {
      "epoch": 0.51175,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001472110552763819,
      "loss": 2.0888,
      "step": 102350
    },
    {
      "epoch": 0.5118,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001471959798994975,
      "loss": 2.0692,
      "step": 102360
    },
    {
      "epoch": 0.51185,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014718090452261307,
      "loss": 2.1196,
      "step": 102370
    },
    {
      "epoch": 0.5119,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014716582914572865,
      "loss": 2.119,
      "step": 102380
    },
    {
      "epoch": 0.51195,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014715075376884423,
      "loss": 2.1049,
      "step": 102390
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014713567839195981,
      "loss": 2.1021,
      "step": 102400
    },
    {
      "epoch": 0.51205,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014712060301507537,
      "loss": 2.0969,
      "step": 102410
    },
    {
      "epoch": 0.5121,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014710552763819095,
      "loss": 2.0976,
      "step": 102420
    },
    {
      "epoch": 0.51215,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014709045226130653,
      "loss": 2.0504,
      "step": 102430
    },
    {
      "epoch": 0.5122,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014707537688442211,
      "loss": 2.0798,
      "step": 102440
    },
    {
      "epoch": 0.51225,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001470603015075377,
      "loss": 2.0638,
      "step": 102450
    },
    {
      "epoch": 0.5123,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0014704522613065327,
      "loss": 2.1221,
      "step": 102460
    },
    {
      "epoch": 0.51235,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014703015075376886,
      "loss": 2.1302,
      "step": 102470
    },
    {
      "epoch": 0.5124,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0014701507537688444,
      "loss": 2.1075,
      "step": 102480
    },
    {
      "epoch": 0.51245,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00147,
      "loss": 2.1387,
      "step": 102490
    },
    {
      "epoch": 0.5125,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014698492462311558,
      "loss": 2.0512,
      "step": 102500
    },
    {
      "epoch": 0.51255,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014696984924623116,
      "loss": 2.1312,
      "step": 102510
    },
    {
      "epoch": 0.5126,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014695477386934674,
      "loss": 2.0251,
      "step": 102520
    },
    {
      "epoch": 0.51265,
      "grad_norm": 0.625,
      "learning_rate": 0.0014693969849246232,
      "loss": 2.1005,
      "step": 102530
    },
    {
      "epoch": 0.5127,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001469246231155779,
      "loss": 2.0663,
      "step": 102540
    },
    {
      "epoch": 0.51275,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014690954773869348,
      "loss": 2.1111,
      "step": 102550
    },
    {
      "epoch": 0.5128,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014689447236180906,
      "loss": 2.0644,
      "step": 102560
    },
    {
      "epoch": 0.51285,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014687939698492462,
      "loss": 2.109,
      "step": 102570
    },
    {
      "epoch": 0.5129,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001468643216080402,
      "loss": 2.0754,
      "step": 102580
    },
    {
      "epoch": 0.51295,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014684924623115578,
      "loss": 2.0372,
      "step": 102590
    },
    {
      "epoch": 0.513,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014683417085427136,
      "loss": 2.1028,
      "step": 102600
    },
    {
      "epoch": 0.51305,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014681909547738694,
      "loss": 2.0461,
      "step": 102610
    },
    {
      "epoch": 0.5131,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001468040201005025,
      "loss": 2.0874,
      "step": 102620
    },
    {
      "epoch": 0.51315,
      "grad_norm": 0.7421875,
      "learning_rate": 0.001467889447236181,
      "loss": 2.0842,
      "step": 102630
    },
    {
      "epoch": 0.5132,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014677386934673368,
      "loss": 2.1133,
      "step": 102640
    },
    {
      "epoch": 0.51325,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0014675879396984924,
      "loss": 2.0564,
      "step": 102650
    },
    {
      "epoch": 0.5133,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0014674371859296482,
      "loss": 2.1004,
      "step": 102660
    },
    {
      "epoch": 0.51335,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001467286432160804,
      "loss": 2.0709,
      "step": 102670
    },
    {
      "epoch": 0.5134,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0014671356783919598,
      "loss": 2.0623,
      "step": 102680
    },
    {
      "epoch": 0.51345,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014669849246231157,
      "loss": 2.0963,
      "step": 102690
    },
    {
      "epoch": 0.5135,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0014668341708542712,
      "loss": 2.084,
      "step": 102700
    },
    {
      "epoch": 0.51355,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014666834170854273,
      "loss": 2.1266,
      "step": 102710
    },
    {
      "epoch": 0.5136,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001466532663316583,
      "loss": 2.0682,
      "step": 102720
    },
    {
      "epoch": 0.51365,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014663819095477387,
      "loss": 2.0944,
      "step": 102730
    },
    {
      "epoch": 0.5137,
      "grad_norm": 0.53125,
      "learning_rate": 0.0014662311557788945,
      "loss": 2.0725,
      "step": 102740
    },
    {
      "epoch": 0.51375,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014660804020100503,
      "loss": 2.0812,
      "step": 102750
    },
    {
      "epoch": 0.5138,
      "grad_norm": 0.640625,
      "learning_rate": 0.001465929648241206,
      "loss": 2.0453,
      "step": 102760
    },
    {
      "epoch": 0.51385,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001465778894472362,
      "loss": 2.1225,
      "step": 102770
    },
    {
      "epoch": 0.5139,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014656281407035175,
      "loss": 2.0964,
      "step": 102780
    },
    {
      "epoch": 0.51395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014654773869346735,
      "loss": 2.0948,
      "step": 102790
    },
    {
      "epoch": 0.514,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014653266331658293,
      "loss": 2.1541,
      "step": 102800
    },
    {
      "epoch": 0.51405,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001465175879396985,
      "loss": 2.0764,
      "step": 102810
    },
    {
      "epoch": 0.5141,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014650251256281407,
      "loss": 2.1748,
      "step": 102820
    },
    {
      "epoch": 0.51415,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014648743718592965,
      "loss": 2.1054,
      "step": 102830
    },
    {
      "epoch": 0.5142,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014647236180904523,
      "loss": 2.0853,
      "step": 102840
    },
    {
      "epoch": 0.51425,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014645728643216081,
      "loss": 2.1322,
      "step": 102850
    },
    {
      "epoch": 0.5143,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014644221105527637,
      "loss": 2.1235,
      "step": 102860
    },
    {
      "epoch": 0.51435,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014642713567839197,
      "loss": 2.0832,
      "step": 102870
    },
    {
      "epoch": 0.5144,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014641206030150753,
      "loss": 2.0861,
      "step": 102880
    },
    {
      "epoch": 0.51445,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014639698492462311,
      "loss": 2.0871,
      "step": 102890
    },
    {
      "epoch": 0.5145,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001463819095477387,
      "loss": 2.0732,
      "step": 102900
    },
    {
      "epoch": 0.51455,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014636683417085428,
      "loss": 2.0648,
      "step": 102910
    },
    {
      "epoch": 0.5146,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014635175879396986,
      "loss": 2.0663,
      "step": 102920
    },
    {
      "epoch": 0.51465,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014633668341708544,
      "loss": 2.0886,
      "step": 102930
    },
    {
      "epoch": 0.5147,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00146321608040201,
      "loss": 2.0517,
      "step": 102940
    },
    {
      "epoch": 0.51475,
      "grad_norm": 0.625,
      "learning_rate": 0.001463065326633166,
      "loss": 2.0766,
      "step": 102950
    },
    {
      "epoch": 0.5148,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014629145728643216,
      "loss": 2.0879,
      "step": 102960
    },
    {
      "epoch": 0.51485,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014627638190954774,
      "loss": 2.0276,
      "step": 102970
    },
    {
      "epoch": 0.5149,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014626130653266332,
      "loss": 2.1105,
      "step": 102980
    },
    {
      "epoch": 0.51495,
      "grad_norm": 0.546875,
      "learning_rate": 0.001462462311557789,
      "loss": 2.0837,
      "step": 102990
    },
    {
      "epoch": 0.515,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014623115577889448,
      "loss": 2.0749,
      "step": 103000
    },
    {
      "epoch": 0.51505,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0014621608040201006,
      "loss": 2.1263,
      "step": 103010
    },
    {
      "epoch": 0.5151,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014620100502512562,
      "loss": 2.1134,
      "step": 103020
    },
    {
      "epoch": 0.51515,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014618592964824122,
      "loss": 2.0993,
      "step": 103030
    },
    {
      "epoch": 0.5152,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014617085427135678,
      "loss": 2.0824,
      "step": 103040
    },
    {
      "epoch": 0.51525,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0014615577889447236,
      "loss": 2.096,
      "step": 103050
    },
    {
      "epoch": 0.5153,
      "grad_norm": 0.6875,
      "learning_rate": 0.0014614070351758794,
      "loss": 2.1338,
      "step": 103060
    },
    {
      "epoch": 0.51535,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014612562814070352,
      "loss": 2.096,
      "step": 103070
    },
    {
      "epoch": 0.5154,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001461105527638191,
      "loss": 2.097,
      "step": 103080
    },
    {
      "epoch": 0.51545,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014609547738693468,
      "loss": 2.1335,
      "step": 103090
    },
    {
      "epoch": 0.5155,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014608040201005024,
      "loss": 2.0637,
      "step": 103100
    },
    {
      "epoch": 0.51555,
      "grad_norm": 0.625,
      "learning_rate": 0.0014606532663316582,
      "loss": 2.1099,
      "step": 103110
    },
    {
      "epoch": 0.5156,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001460502512562814,
      "loss": 2.1005,
      "step": 103120
    },
    {
      "epoch": 0.51565,
      "grad_norm": 0.53125,
      "learning_rate": 0.0014603517587939699,
      "loss": 2.1256,
      "step": 103130
    },
    {
      "epoch": 0.5157,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014602010050251257,
      "loss": 2.0631,
      "step": 103140
    },
    {
      "epoch": 0.51575,
      "grad_norm": 0.625,
      "learning_rate": 0.0014600502512562815,
      "loss": 2.1244,
      "step": 103150
    },
    {
      "epoch": 0.5158,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014598994974874373,
      "loss": 2.0755,
      "step": 103160
    },
    {
      "epoch": 0.51585,
      "grad_norm": 0.640625,
      "learning_rate": 0.001459748743718593,
      "loss": 2.1197,
      "step": 103170
    },
    {
      "epoch": 0.5159,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0014595979899497487,
      "loss": 2.0895,
      "step": 103180
    },
    {
      "epoch": 0.51595,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014594472361809045,
      "loss": 2.0999,
      "step": 103190
    },
    {
      "epoch": 0.516,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014592964824120603,
      "loss": 2.1365,
      "step": 103200
    },
    {
      "epoch": 0.51605,
      "grad_norm": 0.609375,
      "learning_rate": 0.001459145728643216,
      "loss": 2.0586,
      "step": 103210
    },
    {
      "epoch": 0.5161,
      "grad_norm": 0.59375,
      "learning_rate": 0.001458994974874372,
      "loss": 2.1202,
      "step": 103220
    },
    {
      "epoch": 0.51615,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0014588442211055277,
      "loss": 2.0346,
      "step": 103230
    },
    {
      "epoch": 0.5162,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014586934673366835,
      "loss": 2.122,
      "step": 103240
    },
    {
      "epoch": 0.51625,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014585427135678393,
      "loss": 2.0908,
      "step": 103250
    },
    {
      "epoch": 0.5163,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001458391959798995,
      "loss": 2.0827,
      "step": 103260
    },
    {
      "epoch": 0.51635,
      "grad_norm": 0.6875,
      "learning_rate": 0.0014582412060301507,
      "loss": 2.0555,
      "step": 103270
    },
    {
      "epoch": 0.5164,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014580904522613065,
      "loss": 2.1266,
      "step": 103280
    },
    {
      "epoch": 0.51645,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0014579396984924623,
      "loss": 2.1595,
      "step": 103290
    },
    {
      "epoch": 0.5165,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014577889447236181,
      "loss": 2.1004,
      "step": 103300
    },
    {
      "epoch": 0.51655,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001457638190954774,
      "loss": 2.1405,
      "step": 103310
    },
    {
      "epoch": 0.5166,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014574874371859298,
      "loss": 2.0989,
      "step": 103320
    },
    {
      "epoch": 0.51665,
      "grad_norm": 0.5,
      "learning_rate": 0.0014573366834170856,
      "loss": 2.1462,
      "step": 103330
    },
    {
      "epoch": 0.5167,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0014571859296482411,
      "loss": 2.0816,
      "step": 103340
    },
    {
      "epoch": 0.51675,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001457035175879397,
      "loss": 2.119,
      "step": 103350
    },
    {
      "epoch": 0.5168,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014568844221105528,
      "loss": 2.0994,
      "step": 103360
    },
    {
      "epoch": 0.51685,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014567336683417086,
      "loss": 2.1094,
      "step": 103370
    },
    {
      "epoch": 0.5169,
      "grad_norm": 0.671875,
      "learning_rate": 0.0014565829145728644,
      "loss": 2.104,
      "step": 103380
    },
    {
      "epoch": 0.51695,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014564321608040202,
      "loss": 2.1137,
      "step": 103390
    },
    {
      "epoch": 0.517,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001456281407035176,
      "loss": 2.0693,
      "step": 103400
    },
    {
      "epoch": 0.51705,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014561306532663318,
      "loss": 2.1045,
      "step": 103410
    },
    {
      "epoch": 0.5171,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014559798994974874,
      "loss": 2.0959,
      "step": 103420
    },
    {
      "epoch": 0.51715,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014558291457286432,
      "loss": 2.056,
      "step": 103430
    },
    {
      "epoch": 0.5172,
      "grad_norm": 0.703125,
      "learning_rate": 0.001455678391959799,
      "loss": 2.1509,
      "step": 103440
    },
    {
      "epoch": 0.51725,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014555276381909548,
      "loss": 2.051,
      "step": 103450
    },
    {
      "epoch": 0.5173,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014553768844221106,
      "loss": 2.1159,
      "step": 103460
    },
    {
      "epoch": 0.51735,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014552261306532662,
      "loss": 2.0741,
      "step": 103470
    },
    {
      "epoch": 0.5174,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0014550753768844222,
      "loss": 2.1355,
      "step": 103480
    },
    {
      "epoch": 0.51745,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001454924623115578,
      "loss": 2.0665,
      "step": 103490
    },
    {
      "epoch": 0.5175,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014547738693467336,
      "loss": 2.1499,
      "step": 103500
    },
    {
      "epoch": 0.51755,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0014546231155778894,
      "loss": 2.0648,
      "step": 103510
    },
    {
      "epoch": 0.5176,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014544723618090452,
      "loss": 2.1164,
      "step": 103520
    },
    {
      "epoch": 0.51765,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001454321608040201,
      "loss": 2.0683,
      "step": 103530
    },
    {
      "epoch": 0.5177,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014541708542713569,
      "loss": 2.1178,
      "step": 103540
    },
    {
      "epoch": 0.51775,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014540201005025124,
      "loss": 2.0767,
      "step": 103550
    },
    {
      "epoch": 0.5178,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014538693467336685,
      "loss": 2.1162,
      "step": 103560
    },
    {
      "epoch": 0.51785,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014537185929648243,
      "loss": 2.1131,
      "step": 103570
    },
    {
      "epoch": 0.5179,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014535678391959799,
      "loss": 2.0826,
      "step": 103580
    },
    {
      "epoch": 0.51795,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014534170854271357,
      "loss": 2.0963,
      "step": 103590
    },
    {
      "epoch": 0.518,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0014532663316582915,
      "loss": 2.0399,
      "step": 103600
    },
    {
      "epoch": 0.51805,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014531155778894473,
      "loss": 2.1504,
      "step": 103610
    },
    {
      "epoch": 0.5181,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001452964824120603,
      "loss": 2.0763,
      "step": 103620
    },
    {
      "epoch": 0.51815,
      "grad_norm": 0.625,
      "learning_rate": 0.0014528140703517587,
      "loss": 2.0666,
      "step": 103630
    },
    {
      "epoch": 0.5182,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014526633165829147,
      "loss": 2.0818,
      "step": 103640
    },
    {
      "epoch": 0.51825,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014525125628140705,
      "loss": 2.1545,
      "step": 103650
    },
    {
      "epoch": 0.5183,
      "grad_norm": 0.73828125,
      "learning_rate": 0.001452361809045226,
      "loss": 2.1258,
      "step": 103660
    },
    {
      "epoch": 0.51835,
      "grad_norm": 0.640625,
      "learning_rate": 0.001452211055276382,
      "loss": 2.0905,
      "step": 103670
    },
    {
      "epoch": 0.5184,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0014520603015075377,
      "loss": 2.0831,
      "step": 103680
    },
    {
      "epoch": 0.51845,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014519095477386935,
      "loss": 2.0932,
      "step": 103690
    },
    {
      "epoch": 0.5185,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014517587939698493,
      "loss": 2.153,
      "step": 103700
    },
    {
      "epoch": 0.51855,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001451608040201005,
      "loss": 2.0624,
      "step": 103710
    },
    {
      "epoch": 0.5186,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001451457286432161,
      "loss": 2.1668,
      "step": 103720
    },
    {
      "epoch": 0.51865,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0014513065326633167,
      "loss": 2.0462,
      "step": 103730
    },
    {
      "epoch": 0.5187,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0014511557788944723,
      "loss": 2.1201,
      "step": 103740
    },
    {
      "epoch": 0.51875,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014510050251256281,
      "loss": 2.0899,
      "step": 103750
    },
    {
      "epoch": 0.5188,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001450854271356784,
      "loss": 2.1517,
      "step": 103760
    },
    {
      "epoch": 0.51885,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0014507035175879398,
      "loss": 2.0815,
      "step": 103770
    },
    {
      "epoch": 0.5189,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014505527638190956,
      "loss": 2.1155,
      "step": 103780
    },
    {
      "epoch": 0.51895,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014504020100502512,
      "loss": 2.0811,
      "step": 103790
    },
    {
      "epoch": 0.519,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014502512562814072,
      "loss": 2.0541,
      "step": 103800
    },
    {
      "epoch": 0.51905,
      "grad_norm": 0.578125,
      "learning_rate": 0.001450100502512563,
      "loss": 2.0614,
      "step": 103810
    },
    {
      "epoch": 0.5191,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014499497487437186,
      "loss": 2.1258,
      "step": 103820
    },
    {
      "epoch": 0.51915,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014497989949748744,
      "loss": 2.0994,
      "step": 103830
    },
    {
      "epoch": 0.5192,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014496482412060302,
      "loss": 2.0615,
      "step": 103840
    },
    {
      "epoch": 0.51925,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001449497487437186,
      "loss": 2.1304,
      "step": 103850
    },
    {
      "epoch": 0.5193,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0014493467336683418,
      "loss": 2.0906,
      "step": 103860
    },
    {
      "epoch": 0.51935,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014491959798994974,
      "loss": 2.1659,
      "step": 103870
    },
    {
      "epoch": 0.5194,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014490452261306534,
      "loss": 2.0797,
      "step": 103880
    },
    {
      "epoch": 0.51945,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014488944723618092,
      "loss": 2.0612,
      "step": 103890
    },
    {
      "epoch": 0.5195,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014487437185929648,
      "loss": 2.0758,
      "step": 103900
    },
    {
      "epoch": 0.51955,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014485929648241206,
      "loss": 2.1214,
      "step": 103910
    },
    {
      "epoch": 0.5196,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014484422110552764,
      "loss": 2.054,
      "step": 103920
    },
    {
      "epoch": 0.51965,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014482914572864322,
      "loss": 2.1036,
      "step": 103930
    },
    {
      "epoch": 0.5197,
      "grad_norm": 0.5234375,
      "learning_rate": 0.001448140703517588,
      "loss": 2.0658,
      "step": 103940
    },
    {
      "epoch": 0.51975,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014479899497487436,
      "loss": 2.078,
      "step": 103950
    },
    {
      "epoch": 0.5198,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014478391959798997,
      "loss": 2.0838,
      "step": 103960
    },
    {
      "epoch": 0.51985,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014476884422110555,
      "loss": 2.0711,
      "step": 103970
    },
    {
      "epoch": 0.5199,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001447537688442211,
      "loss": 2.1327,
      "step": 103980
    },
    {
      "epoch": 0.51995,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014473869346733669,
      "loss": 2.0958,
      "step": 103990
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0014472361809045227,
      "loss": 2.1722,
      "step": 104000
    },
    {
      "epoch": 0.52,
      "eval_loss": 2.0838685035705566,
      "eval_runtime": 49.6466,
      "eval_samples_per_second": 50.356,
      "eval_steps_per_second": 0.101,
      "step": 104000
    },
    {
      "epoch": 0.52005,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0014470854271356785,
      "loss": 2.1057,
      "step": 104010
    },
    {
      "epoch": 0.5201,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014469346733668343,
      "loss": 2.1425,
      "step": 104020
    },
    {
      "epoch": 0.52015,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014467839195979899,
      "loss": 2.1043,
      "step": 104030
    },
    {
      "epoch": 0.5202,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014466331658291457,
      "loss": 2.1334,
      "step": 104040
    },
    {
      "epoch": 0.52025,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014464824120603015,
      "loss": 2.0227,
      "step": 104050
    },
    {
      "epoch": 0.5203,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0014463316582914573,
      "loss": 2.1054,
      "step": 104060
    },
    {
      "epoch": 0.52035,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001446180904522613,
      "loss": 2.1071,
      "step": 104070
    },
    {
      "epoch": 0.5204,
      "grad_norm": 0.578125,
      "learning_rate": 0.001446030150753769,
      "loss": 2.1158,
      "step": 104080
    },
    {
      "epoch": 0.52045,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0014458793969849247,
      "loss": 2.071,
      "step": 104090
    },
    {
      "epoch": 0.5205,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014457286432160805,
      "loss": 2.0941,
      "step": 104100
    },
    {
      "epoch": 0.52055,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001445577889447236,
      "loss": 2.1076,
      "step": 104110
    },
    {
      "epoch": 0.5206,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001445427135678392,
      "loss": 2.1051,
      "step": 104120
    },
    {
      "epoch": 0.52065,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014452763819095477,
      "loss": 2.1027,
      "step": 104130
    },
    {
      "epoch": 0.5207,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014451256281407035,
      "loss": 2.0588,
      "step": 104140
    },
    {
      "epoch": 0.52075,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014449748743718593,
      "loss": 2.065,
      "step": 104150
    },
    {
      "epoch": 0.5208,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014448241206030151,
      "loss": 2.0605,
      "step": 104160
    },
    {
      "epoch": 0.52085,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001444673366834171,
      "loss": 2.1403,
      "step": 104170
    },
    {
      "epoch": 0.5209,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014445226130653268,
      "loss": 2.0798,
      "step": 104180
    },
    {
      "epoch": 0.52095,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014443718592964823,
      "loss": 2.1341,
      "step": 104190
    },
    {
      "epoch": 0.521,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014442211055276381,
      "loss": 2.1204,
      "step": 104200
    },
    {
      "epoch": 0.52105,
      "grad_norm": 0.59375,
      "learning_rate": 0.001444070351758794,
      "loss": 2.1204,
      "step": 104210
    },
    {
      "epoch": 0.5211,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014439195979899498,
      "loss": 2.0704,
      "step": 104220
    },
    {
      "epoch": 0.52115,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0014437688442211056,
      "loss": 2.1066,
      "step": 104230
    },
    {
      "epoch": 0.5212,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014436180904522614,
      "loss": 2.1317,
      "step": 104240
    },
    {
      "epoch": 0.52125,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014434673366834172,
      "loss": 2.1062,
      "step": 104250
    },
    {
      "epoch": 0.5213,
      "grad_norm": 0.578125,
      "learning_rate": 0.001443316582914573,
      "loss": 2.0738,
      "step": 104260
    },
    {
      "epoch": 0.52135,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014431658291457286,
      "loss": 2.0743,
      "step": 104270
    },
    {
      "epoch": 0.5214,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014430150753768844,
      "loss": 2.0864,
      "step": 104280
    },
    {
      "epoch": 0.52145,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014428643216080402,
      "loss": 2.1026,
      "step": 104290
    },
    {
      "epoch": 0.5215,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001442713567839196,
      "loss": 2.0853,
      "step": 104300
    },
    {
      "epoch": 0.52155,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0014425628140703518,
      "loss": 2.0485,
      "step": 104310
    },
    {
      "epoch": 0.5216,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0014424120603015076,
      "loss": 2.1239,
      "step": 104320
    },
    {
      "epoch": 0.52165,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014422613065326634,
      "loss": 2.0639,
      "step": 104330
    },
    {
      "epoch": 0.5217,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014421105527638192,
      "loss": 2.1105,
      "step": 104340
    },
    {
      "epoch": 0.52175,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0014419597989949748,
      "loss": 2.0459,
      "step": 104350
    },
    {
      "epoch": 0.5218,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014418090452261306,
      "loss": 2.0423,
      "step": 104360
    },
    {
      "epoch": 0.52185,
      "grad_norm": 0.703125,
      "learning_rate": 0.0014416582914572864,
      "loss": 2.0388,
      "step": 104370
    },
    {
      "epoch": 0.5219,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0014415075376884422,
      "loss": 2.1178,
      "step": 104380
    },
    {
      "epoch": 0.52195,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001441356783919598,
      "loss": 2.115,
      "step": 104390
    },
    {
      "epoch": 0.522,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014412060301507536,
      "loss": 2.1291,
      "step": 104400
    },
    {
      "epoch": 0.52205,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014410552763819097,
      "loss": 2.0657,
      "step": 104410
    },
    {
      "epoch": 0.5221,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014409045226130655,
      "loss": 2.1254,
      "step": 104420
    },
    {
      "epoch": 0.52215,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001440753768844221,
      "loss": 2.145,
      "step": 104430
    },
    {
      "epoch": 0.5222,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014406030150753769,
      "loss": 2.1168,
      "step": 104440
    },
    {
      "epoch": 0.52225,
      "grad_norm": 0.625,
      "learning_rate": 0.0014404522613065327,
      "loss": 2.1122,
      "step": 104450
    },
    {
      "epoch": 0.5223,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014403015075376885,
      "loss": 2.0388,
      "step": 104460
    },
    {
      "epoch": 0.52235,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014401507537688443,
      "loss": 2.0761,
      "step": 104470
    },
    {
      "epoch": 0.5224,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014399999999999999,
      "loss": 2.1047,
      "step": 104480
    },
    {
      "epoch": 0.52245,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001439849246231156,
      "loss": 2.0796,
      "step": 104490
    },
    {
      "epoch": 0.5225,
      "grad_norm": 0.625,
      "learning_rate": 0.0014396984924623117,
      "loss": 2.0771,
      "step": 104500
    },
    {
      "epoch": 0.52255,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0014395477386934673,
      "loss": 2.1264,
      "step": 104510
    },
    {
      "epoch": 0.5226,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001439396984924623,
      "loss": 2.0368,
      "step": 104520
    },
    {
      "epoch": 0.52265,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001439246231155779,
      "loss": 2.1189,
      "step": 104530
    },
    {
      "epoch": 0.5227,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014390954773869347,
      "loss": 2.051,
      "step": 104540
    },
    {
      "epoch": 0.52275,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014389447236180905,
      "loss": 2.1499,
      "step": 104550
    },
    {
      "epoch": 0.5228,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014387939698492461,
      "loss": 2.0854,
      "step": 104560
    },
    {
      "epoch": 0.52285,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014386432160804021,
      "loss": 2.0907,
      "step": 104570
    },
    {
      "epoch": 0.5229,
      "grad_norm": 0.59375,
      "learning_rate": 0.001438492462311558,
      "loss": 2.0925,
      "step": 104580
    },
    {
      "epoch": 0.52295,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0014383417085427135,
      "loss": 2.0977,
      "step": 104590
    },
    {
      "epoch": 0.523,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014381909547738693,
      "loss": 2.1074,
      "step": 104600
    },
    {
      "epoch": 0.52305,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014380402010050251,
      "loss": 2.0811,
      "step": 104610
    },
    {
      "epoch": 0.5231,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001437889447236181,
      "loss": 2.0695,
      "step": 104620
    },
    {
      "epoch": 0.52315,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014377386934673368,
      "loss": 2.1584,
      "step": 104630
    },
    {
      "epoch": 0.5232,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014375879396984923,
      "loss": 2.0755,
      "step": 104640
    },
    {
      "epoch": 0.52325,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014374371859296484,
      "loss": 2.0999,
      "step": 104650
    },
    {
      "epoch": 0.5233,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014372864321608042,
      "loss": 2.07,
      "step": 104660
    },
    {
      "epoch": 0.52335,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014371356783919598,
      "loss": 2.0992,
      "step": 104670
    },
    {
      "epoch": 0.5234,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0014369849246231156,
      "loss": 2.1238,
      "step": 104680
    },
    {
      "epoch": 0.52345,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014368341708542714,
      "loss": 2.0585,
      "step": 104690
    },
    {
      "epoch": 0.5235,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014366834170854272,
      "loss": 2.1374,
      "step": 104700
    },
    {
      "epoch": 0.52355,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001436532663316583,
      "loss": 2.0434,
      "step": 104710
    },
    {
      "epoch": 0.5236,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0014363819095477386,
      "loss": 2.1296,
      "step": 104720
    },
    {
      "epoch": 0.52365,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014362311557788946,
      "loss": 2.0932,
      "step": 104730
    },
    {
      "epoch": 0.5237,
      "grad_norm": 0.6875,
      "learning_rate": 0.0014360804020100504,
      "loss": 2.0899,
      "step": 104740
    },
    {
      "epoch": 0.52375,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001435929648241206,
      "loss": 2.0533,
      "step": 104750
    },
    {
      "epoch": 0.5238,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014357788944723618,
      "loss": 2.1328,
      "step": 104760
    },
    {
      "epoch": 0.52385,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014356281407035176,
      "loss": 2.0589,
      "step": 104770
    },
    {
      "epoch": 0.5239,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014354773869346734,
      "loss": 2.0644,
      "step": 104780
    },
    {
      "epoch": 0.52395,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014353266331658292,
      "loss": 2.096,
      "step": 104790
    },
    {
      "epoch": 0.524,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014351758793969848,
      "loss": 2.1253,
      "step": 104800
    },
    {
      "epoch": 0.52405,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014350251256281408,
      "loss": 2.0295,
      "step": 104810
    },
    {
      "epoch": 0.5241,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014348743718592967,
      "loss": 2.1047,
      "step": 104820
    },
    {
      "epoch": 0.52415,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014347236180904522,
      "loss": 2.1145,
      "step": 104830
    },
    {
      "epoch": 0.5242,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001434572864321608,
      "loss": 2.1381,
      "step": 104840
    },
    {
      "epoch": 0.52425,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014344221105527639,
      "loss": 2.0959,
      "step": 104850
    },
    {
      "epoch": 0.5243,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014342713567839197,
      "loss": 2.1038,
      "step": 104860
    },
    {
      "epoch": 0.52435,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014341206030150755,
      "loss": 2.1324,
      "step": 104870
    },
    {
      "epoch": 0.5244,
      "grad_norm": 0.68359375,
      "learning_rate": 0.001433969849246231,
      "loss": 2.0713,
      "step": 104880
    },
    {
      "epoch": 0.52445,
      "grad_norm": 0.609375,
      "learning_rate": 0.001433819095477387,
      "loss": 2.0818,
      "step": 104890
    },
    {
      "epoch": 0.5245,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001433668341708543,
      "loss": 2.0873,
      "step": 104900
    },
    {
      "epoch": 0.52455,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014335175879396985,
      "loss": 2.1698,
      "step": 104910
    },
    {
      "epoch": 0.5246,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014333668341708543,
      "loss": 2.0366,
      "step": 104920
    },
    {
      "epoch": 0.52465,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00143321608040201,
      "loss": 2.1152,
      "step": 104930
    },
    {
      "epoch": 0.5247,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001433065326633166,
      "loss": 2.0448,
      "step": 104940
    },
    {
      "epoch": 0.52475,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014329145728643217,
      "loss": 2.1328,
      "step": 104950
    },
    {
      "epoch": 0.5248,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014327638190954773,
      "loss": 2.0651,
      "step": 104960
    },
    {
      "epoch": 0.52485,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001432613065326633,
      "loss": 2.113,
      "step": 104970
    },
    {
      "epoch": 0.5249,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014324623115577891,
      "loss": 2.0871,
      "step": 104980
    },
    {
      "epoch": 0.52495,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014323115577889447,
      "loss": 2.1092,
      "step": 104990
    },
    {
      "epoch": 0.525,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014321608040201005,
      "loss": 2.069,
      "step": 105000
    },
    {
      "epoch": 0.52505,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014320100502512563,
      "loss": 2.1432,
      "step": 105010
    },
    {
      "epoch": 0.5251,
      "grad_norm": 0.625,
      "learning_rate": 0.0014318592964824121,
      "loss": 2.0863,
      "step": 105020
    },
    {
      "epoch": 0.52515,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001431708542713568,
      "loss": 2.0783,
      "step": 105030
    },
    {
      "epoch": 0.5252,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014315577889447235,
      "loss": 2.0386,
      "step": 105040
    },
    {
      "epoch": 0.52525,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014314070351758793,
      "loss": 2.1339,
      "step": 105050
    },
    {
      "epoch": 0.5253,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014312562814070354,
      "loss": 2.0968,
      "step": 105060
    },
    {
      "epoch": 0.52535,
      "grad_norm": 0.609375,
      "learning_rate": 0.001431105527638191,
      "loss": 2.1016,
      "step": 105070
    },
    {
      "epoch": 0.5254,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014309547738693468,
      "loss": 2.0879,
      "step": 105080
    },
    {
      "epoch": 0.52545,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014308040201005026,
      "loss": 2.0739,
      "step": 105090
    },
    {
      "epoch": 0.5255,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0014306532663316584,
      "loss": 2.0438,
      "step": 105100
    },
    {
      "epoch": 0.52555,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014305025125628142,
      "loss": 2.0935,
      "step": 105110
    },
    {
      "epoch": 0.5256,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014303517587939698,
      "loss": 2.0801,
      "step": 105120
    },
    {
      "epoch": 0.52565,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014302010050251256,
      "loss": 2.0944,
      "step": 105130
    },
    {
      "epoch": 0.5257,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014300502512562814,
      "loss": 2.1324,
      "step": 105140
    },
    {
      "epoch": 0.52575,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0014298994974874372,
      "loss": 2.1172,
      "step": 105150
    },
    {
      "epoch": 0.5258,
      "grad_norm": 0.5625,
      "learning_rate": 0.001429748743718593,
      "loss": 2.1246,
      "step": 105160
    },
    {
      "epoch": 0.52585,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0014295979899497488,
      "loss": 2.0802,
      "step": 105170
    },
    {
      "epoch": 0.5259,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014294472361809046,
      "loss": 2.1263,
      "step": 105180
    },
    {
      "epoch": 0.52595,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014292964824120604,
      "loss": 2.0603,
      "step": 105190
    },
    {
      "epoch": 0.526,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001429145728643216,
      "loss": 2.1035,
      "step": 105200
    },
    {
      "epoch": 0.52605,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014289949748743718,
      "loss": 2.1139,
      "step": 105210
    },
    {
      "epoch": 0.5261,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0014288442211055276,
      "loss": 2.1005,
      "step": 105220
    },
    {
      "epoch": 0.52615,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014286934673366834,
      "loss": 2.0299,
      "step": 105230
    },
    {
      "epoch": 0.5262,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014285427135678392,
      "loss": 2.1408,
      "step": 105240
    },
    {
      "epoch": 0.52625,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001428391959798995,
      "loss": 2.0818,
      "step": 105250
    },
    {
      "epoch": 0.5263,
      "grad_norm": 0.671875,
      "learning_rate": 0.0014282412060301509,
      "loss": 2.072,
      "step": 105260
    },
    {
      "epoch": 0.52635,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014280904522613067,
      "loss": 2.1087,
      "step": 105270
    },
    {
      "epoch": 0.5264,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014279396984924623,
      "loss": 2.1095,
      "step": 105280
    },
    {
      "epoch": 0.52645,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001427788944723618,
      "loss": 2.0856,
      "step": 105290
    },
    {
      "epoch": 0.5265,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0014276381909547739,
      "loss": 2.0978,
      "step": 105300
    },
    {
      "epoch": 0.52655,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014274874371859297,
      "loss": 2.0568,
      "step": 105310
    },
    {
      "epoch": 0.5266,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014273366834170855,
      "loss": 2.1071,
      "step": 105320
    },
    {
      "epoch": 0.52665,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001427185929648241,
      "loss": 2.089,
      "step": 105330
    },
    {
      "epoch": 0.5267,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001427035175879397,
      "loss": 2.0676,
      "step": 105340
    },
    {
      "epoch": 0.52675,
      "grad_norm": 0.52734375,
      "learning_rate": 0.001426884422110553,
      "loss": 2.1306,
      "step": 105350
    },
    {
      "epoch": 0.5268,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014267336683417085,
      "loss": 2.1019,
      "step": 105360
    },
    {
      "epoch": 0.52685,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014265829145728643,
      "loss": 2.1328,
      "step": 105370
    },
    {
      "epoch": 0.5269,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00142643216080402,
      "loss": 2.0439,
      "step": 105380
    },
    {
      "epoch": 0.52695,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001426281407035176,
      "loss": 2.0616,
      "step": 105390
    },
    {
      "epoch": 0.527,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014261306532663317,
      "loss": 2.0692,
      "step": 105400
    },
    {
      "epoch": 0.52705,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0014259798994974873,
      "loss": 2.0836,
      "step": 105410
    },
    {
      "epoch": 0.5271,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014258291457286433,
      "loss": 2.0802,
      "step": 105420
    },
    {
      "epoch": 0.52715,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014256783919597991,
      "loss": 2.1049,
      "step": 105430
    },
    {
      "epoch": 0.5272,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014255276381909547,
      "loss": 2.0796,
      "step": 105440
    },
    {
      "epoch": 0.52725,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014253768844221105,
      "loss": 2.1076,
      "step": 105450
    },
    {
      "epoch": 0.5273,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014252261306532663,
      "loss": 2.05,
      "step": 105460
    },
    {
      "epoch": 0.52735,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014250753768844221,
      "loss": 2.0833,
      "step": 105470
    },
    {
      "epoch": 0.5274,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001424924623115578,
      "loss": 2.0819,
      "step": 105480
    },
    {
      "epoch": 0.52745,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014247738693467335,
      "loss": 2.0755,
      "step": 105490
    },
    {
      "epoch": 0.5275,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014246231155778896,
      "loss": 2.0695,
      "step": 105500
    },
    {
      "epoch": 0.52755,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014244723618090454,
      "loss": 2.1126,
      "step": 105510
    },
    {
      "epoch": 0.5276,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001424321608040201,
      "loss": 2.1083,
      "step": 105520
    },
    {
      "epoch": 0.52765,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014241708542713568,
      "loss": 2.122,
      "step": 105530
    },
    {
      "epoch": 0.5277,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014240201005025126,
      "loss": 2.083,
      "step": 105540
    },
    {
      "epoch": 0.52775,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014238693467336684,
      "loss": 2.1396,
      "step": 105550
    },
    {
      "epoch": 0.5278,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014237185929648242,
      "loss": 2.0629,
      "step": 105560
    },
    {
      "epoch": 0.52785,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014235678391959798,
      "loss": 2.1315,
      "step": 105570
    },
    {
      "epoch": 0.5279,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014234170854271358,
      "loss": 2.0677,
      "step": 105580
    },
    {
      "epoch": 0.52795,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014232663316582916,
      "loss": 2.1593,
      "step": 105590
    },
    {
      "epoch": 0.528,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014231155778894472,
      "loss": 2.0505,
      "step": 105600
    },
    {
      "epoch": 0.52805,
      "grad_norm": 0.578125,
      "learning_rate": 0.001422964824120603,
      "loss": 2.0842,
      "step": 105610
    },
    {
      "epoch": 0.5281,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0014228140703517588,
      "loss": 2.0111,
      "step": 105620
    },
    {
      "epoch": 0.52815,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014226633165829146,
      "loss": 2.1165,
      "step": 105630
    },
    {
      "epoch": 0.5282,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014225125628140704,
      "loss": 2.0952,
      "step": 105640
    },
    {
      "epoch": 0.52825,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001422361809045226,
      "loss": 2.1241,
      "step": 105650
    },
    {
      "epoch": 0.5283,
      "grad_norm": 0.640625,
      "learning_rate": 0.001422211055276382,
      "loss": 2.0672,
      "step": 105660
    },
    {
      "epoch": 0.52835,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014220603015075379,
      "loss": 2.0804,
      "step": 105670
    },
    {
      "epoch": 0.5284,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014219095477386934,
      "loss": 2.1285,
      "step": 105680
    },
    {
      "epoch": 0.52845,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014217587939698492,
      "loss": 2.0565,
      "step": 105690
    },
    {
      "epoch": 0.5285,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001421608040201005,
      "loss": 2.1223,
      "step": 105700
    },
    {
      "epoch": 0.52855,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0014214572864321609,
      "loss": 2.0644,
      "step": 105710
    },
    {
      "epoch": 0.5286,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014213065326633167,
      "loss": 2.1389,
      "step": 105720
    },
    {
      "epoch": 0.52865,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014211557788944723,
      "loss": 2.1283,
      "step": 105730
    },
    {
      "epoch": 0.5287,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0014210050251256283,
      "loss": 2.1287,
      "step": 105740
    },
    {
      "epoch": 0.52875,
      "grad_norm": 0.5625,
      "learning_rate": 0.001420854271356784,
      "loss": 2.1408,
      "step": 105750
    },
    {
      "epoch": 0.5288,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014207035175879397,
      "loss": 2.0643,
      "step": 105760
    },
    {
      "epoch": 0.52885,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014205527638190955,
      "loss": 2.0797,
      "step": 105770
    },
    {
      "epoch": 0.5289,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0014204020100502513,
      "loss": 2.1193,
      "step": 105780
    },
    {
      "epoch": 0.52895,
      "grad_norm": 0.6953125,
      "learning_rate": 0.001420251256281407,
      "loss": 2.0666,
      "step": 105790
    },
    {
      "epoch": 0.529,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001420100502512563,
      "loss": 2.1008,
      "step": 105800
    },
    {
      "epoch": 0.52905,
      "grad_norm": 0.671875,
      "learning_rate": 0.0014199497487437185,
      "loss": 2.0539,
      "step": 105810
    },
    {
      "epoch": 0.5291,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014197989949748745,
      "loss": 2.1735,
      "step": 105820
    },
    {
      "epoch": 0.52915,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014196482412060303,
      "loss": 2.0588,
      "step": 105830
    },
    {
      "epoch": 0.5292,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001419497487437186,
      "loss": 2.1086,
      "step": 105840
    },
    {
      "epoch": 0.52925,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014193467336683417,
      "loss": 2.0576,
      "step": 105850
    },
    {
      "epoch": 0.5293,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014191959798994975,
      "loss": 2.1093,
      "step": 105860
    },
    {
      "epoch": 0.52935,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014190452261306533,
      "loss": 2.0338,
      "step": 105870
    },
    {
      "epoch": 0.5294,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0014188944723618091,
      "loss": 2.1112,
      "step": 105880
    },
    {
      "epoch": 0.52945,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014187437185929647,
      "loss": 2.0519,
      "step": 105890
    },
    {
      "epoch": 0.5295,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014185929648241205,
      "loss": 2.0536,
      "step": 105900
    },
    {
      "epoch": 0.52955,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014184422110552766,
      "loss": 2.0462,
      "step": 105910
    },
    {
      "epoch": 0.5296,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014182914572864322,
      "loss": 2.1869,
      "step": 105920
    },
    {
      "epoch": 0.52965,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001418140703517588,
      "loss": 2.1135,
      "step": 105930
    },
    {
      "epoch": 0.5297,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014179899497487438,
      "loss": 2.0916,
      "step": 105940
    },
    {
      "epoch": 0.52975,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014178391959798996,
      "loss": 2.097,
      "step": 105950
    },
    {
      "epoch": 0.5298,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014176884422110554,
      "loss": 2.1337,
      "step": 105960
    },
    {
      "epoch": 0.52985,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001417537688442211,
      "loss": 2.0762,
      "step": 105970
    },
    {
      "epoch": 0.5299,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0014173869346733668,
      "loss": 2.1301,
      "step": 105980
    },
    {
      "epoch": 0.52995,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014172361809045228,
      "loss": 2.0767,
      "step": 105990
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014170854271356784,
      "loss": 2.1032,
      "step": 106000
    },
    {
      "epoch": 0.53,
      "eval_loss": 2.084341287612915,
      "eval_runtime": 48.2905,
      "eval_samples_per_second": 51.77,
      "eval_steps_per_second": 0.104,
      "step": 106000
    },
    {
      "epoch": 0.53005,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014169346733668342,
      "loss": 2.1009,
      "step": 106010
    },
    {
      "epoch": 0.5301,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00141678391959799,
      "loss": 2.0914,
      "step": 106020
    },
    {
      "epoch": 0.53015,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014166331658291458,
      "loss": 2.0793,
      "step": 106030
    },
    {
      "epoch": 0.5302,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014164824120603016,
      "loss": 2.1025,
      "step": 106040
    },
    {
      "epoch": 0.53025,
      "grad_norm": 0.625,
      "learning_rate": 0.0014163316582914572,
      "loss": 2.0963,
      "step": 106050
    },
    {
      "epoch": 0.5303,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001416180904522613,
      "loss": 2.1,
      "step": 106060
    },
    {
      "epoch": 0.53035,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001416030150753769,
      "loss": 2.099,
      "step": 106070
    },
    {
      "epoch": 0.5304,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014158793969849246,
      "loss": 2.1015,
      "step": 106080
    },
    {
      "epoch": 0.53045,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014157286432160804,
      "loss": 2.0757,
      "step": 106090
    },
    {
      "epoch": 0.5305,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014155778894472362,
      "loss": 2.1116,
      "step": 106100
    },
    {
      "epoch": 0.53055,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001415427135678392,
      "loss": 2.1009,
      "step": 106110
    },
    {
      "epoch": 0.5306,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014152763819095479,
      "loss": 2.0947,
      "step": 106120
    },
    {
      "epoch": 0.53065,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014151256281407034,
      "loss": 2.121,
      "step": 106130
    },
    {
      "epoch": 0.5307,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0014149748743718593,
      "loss": 2.1187,
      "step": 106140
    },
    {
      "epoch": 0.53075,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014148241206030153,
      "loss": 2.0922,
      "step": 106150
    },
    {
      "epoch": 0.5308,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014146733668341709,
      "loss": 2.1051,
      "step": 106160
    },
    {
      "epoch": 0.53085,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014145226130653267,
      "loss": 2.0837,
      "step": 106170
    },
    {
      "epoch": 0.5309,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014143718592964825,
      "loss": 2.1057,
      "step": 106180
    },
    {
      "epoch": 0.53095,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014142211055276383,
      "loss": 2.0682,
      "step": 106190
    },
    {
      "epoch": 0.531,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001414070351758794,
      "loss": 2.1239,
      "step": 106200
    },
    {
      "epoch": 0.53105,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0014139195979899497,
      "loss": 2.1285,
      "step": 106210
    },
    {
      "epoch": 0.5311,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0014137688442211055,
      "loss": 2.0947,
      "step": 106220
    },
    {
      "epoch": 0.53115,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0014136180904522615,
      "loss": 2.1431,
      "step": 106230
    },
    {
      "epoch": 0.5312,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001413467336683417,
      "loss": 2.0658,
      "step": 106240
    },
    {
      "epoch": 0.53125,
      "grad_norm": 0.5625,
      "learning_rate": 0.001413316582914573,
      "loss": 2.1068,
      "step": 106250
    },
    {
      "epoch": 0.5313,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014131658291457285,
      "loss": 2.0569,
      "step": 106260
    },
    {
      "epoch": 0.53135,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014130150753768845,
      "loss": 2.088,
      "step": 106270
    },
    {
      "epoch": 0.5314,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014128643216080403,
      "loss": 2.0905,
      "step": 106280
    },
    {
      "epoch": 0.53145,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001412713567839196,
      "loss": 2.1692,
      "step": 106290
    },
    {
      "epoch": 0.5315,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014125628140703517,
      "loss": 2.0955,
      "step": 106300
    },
    {
      "epoch": 0.53155,
      "grad_norm": 0.53125,
      "learning_rate": 0.0014124120603015075,
      "loss": 2.1463,
      "step": 106310
    },
    {
      "epoch": 0.5316,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014122613065326633,
      "loss": 2.0495,
      "step": 106320
    },
    {
      "epoch": 0.53165,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014121105527638192,
      "loss": 2.1092,
      "step": 106330
    },
    {
      "epoch": 0.5317,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0014119597989949747,
      "loss": 2.0801,
      "step": 106340
    },
    {
      "epoch": 0.53175,
      "grad_norm": 0.53125,
      "learning_rate": 0.0014118090452261308,
      "loss": 2.0673,
      "step": 106350
    },
    {
      "epoch": 0.5318,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014116582914572866,
      "loss": 2.0749,
      "step": 106360
    },
    {
      "epoch": 0.53185,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014115075376884422,
      "loss": 2.1004,
      "step": 106370
    },
    {
      "epoch": 0.5319,
      "grad_norm": 0.578125,
      "learning_rate": 0.001411356783919598,
      "loss": 2.0593,
      "step": 106380
    },
    {
      "epoch": 0.53195,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0014112060301507538,
      "loss": 2.1146,
      "step": 106390
    },
    {
      "epoch": 0.532,
      "grad_norm": 0.53125,
      "learning_rate": 0.0014110552763819096,
      "loss": 2.0346,
      "step": 106400
    },
    {
      "epoch": 0.53205,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014109045226130654,
      "loss": 2.0999,
      "step": 106410
    },
    {
      "epoch": 0.5321,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001410753768844221,
      "loss": 2.0806,
      "step": 106420
    },
    {
      "epoch": 0.53215,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001410603015075377,
      "loss": 2.0832,
      "step": 106430
    },
    {
      "epoch": 0.5322,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014104522613065328,
      "loss": 2.0686,
      "step": 106440
    },
    {
      "epoch": 0.53225,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014103015075376884,
      "loss": 2.1111,
      "step": 106450
    },
    {
      "epoch": 0.5323,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014101507537688442,
      "loss": 2.0602,
      "step": 106460
    },
    {
      "epoch": 0.53235,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00141,
      "loss": 2.1089,
      "step": 106470
    },
    {
      "epoch": 0.5324,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014098492462311558,
      "loss": 2.0368,
      "step": 106480
    },
    {
      "epoch": 0.53245,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014096984924623116,
      "loss": 2.0929,
      "step": 106490
    },
    {
      "epoch": 0.5325,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014095477386934672,
      "loss": 2.0938,
      "step": 106500
    },
    {
      "epoch": 0.53255,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014093969849246232,
      "loss": 2.0983,
      "step": 106510
    },
    {
      "epoch": 0.5326,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001409246231155779,
      "loss": 2.0526,
      "step": 106520
    },
    {
      "epoch": 0.53265,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014090954773869346,
      "loss": 2.1149,
      "step": 106530
    },
    {
      "epoch": 0.5327,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0014089447236180904,
      "loss": 2.0714,
      "step": 106540
    },
    {
      "epoch": 0.53275,
      "grad_norm": 0.71875,
      "learning_rate": 0.0014087939698492462,
      "loss": 2.1447,
      "step": 106550
    },
    {
      "epoch": 0.5328,
      "grad_norm": 0.671875,
      "learning_rate": 0.001408643216080402,
      "loss": 2.1061,
      "step": 106560
    },
    {
      "epoch": 0.53285,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0014084924623115579,
      "loss": 2.0787,
      "step": 106570
    },
    {
      "epoch": 0.5329,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014083417085427135,
      "loss": 2.1289,
      "step": 106580
    },
    {
      "epoch": 0.53295,
      "grad_norm": 0.625,
      "learning_rate": 0.0014081909547738695,
      "loss": 2.1228,
      "step": 106590
    },
    {
      "epoch": 0.533,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014080402010050253,
      "loss": 2.1019,
      "step": 106600
    },
    {
      "epoch": 0.53305,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0014078894472361809,
      "loss": 2.1571,
      "step": 106610
    },
    {
      "epoch": 0.5331,
      "grad_norm": 0.5625,
      "learning_rate": 0.0014077386934673367,
      "loss": 2.1002,
      "step": 106620
    },
    {
      "epoch": 0.53315,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014075879396984925,
      "loss": 2.0996,
      "step": 106630
    },
    {
      "epoch": 0.5332,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014074371859296483,
      "loss": 2.0855,
      "step": 106640
    },
    {
      "epoch": 0.53325,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001407286432160804,
      "loss": 2.1106,
      "step": 106650
    },
    {
      "epoch": 0.5333,
      "grad_norm": 0.578125,
      "learning_rate": 0.0014071356783919597,
      "loss": 2.1167,
      "step": 106660
    },
    {
      "epoch": 0.53335,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0014069849246231157,
      "loss": 2.0637,
      "step": 106670
    },
    {
      "epoch": 0.5334,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014068341708542715,
      "loss": 2.0649,
      "step": 106680
    },
    {
      "epoch": 0.53345,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0014066834170854271,
      "loss": 2.1797,
      "step": 106690
    },
    {
      "epoch": 0.5335,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001406532663316583,
      "loss": 2.0492,
      "step": 106700
    },
    {
      "epoch": 0.53355,
      "grad_norm": 0.65625,
      "learning_rate": 0.0014063819095477387,
      "loss": 2.1617,
      "step": 106710
    },
    {
      "epoch": 0.5336,
      "grad_norm": 0.671875,
      "learning_rate": 0.0014062311557788945,
      "loss": 2.0423,
      "step": 106720
    },
    {
      "epoch": 0.53365,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014060804020100503,
      "loss": 2.1161,
      "step": 106730
    },
    {
      "epoch": 0.5337,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001405929648241206,
      "loss": 2.1154,
      "step": 106740
    },
    {
      "epoch": 0.53375,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001405778894472362,
      "loss": 2.0902,
      "step": 106750
    },
    {
      "epoch": 0.5338,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014056281407035178,
      "loss": 2.0329,
      "step": 106760
    },
    {
      "epoch": 0.53385,
      "grad_norm": 0.703125,
      "learning_rate": 0.0014054773869346733,
      "loss": 2.1099,
      "step": 106770
    },
    {
      "epoch": 0.5339,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0014053266331658292,
      "loss": 2.1187,
      "step": 106780
    },
    {
      "epoch": 0.53395,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001405175879396985,
      "loss": 2.1107,
      "step": 106790
    },
    {
      "epoch": 0.534,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0014050251256281408,
      "loss": 2.1033,
      "step": 106800
    },
    {
      "epoch": 0.53405,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0014048743718592966,
      "loss": 2.0977,
      "step": 106810
    },
    {
      "epoch": 0.5341,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014047236180904522,
      "loss": 2.0913,
      "step": 106820
    },
    {
      "epoch": 0.53415,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001404572864321608,
      "loss": 2.1556,
      "step": 106830
    },
    {
      "epoch": 0.5342,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001404422110552764,
      "loss": 2.1052,
      "step": 106840
    },
    {
      "epoch": 0.53425,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014042713567839196,
      "loss": 2.0981,
      "step": 106850
    },
    {
      "epoch": 0.5343,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014041206030150754,
      "loss": 2.0728,
      "step": 106860
    },
    {
      "epoch": 0.53435,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0014039698492462312,
      "loss": 2.1634,
      "step": 106870
    },
    {
      "epoch": 0.5344,
      "grad_norm": 0.625,
      "learning_rate": 0.001403819095477387,
      "loss": 2.0722,
      "step": 106880
    },
    {
      "epoch": 0.53445,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014036683417085428,
      "loss": 2.0956,
      "step": 106890
    },
    {
      "epoch": 0.5345,
      "grad_norm": 0.6875,
      "learning_rate": 0.0014035175879396984,
      "loss": 2.0631,
      "step": 106900
    },
    {
      "epoch": 0.53455,
      "grad_norm": 0.59375,
      "learning_rate": 0.0014033668341708542,
      "loss": 2.1187,
      "step": 106910
    },
    {
      "epoch": 0.5346,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014032160804020102,
      "loss": 2.0924,
      "step": 106920
    },
    {
      "epoch": 0.53465,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0014030653266331658,
      "loss": 2.142,
      "step": 106930
    },
    {
      "epoch": 0.5347,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0014029145728643216,
      "loss": 2.1221,
      "step": 106940
    },
    {
      "epoch": 0.53475,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014027638190954774,
      "loss": 2.0944,
      "step": 106950
    },
    {
      "epoch": 0.5348,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014026130653266332,
      "loss": 2.0849,
      "step": 106960
    },
    {
      "epoch": 0.53485,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001402462311557789,
      "loss": 2.1031,
      "step": 106970
    },
    {
      "epoch": 0.5349,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0014023115577889446,
      "loss": 2.0744,
      "step": 106980
    },
    {
      "epoch": 0.53495,
      "grad_norm": 0.546875,
      "learning_rate": 0.0014021608040201004,
      "loss": 2.0781,
      "step": 106990
    },
    {
      "epoch": 0.535,
      "grad_norm": 0.640625,
      "learning_rate": 0.0014020100502512565,
      "loss": 2.0696,
      "step": 107000
    },
    {
      "epoch": 0.53505,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001401859296482412,
      "loss": 2.1259,
      "step": 107010
    },
    {
      "epoch": 0.5351,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014017085427135679,
      "loss": 2.0636,
      "step": 107020
    },
    {
      "epoch": 0.53515,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0014015577889447237,
      "loss": 2.0942,
      "step": 107030
    },
    {
      "epoch": 0.5352,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0014014070351758795,
      "loss": 2.0898,
      "step": 107040
    },
    {
      "epoch": 0.53525,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0014012562814070353,
      "loss": 2.1103,
      "step": 107050
    },
    {
      "epoch": 0.5353,
      "grad_norm": 0.609375,
      "learning_rate": 0.0014011055276381909,
      "loss": 2.0747,
      "step": 107060
    },
    {
      "epoch": 0.53535,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0014009547738693467,
      "loss": 2.1554,
      "step": 107070
    },
    {
      "epoch": 0.5354,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0014008040201005027,
      "loss": 2.0558,
      "step": 107080
    },
    {
      "epoch": 0.53545,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0014006532663316583,
      "loss": 2.0929,
      "step": 107090
    },
    {
      "epoch": 0.5355,
      "grad_norm": 0.59375,
      "learning_rate": 0.001400502512562814,
      "loss": 2.0701,
      "step": 107100
    },
    {
      "epoch": 0.53555,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00140035175879397,
      "loss": 2.0814,
      "step": 107110
    },
    {
      "epoch": 0.5356,
      "grad_norm": 0.625,
      "learning_rate": 0.0014002010050251257,
      "loss": 2.0655,
      "step": 107120
    },
    {
      "epoch": 0.53565,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0014000502512562815,
      "loss": 2.1141,
      "step": 107130
    },
    {
      "epoch": 0.5357,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013998994974874371,
      "loss": 2.0848,
      "step": 107140
    },
    {
      "epoch": 0.53575,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001399748743718593,
      "loss": 2.181,
      "step": 107150
    },
    {
      "epoch": 0.5358,
      "grad_norm": 0.625,
      "learning_rate": 0.001399597989949749,
      "loss": 2.0697,
      "step": 107160
    },
    {
      "epoch": 0.53585,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013994472361809045,
      "loss": 2.0957,
      "step": 107170
    },
    {
      "epoch": 0.5359,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013992964824120603,
      "loss": 2.0573,
      "step": 107180
    },
    {
      "epoch": 0.53595,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001399145728643216,
      "loss": 2.1399,
      "step": 107190
    },
    {
      "epoch": 0.536,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001398994974874372,
      "loss": 2.0528,
      "step": 107200
    },
    {
      "epoch": 0.53605,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013988442211055278,
      "loss": 2.1279,
      "step": 107210
    },
    {
      "epoch": 0.5361,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013986934673366834,
      "loss": 2.0869,
      "step": 107220
    },
    {
      "epoch": 0.53615,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013985427135678392,
      "loss": 2.1343,
      "step": 107230
    },
    {
      "epoch": 0.5362,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0013983919597989952,
      "loss": 2.098,
      "step": 107240
    },
    {
      "epoch": 0.53625,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013982412060301508,
      "loss": 2.0834,
      "step": 107250
    },
    {
      "epoch": 0.5363,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013980904522613066,
      "loss": 2.0766,
      "step": 107260
    },
    {
      "epoch": 0.53635,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013979396984924622,
      "loss": 2.1085,
      "step": 107270
    },
    {
      "epoch": 0.5364,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0013977889447236182,
      "loss": 2.109,
      "step": 107280
    },
    {
      "epoch": 0.53645,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001397638190954774,
      "loss": 2.1256,
      "step": 107290
    },
    {
      "epoch": 0.5365,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013974874371859296,
      "loss": 2.1202,
      "step": 107300
    },
    {
      "epoch": 0.53655,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013973366834170854,
      "loss": 2.1069,
      "step": 107310
    },
    {
      "epoch": 0.5366,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013971859296482414,
      "loss": 2.0692,
      "step": 107320
    },
    {
      "epoch": 0.53665,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001397035175879397,
      "loss": 2.107,
      "step": 107330
    },
    {
      "epoch": 0.5367,
      "grad_norm": 0.546875,
      "learning_rate": 0.0013968844221105528,
      "loss": 2.1066,
      "step": 107340
    },
    {
      "epoch": 0.53675,
      "grad_norm": 0.53125,
      "learning_rate": 0.0013967336683417084,
      "loss": 2.1226,
      "step": 107350
    },
    {
      "epoch": 0.5368,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013965829145728644,
      "loss": 2.0649,
      "step": 107360
    },
    {
      "epoch": 0.53685,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0013964321608040202,
      "loss": 2.1437,
      "step": 107370
    },
    {
      "epoch": 0.5369,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013962814070351758,
      "loss": 2.1486,
      "step": 107380
    },
    {
      "epoch": 0.53695,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0013961306532663316,
      "loss": 2.1272,
      "step": 107390
    },
    {
      "epoch": 0.537,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013959798994974874,
      "loss": 2.0792,
      "step": 107400
    },
    {
      "epoch": 0.53705,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013958291457286433,
      "loss": 2.1505,
      "step": 107410
    },
    {
      "epoch": 0.5371,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001395678391959799,
      "loss": 2.0798,
      "step": 107420
    },
    {
      "epoch": 0.53715,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013955276381909546,
      "loss": 2.0926,
      "step": 107430
    },
    {
      "epoch": 0.5372,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013953768844221107,
      "loss": 2.1137,
      "step": 107440
    },
    {
      "epoch": 0.53725,
      "grad_norm": 0.546875,
      "learning_rate": 0.0013952261306532665,
      "loss": 2.0584,
      "step": 107450
    },
    {
      "epoch": 0.5373,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001395075376884422,
      "loss": 2.1234,
      "step": 107460
    },
    {
      "epoch": 0.53735,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013949246231155779,
      "loss": 2.1257,
      "step": 107470
    },
    {
      "epoch": 0.5374,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013947738693467337,
      "loss": 2.087,
      "step": 107480
    },
    {
      "epoch": 0.53745,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013946231155778895,
      "loss": 2.1261,
      "step": 107490
    },
    {
      "epoch": 0.5375,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013944723618090453,
      "loss": 2.1159,
      "step": 107500
    },
    {
      "epoch": 0.53755,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0013943216080402009,
      "loss": 2.0886,
      "step": 107510
    },
    {
      "epoch": 0.5376,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001394170854271357,
      "loss": 2.075,
      "step": 107520
    },
    {
      "epoch": 0.53765,
      "grad_norm": 0.625,
      "learning_rate": 0.0013940201005025127,
      "loss": 2.1312,
      "step": 107530
    },
    {
      "epoch": 0.5377,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013938693467336683,
      "loss": 2.0597,
      "step": 107540
    },
    {
      "epoch": 0.53775,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013937185929648241,
      "loss": 2.1253,
      "step": 107550
    },
    {
      "epoch": 0.5378,
      "grad_norm": 0.59375,
      "learning_rate": 0.00139356783919598,
      "loss": 2.1473,
      "step": 107560
    },
    {
      "epoch": 0.53785,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013934170854271357,
      "loss": 2.1183,
      "step": 107570
    },
    {
      "epoch": 0.5379,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013932663316582915,
      "loss": 2.0679,
      "step": 107580
    },
    {
      "epoch": 0.53795,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013931155778894471,
      "loss": 2.049,
      "step": 107590
    },
    {
      "epoch": 0.538,
      "grad_norm": 0.515625,
      "learning_rate": 0.0013929648241206031,
      "loss": 2.0953,
      "step": 107600
    },
    {
      "epoch": 0.53805,
      "grad_norm": 0.578125,
      "learning_rate": 0.001392814070351759,
      "loss": 2.0954,
      "step": 107610
    },
    {
      "epoch": 0.5381,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013926633165829145,
      "loss": 2.0912,
      "step": 107620
    },
    {
      "epoch": 0.53815,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013925125628140704,
      "loss": 2.1012,
      "step": 107630
    },
    {
      "epoch": 0.5382,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013923618090452262,
      "loss": 2.0808,
      "step": 107640
    },
    {
      "epoch": 0.53825,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001392211055276382,
      "loss": 2.0717,
      "step": 107650
    },
    {
      "epoch": 0.5383,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013920603015075378,
      "loss": 2.1219,
      "step": 107660
    },
    {
      "epoch": 0.53835,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013919095477386934,
      "loss": 2.0916,
      "step": 107670
    },
    {
      "epoch": 0.5384,
      "grad_norm": 0.671875,
      "learning_rate": 0.0013917587939698494,
      "loss": 2.1059,
      "step": 107680
    },
    {
      "epoch": 0.53845,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013916080402010052,
      "loss": 2.0662,
      "step": 107690
    },
    {
      "epoch": 0.5385,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0013914572864321608,
      "loss": 2.0899,
      "step": 107700
    },
    {
      "epoch": 0.53855,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013913065326633166,
      "loss": 2.0783,
      "step": 107710
    },
    {
      "epoch": 0.5386,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013911557788944724,
      "loss": 2.114,
      "step": 107720
    },
    {
      "epoch": 0.53865,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013910050251256282,
      "loss": 2.0899,
      "step": 107730
    },
    {
      "epoch": 0.5387,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001390854271356784,
      "loss": 2.1077,
      "step": 107740
    },
    {
      "epoch": 0.53875,
      "grad_norm": 0.625,
      "learning_rate": 0.0013907035175879396,
      "loss": 2.1129,
      "step": 107750
    },
    {
      "epoch": 0.5388,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013905527638190954,
      "loss": 2.1081,
      "step": 107760
    },
    {
      "epoch": 0.53885,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013904020100502514,
      "loss": 2.1338,
      "step": 107770
    },
    {
      "epoch": 0.5389,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001390251256281407,
      "loss": 2.1229,
      "step": 107780
    },
    {
      "epoch": 0.53895,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013901005025125628,
      "loss": 2.0597,
      "step": 107790
    },
    {
      "epoch": 0.539,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013899497487437186,
      "loss": 2.1086,
      "step": 107800
    },
    {
      "epoch": 0.53905,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013897989949748744,
      "loss": 2.0804,
      "step": 107810
    },
    {
      "epoch": 0.5391,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013896482412060302,
      "loss": 2.1171,
      "step": 107820
    },
    {
      "epoch": 0.53915,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013894974874371858,
      "loss": 2.0465,
      "step": 107830
    },
    {
      "epoch": 0.5392,
      "grad_norm": 0.546875,
      "learning_rate": 0.0013893467336683416,
      "loss": 2.1331,
      "step": 107840
    },
    {
      "epoch": 0.53925,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013891959798994977,
      "loss": 2.0808,
      "step": 107850
    },
    {
      "epoch": 0.5393,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0013890452261306533,
      "loss": 2.1064,
      "step": 107860
    },
    {
      "epoch": 0.53935,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001388894472361809,
      "loss": 2.0347,
      "step": 107870
    },
    {
      "epoch": 0.5394,
      "grad_norm": 0.5625,
      "learning_rate": 0.0013887437185929649,
      "loss": 2.1075,
      "step": 107880
    },
    {
      "epoch": 0.53945,
      "grad_norm": 0.5625,
      "learning_rate": 0.0013885929648241207,
      "loss": 2.1243,
      "step": 107890
    },
    {
      "epoch": 0.5395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013884422110552765,
      "loss": 2.0769,
      "step": 107900
    },
    {
      "epoch": 0.53955,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001388291457286432,
      "loss": 2.067,
      "step": 107910
    },
    {
      "epoch": 0.5396,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0013881407035175879,
      "loss": 2.0712,
      "step": 107920
    },
    {
      "epoch": 0.53965,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001387989949748744,
      "loss": 2.1164,
      "step": 107930
    },
    {
      "epoch": 0.5397,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013878391959798995,
      "loss": 2.0279,
      "step": 107940
    },
    {
      "epoch": 0.53975,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013876884422110553,
      "loss": 2.1225,
      "step": 107950
    },
    {
      "epoch": 0.5398,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013875376884422111,
      "loss": 2.0814,
      "step": 107960
    },
    {
      "epoch": 0.53985,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001387386934673367,
      "loss": 2.1312,
      "step": 107970
    },
    {
      "epoch": 0.5399,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013872361809045227,
      "loss": 2.093,
      "step": 107980
    },
    {
      "epoch": 0.53995,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013870854271356783,
      "loss": 2.1087,
      "step": 107990
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013869346733668341,
      "loss": 2.1029,
      "step": 108000
    },
    {
      "epoch": 0.54,
      "eval_loss": 2.087076425552368,
      "eval_runtime": 48.2143,
      "eval_samples_per_second": 51.852,
      "eval_steps_per_second": 0.104,
      "step": 108000
    },
    {
      "epoch": 0.54005,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013867839195979901,
      "loss": 2.1112,
      "step": 108010
    },
    {
      "epoch": 0.5401,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013866331658291457,
      "loss": 2.1098,
      "step": 108020
    },
    {
      "epoch": 0.54015,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013864824120603015,
      "loss": 2.125,
      "step": 108030
    },
    {
      "epoch": 0.5402,
      "grad_norm": 0.6875,
      "learning_rate": 0.0013863316582914573,
      "loss": 2.0635,
      "step": 108040
    },
    {
      "epoch": 0.54025,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013861809045226132,
      "loss": 2.1269,
      "step": 108050
    },
    {
      "epoch": 0.5403,
      "grad_norm": 0.5625,
      "learning_rate": 0.001386030150753769,
      "loss": 2.1241,
      "step": 108060
    },
    {
      "epoch": 0.54035,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013858793969849246,
      "loss": 2.1099,
      "step": 108070
    },
    {
      "epoch": 0.5404,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0013857286432160804,
      "loss": 2.0711,
      "step": 108080
    },
    {
      "epoch": 0.54045,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013855778894472364,
      "loss": 2.1229,
      "step": 108090
    },
    {
      "epoch": 0.5405,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001385427135678392,
      "loss": 2.1172,
      "step": 108100
    },
    {
      "epoch": 0.54055,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013852763819095478,
      "loss": 2.0942,
      "step": 108110
    },
    {
      "epoch": 0.5406,
      "grad_norm": 0.671875,
      "learning_rate": 0.0013851256281407034,
      "loss": 2.0983,
      "step": 108120
    },
    {
      "epoch": 0.54065,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013849748743718594,
      "loss": 2.0743,
      "step": 108130
    },
    {
      "epoch": 0.5407,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0013848241206030152,
      "loss": 2.1011,
      "step": 108140
    },
    {
      "epoch": 0.54075,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013846733668341708,
      "loss": 2.0899,
      "step": 108150
    },
    {
      "epoch": 0.5408,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013845226130653266,
      "loss": 2.0854,
      "step": 108160
    },
    {
      "epoch": 0.54085,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013843718592964826,
      "loss": 2.1237,
      "step": 108170
    },
    {
      "epoch": 0.5409,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013842211055276382,
      "loss": 2.0547,
      "step": 108180
    },
    {
      "epoch": 0.54095,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001384070351758794,
      "loss": 2.1012,
      "step": 108190
    },
    {
      "epoch": 0.541,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013839195979899496,
      "loss": 2.0943,
      "step": 108200
    },
    {
      "epoch": 0.54105,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013837688442211056,
      "loss": 2.1255,
      "step": 108210
    },
    {
      "epoch": 0.5411,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013836180904522614,
      "loss": 2.0825,
      "step": 108220
    },
    {
      "epoch": 0.54115,
      "grad_norm": 0.578125,
      "learning_rate": 0.001383467336683417,
      "loss": 2.0588,
      "step": 108230
    },
    {
      "epoch": 0.5412,
      "grad_norm": 0.671875,
      "learning_rate": 0.0013833165829145728,
      "loss": 2.1002,
      "step": 108240
    },
    {
      "epoch": 0.54125,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013831658291457289,
      "loss": 2.107,
      "step": 108250
    },
    {
      "epoch": 0.5413,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013830150753768844,
      "loss": 2.0752,
      "step": 108260
    },
    {
      "epoch": 0.54135,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013828643216080403,
      "loss": 2.0642,
      "step": 108270
    },
    {
      "epoch": 0.5414,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013827135678391958,
      "loss": 2.1349,
      "step": 108280
    },
    {
      "epoch": 0.54145,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013825628140703519,
      "loss": 2.0612,
      "step": 108290
    },
    {
      "epoch": 0.5415,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013824120603015077,
      "loss": 2.1093,
      "step": 108300
    },
    {
      "epoch": 0.54155,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0013822613065326633,
      "loss": 2.0521,
      "step": 108310
    },
    {
      "epoch": 0.5416,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001382110552763819,
      "loss": 2.1276,
      "step": 108320
    },
    {
      "epoch": 0.54165,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013819597989949749,
      "loss": 2.0993,
      "step": 108330
    },
    {
      "epoch": 0.5417,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0013818090452261307,
      "loss": 2.1136,
      "step": 108340
    },
    {
      "epoch": 0.54175,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013816582914572865,
      "loss": 2.0786,
      "step": 108350
    },
    {
      "epoch": 0.5418,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001381507537688442,
      "loss": 2.1182,
      "step": 108360
    },
    {
      "epoch": 0.54185,
      "grad_norm": 0.625,
      "learning_rate": 0.001381356783919598,
      "loss": 2.0939,
      "step": 108370
    },
    {
      "epoch": 0.5419,
      "grad_norm": 0.671875,
      "learning_rate": 0.001381206030150754,
      "loss": 2.1694,
      "step": 108380
    },
    {
      "epoch": 0.54195,
      "grad_norm": 0.625,
      "learning_rate": 0.0013810552763819095,
      "loss": 2.0641,
      "step": 108390
    },
    {
      "epoch": 0.542,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013809045226130653,
      "loss": 2.1314,
      "step": 108400
    },
    {
      "epoch": 0.54205,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013807537688442211,
      "loss": 2.071,
      "step": 108410
    },
    {
      "epoch": 0.5421,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001380603015075377,
      "loss": 2.112,
      "step": 108420
    },
    {
      "epoch": 0.54215,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013804522613065327,
      "loss": 2.097,
      "step": 108430
    },
    {
      "epoch": 0.5422,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013803015075376883,
      "loss": 2.1261,
      "step": 108440
    },
    {
      "epoch": 0.54225,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013801507537688443,
      "loss": 2.0345,
      "step": 108450
    },
    {
      "epoch": 0.5423,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013800000000000002,
      "loss": 2.1504,
      "step": 108460
    },
    {
      "epoch": 0.54235,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013798492462311557,
      "loss": 2.0738,
      "step": 108470
    },
    {
      "epoch": 0.5424,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013796984924623115,
      "loss": 2.1141,
      "step": 108480
    },
    {
      "epoch": 0.54245,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0013795477386934674,
      "loss": 2.077,
      "step": 108490
    },
    {
      "epoch": 0.5425,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0013793969849246232,
      "loss": 2.1064,
      "step": 108500
    },
    {
      "epoch": 0.54255,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001379246231155779,
      "loss": 2.0957,
      "step": 108510
    },
    {
      "epoch": 0.5426,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013790954773869346,
      "loss": 2.1246,
      "step": 108520
    },
    {
      "epoch": 0.54265,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013789447236180906,
      "loss": 2.1135,
      "step": 108530
    },
    {
      "epoch": 0.5427,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013787939698492464,
      "loss": 2.1504,
      "step": 108540
    },
    {
      "epoch": 0.54275,
      "grad_norm": 0.640625,
      "learning_rate": 0.001378643216080402,
      "loss": 2.1044,
      "step": 108550
    },
    {
      "epoch": 0.5428,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013784924623115578,
      "loss": 2.1036,
      "step": 108560
    },
    {
      "epoch": 0.54285,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013783417085427136,
      "loss": 2.0763,
      "step": 108570
    },
    {
      "epoch": 0.5429,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013781909547738694,
      "loss": 2.0843,
      "step": 108580
    },
    {
      "epoch": 0.54295,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013780402010050252,
      "loss": 2.0577,
      "step": 108590
    },
    {
      "epoch": 0.543,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013778894472361808,
      "loss": 2.1011,
      "step": 108600
    },
    {
      "epoch": 0.54305,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013777386934673368,
      "loss": 2.0878,
      "step": 108610
    },
    {
      "epoch": 0.5431,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013775879396984926,
      "loss": 2.1412,
      "step": 108620
    },
    {
      "epoch": 0.54315,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013774371859296482,
      "loss": 2.1478,
      "step": 108630
    },
    {
      "epoch": 0.5432,
      "grad_norm": 0.640625,
      "learning_rate": 0.001377286432160804,
      "loss": 2.068,
      "step": 108640
    },
    {
      "epoch": 0.54325,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013771356783919598,
      "loss": 2.1534,
      "step": 108650
    },
    {
      "epoch": 0.5433,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013769849246231156,
      "loss": 2.0767,
      "step": 108660
    },
    {
      "epoch": 0.54335,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0013768341708542714,
      "loss": 2.0798,
      "step": 108670
    },
    {
      "epoch": 0.5434,
      "grad_norm": 0.578125,
      "learning_rate": 0.001376683417085427,
      "loss": 2.0631,
      "step": 108680
    },
    {
      "epoch": 0.54345,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013765326633165828,
      "loss": 2.1208,
      "step": 108690
    },
    {
      "epoch": 0.5435,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013763819095477389,
      "loss": 2.072,
      "step": 108700
    },
    {
      "epoch": 0.54355,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013762311557788945,
      "loss": 2.0849,
      "step": 108710
    },
    {
      "epoch": 0.5436,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013760804020100503,
      "loss": 2.0831,
      "step": 108720
    },
    {
      "epoch": 0.54365,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001375929648241206,
      "loss": 2.1145,
      "step": 108730
    },
    {
      "epoch": 0.5437,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013757788944723619,
      "loss": 2.0635,
      "step": 108740
    },
    {
      "epoch": 0.54375,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013756281407035177,
      "loss": 2.1207,
      "step": 108750
    },
    {
      "epoch": 0.5438,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013754773869346733,
      "loss": 2.0784,
      "step": 108760
    },
    {
      "epoch": 0.54385,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001375326633165829,
      "loss": 2.0848,
      "step": 108770
    },
    {
      "epoch": 0.5439,
      "grad_norm": 0.6953125,
      "learning_rate": 0.001375175879396985,
      "loss": 2.0867,
      "step": 108780
    },
    {
      "epoch": 0.54395,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013750251256281407,
      "loss": 2.1268,
      "step": 108790
    },
    {
      "epoch": 0.544,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013748743718592965,
      "loss": 2.0893,
      "step": 108800
    },
    {
      "epoch": 0.54405,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013747236180904523,
      "loss": 2.0795,
      "step": 108810
    },
    {
      "epoch": 0.5441,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0013745728643216081,
      "loss": 2.0959,
      "step": 108820
    },
    {
      "epoch": 0.54415,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001374422110552764,
      "loss": 2.0933,
      "step": 108830
    },
    {
      "epoch": 0.5442,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013742713567839195,
      "loss": 2.1021,
      "step": 108840
    },
    {
      "epoch": 0.54425,
      "grad_norm": 0.546875,
      "learning_rate": 0.0013741206030150753,
      "loss": 2.0659,
      "step": 108850
    },
    {
      "epoch": 0.5443,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013739698492462313,
      "loss": 2.081,
      "step": 108860
    },
    {
      "epoch": 0.54435,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001373819095477387,
      "loss": 2.0973,
      "step": 108870
    },
    {
      "epoch": 0.5444,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013736683417085427,
      "loss": 2.1566,
      "step": 108880
    },
    {
      "epoch": 0.54445,
      "grad_norm": 0.625,
      "learning_rate": 0.0013735175879396985,
      "loss": 2.052,
      "step": 108890
    },
    {
      "epoch": 0.5445,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013733668341708543,
      "loss": 2.1081,
      "step": 108900
    },
    {
      "epoch": 0.54455,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013732160804020102,
      "loss": 2.1112,
      "step": 108910
    },
    {
      "epoch": 0.5446,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013730653266331657,
      "loss": 2.1173,
      "step": 108920
    },
    {
      "epoch": 0.54465,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013729145728643216,
      "loss": 2.0531,
      "step": 108930
    },
    {
      "epoch": 0.5447,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013727638190954776,
      "loss": 2.1786,
      "step": 108940
    },
    {
      "epoch": 0.54475,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0013726130653266332,
      "loss": 2.0709,
      "step": 108950
    },
    {
      "epoch": 0.5448,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001372462311557789,
      "loss": 2.1186,
      "step": 108960
    },
    {
      "epoch": 0.54485,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013723115577889448,
      "loss": 2.0755,
      "step": 108970
    },
    {
      "epoch": 0.5449,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013721608040201006,
      "loss": 2.1388,
      "step": 108980
    },
    {
      "epoch": 0.54495,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013720100502512564,
      "loss": 2.1096,
      "step": 108990
    },
    {
      "epoch": 0.545,
      "grad_norm": 0.609375,
      "learning_rate": 0.001371859296482412,
      "loss": 2.1645,
      "step": 109000
    },
    {
      "epoch": 0.54505,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013717085427135678,
      "loss": 2.0683,
      "step": 109010
    },
    {
      "epoch": 0.5451,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013715577889447238,
      "loss": 2.0933,
      "step": 109020
    },
    {
      "epoch": 0.54515,
      "grad_norm": 0.625,
      "learning_rate": 0.0013714070351758794,
      "loss": 2.0678,
      "step": 109030
    },
    {
      "epoch": 0.5452,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013712562814070352,
      "loss": 2.1303,
      "step": 109040
    },
    {
      "epoch": 0.54525,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013711055276381908,
      "loss": 2.0832,
      "step": 109050
    },
    {
      "epoch": 0.5453,
      "grad_norm": 0.625,
      "learning_rate": 0.0013709547738693468,
      "loss": 2.124,
      "step": 109060
    },
    {
      "epoch": 0.54535,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013708040201005026,
      "loss": 2.0902,
      "step": 109070
    },
    {
      "epoch": 0.5454,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013706532663316582,
      "loss": 2.1125,
      "step": 109080
    },
    {
      "epoch": 0.54545,
      "grad_norm": 0.640625,
      "learning_rate": 0.001370502512562814,
      "loss": 2.1884,
      "step": 109090
    },
    {
      "epoch": 0.5455,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00137035175879397,
      "loss": 2.0861,
      "step": 109100
    },
    {
      "epoch": 0.54555,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013702010050251256,
      "loss": 2.1546,
      "step": 109110
    },
    {
      "epoch": 0.5456,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013700502512562814,
      "loss": 2.0329,
      "step": 109120
    },
    {
      "epoch": 0.54565,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001369899497487437,
      "loss": 2.0971,
      "step": 109130
    },
    {
      "epoch": 0.5457,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001369748743718593,
      "loss": 2.0612,
      "step": 109140
    },
    {
      "epoch": 0.54575,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013695979899497489,
      "loss": 2.0992,
      "step": 109150
    },
    {
      "epoch": 0.5458,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013694472361809045,
      "loss": 2.0862,
      "step": 109160
    },
    {
      "epoch": 0.54585,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013692964824120603,
      "loss": 2.1247,
      "step": 109170
    },
    {
      "epoch": 0.5459,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001369145728643216,
      "loss": 2.0822,
      "step": 109180
    },
    {
      "epoch": 0.54595,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013689949748743719,
      "loss": 2.0922,
      "step": 109190
    },
    {
      "epoch": 0.546,
      "grad_norm": 0.671875,
      "learning_rate": 0.0013688442211055277,
      "loss": 2.0764,
      "step": 109200
    },
    {
      "epoch": 0.54605,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013686934673366833,
      "loss": 2.1016,
      "step": 109210
    },
    {
      "epoch": 0.5461,
      "grad_norm": 0.5625,
      "learning_rate": 0.0013685427135678393,
      "loss": 2.0863,
      "step": 109220
    },
    {
      "epoch": 0.54615,
      "grad_norm": 0.609375,
      "learning_rate": 0.001368391959798995,
      "loss": 2.0971,
      "step": 109230
    },
    {
      "epoch": 0.5462,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013682412060301507,
      "loss": 2.075,
      "step": 109240
    },
    {
      "epoch": 0.54625,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013680904522613065,
      "loss": 2.1216,
      "step": 109250
    },
    {
      "epoch": 0.5463,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013679396984924623,
      "loss": 2.1284,
      "step": 109260
    },
    {
      "epoch": 0.54635,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0013677889447236181,
      "loss": 2.0774,
      "step": 109270
    },
    {
      "epoch": 0.5464,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001367638190954774,
      "loss": 2.0973,
      "step": 109280
    },
    {
      "epoch": 0.54645,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0013674874371859295,
      "loss": 2.0646,
      "step": 109290
    },
    {
      "epoch": 0.5465,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013673366834170855,
      "loss": 2.0671,
      "step": 109300
    },
    {
      "epoch": 0.54655,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013671859296482413,
      "loss": 2.1019,
      "step": 109310
    },
    {
      "epoch": 0.5466,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001367035175879397,
      "loss": 2.138,
      "step": 109320
    },
    {
      "epoch": 0.54665,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013668844221105527,
      "loss": 2.0636,
      "step": 109330
    },
    {
      "epoch": 0.5467,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013667336683417085,
      "loss": 2.1245,
      "step": 109340
    },
    {
      "epoch": 0.54675,
      "grad_norm": 0.671875,
      "learning_rate": 0.0013665829145728644,
      "loss": 2.0537,
      "step": 109350
    },
    {
      "epoch": 0.5468,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013664321608040202,
      "loss": 2.1192,
      "step": 109360
    },
    {
      "epoch": 0.54685,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0013662814070351758,
      "loss": 2.064,
      "step": 109370
    },
    {
      "epoch": 0.5469,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013661306532663318,
      "loss": 2.0892,
      "step": 109380
    },
    {
      "epoch": 0.54695,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013659798994974876,
      "loss": 2.1336,
      "step": 109390
    },
    {
      "epoch": 0.547,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013658291457286432,
      "loss": 2.1031,
      "step": 109400
    },
    {
      "epoch": 0.54705,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001365678391959799,
      "loss": 2.1323,
      "step": 109410
    },
    {
      "epoch": 0.5471,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013655276381909548,
      "loss": 2.1011,
      "step": 109420
    },
    {
      "epoch": 0.54715,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013653768844221106,
      "loss": 2.0853,
      "step": 109430
    },
    {
      "epoch": 0.5472,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013652261306532664,
      "loss": 2.0518,
      "step": 109440
    },
    {
      "epoch": 0.54725,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001365075376884422,
      "loss": 2.1275,
      "step": 109450
    },
    {
      "epoch": 0.5473,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001364924623115578,
      "loss": 2.068,
      "step": 109460
    },
    {
      "epoch": 0.54735,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013647738693467338,
      "loss": 2.085,
      "step": 109470
    },
    {
      "epoch": 0.5474,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013646231155778894,
      "loss": 2.0387,
      "step": 109480
    },
    {
      "epoch": 0.54745,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013644723618090452,
      "loss": 2.1301,
      "step": 109490
    },
    {
      "epoch": 0.5475,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001364321608040201,
      "loss": 2.0835,
      "step": 109500
    },
    {
      "epoch": 0.54755,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013641708542713568,
      "loss": 2.0911,
      "step": 109510
    },
    {
      "epoch": 0.5476,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013640201005025126,
      "loss": 2.0547,
      "step": 109520
    },
    {
      "epoch": 0.54765,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013638693467336682,
      "loss": 2.1366,
      "step": 109530
    },
    {
      "epoch": 0.5477,
      "grad_norm": 0.625,
      "learning_rate": 0.0013637185929648243,
      "loss": 2.1054,
      "step": 109540
    },
    {
      "epoch": 0.54775,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00136356783919598,
      "loss": 2.0589,
      "step": 109550
    },
    {
      "epoch": 0.5478,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013634170854271356,
      "loss": 2.0992,
      "step": 109560
    },
    {
      "epoch": 0.54785,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013632663316582915,
      "loss": 2.0645,
      "step": 109570
    },
    {
      "epoch": 0.5479,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013631155778894473,
      "loss": 2.1215,
      "step": 109580
    },
    {
      "epoch": 0.54795,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001362964824120603,
      "loss": 2.0951,
      "step": 109590
    },
    {
      "epoch": 0.548,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013628140703517589,
      "loss": 2.0766,
      "step": 109600
    },
    {
      "epoch": 0.54805,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013626633165829145,
      "loss": 2.073,
      "step": 109610
    },
    {
      "epoch": 0.5481,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013625125628140703,
      "loss": 2.132,
      "step": 109620
    },
    {
      "epoch": 0.54815,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0013623618090452263,
      "loss": 2.0747,
      "step": 109630
    },
    {
      "epoch": 0.5482,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013622110552763819,
      "loss": 2.0918,
      "step": 109640
    },
    {
      "epoch": 0.54825,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013620603015075377,
      "loss": 2.0721,
      "step": 109650
    },
    {
      "epoch": 0.5483,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013619095477386935,
      "loss": 2.1227,
      "step": 109660
    },
    {
      "epoch": 0.54835,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013617587939698493,
      "loss": 2.1043,
      "step": 109670
    },
    {
      "epoch": 0.5484,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0013616080402010051,
      "loss": 2.0714,
      "step": 109680
    },
    {
      "epoch": 0.54845,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013614572864321607,
      "loss": 2.0841,
      "step": 109690
    },
    {
      "epoch": 0.5485,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013613065326633165,
      "loss": 2.0895,
      "step": 109700
    },
    {
      "epoch": 0.54855,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0013611557788944725,
      "loss": 2.0844,
      "step": 109710
    },
    {
      "epoch": 0.5486,
      "grad_norm": 0.546875,
      "learning_rate": 0.0013610050251256281,
      "loss": 2.0937,
      "step": 109720
    },
    {
      "epoch": 0.54865,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001360854271356784,
      "loss": 2.1002,
      "step": 109730
    },
    {
      "epoch": 0.5487,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013607035175879397,
      "loss": 2.0838,
      "step": 109740
    },
    {
      "epoch": 0.54875,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013605527638190955,
      "loss": 2.1146,
      "step": 109750
    },
    {
      "epoch": 0.5488,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0013604020100502514,
      "loss": 2.0575,
      "step": 109760
    },
    {
      "epoch": 0.54885,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001360251256281407,
      "loss": 2.1251,
      "step": 109770
    },
    {
      "epoch": 0.5489,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013601005025125627,
      "loss": 2.0639,
      "step": 109780
    },
    {
      "epoch": 0.54895,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013599497487437188,
      "loss": 2.1562,
      "step": 109790
    },
    {
      "epoch": 0.549,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013597989949748744,
      "loss": 2.1168,
      "step": 109800
    },
    {
      "epoch": 0.54905,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013596482412060302,
      "loss": 2.1077,
      "step": 109810
    },
    {
      "epoch": 0.5491,
      "grad_norm": 0.625,
      "learning_rate": 0.001359497487437186,
      "loss": 2.136,
      "step": 109820
    },
    {
      "epoch": 0.54915,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013593467336683418,
      "loss": 2.1408,
      "step": 109830
    },
    {
      "epoch": 0.5492,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013591959798994976,
      "loss": 2.0444,
      "step": 109840
    },
    {
      "epoch": 0.54925,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0013590452261306532,
      "loss": 2.1101,
      "step": 109850
    },
    {
      "epoch": 0.5493,
      "grad_norm": 0.69140625,
      "learning_rate": 0.001358894472361809,
      "loss": 2.0919,
      "step": 109860
    },
    {
      "epoch": 0.54935,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001358743718592965,
      "loss": 2.0705,
      "step": 109870
    },
    {
      "epoch": 0.5494,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0013585929648241206,
      "loss": 2.1159,
      "step": 109880
    },
    {
      "epoch": 0.54945,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013584422110552764,
      "loss": 2.1125,
      "step": 109890
    },
    {
      "epoch": 0.5495,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013582914572864322,
      "loss": 2.0862,
      "step": 109900
    },
    {
      "epoch": 0.54955,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001358140703517588,
      "loss": 2.0313,
      "step": 109910
    },
    {
      "epoch": 0.5496,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013579899497487438,
      "loss": 2.1513,
      "step": 109920
    },
    {
      "epoch": 0.54965,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013578391959798994,
      "loss": 2.0556,
      "step": 109930
    },
    {
      "epoch": 0.5497,
      "grad_norm": 0.625,
      "learning_rate": 0.0013576884422110552,
      "loss": 2.0774,
      "step": 109940
    },
    {
      "epoch": 0.54975,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013575376884422112,
      "loss": 2.0973,
      "step": 109950
    },
    {
      "epoch": 0.5498,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013573869346733668,
      "loss": 2.1353,
      "step": 109960
    },
    {
      "epoch": 0.54985,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013572361809045226,
      "loss": 2.0779,
      "step": 109970
    },
    {
      "epoch": 0.5499,
      "grad_norm": 0.71875,
      "learning_rate": 0.0013570854271356782,
      "loss": 2.1217,
      "step": 109980
    },
    {
      "epoch": 0.54995,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013569346733668343,
      "loss": 2.085,
      "step": 109990
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00135678391959799,
      "loss": 2.1018,
      "step": 110000
    },
    {
      "epoch": 0.55,
      "eval_loss": 2.0848841667175293,
      "eval_runtime": 48.8423,
      "eval_samples_per_second": 51.185,
      "eval_steps_per_second": 0.102,
      "step": 110000
    },
    {
      "epoch": 0.55005,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013566331658291457,
      "loss": 2.1003,
      "step": 110010
    },
    {
      "epoch": 0.5501,
      "grad_norm": 0.53125,
      "learning_rate": 0.0013564824120603015,
      "loss": 2.1379,
      "step": 110020
    },
    {
      "epoch": 0.55015,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013563316582914575,
      "loss": 2.1414,
      "step": 110030
    },
    {
      "epoch": 0.5502,
      "grad_norm": 0.71484375,
      "learning_rate": 0.001356180904522613,
      "loss": 2.1153,
      "step": 110040
    },
    {
      "epoch": 0.55025,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0013560301507537689,
      "loss": 2.0994,
      "step": 110050
    },
    {
      "epoch": 0.5503,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013558793969849245,
      "loss": 2.1262,
      "step": 110060
    },
    {
      "epoch": 0.55035,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013557286432160805,
      "loss": 2.1122,
      "step": 110070
    },
    {
      "epoch": 0.5504,
      "grad_norm": 0.6875,
      "learning_rate": 0.0013555778894472363,
      "loss": 2.0814,
      "step": 110080
    },
    {
      "epoch": 0.55045,
      "grad_norm": 0.640625,
      "learning_rate": 0.001355427135678392,
      "loss": 2.1027,
      "step": 110090
    },
    {
      "epoch": 0.5505,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0013552763819095477,
      "loss": 2.0561,
      "step": 110100
    },
    {
      "epoch": 0.55055,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013551256281407035,
      "loss": 2.0932,
      "step": 110110
    },
    {
      "epoch": 0.5506,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013549748743718593,
      "loss": 2.0619,
      "step": 110120
    },
    {
      "epoch": 0.55065,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0013548241206030151,
      "loss": 2.0907,
      "step": 110130
    },
    {
      "epoch": 0.5507,
      "grad_norm": 0.625,
      "learning_rate": 0.0013546733668341707,
      "loss": 2.0923,
      "step": 110140
    },
    {
      "epoch": 0.55075,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0013545226130653267,
      "loss": 2.0878,
      "step": 110150
    },
    {
      "epoch": 0.5508,
      "grad_norm": 0.625,
      "learning_rate": 0.0013543718592964825,
      "loss": 2.105,
      "step": 110160
    },
    {
      "epoch": 0.55085,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0013542211055276381,
      "loss": 2.0889,
      "step": 110170
    },
    {
      "epoch": 0.5509,
      "grad_norm": 0.625,
      "learning_rate": 0.001354070351758794,
      "loss": 2.1075,
      "step": 110180
    },
    {
      "epoch": 0.55095,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013539195979899497,
      "loss": 2.0707,
      "step": 110190
    },
    {
      "epoch": 0.551,
      "grad_norm": 0.625,
      "learning_rate": 0.0013537688442211056,
      "loss": 2.1163,
      "step": 110200
    },
    {
      "epoch": 0.55105,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0013536180904522614,
      "loss": 2.0823,
      "step": 110210
    },
    {
      "epoch": 0.5511,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001353467336683417,
      "loss": 2.0625,
      "step": 110220
    },
    {
      "epoch": 0.55115,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001353316582914573,
      "loss": 2.0846,
      "step": 110230
    },
    {
      "epoch": 0.5512,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013531658291457288,
      "loss": 2.1183,
      "step": 110240
    },
    {
      "epoch": 0.55125,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013530150753768844,
      "loss": 2.1234,
      "step": 110250
    },
    {
      "epoch": 0.5513,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013528643216080402,
      "loss": 2.0931,
      "step": 110260
    },
    {
      "epoch": 0.55135,
      "grad_norm": 0.578125,
      "learning_rate": 0.001352713567839196,
      "loss": 2.1024,
      "step": 110270
    },
    {
      "epoch": 0.5514,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013525628140703518,
      "loss": 2.0581,
      "step": 110280
    },
    {
      "epoch": 0.55145,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013524120603015076,
      "loss": 2.0913,
      "step": 110290
    },
    {
      "epoch": 0.5515,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013522613065326632,
      "loss": 2.0826,
      "step": 110300
    },
    {
      "epoch": 0.55155,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013521105527638192,
      "loss": 2.0683,
      "step": 110310
    },
    {
      "epoch": 0.5516,
      "grad_norm": 0.625,
      "learning_rate": 0.001351959798994975,
      "loss": 2.0576,
      "step": 110320
    },
    {
      "epoch": 0.55165,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0013518090452261306,
      "loss": 2.2147,
      "step": 110330
    },
    {
      "epoch": 0.5517,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013516582914572864,
      "loss": 2.0946,
      "step": 110340
    },
    {
      "epoch": 0.55175,
      "grad_norm": 0.5625,
      "learning_rate": 0.0013515075376884422,
      "loss": 2.0885,
      "step": 110350
    },
    {
      "epoch": 0.5518,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001351356783919598,
      "loss": 2.0868,
      "step": 110360
    },
    {
      "epoch": 0.55185,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013512060301507538,
      "loss": 2.0951,
      "step": 110370
    },
    {
      "epoch": 0.5519,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013510552763819094,
      "loss": 2.0575,
      "step": 110380
    },
    {
      "epoch": 0.55195,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013509045226130654,
      "loss": 2.085,
      "step": 110390
    },
    {
      "epoch": 0.552,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0013507537688442213,
      "loss": 2.0189,
      "step": 110400
    },
    {
      "epoch": 0.55205,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013506030150753768,
      "loss": 2.1128,
      "step": 110410
    },
    {
      "epoch": 0.5521,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013504522613065327,
      "loss": 2.0972,
      "step": 110420
    },
    {
      "epoch": 0.55215,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013503015075376885,
      "loss": 2.0999,
      "step": 110430
    },
    {
      "epoch": 0.5522,
      "grad_norm": 0.625,
      "learning_rate": 0.0013501507537688443,
      "loss": 2.1177,
      "step": 110440
    },
    {
      "epoch": 0.55225,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00135,
      "loss": 2.0916,
      "step": 110450
    },
    {
      "epoch": 0.5523,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013498492462311557,
      "loss": 2.088,
      "step": 110460
    },
    {
      "epoch": 0.55235,
      "grad_norm": 0.734375,
      "learning_rate": 0.0013496984924623117,
      "loss": 2.0749,
      "step": 110470
    },
    {
      "epoch": 0.5524,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0013495477386934675,
      "loss": 2.1464,
      "step": 110480
    },
    {
      "epoch": 0.55245,
      "grad_norm": 0.65625,
      "learning_rate": 0.001349396984924623,
      "loss": 2.052,
      "step": 110490
    },
    {
      "epoch": 0.5525,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0013492462311557789,
      "loss": 2.1146,
      "step": 110500
    },
    {
      "epoch": 0.55255,
      "grad_norm": 0.71875,
      "learning_rate": 0.0013490954773869347,
      "loss": 2.1247,
      "step": 110510
    },
    {
      "epoch": 0.5526,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013489447236180905,
      "loss": 2.1353,
      "step": 110520
    },
    {
      "epoch": 0.55265,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0013487939698492463,
      "loss": 2.0618,
      "step": 110530
    },
    {
      "epoch": 0.5527,
      "grad_norm": 0.59375,
      "learning_rate": 0.001348643216080402,
      "loss": 2.0961,
      "step": 110540
    },
    {
      "epoch": 0.55275,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013484924623115577,
      "loss": 2.1144,
      "step": 110550
    },
    {
      "epoch": 0.5528,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013483417085427137,
      "loss": 2.1394,
      "step": 110560
    },
    {
      "epoch": 0.55285,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013481909547738693,
      "loss": 2.1301,
      "step": 110570
    },
    {
      "epoch": 0.5529,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0013480402010050251,
      "loss": 2.076,
      "step": 110580
    },
    {
      "epoch": 0.55295,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001347889447236181,
      "loss": 2.141,
      "step": 110590
    },
    {
      "epoch": 0.553,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013477386934673367,
      "loss": 2.0021,
      "step": 110600
    },
    {
      "epoch": 0.55305,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013475879396984925,
      "loss": 2.119,
      "step": 110610
    },
    {
      "epoch": 0.5531,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013474371859296481,
      "loss": 2.0676,
      "step": 110620
    },
    {
      "epoch": 0.55315,
      "grad_norm": 0.609375,
      "learning_rate": 0.001347286432160804,
      "loss": 2.0883,
      "step": 110630
    },
    {
      "epoch": 0.5532,
      "grad_norm": 0.625,
      "learning_rate": 0.00134713567839196,
      "loss": 2.0834,
      "step": 110640
    },
    {
      "epoch": 0.55325,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013469849246231156,
      "loss": 2.1194,
      "step": 110650
    },
    {
      "epoch": 0.5533,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013468341708542714,
      "loss": 2.1188,
      "step": 110660
    },
    {
      "epoch": 0.55335,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013466834170854272,
      "loss": 2.1561,
      "step": 110670
    },
    {
      "epoch": 0.5534,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001346532663316583,
      "loss": 2.0516,
      "step": 110680
    },
    {
      "epoch": 0.55345,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013463819095477388,
      "loss": 2.0892,
      "step": 110690
    },
    {
      "epoch": 0.5535,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013462311557788944,
      "loss": 2.1049,
      "step": 110700
    },
    {
      "epoch": 0.55355,
      "grad_norm": 0.734375,
      "learning_rate": 0.0013460804020100502,
      "loss": 2.0433,
      "step": 110710
    },
    {
      "epoch": 0.5536,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013459296482412062,
      "loss": 2.1282,
      "step": 110720
    },
    {
      "epoch": 0.55365,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013457788944723618,
      "loss": 2.0331,
      "step": 110730
    },
    {
      "epoch": 0.5537,
      "grad_norm": 0.671875,
      "learning_rate": 0.0013456281407035176,
      "loss": 2.1221,
      "step": 110740
    },
    {
      "epoch": 0.55375,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013454773869346734,
      "loss": 2.0746,
      "step": 110750
    },
    {
      "epoch": 0.5538,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013453266331658292,
      "loss": 2.1215,
      "step": 110760
    },
    {
      "epoch": 0.55385,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001345175879396985,
      "loss": 2.0543,
      "step": 110770
    },
    {
      "epoch": 0.5539,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013450251256281406,
      "loss": 2.1466,
      "step": 110780
    },
    {
      "epoch": 0.55395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013448743718592964,
      "loss": 2.0709,
      "step": 110790
    },
    {
      "epoch": 0.554,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013447236180904524,
      "loss": 2.1397,
      "step": 110800
    },
    {
      "epoch": 0.55405,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001344572864321608,
      "loss": 2.1078,
      "step": 110810
    },
    {
      "epoch": 0.5541,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013444221105527638,
      "loss": 2.0912,
      "step": 110820
    },
    {
      "epoch": 0.55415,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013442713567839196,
      "loss": 2.0979,
      "step": 110830
    },
    {
      "epoch": 0.5542,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013441206030150755,
      "loss": 2.1323,
      "step": 110840
    },
    {
      "epoch": 0.55425,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013439698492462313,
      "loss": 2.1092,
      "step": 110850
    },
    {
      "epoch": 0.5543,
      "grad_norm": 0.671875,
      "learning_rate": 0.0013438190954773869,
      "loss": 2.0636,
      "step": 110860
    },
    {
      "epoch": 0.55435,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0013436683417085427,
      "loss": 2.1291,
      "step": 110870
    },
    {
      "epoch": 0.5544,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013435175879396987,
      "loss": 2.079,
      "step": 110880
    },
    {
      "epoch": 0.55445,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013433668341708543,
      "loss": 2.13,
      "step": 110890
    },
    {
      "epoch": 0.5545,
      "grad_norm": 0.6875,
      "learning_rate": 0.00134321608040201,
      "loss": 2.0877,
      "step": 110900
    },
    {
      "epoch": 0.55455,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013430653266331659,
      "loss": 2.0789,
      "step": 110910
    },
    {
      "epoch": 0.5546,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013429145728643217,
      "loss": 2.0644,
      "step": 110920
    },
    {
      "epoch": 0.55465,
      "grad_norm": 0.625,
      "learning_rate": 0.0013427638190954775,
      "loss": 2.0953,
      "step": 110930
    },
    {
      "epoch": 0.5547,
      "grad_norm": 0.640625,
      "learning_rate": 0.001342613065326633,
      "loss": 2.0871,
      "step": 110940
    },
    {
      "epoch": 0.55475,
      "grad_norm": 0.765625,
      "learning_rate": 0.001342462311557789,
      "loss": 2.0296,
      "step": 110950
    },
    {
      "epoch": 0.5548,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001342311557788945,
      "loss": 2.0976,
      "step": 110960
    },
    {
      "epoch": 0.55485,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013421608040201005,
      "loss": 2.0499,
      "step": 110970
    },
    {
      "epoch": 0.5549,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013420100502512563,
      "loss": 2.1564,
      "step": 110980
    },
    {
      "epoch": 0.55495,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001341859296482412,
      "loss": 2.0455,
      "step": 110990
    },
    {
      "epoch": 0.555,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001341708542713568,
      "loss": 2.0623,
      "step": 111000
    },
    {
      "epoch": 0.55505,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013415577889447237,
      "loss": 2.0602,
      "step": 111010
    },
    {
      "epoch": 0.5551,
      "grad_norm": 0.546875,
      "learning_rate": 0.0013414070351758793,
      "loss": 2.0905,
      "step": 111020
    },
    {
      "epoch": 0.55515,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013412562814070351,
      "loss": 2.1063,
      "step": 111030
    },
    {
      "epoch": 0.5552,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001341105527638191,
      "loss": 2.0394,
      "step": 111040
    },
    {
      "epoch": 0.55525,
      "grad_norm": 0.625,
      "learning_rate": 0.0013409547738693467,
      "loss": 2.1019,
      "step": 111050
    },
    {
      "epoch": 0.5553,
      "grad_norm": 0.625,
      "learning_rate": 0.0013408040201005026,
      "loss": 2.1079,
      "step": 111060
    },
    {
      "epoch": 0.55535,
      "grad_norm": 0.6875,
      "learning_rate": 0.0013406532663316581,
      "loss": 2.1256,
      "step": 111070
    },
    {
      "epoch": 0.5554,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013405025125628142,
      "loss": 2.0809,
      "step": 111080
    },
    {
      "epoch": 0.55545,
      "grad_norm": 0.59375,
      "learning_rate": 0.00134035175879397,
      "loss": 2.1185,
      "step": 111090
    },
    {
      "epoch": 0.5555,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013402010050251256,
      "loss": 2.1002,
      "step": 111100
    },
    {
      "epoch": 0.55555,
      "grad_norm": 0.625,
      "learning_rate": 0.0013400502512562814,
      "loss": 2.1049,
      "step": 111110
    },
    {
      "epoch": 0.5556,
      "grad_norm": 0.625,
      "learning_rate": 0.0013398994974874372,
      "loss": 2.0857,
      "step": 111120
    },
    {
      "epoch": 0.55565,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001339748743718593,
      "loss": 2.0627,
      "step": 111130
    },
    {
      "epoch": 0.5557,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013395979899497488,
      "loss": 2.0679,
      "step": 111140
    },
    {
      "epoch": 0.55575,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013394472361809044,
      "loss": 2.1372,
      "step": 111150
    },
    {
      "epoch": 0.5558,
      "grad_norm": 0.6875,
      "learning_rate": 0.0013392964824120604,
      "loss": 2.0996,
      "step": 111160
    },
    {
      "epoch": 0.55585,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013391457286432162,
      "loss": 2.1004,
      "step": 111170
    },
    {
      "epoch": 0.5559,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013389949748743718,
      "loss": 2.0885,
      "step": 111180
    },
    {
      "epoch": 0.55595,
      "grad_norm": 0.625,
      "learning_rate": 0.0013388442211055276,
      "loss": 2.0712,
      "step": 111190
    },
    {
      "epoch": 0.556,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013386934673366834,
      "loss": 2.0704,
      "step": 111200
    },
    {
      "epoch": 0.55605,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013385427135678392,
      "loss": 2.0986,
      "step": 111210
    },
    {
      "epoch": 0.5561,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001338391959798995,
      "loss": 2.1413,
      "step": 111220
    },
    {
      "epoch": 0.55615,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013382412060301506,
      "loss": 2.1105,
      "step": 111230
    },
    {
      "epoch": 0.5562,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013380904522613066,
      "loss": 2.1185,
      "step": 111240
    },
    {
      "epoch": 0.55625,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0013379396984924624,
      "loss": 2.0906,
      "step": 111250
    },
    {
      "epoch": 0.5563,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001337788944723618,
      "loss": 2.0736,
      "step": 111260
    },
    {
      "epoch": 0.55635,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0013376381909547738,
      "loss": 2.1245,
      "step": 111270
    },
    {
      "epoch": 0.5564,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0013374874371859297,
      "loss": 2.0778,
      "step": 111280
    },
    {
      "epoch": 0.55645,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0013373366834170855,
      "loss": 2.1314,
      "step": 111290
    },
    {
      "epoch": 0.5565,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013371859296482413,
      "loss": 2.0347,
      "step": 111300
    },
    {
      "epoch": 0.55655,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013370351758793969,
      "loss": 2.1423,
      "step": 111310
    },
    {
      "epoch": 0.5566,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013368844221105529,
      "loss": 2.0466,
      "step": 111320
    },
    {
      "epoch": 0.55665,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013367336683417087,
      "loss": 2.0771,
      "step": 111330
    },
    {
      "epoch": 0.5567,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013365829145728643,
      "loss": 2.0481,
      "step": 111340
    },
    {
      "epoch": 0.55675,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00133643216080402,
      "loss": 2.044,
      "step": 111350
    },
    {
      "epoch": 0.5568,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013362814070351759,
      "loss": 2.1072,
      "step": 111360
    },
    {
      "epoch": 0.55685,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013361306532663317,
      "loss": 2.1453,
      "step": 111370
    },
    {
      "epoch": 0.5569,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013359798994974875,
      "loss": 2.1022,
      "step": 111380
    },
    {
      "epoch": 0.55695,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001335829145728643,
      "loss": 2.1206,
      "step": 111390
    },
    {
      "epoch": 0.557,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013356783919597991,
      "loss": 2.1032,
      "step": 111400
    },
    {
      "epoch": 0.55705,
      "grad_norm": 0.69140625,
      "learning_rate": 0.001335527638190955,
      "loss": 2.1032,
      "step": 111410
    },
    {
      "epoch": 0.5571,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013353768844221105,
      "loss": 2.1758,
      "step": 111420
    },
    {
      "epoch": 0.55715,
      "grad_norm": 0.625,
      "learning_rate": 0.0013352261306532663,
      "loss": 2.1141,
      "step": 111430
    },
    {
      "epoch": 0.5572,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0013350753768844221,
      "loss": 2.1089,
      "step": 111440
    },
    {
      "epoch": 0.55725,
      "grad_norm": 0.578125,
      "learning_rate": 0.001334924623115578,
      "loss": 2.1218,
      "step": 111450
    },
    {
      "epoch": 0.5573,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013347738693467337,
      "loss": 2.0942,
      "step": 111460
    },
    {
      "epoch": 0.55735,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013346231155778893,
      "loss": 2.0736,
      "step": 111470
    },
    {
      "epoch": 0.5574,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013344723618090451,
      "loss": 2.0778,
      "step": 111480
    },
    {
      "epoch": 0.55745,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013343216080402012,
      "loss": 2.1384,
      "step": 111490
    },
    {
      "epoch": 0.5575,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013341708542713568,
      "loss": 2.122,
      "step": 111500
    },
    {
      "epoch": 0.55755,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013340201005025126,
      "loss": 2.1204,
      "step": 111510
    },
    {
      "epoch": 0.5576,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013338693467336684,
      "loss": 2.123,
      "step": 111520
    },
    {
      "epoch": 0.55765,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013337185929648242,
      "loss": 2.1701,
      "step": 111530
    },
    {
      "epoch": 0.5577,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00133356783919598,
      "loss": 2.0487,
      "step": 111540
    },
    {
      "epoch": 0.55775,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0013334170854271356,
      "loss": 2.1425,
      "step": 111550
    },
    {
      "epoch": 0.5578,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013332663316582914,
      "loss": 2.0985,
      "step": 111560
    },
    {
      "epoch": 0.55785,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013331155778894474,
      "loss": 2.0794,
      "step": 111570
    },
    {
      "epoch": 0.5579,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001332964824120603,
      "loss": 2.105,
      "step": 111580
    },
    {
      "epoch": 0.55795,
      "grad_norm": 0.625,
      "learning_rate": 0.0013328140703517588,
      "loss": 2.09,
      "step": 111590
    },
    {
      "epoch": 0.558,
      "grad_norm": 0.546875,
      "learning_rate": 0.0013326633165829146,
      "loss": 2.1213,
      "step": 111600
    },
    {
      "epoch": 0.55805,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013325125628140704,
      "loss": 2.1175,
      "step": 111610
    },
    {
      "epoch": 0.5581,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013323618090452262,
      "loss": 2.164,
      "step": 111620
    },
    {
      "epoch": 0.55815,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013322110552763818,
      "loss": 2.1214,
      "step": 111630
    },
    {
      "epoch": 0.5582,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0013320603015075376,
      "loss": 2.0824,
      "step": 111640
    },
    {
      "epoch": 0.55825,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013319095477386936,
      "loss": 2.0882,
      "step": 111650
    },
    {
      "epoch": 0.5583,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013317587939698492,
      "loss": 2.095,
      "step": 111660
    },
    {
      "epoch": 0.55835,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001331608040201005,
      "loss": 2.1448,
      "step": 111670
    },
    {
      "epoch": 0.5584,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013314572864321608,
      "loss": 2.0867,
      "step": 111680
    },
    {
      "epoch": 0.55845,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013313065326633166,
      "loss": 2.1126,
      "step": 111690
    },
    {
      "epoch": 0.5585,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013311557788944725,
      "loss": 2.0551,
      "step": 111700
    },
    {
      "epoch": 0.55855,
      "grad_norm": 0.671875,
      "learning_rate": 0.001331005025125628,
      "loss": 2.106,
      "step": 111710
    },
    {
      "epoch": 0.5586,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013308542713567839,
      "loss": 2.1165,
      "step": 111720
    },
    {
      "epoch": 0.55865,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013307035175879399,
      "loss": 2.1037,
      "step": 111730
    },
    {
      "epoch": 0.5587,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0013305527638190955,
      "loss": 2.134,
      "step": 111740
    },
    {
      "epoch": 0.55875,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013304020100502513,
      "loss": 2.1196,
      "step": 111750
    },
    {
      "epoch": 0.5588,
      "grad_norm": 0.59375,
      "learning_rate": 0.001330251256281407,
      "loss": 2.1195,
      "step": 111760
    },
    {
      "epoch": 0.55885,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013301005025125629,
      "loss": 2.0655,
      "step": 111770
    },
    {
      "epoch": 0.5589,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013299497487437187,
      "loss": 2.1173,
      "step": 111780
    },
    {
      "epoch": 0.55895,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013297989949748743,
      "loss": 2.1102,
      "step": 111790
    },
    {
      "epoch": 0.559,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00132964824120603,
      "loss": 2.1142,
      "step": 111800
    },
    {
      "epoch": 0.55905,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0013294974874371861,
      "loss": 2.0819,
      "step": 111810
    },
    {
      "epoch": 0.5591,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013293467336683417,
      "loss": 2.0736,
      "step": 111820
    },
    {
      "epoch": 0.55915,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013291959798994975,
      "loss": 2.0692,
      "step": 111830
    },
    {
      "epoch": 0.5592,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013290452261306533,
      "loss": 2.1312,
      "step": 111840
    },
    {
      "epoch": 0.55925,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0013288944723618091,
      "loss": 2.1088,
      "step": 111850
    },
    {
      "epoch": 0.5593,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001328743718592965,
      "loss": 2.0776,
      "step": 111860
    },
    {
      "epoch": 0.55935,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013285929648241205,
      "loss": 2.1066,
      "step": 111870
    },
    {
      "epoch": 0.5594,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013284422110552763,
      "loss": 2.1023,
      "step": 111880
    },
    {
      "epoch": 0.55945,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013282914572864324,
      "loss": 2.1331,
      "step": 111890
    },
    {
      "epoch": 0.5595,
      "grad_norm": 0.59375,
      "learning_rate": 0.001328140703517588,
      "loss": 2.0357,
      "step": 111900
    },
    {
      "epoch": 0.55955,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013279899497487437,
      "loss": 2.0858,
      "step": 111910
    },
    {
      "epoch": 0.5596,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013278391959798996,
      "loss": 2.0818,
      "step": 111920
    },
    {
      "epoch": 0.55965,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013276884422110554,
      "loss": 2.0861,
      "step": 111930
    },
    {
      "epoch": 0.5597,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0013275376884422112,
      "loss": 2.0792,
      "step": 111940
    },
    {
      "epoch": 0.55975,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013273869346733668,
      "loss": 2.0956,
      "step": 111950
    },
    {
      "epoch": 0.5598,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013272361809045226,
      "loss": 2.101,
      "step": 111960
    },
    {
      "epoch": 0.55985,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0013270854271356784,
      "loss": 2.1036,
      "step": 111970
    },
    {
      "epoch": 0.5599,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013269346733668342,
      "loss": 2.1669,
      "step": 111980
    },
    {
      "epoch": 0.55995,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00132678391959799,
      "loss": 2.0761,
      "step": 111990
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013266331658291458,
      "loss": 2.0903,
      "step": 112000
    },
    {
      "epoch": 0.56,
      "eval_loss": 2.085641860961914,
      "eval_runtime": 47.2762,
      "eval_samples_per_second": 52.881,
      "eval_steps_per_second": 0.106,
      "step": 112000
    },
    {
      "epoch": 0.56005,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013264824120603016,
      "loss": 2.0749,
      "step": 112010
    },
    {
      "epoch": 0.5601,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013263316582914574,
      "loss": 2.0401,
      "step": 112020
    },
    {
      "epoch": 0.56015,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001326180904522613,
      "loss": 2.1182,
      "step": 112030
    },
    {
      "epoch": 0.5602,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013260301507537688,
      "loss": 2.0819,
      "step": 112040
    },
    {
      "epoch": 0.56025,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013258793969849246,
      "loss": 2.1527,
      "step": 112050
    },
    {
      "epoch": 0.5603,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013257286432160804,
      "loss": 2.0629,
      "step": 112060
    },
    {
      "epoch": 0.56035,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013255778894472362,
      "loss": 2.1227,
      "step": 112070
    },
    {
      "epoch": 0.5604,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013254271356783918,
      "loss": 2.0998,
      "step": 112080
    },
    {
      "epoch": 0.56045,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013252763819095478,
      "loss": 2.1462,
      "step": 112090
    },
    {
      "epoch": 0.5605,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013251256281407036,
      "loss": 2.0739,
      "step": 112100
    },
    {
      "epoch": 0.56055,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013249748743718592,
      "loss": 2.1089,
      "step": 112110
    },
    {
      "epoch": 0.5606,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001324824120603015,
      "loss": 2.1555,
      "step": 112120
    },
    {
      "epoch": 0.56065,
      "grad_norm": 0.625,
      "learning_rate": 0.0013246733668341708,
      "loss": 2.0571,
      "step": 112130
    },
    {
      "epoch": 0.5607,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0013245226130653267,
      "loss": 2.1461,
      "step": 112140
    },
    {
      "epoch": 0.56075,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013243718592964825,
      "loss": 2.0725,
      "step": 112150
    },
    {
      "epoch": 0.5608,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001324221105527638,
      "loss": 2.1193,
      "step": 112160
    },
    {
      "epoch": 0.56085,
      "grad_norm": 0.59375,
      "learning_rate": 0.001324070351758794,
      "loss": 2.0894,
      "step": 112170
    },
    {
      "epoch": 0.5609,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0013239195979899499,
      "loss": 2.0868,
      "step": 112180
    },
    {
      "epoch": 0.56095,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0013237688442211055,
      "loss": 2.0891,
      "step": 112190
    },
    {
      "epoch": 0.561,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013236180904522613,
      "loss": 2.108,
      "step": 112200
    },
    {
      "epoch": 0.56105,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001323467336683417,
      "loss": 2.1272,
      "step": 112210
    },
    {
      "epoch": 0.5611,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001323316582914573,
      "loss": 2.1312,
      "step": 112220
    },
    {
      "epoch": 0.56115,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013231658291457287,
      "loss": 2.1284,
      "step": 112230
    },
    {
      "epoch": 0.5612,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0013230150753768843,
      "loss": 2.0832,
      "step": 112240
    },
    {
      "epoch": 0.56125,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013228643216080403,
      "loss": 2.1486,
      "step": 112250
    },
    {
      "epoch": 0.5613,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0013227135678391961,
      "loss": 2.1065,
      "step": 112260
    },
    {
      "epoch": 0.56135,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013225628140703517,
      "loss": 2.1087,
      "step": 112270
    },
    {
      "epoch": 0.5614,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013224120603015075,
      "loss": 2.1178,
      "step": 112280
    },
    {
      "epoch": 0.56145,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0013222613065326633,
      "loss": 2.0521,
      "step": 112290
    },
    {
      "epoch": 0.5615,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013221105527638191,
      "loss": 2.1064,
      "step": 112300
    },
    {
      "epoch": 0.56155,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001321959798994975,
      "loss": 2.0502,
      "step": 112310
    },
    {
      "epoch": 0.5616,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013218090452261305,
      "loss": 2.12,
      "step": 112320
    },
    {
      "epoch": 0.56165,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013216582914572866,
      "loss": 2.0316,
      "step": 112330
    },
    {
      "epoch": 0.5617,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013215075376884424,
      "loss": 2.0919,
      "step": 112340
    },
    {
      "epoch": 0.56175,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001321356783919598,
      "loss": 2.0934,
      "step": 112350
    },
    {
      "epoch": 0.5618,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013212060301507538,
      "loss": 2.0827,
      "step": 112360
    },
    {
      "epoch": 0.56185,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013210552763819096,
      "loss": 2.093,
      "step": 112370
    },
    {
      "epoch": 0.5619,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0013209045226130654,
      "loss": 2.0479,
      "step": 112380
    },
    {
      "epoch": 0.56195,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013207537688442212,
      "loss": 2.0867,
      "step": 112390
    },
    {
      "epoch": 0.562,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0013206030150753768,
      "loss": 2.1204,
      "step": 112400
    },
    {
      "epoch": 0.56205,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013204522613065326,
      "loss": 2.1035,
      "step": 112410
    },
    {
      "epoch": 0.5621,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013203015075376886,
      "loss": 2.0718,
      "step": 112420
    },
    {
      "epoch": 0.56215,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013201507537688442,
      "loss": 2.1386,
      "step": 112430
    },
    {
      "epoch": 0.5622,
      "grad_norm": 0.640625,
      "learning_rate": 0.00132,
      "loss": 2.1148,
      "step": 112440
    },
    {
      "epoch": 0.56225,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013198492462311558,
      "loss": 2.0586,
      "step": 112450
    },
    {
      "epoch": 0.5623,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013196984924623116,
      "loss": 2.1075,
      "step": 112460
    },
    {
      "epoch": 0.56235,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013195477386934674,
      "loss": 2.1176,
      "step": 112470
    },
    {
      "epoch": 0.5624,
      "grad_norm": 0.5625,
      "learning_rate": 0.001319396984924623,
      "loss": 2.0906,
      "step": 112480
    },
    {
      "epoch": 0.56245,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013192462311557788,
      "loss": 2.1002,
      "step": 112490
    },
    {
      "epoch": 0.5625,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013190954773869348,
      "loss": 2.1655,
      "step": 112500
    },
    {
      "epoch": 0.56255,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0013189447236180904,
      "loss": 2.1228,
      "step": 112510
    },
    {
      "epoch": 0.5626,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013187939698492462,
      "loss": 2.1296,
      "step": 112520
    },
    {
      "epoch": 0.56265,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001318643216080402,
      "loss": 2.0644,
      "step": 112530
    },
    {
      "epoch": 0.5627,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013184924623115578,
      "loss": 2.0649,
      "step": 112540
    },
    {
      "epoch": 0.56275,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013183417085427137,
      "loss": 2.0807,
      "step": 112550
    },
    {
      "epoch": 0.5628,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013181909547738692,
      "loss": 2.0863,
      "step": 112560
    },
    {
      "epoch": 0.56285,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001318040201005025,
      "loss": 2.1234,
      "step": 112570
    },
    {
      "epoch": 0.5629,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001317889447236181,
      "loss": 2.0894,
      "step": 112580
    },
    {
      "epoch": 0.56295,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0013177386934673367,
      "loss": 2.116,
      "step": 112590
    },
    {
      "epoch": 0.563,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013175879396984925,
      "loss": 2.1282,
      "step": 112600
    },
    {
      "epoch": 0.56305,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013174371859296483,
      "loss": 2.1119,
      "step": 112610
    },
    {
      "epoch": 0.5631,
      "grad_norm": 0.609375,
      "learning_rate": 0.001317286432160804,
      "loss": 2.1159,
      "step": 112620
    },
    {
      "epoch": 0.56315,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013171356783919599,
      "loss": 2.0871,
      "step": 112630
    },
    {
      "epoch": 0.5632,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013169849246231155,
      "loss": 2.131,
      "step": 112640
    },
    {
      "epoch": 0.56325,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0013168341708542713,
      "loss": 2.082,
      "step": 112650
    },
    {
      "epoch": 0.5633,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013166834170854273,
      "loss": 2.138,
      "step": 112660
    },
    {
      "epoch": 0.56335,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001316532663316583,
      "loss": 2.1459,
      "step": 112670
    },
    {
      "epoch": 0.5634,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013163819095477387,
      "loss": 2.0488,
      "step": 112680
    },
    {
      "epoch": 0.56345,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013162311557788945,
      "loss": 2.0976,
      "step": 112690
    },
    {
      "epoch": 0.5635,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013160804020100503,
      "loss": 2.0738,
      "step": 112700
    },
    {
      "epoch": 0.56355,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013159296482412061,
      "loss": 2.1001,
      "step": 112710
    },
    {
      "epoch": 0.5636,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013157788944723617,
      "loss": 2.0741,
      "step": 112720
    },
    {
      "epoch": 0.56365,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013156281407035175,
      "loss": 2.1401,
      "step": 112730
    },
    {
      "epoch": 0.5637,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013154773869346735,
      "loss": 2.08,
      "step": 112740
    },
    {
      "epoch": 0.56375,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0013153266331658291,
      "loss": 2.1074,
      "step": 112750
    },
    {
      "epoch": 0.5638,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001315175879396985,
      "loss": 2.1425,
      "step": 112760
    },
    {
      "epoch": 0.56385,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013150251256281408,
      "loss": 2.0814,
      "step": 112770
    },
    {
      "epoch": 0.5639,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0013148743718592966,
      "loss": 2.131,
      "step": 112780
    },
    {
      "epoch": 0.56395,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0013147236180904524,
      "loss": 2.092,
      "step": 112790
    },
    {
      "epoch": 0.564,
      "grad_norm": 0.640625,
      "learning_rate": 0.001314572864321608,
      "loss": 2.0927,
      "step": 112800
    },
    {
      "epoch": 0.56405,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013144221105527638,
      "loss": 2.1,
      "step": 112810
    },
    {
      "epoch": 0.5641,
      "grad_norm": 0.5625,
      "learning_rate": 0.0013142713567839198,
      "loss": 2.1199,
      "step": 112820
    },
    {
      "epoch": 0.56415,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013141206030150754,
      "loss": 2.0768,
      "step": 112830
    },
    {
      "epoch": 0.5642,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0013139698492462312,
      "loss": 2.094,
      "step": 112840
    },
    {
      "epoch": 0.56425,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001313819095477387,
      "loss": 2.1451,
      "step": 112850
    },
    {
      "epoch": 0.5643,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0013136683417085428,
      "loss": 2.1083,
      "step": 112860
    },
    {
      "epoch": 0.56435,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013135175879396986,
      "loss": 2.1045,
      "step": 112870
    },
    {
      "epoch": 0.5644,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013133668341708542,
      "loss": 2.0704,
      "step": 112880
    },
    {
      "epoch": 0.56445,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00131321608040201,
      "loss": 2.0517,
      "step": 112890
    },
    {
      "epoch": 0.5645,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013130653266331658,
      "loss": 2.0678,
      "step": 112900
    },
    {
      "epoch": 0.56455,
      "grad_norm": 0.671875,
      "learning_rate": 0.0013129145728643216,
      "loss": 2.0813,
      "step": 112910
    },
    {
      "epoch": 0.5646,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013127638190954774,
      "loss": 2.0649,
      "step": 112920
    },
    {
      "epoch": 0.56465,
      "grad_norm": 0.609375,
      "learning_rate": 0.0013126130653266332,
      "loss": 2.0847,
      "step": 112930
    },
    {
      "epoch": 0.5647,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001312462311557789,
      "loss": 2.1213,
      "step": 112940
    },
    {
      "epoch": 0.56475,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013123115577889448,
      "loss": 2.0932,
      "step": 112950
    },
    {
      "epoch": 0.5648,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013121608040201004,
      "loss": 2.0901,
      "step": 112960
    },
    {
      "epoch": 0.56485,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013120100502512562,
      "loss": 2.103,
      "step": 112970
    },
    {
      "epoch": 0.5649,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001311859296482412,
      "loss": 2.1158,
      "step": 112980
    },
    {
      "epoch": 0.56495,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013117085427135679,
      "loss": 2.1055,
      "step": 112990
    },
    {
      "epoch": 0.565,
      "grad_norm": 0.578125,
      "learning_rate": 0.0013115577889447237,
      "loss": 2.1001,
      "step": 113000
    },
    {
      "epoch": 0.56505,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013114070351758795,
      "loss": 2.1536,
      "step": 113010
    },
    {
      "epoch": 0.5651,
      "grad_norm": 0.6875,
      "learning_rate": 0.0013112562814070353,
      "loss": 2.1086,
      "step": 113020
    },
    {
      "epoch": 0.56515,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001311105527638191,
      "loss": 2.1082,
      "step": 113030
    },
    {
      "epoch": 0.5652,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0013109547738693467,
      "loss": 2.1454,
      "step": 113040
    },
    {
      "epoch": 0.56525,
      "grad_norm": 0.625,
      "learning_rate": 0.0013108040201005025,
      "loss": 2.087,
      "step": 113050
    },
    {
      "epoch": 0.5653,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0013106532663316583,
      "loss": 2.0836,
      "step": 113060
    },
    {
      "epoch": 0.56535,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001310502512562814,
      "loss": 2.0988,
      "step": 113070
    },
    {
      "epoch": 0.5654,
      "grad_norm": 0.71875,
      "learning_rate": 0.00131035175879397,
      "loss": 2.1372,
      "step": 113080
    },
    {
      "epoch": 0.56545,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013102010050251257,
      "loss": 2.0453,
      "step": 113090
    },
    {
      "epoch": 0.5655,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013100502512562815,
      "loss": 2.0509,
      "step": 113100
    },
    {
      "epoch": 0.56555,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013098994974874373,
      "loss": 2.0859,
      "step": 113110
    },
    {
      "epoch": 0.5656,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001309748743718593,
      "loss": 2.0782,
      "step": 113120
    },
    {
      "epoch": 0.56565,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013095979899497487,
      "loss": 2.1357,
      "step": 113130
    },
    {
      "epoch": 0.5657,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013094472361809045,
      "loss": 2.1117,
      "step": 113140
    },
    {
      "epoch": 0.56575,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013092964824120603,
      "loss": 2.1397,
      "step": 113150
    },
    {
      "epoch": 0.5658,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013091457286432161,
      "loss": 2.0873,
      "step": 113160
    },
    {
      "epoch": 0.56585,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001308994974874372,
      "loss": 2.0518,
      "step": 113170
    },
    {
      "epoch": 0.5659,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013088442211055277,
      "loss": 2.0801,
      "step": 113180
    },
    {
      "epoch": 0.56595,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0013086934673366836,
      "loss": 2.0751,
      "step": 113190
    },
    {
      "epoch": 0.566,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013085427135678391,
      "loss": 2.0995,
      "step": 113200
    },
    {
      "epoch": 0.56605,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001308391959798995,
      "loss": 2.1049,
      "step": 113210
    },
    {
      "epoch": 0.5661,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013082412060301508,
      "loss": 2.0941,
      "step": 113220
    },
    {
      "epoch": 0.56615,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013080904522613066,
      "loss": 2.0914,
      "step": 113230
    },
    {
      "epoch": 0.5662,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0013079396984924624,
      "loss": 2.0468,
      "step": 113240
    },
    {
      "epoch": 0.56625,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001307788944723618,
      "loss": 2.1633,
      "step": 113250
    },
    {
      "epoch": 0.5663,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001307638190954774,
      "loss": 2.0955,
      "step": 113260
    },
    {
      "epoch": 0.56635,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013074874371859298,
      "loss": 2.1228,
      "step": 113270
    },
    {
      "epoch": 0.5664,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013073366834170854,
      "loss": 2.0624,
      "step": 113280
    },
    {
      "epoch": 0.56645,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013071859296482412,
      "loss": 2.1447,
      "step": 113290
    },
    {
      "epoch": 0.5665,
      "grad_norm": 0.59375,
      "learning_rate": 0.001307035175879397,
      "loss": 2.0963,
      "step": 113300
    },
    {
      "epoch": 0.56655,
      "grad_norm": 0.53125,
      "learning_rate": 0.0013068844221105528,
      "loss": 2.0623,
      "step": 113310
    },
    {
      "epoch": 0.5666,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0013067336683417086,
      "loss": 2.1227,
      "step": 113320
    },
    {
      "epoch": 0.56665,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0013065829145728642,
      "loss": 2.105,
      "step": 113330
    },
    {
      "epoch": 0.5667,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00130643216080402,
      "loss": 2.0924,
      "step": 113340
    },
    {
      "epoch": 0.56675,
      "grad_norm": 0.703125,
      "learning_rate": 0.001306281407035176,
      "loss": 2.0534,
      "step": 113350
    },
    {
      "epoch": 0.5668,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0013061306532663316,
      "loss": 2.0529,
      "step": 113360
    },
    {
      "epoch": 0.56685,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013059798994974874,
      "loss": 2.1186,
      "step": 113370
    },
    {
      "epoch": 0.5669,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013058291457286432,
      "loss": 2.1296,
      "step": 113380
    },
    {
      "epoch": 0.56695,
      "grad_norm": 0.74609375,
      "learning_rate": 0.001305678391959799,
      "loss": 2.137,
      "step": 113390
    },
    {
      "epoch": 0.567,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0013055276381909548,
      "loss": 2.106,
      "step": 113400
    },
    {
      "epoch": 0.56705,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0013053768844221104,
      "loss": 2.1137,
      "step": 113410
    },
    {
      "epoch": 0.5671,
      "grad_norm": 0.59375,
      "learning_rate": 0.0013052261306532662,
      "loss": 2.077,
      "step": 113420
    },
    {
      "epoch": 0.56715,
      "grad_norm": 0.6875,
      "learning_rate": 0.0013050753768844223,
      "loss": 2.1022,
      "step": 113430
    },
    {
      "epoch": 0.5672,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013049246231155779,
      "loss": 2.1116,
      "step": 113440
    },
    {
      "epoch": 0.56725,
      "grad_norm": 0.65625,
      "learning_rate": 0.0013047738693467337,
      "loss": 2.1255,
      "step": 113450
    },
    {
      "epoch": 0.5673,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0013046231155778895,
      "loss": 2.076,
      "step": 113460
    },
    {
      "epoch": 0.56735,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013044723618090453,
      "loss": 2.0977,
      "step": 113470
    },
    {
      "epoch": 0.5674,
      "grad_norm": 0.5625,
      "learning_rate": 0.001304321608040201,
      "loss": 2.1047,
      "step": 113480
    },
    {
      "epoch": 0.56745,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0013041708542713567,
      "loss": 2.0532,
      "step": 113490
    },
    {
      "epoch": 0.5675,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0013040201005025125,
      "loss": 2.0814,
      "step": 113500
    },
    {
      "epoch": 0.56755,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0013038693467336685,
      "loss": 2.0718,
      "step": 113510
    },
    {
      "epoch": 0.5676,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001303718592964824,
      "loss": 2.1121,
      "step": 113520
    },
    {
      "epoch": 0.56765,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00130356783919598,
      "loss": 2.1307,
      "step": 113530
    },
    {
      "epoch": 0.5677,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013034170854271357,
      "loss": 2.1262,
      "step": 113540
    },
    {
      "epoch": 0.56775,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0013032663316582915,
      "loss": 2.1074,
      "step": 113550
    },
    {
      "epoch": 0.5678,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0013031155778894473,
      "loss": 2.0547,
      "step": 113560
    },
    {
      "epoch": 0.56785,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001302964824120603,
      "loss": 2.1653,
      "step": 113570
    },
    {
      "epoch": 0.5679,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013028140703517587,
      "loss": 2.119,
      "step": 113580
    },
    {
      "epoch": 0.56795,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013026633165829147,
      "loss": 2.1175,
      "step": 113590
    },
    {
      "epoch": 0.568,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0013025125628140703,
      "loss": 2.067,
      "step": 113600
    },
    {
      "epoch": 0.56805,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0013023618090452261,
      "loss": 2.0762,
      "step": 113610
    },
    {
      "epoch": 0.5681,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001302211055276382,
      "loss": 2.1267,
      "step": 113620
    },
    {
      "epoch": 0.56815,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013020603015075378,
      "loss": 2.1005,
      "step": 113630
    },
    {
      "epoch": 0.5682,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0013019095477386936,
      "loss": 2.0994,
      "step": 113640
    },
    {
      "epoch": 0.56825,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0013017587939698491,
      "loss": 2.088,
      "step": 113650
    },
    {
      "epoch": 0.5683,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001301608040201005,
      "loss": 2.0994,
      "step": 113660
    },
    {
      "epoch": 0.56835,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001301457286432161,
      "loss": 2.0956,
      "step": 113670
    },
    {
      "epoch": 0.5684,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0013013065326633166,
      "loss": 2.0635,
      "step": 113680
    },
    {
      "epoch": 0.56845,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013011557788944724,
      "loss": 2.1144,
      "step": 113690
    },
    {
      "epoch": 0.5685,
      "grad_norm": 0.640625,
      "learning_rate": 0.0013010050251256282,
      "loss": 2.0734,
      "step": 113700
    },
    {
      "epoch": 0.56855,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001300854271356784,
      "loss": 2.1407,
      "step": 113710
    },
    {
      "epoch": 0.5686,
      "grad_norm": 0.546875,
      "learning_rate": 0.0013007035175879398,
      "loss": 2.08,
      "step": 113720
    },
    {
      "epoch": 0.56865,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0013005527638190954,
      "loss": 2.1194,
      "step": 113730
    },
    {
      "epoch": 0.5687,
      "grad_norm": 0.5625,
      "learning_rate": 0.0013004020100502512,
      "loss": 2.1673,
      "step": 113740
    },
    {
      "epoch": 0.56875,
      "grad_norm": 0.53125,
      "learning_rate": 0.0013002512562814072,
      "loss": 2.0781,
      "step": 113750
    },
    {
      "epoch": 0.5688,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0013001005025125628,
      "loss": 2.0979,
      "step": 113760
    },
    {
      "epoch": 0.56885,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012999497487437186,
      "loss": 2.0487,
      "step": 113770
    },
    {
      "epoch": 0.5689,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012997989949748744,
      "loss": 2.1442,
      "step": 113780
    },
    {
      "epoch": 0.56895,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012996482412060302,
      "loss": 2.1019,
      "step": 113790
    },
    {
      "epoch": 0.569,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001299497487437186,
      "loss": 2.0881,
      "step": 113800
    },
    {
      "epoch": 0.56905,
      "grad_norm": 0.625,
      "learning_rate": 0.0012993467336683416,
      "loss": 2.1795,
      "step": 113810
    },
    {
      "epoch": 0.5691,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012991959798994974,
      "loss": 2.0366,
      "step": 113820
    },
    {
      "epoch": 0.56915,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012990452261306532,
      "loss": 2.1198,
      "step": 113830
    },
    {
      "epoch": 0.5692,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001298894472361809,
      "loss": 2.0772,
      "step": 113840
    },
    {
      "epoch": 0.56925,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012987437185929649,
      "loss": 2.1163,
      "step": 113850
    },
    {
      "epoch": 0.5693,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0012985929648241207,
      "loss": 2.107,
      "step": 113860
    },
    {
      "epoch": 0.56935,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012984422110552765,
      "loss": 2.0457,
      "step": 113870
    },
    {
      "epoch": 0.5694,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012982914572864323,
      "loss": 2.0998,
      "step": 113880
    },
    {
      "epoch": 0.56945,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012981407035175879,
      "loss": 2.0793,
      "step": 113890
    },
    {
      "epoch": 0.5695,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012979899497487437,
      "loss": 2.0658,
      "step": 113900
    },
    {
      "epoch": 0.56955,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012978391959798995,
      "loss": 2.0911,
      "step": 113910
    },
    {
      "epoch": 0.5696,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012976884422110553,
      "loss": 2.0851,
      "step": 113920
    },
    {
      "epoch": 0.56965,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001297537688442211,
      "loss": 2.1312,
      "step": 113930
    },
    {
      "epoch": 0.5697,
      "grad_norm": 0.625,
      "learning_rate": 0.001297386934673367,
      "loss": 2.0537,
      "step": 113940
    },
    {
      "epoch": 0.56975,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012972361809045227,
      "loss": 2.1017,
      "step": 113950
    },
    {
      "epoch": 0.5698,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012970854271356785,
      "loss": 2.0479,
      "step": 113960
    },
    {
      "epoch": 0.56985,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001296934673366834,
      "loss": 2.1275,
      "step": 113970
    },
    {
      "epoch": 0.5699,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00129678391959799,
      "loss": 2.1082,
      "step": 113980
    },
    {
      "epoch": 0.56995,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012966331658291457,
      "loss": 2.1276,
      "step": 113990
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.6875,
      "learning_rate": 0.0012964824120603015,
      "loss": 2.1347,
      "step": 114000
    },
    {
      "epoch": 0.57,
      "eval_loss": 2.0814950466156006,
      "eval_runtime": 47.2018,
      "eval_samples_per_second": 52.964,
      "eval_steps_per_second": 0.106,
      "step": 114000
    },
    {
      "epoch": 0.57005,
      "grad_norm": 0.5625,
      "learning_rate": 0.0012963316582914573,
      "loss": 2.0401,
      "step": 114010
    },
    {
      "epoch": 0.5701,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012961809045226131,
      "loss": 2.0397,
      "step": 114020
    },
    {
      "epoch": 0.57015,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001296030150753769,
      "loss": 2.0326,
      "step": 114030
    },
    {
      "epoch": 0.5702,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012958793969849247,
      "loss": 2.1307,
      "step": 114040
    },
    {
      "epoch": 0.57025,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012957286432160803,
      "loss": 2.0769,
      "step": 114050
    },
    {
      "epoch": 0.5703,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0012955778894472361,
      "loss": 2.0916,
      "step": 114060
    },
    {
      "epoch": 0.57035,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001295427135678392,
      "loss": 2.1079,
      "step": 114070
    },
    {
      "epoch": 0.5704,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0012952763819095478,
      "loss": 2.0834,
      "step": 114080
    },
    {
      "epoch": 0.57045,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012951256281407036,
      "loss": 2.1576,
      "step": 114090
    },
    {
      "epoch": 0.5705,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012949748743718594,
      "loss": 2.1004,
      "step": 114100
    },
    {
      "epoch": 0.57055,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012948241206030152,
      "loss": 2.1286,
      "step": 114110
    },
    {
      "epoch": 0.5706,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001294673366834171,
      "loss": 2.0645,
      "step": 114120
    },
    {
      "epoch": 0.57065,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0012945226130653266,
      "loss": 2.096,
      "step": 114130
    },
    {
      "epoch": 0.5707,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012943718592964824,
      "loss": 2.1354,
      "step": 114140
    },
    {
      "epoch": 0.57075,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012942211055276382,
      "loss": 2.093,
      "step": 114150
    },
    {
      "epoch": 0.5708,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001294070351758794,
      "loss": 2.1573,
      "step": 114160
    },
    {
      "epoch": 0.57085,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012939195979899498,
      "loss": 2.107,
      "step": 114170
    },
    {
      "epoch": 0.5709,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012937688442211056,
      "loss": 2.1077,
      "step": 114180
    },
    {
      "epoch": 0.57095,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012936180904522614,
      "loss": 2.1057,
      "step": 114190
    },
    {
      "epoch": 0.571,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012934673366834172,
      "loss": 2.0613,
      "step": 114200
    },
    {
      "epoch": 0.57105,
      "grad_norm": 0.625,
      "learning_rate": 0.0012933165829145728,
      "loss": 2.1011,
      "step": 114210
    },
    {
      "epoch": 0.5711,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012931658291457286,
      "loss": 2.1177,
      "step": 114220
    },
    {
      "epoch": 0.57115,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012930150753768844,
      "loss": 2.1204,
      "step": 114230
    },
    {
      "epoch": 0.5712,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012928643216080402,
      "loss": 2.0875,
      "step": 114240
    },
    {
      "epoch": 0.57125,
      "grad_norm": 0.625,
      "learning_rate": 0.001292713567839196,
      "loss": 2.0475,
      "step": 114250
    },
    {
      "epoch": 0.5713,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012925628140703518,
      "loss": 2.1444,
      "step": 114260
    },
    {
      "epoch": 0.57135,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012924120603015074,
      "loss": 2.1001,
      "step": 114270
    },
    {
      "epoch": 0.5714,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012922613065326635,
      "loss": 2.129,
      "step": 114280
    },
    {
      "epoch": 0.57145,
      "grad_norm": 0.59375,
      "learning_rate": 0.001292110552763819,
      "loss": 2.0847,
      "step": 114290
    },
    {
      "epoch": 0.5715,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012919597989949749,
      "loss": 2.1102,
      "step": 114300
    },
    {
      "epoch": 0.57155,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012918090452261307,
      "loss": 2.0797,
      "step": 114310
    },
    {
      "epoch": 0.5716,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012916582914572865,
      "loss": 2.0917,
      "step": 114320
    },
    {
      "epoch": 0.57165,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012915075376884423,
      "loss": 2.1368,
      "step": 114330
    },
    {
      "epoch": 0.5717,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001291356783919598,
      "loss": 2.0898,
      "step": 114340
    },
    {
      "epoch": 0.57175,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012912060301507537,
      "loss": 2.1246,
      "step": 114350
    },
    {
      "epoch": 0.5718,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012910552763819097,
      "loss": 2.0997,
      "step": 114360
    },
    {
      "epoch": 0.57185,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012909045226130653,
      "loss": 2.0263,
      "step": 114370
    },
    {
      "epoch": 0.5719,
      "grad_norm": 0.59375,
      "learning_rate": 0.001290753768844221,
      "loss": 2.106,
      "step": 114380
    },
    {
      "epoch": 0.57195,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001290603015075377,
      "loss": 2.1083,
      "step": 114390
    },
    {
      "epoch": 0.572,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0012904522613065327,
      "loss": 2.1212,
      "step": 114400
    },
    {
      "epoch": 0.57205,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012903015075376885,
      "loss": 2.0945,
      "step": 114410
    },
    {
      "epoch": 0.5721,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001290150753768844,
      "loss": 2.1087,
      "step": 114420
    },
    {
      "epoch": 0.57215,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00129,
      "loss": 2.1003,
      "step": 114430
    },
    {
      "epoch": 0.5722,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001289849246231156,
      "loss": 2.05,
      "step": 114440
    },
    {
      "epoch": 0.57225,
      "grad_norm": 0.5625,
      "learning_rate": 0.0012896984924623115,
      "loss": 2.0938,
      "step": 114450
    },
    {
      "epoch": 0.5723,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012895477386934673,
      "loss": 2.0638,
      "step": 114460
    },
    {
      "epoch": 0.57235,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012893969849246231,
      "loss": 2.0918,
      "step": 114470
    },
    {
      "epoch": 0.5724,
      "grad_norm": 0.703125,
      "learning_rate": 0.001289246231155779,
      "loss": 2.1698,
      "step": 114480
    },
    {
      "epoch": 0.57245,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012890954773869348,
      "loss": 2.0975,
      "step": 114490
    },
    {
      "epoch": 0.5725,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012889447236180903,
      "loss": 2.103,
      "step": 114500
    },
    {
      "epoch": 0.57255,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0012887939698492462,
      "loss": 2.138,
      "step": 114510
    },
    {
      "epoch": 0.5726,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012886432160804022,
      "loss": 2.1038,
      "step": 114520
    },
    {
      "epoch": 0.57265,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012884924623115578,
      "loss": 2.1181,
      "step": 114530
    },
    {
      "epoch": 0.5727,
      "grad_norm": 0.53125,
      "learning_rate": 0.0012883417085427136,
      "loss": 2.1209,
      "step": 114540
    },
    {
      "epoch": 0.57275,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0012881909547738694,
      "loss": 2.1173,
      "step": 114550
    },
    {
      "epoch": 0.5728,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012880402010050252,
      "loss": 2.0962,
      "step": 114560
    },
    {
      "epoch": 0.57285,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001287889447236181,
      "loss": 2.1282,
      "step": 114570
    },
    {
      "epoch": 0.5729,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012877386934673366,
      "loss": 2.1443,
      "step": 114580
    },
    {
      "epoch": 0.57295,
      "grad_norm": 0.625,
      "learning_rate": 0.0012875879396984924,
      "loss": 2.1129,
      "step": 114590
    },
    {
      "epoch": 0.573,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012874371859296484,
      "loss": 2.1181,
      "step": 114600
    },
    {
      "epoch": 0.57305,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001287286432160804,
      "loss": 2.0996,
      "step": 114610
    },
    {
      "epoch": 0.5731,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012871356783919598,
      "loss": 2.0925,
      "step": 114620
    },
    {
      "epoch": 0.57315,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0012869849246231156,
      "loss": 2.0392,
      "step": 114630
    },
    {
      "epoch": 0.5732,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012868341708542714,
      "loss": 2.0601,
      "step": 114640
    },
    {
      "epoch": 0.57325,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012866834170854272,
      "loss": 2.1326,
      "step": 114650
    },
    {
      "epoch": 0.5733,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012865326633165828,
      "loss": 2.0902,
      "step": 114660
    },
    {
      "epoch": 0.57335,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012863819095477386,
      "loss": 2.09,
      "step": 114670
    },
    {
      "epoch": 0.5734,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012862311557788947,
      "loss": 2.1232,
      "step": 114680
    },
    {
      "epoch": 0.57345,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0012860804020100502,
      "loss": 2.1599,
      "step": 114690
    },
    {
      "epoch": 0.5735,
      "grad_norm": 0.6875,
      "learning_rate": 0.001285929648241206,
      "loss": 2.1137,
      "step": 114700
    },
    {
      "epoch": 0.57355,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0012857788944723619,
      "loss": 2.1687,
      "step": 114710
    },
    {
      "epoch": 0.5736,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0012856281407035177,
      "loss": 2.1036,
      "step": 114720
    },
    {
      "epoch": 0.57365,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012854773869346735,
      "loss": 2.0969,
      "step": 114730
    },
    {
      "epoch": 0.5737,
      "grad_norm": 0.6953125,
      "learning_rate": 0.001285326633165829,
      "loss": 2.1244,
      "step": 114740
    },
    {
      "epoch": 0.57375,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012851758793969849,
      "loss": 2.0871,
      "step": 114750
    },
    {
      "epoch": 0.5738,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012850251256281407,
      "loss": 2.1465,
      "step": 114760
    },
    {
      "epoch": 0.57385,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012848743718592965,
      "loss": 2.1042,
      "step": 114770
    },
    {
      "epoch": 0.5739,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012847236180904523,
      "loss": 2.0982,
      "step": 114780
    },
    {
      "epoch": 0.57395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001284572864321608,
      "loss": 2.1476,
      "step": 114790
    },
    {
      "epoch": 0.574,
      "grad_norm": 0.69921875,
      "learning_rate": 0.001284422110552764,
      "loss": 2.1282,
      "step": 114800
    },
    {
      "epoch": 0.57405,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012842713567839197,
      "loss": 2.1161,
      "step": 114810
    },
    {
      "epoch": 0.5741,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012841206030150753,
      "loss": 2.1261,
      "step": 114820
    },
    {
      "epoch": 0.57415,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001283969849246231,
      "loss": 2.0735,
      "step": 114830
    },
    {
      "epoch": 0.5742,
      "grad_norm": 0.625,
      "learning_rate": 0.001283819095477387,
      "loss": 2.115,
      "step": 114840
    },
    {
      "epoch": 0.57425,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012836683417085427,
      "loss": 2.0523,
      "step": 114850
    },
    {
      "epoch": 0.5743,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012835175879396985,
      "loss": 2.0862,
      "step": 114860
    },
    {
      "epoch": 0.57435,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012833668341708543,
      "loss": 2.1044,
      "step": 114870
    },
    {
      "epoch": 0.5744,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012832160804020101,
      "loss": 2.1442,
      "step": 114880
    },
    {
      "epoch": 0.57445,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001283065326633166,
      "loss": 2.1155,
      "step": 114890
    },
    {
      "epoch": 0.5745,
      "grad_norm": 0.625,
      "learning_rate": 0.0012829145728643215,
      "loss": 2.0991,
      "step": 114900
    },
    {
      "epoch": 0.57455,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012827638190954773,
      "loss": 2.1628,
      "step": 114910
    },
    {
      "epoch": 0.5746,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012826130653266331,
      "loss": 2.0753,
      "step": 114920
    },
    {
      "epoch": 0.57465,
      "grad_norm": 0.5,
      "learning_rate": 0.001282462311557789,
      "loss": 2.0708,
      "step": 114930
    },
    {
      "epoch": 0.5747,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012823115577889448,
      "loss": 2.1263,
      "step": 114940
    },
    {
      "epoch": 0.57475,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012821608040201006,
      "loss": 2.077,
      "step": 114950
    },
    {
      "epoch": 0.5748,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012820100502512564,
      "loss": 2.0901,
      "step": 114960
    },
    {
      "epoch": 0.57485,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012818592964824122,
      "loss": 2.0607,
      "step": 114970
    },
    {
      "epoch": 0.5749,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0012817085427135678,
      "loss": 2.0982,
      "step": 114980
    },
    {
      "epoch": 0.57495,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0012815577889447236,
      "loss": 2.1078,
      "step": 114990
    },
    {
      "epoch": 0.575,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0012814070351758794,
      "loss": 2.0703,
      "step": 115000
    },
    {
      "epoch": 0.57505,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012812562814070352,
      "loss": 2.1737,
      "step": 115010
    },
    {
      "epoch": 0.5751,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001281105527638191,
      "loss": 2.1007,
      "step": 115020
    },
    {
      "epoch": 0.57515,
      "grad_norm": 0.625,
      "learning_rate": 0.0012809547738693468,
      "loss": 2.0894,
      "step": 115030
    },
    {
      "epoch": 0.5752,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012808040201005026,
      "loss": 2.1025,
      "step": 115040
    },
    {
      "epoch": 0.57525,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012806532663316584,
      "loss": 2.0611,
      "step": 115050
    },
    {
      "epoch": 0.5753,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001280502512562814,
      "loss": 2.085,
      "step": 115060
    },
    {
      "epoch": 0.57535,
      "grad_norm": 0.71875,
      "learning_rate": 0.0012803517587939698,
      "loss": 2.0405,
      "step": 115070
    },
    {
      "epoch": 0.5754,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012802010050251256,
      "loss": 2.1271,
      "step": 115080
    },
    {
      "epoch": 0.57545,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012800502512562814,
      "loss": 2.0722,
      "step": 115090
    },
    {
      "epoch": 0.5755,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012798994974874372,
      "loss": 2.0826,
      "step": 115100
    },
    {
      "epoch": 0.57555,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001279748743718593,
      "loss": 2.0735,
      "step": 115110
    },
    {
      "epoch": 0.5756,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012795979899497486,
      "loss": 2.0912,
      "step": 115120
    },
    {
      "epoch": 0.57565,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012794472361809047,
      "loss": 2.1327,
      "step": 115130
    },
    {
      "epoch": 0.5757,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012792964824120602,
      "loss": 2.0969,
      "step": 115140
    },
    {
      "epoch": 0.57575,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001279145728643216,
      "loss": 2.1148,
      "step": 115150
    },
    {
      "epoch": 0.5758,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012789949748743719,
      "loss": 2.1536,
      "step": 115160
    },
    {
      "epoch": 0.57585,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0012788442211055277,
      "loss": 2.1051,
      "step": 115170
    },
    {
      "epoch": 0.5759,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012786934673366835,
      "loss": 2.1616,
      "step": 115180
    },
    {
      "epoch": 0.57595,
      "grad_norm": 0.625,
      "learning_rate": 0.0012785427135678393,
      "loss": 2.1086,
      "step": 115190
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012783919597989949,
      "loss": 2.1026,
      "step": 115200
    },
    {
      "epoch": 0.57605,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001278241206030151,
      "loss": 2.1405,
      "step": 115210
    },
    {
      "epoch": 0.5761,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0012780904522613065,
      "loss": 2.1245,
      "step": 115220
    },
    {
      "epoch": 0.57615,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0012779396984924623,
      "loss": 2.205,
      "step": 115230
    },
    {
      "epoch": 0.5762,
      "grad_norm": 0.671875,
      "learning_rate": 0.001277788944723618,
      "loss": 2.089,
      "step": 115240
    },
    {
      "epoch": 0.57625,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001277638190954774,
      "loss": 2.132,
      "step": 115250
    },
    {
      "epoch": 0.5763,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012774874371859297,
      "loss": 2.1179,
      "step": 115260
    },
    {
      "epoch": 0.57635,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012773366834170855,
      "loss": 2.1018,
      "step": 115270
    },
    {
      "epoch": 0.5764,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012771859296482411,
      "loss": 2.1211,
      "step": 115280
    },
    {
      "epoch": 0.57645,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012770351758793971,
      "loss": 2.0825,
      "step": 115290
    },
    {
      "epoch": 0.5765,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012768844221105527,
      "loss": 2.0928,
      "step": 115300
    },
    {
      "epoch": 0.57655,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012767336683417085,
      "loss": 2.1086,
      "step": 115310
    },
    {
      "epoch": 0.5766,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012765829145728643,
      "loss": 2.0314,
      "step": 115320
    },
    {
      "epoch": 0.57665,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012764321608040201,
      "loss": 2.1029,
      "step": 115330
    },
    {
      "epoch": 0.5767,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001276281407035176,
      "loss": 2.0985,
      "step": 115340
    },
    {
      "epoch": 0.57675,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012761306532663318,
      "loss": 2.1187,
      "step": 115350
    },
    {
      "epoch": 0.5768,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012759798994974873,
      "loss": 2.0686,
      "step": 115360
    },
    {
      "epoch": 0.57685,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012758291457286434,
      "loss": 2.0655,
      "step": 115370
    },
    {
      "epoch": 0.5769,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001275678391959799,
      "loss": 2.1313,
      "step": 115380
    },
    {
      "epoch": 0.57695,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012755276381909548,
      "loss": 2.097,
      "step": 115390
    },
    {
      "epoch": 0.577,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012753768844221106,
      "loss": 2.1424,
      "step": 115400
    },
    {
      "epoch": 0.57705,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012752261306532664,
      "loss": 2.1124,
      "step": 115410
    },
    {
      "epoch": 0.5771,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012750753768844222,
      "loss": 2.052,
      "step": 115420
    },
    {
      "epoch": 0.57715,
      "grad_norm": 0.671875,
      "learning_rate": 0.001274924623115578,
      "loss": 2.109,
      "step": 115430
    },
    {
      "epoch": 0.5772,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012747738693467336,
      "loss": 2.0768,
      "step": 115440
    },
    {
      "epoch": 0.57725,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0012746231155778896,
      "loss": 2.0878,
      "step": 115450
    },
    {
      "epoch": 0.5773,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0012744723618090452,
      "loss": 2.0907,
      "step": 115460
    },
    {
      "epoch": 0.57735,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001274321608040201,
      "loss": 2.098,
      "step": 115470
    },
    {
      "epoch": 0.5774,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012741708542713568,
      "loss": 2.091,
      "step": 115480
    },
    {
      "epoch": 0.57745,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0012740201005025126,
      "loss": 2.1061,
      "step": 115490
    },
    {
      "epoch": 0.5775,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012738693467336684,
      "loss": 2.1271,
      "step": 115500
    },
    {
      "epoch": 0.57755,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012737185929648242,
      "loss": 2.0883,
      "step": 115510
    },
    {
      "epoch": 0.5776,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012735678391959798,
      "loss": 2.1043,
      "step": 115520
    },
    {
      "epoch": 0.57765,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012734170854271358,
      "loss": 2.0923,
      "step": 115530
    },
    {
      "epoch": 0.5777,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012732663316582914,
      "loss": 2.0953,
      "step": 115540
    },
    {
      "epoch": 0.57775,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012731155778894472,
      "loss": 2.0956,
      "step": 115550
    },
    {
      "epoch": 0.5778,
      "grad_norm": 0.578125,
      "learning_rate": 0.001272964824120603,
      "loss": 2.1225,
      "step": 115560
    },
    {
      "epoch": 0.57785,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012728140703517589,
      "loss": 2.0946,
      "step": 115570
    },
    {
      "epoch": 0.5779,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012726633165829147,
      "loss": 2.1404,
      "step": 115580
    },
    {
      "epoch": 0.57795,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0012725125628140703,
      "loss": 2.093,
      "step": 115590
    },
    {
      "epoch": 0.578,
      "grad_norm": 0.625,
      "learning_rate": 0.001272361809045226,
      "loss": 2.131,
      "step": 115600
    },
    {
      "epoch": 0.57805,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001272211055276382,
      "loss": 2.107,
      "step": 115610
    },
    {
      "epoch": 0.5781,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012720603015075377,
      "loss": 2.0897,
      "step": 115620
    },
    {
      "epoch": 0.57815,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012719095477386935,
      "loss": 2.0986,
      "step": 115630
    },
    {
      "epoch": 0.5782,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0012717587939698493,
      "loss": 2.1031,
      "step": 115640
    },
    {
      "epoch": 0.57825,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001271608040201005,
      "loss": 2.099,
      "step": 115650
    },
    {
      "epoch": 0.5783,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001271457286432161,
      "loss": 2.1241,
      "step": 115660
    },
    {
      "epoch": 0.57835,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012713065326633165,
      "loss": 2.1035,
      "step": 115670
    },
    {
      "epoch": 0.5784,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012711557788944723,
      "loss": 2.1093,
      "step": 115680
    },
    {
      "epoch": 0.57845,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001271005025125628,
      "loss": 2.0958,
      "step": 115690
    },
    {
      "epoch": 0.5785,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001270854271356784,
      "loss": 2.1511,
      "step": 115700
    },
    {
      "epoch": 0.57855,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012707035175879397,
      "loss": 2.1153,
      "step": 115710
    },
    {
      "epoch": 0.5786,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012705527638190955,
      "loss": 2.086,
      "step": 115720
    },
    {
      "epoch": 0.57865,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012704020100502513,
      "loss": 2.1181,
      "step": 115730
    },
    {
      "epoch": 0.5787,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012702512562814071,
      "loss": 2.1155,
      "step": 115740
    },
    {
      "epoch": 0.57875,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0012701005025125627,
      "loss": 2.0503,
      "step": 115750
    },
    {
      "epoch": 0.5788,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012699497487437185,
      "loss": 2.0995,
      "step": 115760
    },
    {
      "epoch": 0.57885,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012697989949748743,
      "loss": 2.0954,
      "step": 115770
    },
    {
      "epoch": 0.5789,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012696482412060301,
      "loss": 2.1593,
      "step": 115780
    },
    {
      "epoch": 0.57895,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001269497487437186,
      "loss": 2.1353,
      "step": 115790
    },
    {
      "epoch": 0.579,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012693467336683418,
      "loss": 2.0465,
      "step": 115800
    },
    {
      "epoch": 0.57905,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012691959798994976,
      "loss": 2.1422,
      "step": 115810
    },
    {
      "epoch": 0.5791,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012690452261306534,
      "loss": 2.0555,
      "step": 115820
    },
    {
      "epoch": 0.57915,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001268894472361809,
      "loss": 2.1179,
      "step": 115830
    },
    {
      "epoch": 0.5792,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012687437185929648,
      "loss": 2.1354,
      "step": 115840
    },
    {
      "epoch": 0.57925,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012685929648241206,
      "loss": 2.1139,
      "step": 115850
    },
    {
      "epoch": 0.5793,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012684422110552764,
      "loss": 2.0728,
      "step": 115860
    },
    {
      "epoch": 0.57935,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012682914572864322,
      "loss": 2.0869,
      "step": 115870
    },
    {
      "epoch": 0.5794,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001268140703517588,
      "loss": 2.0673,
      "step": 115880
    },
    {
      "epoch": 0.57945,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012679899497487438,
      "loss": 2.084,
      "step": 115890
    },
    {
      "epoch": 0.5795,
      "grad_norm": 0.5625,
      "learning_rate": 0.0012678391959798996,
      "loss": 2.0519,
      "step": 115900
    },
    {
      "epoch": 0.57955,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012676884422110552,
      "loss": 2.1044,
      "step": 115910
    },
    {
      "epoch": 0.5796,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001267537688442211,
      "loss": 2.0676,
      "step": 115920
    },
    {
      "epoch": 0.57965,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012673869346733668,
      "loss": 2.0862,
      "step": 115930
    },
    {
      "epoch": 0.5797,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012672361809045226,
      "loss": 2.1058,
      "step": 115940
    },
    {
      "epoch": 0.57975,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0012670854271356784,
      "loss": 2.0606,
      "step": 115950
    },
    {
      "epoch": 0.5798,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012669346733668342,
      "loss": 2.1193,
      "step": 115960
    },
    {
      "epoch": 0.57985,
      "grad_norm": 0.609375,
      "learning_rate": 0.00126678391959799,
      "loss": 2.0515,
      "step": 115970
    },
    {
      "epoch": 0.5799,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012666331658291459,
      "loss": 2.1081,
      "step": 115980
    },
    {
      "epoch": 0.57995,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012664824120603014,
      "loss": 2.0916,
      "step": 115990
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0012663316582914572,
      "loss": 2.0469,
      "step": 116000
    },
    {
      "epoch": 0.58,
      "eval_loss": 2.085496664047241,
      "eval_runtime": 47.455,
      "eval_samples_per_second": 52.682,
      "eval_steps_per_second": 0.105,
      "step": 116000
    },
    {
      "epoch": 0.58005,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001266180904522613,
      "loss": 2.1042,
      "step": 116010
    },
    {
      "epoch": 0.5801,
      "grad_norm": 0.625,
      "learning_rate": 0.0012660301507537689,
      "loss": 2.1218,
      "step": 116020
    },
    {
      "epoch": 0.58015,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012658793969849247,
      "loss": 2.0586,
      "step": 116030
    },
    {
      "epoch": 0.5802,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012657286432160805,
      "loss": 2.1102,
      "step": 116040
    },
    {
      "epoch": 0.58025,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001265577889447236,
      "loss": 2.1002,
      "step": 116050
    },
    {
      "epoch": 0.5803,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001265427135678392,
      "loss": 2.1123,
      "step": 116060
    },
    {
      "epoch": 0.58035,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012652763819095477,
      "loss": 2.0647,
      "step": 116070
    },
    {
      "epoch": 0.5804,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0012651256281407035,
      "loss": 2.005,
      "step": 116080
    },
    {
      "epoch": 0.58045,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012649748743718593,
      "loss": 2.1083,
      "step": 116090
    },
    {
      "epoch": 0.5805,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001264824120603015,
      "loss": 2.1046,
      "step": 116100
    },
    {
      "epoch": 0.58055,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001264673366834171,
      "loss": 2.1097,
      "step": 116110
    },
    {
      "epoch": 0.5806,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012645226130653267,
      "loss": 2.0876,
      "step": 116120
    },
    {
      "epoch": 0.58065,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012643718592964823,
      "loss": 2.079,
      "step": 116130
    },
    {
      "epoch": 0.5807,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012642211055276383,
      "loss": 2.1137,
      "step": 116140
    },
    {
      "epoch": 0.58075,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001264070351758794,
      "loss": 2.1054,
      "step": 116150
    },
    {
      "epoch": 0.5808,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012639195979899497,
      "loss": 2.1153,
      "step": 116160
    },
    {
      "epoch": 0.58085,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012637688442211055,
      "loss": 2.1086,
      "step": 116170
    },
    {
      "epoch": 0.5809,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012636180904522613,
      "loss": 2.0667,
      "step": 116180
    },
    {
      "epoch": 0.58095,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0012634673366834171,
      "loss": 2.1924,
      "step": 116190
    },
    {
      "epoch": 0.581,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001263316582914573,
      "loss": 2.1322,
      "step": 116200
    },
    {
      "epoch": 0.58105,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012631658291457285,
      "loss": 2.0284,
      "step": 116210
    },
    {
      "epoch": 0.5811,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012630150753768846,
      "loss": 2.0778,
      "step": 116220
    },
    {
      "epoch": 0.58115,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012628643216080402,
      "loss": 2.044,
      "step": 116230
    },
    {
      "epoch": 0.5812,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001262713567839196,
      "loss": 2.104,
      "step": 116240
    },
    {
      "epoch": 0.58125,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012625628140703518,
      "loss": 2.0663,
      "step": 116250
    },
    {
      "epoch": 0.5813,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012624120603015076,
      "loss": 2.033,
      "step": 116260
    },
    {
      "epoch": 0.58135,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012622613065326634,
      "loss": 2.1106,
      "step": 116270
    },
    {
      "epoch": 0.5814,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012621105527638192,
      "loss": 2.0952,
      "step": 116280
    },
    {
      "epoch": 0.58145,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012619597989949748,
      "loss": 2.1085,
      "step": 116290
    },
    {
      "epoch": 0.5815,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012618090452261308,
      "loss": 2.0958,
      "step": 116300
    },
    {
      "epoch": 0.58155,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0012616582914572864,
      "loss": 2.0876,
      "step": 116310
    },
    {
      "epoch": 0.5816,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012615075376884422,
      "loss": 2.0985,
      "step": 116320
    },
    {
      "epoch": 0.58165,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001261356783919598,
      "loss": 2.1454,
      "step": 116330
    },
    {
      "epoch": 0.5817,
      "grad_norm": 0.5625,
      "learning_rate": 0.0012612060301507538,
      "loss": 2.0989,
      "step": 116340
    },
    {
      "epoch": 0.58175,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012610552763819096,
      "loss": 2.139,
      "step": 116350
    },
    {
      "epoch": 0.5818,
      "grad_norm": 0.625,
      "learning_rate": 0.0012609045226130654,
      "loss": 2.0474,
      "step": 116360
    },
    {
      "epoch": 0.58185,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001260753768844221,
      "loss": 2.1872,
      "step": 116370
    },
    {
      "epoch": 0.5819,
      "grad_norm": 0.609375,
      "learning_rate": 0.001260603015075377,
      "loss": 2.0978,
      "step": 116380
    },
    {
      "epoch": 0.58195,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012604522613065326,
      "loss": 2.101,
      "step": 116390
    },
    {
      "epoch": 0.582,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012603015075376884,
      "loss": 2.1467,
      "step": 116400
    },
    {
      "epoch": 0.58205,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0012601507537688442,
      "loss": 2.0512,
      "step": 116410
    },
    {
      "epoch": 0.5821,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00126,
      "loss": 2.1095,
      "step": 116420
    },
    {
      "epoch": 0.58215,
      "grad_norm": 0.625,
      "learning_rate": 0.0012598492462311559,
      "loss": 2.1307,
      "step": 116430
    },
    {
      "epoch": 0.5822,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0012596984924623117,
      "loss": 2.0275,
      "step": 116440
    },
    {
      "epoch": 0.58225,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012595477386934673,
      "loss": 2.122,
      "step": 116450
    },
    {
      "epoch": 0.5823,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012593969849246233,
      "loss": 2.056,
      "step": 116460
    },
    {
      "epoch": 0.58235,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012592462311557789,
      "loss": 2.0544,
      "step": 116470
    },
    {
      "epoch": 0.5824,
      "grad_norm": 0.671875,
      "learning_rate": 0.0012590954773869347,
      "loss": 2.1304,
      "step": 116480
    },
    {
      "epoch": 0.58245,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0012589447236180905,
      "loss": 2.0511,
      "step": 116490
    },
    {
      "epoch": 0.5825,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012587939698492463,
      "loss": 2.1675,
      "step": 116500
    },
    {
      "epoch": 0.58255,
      "grad_norm": 0.578125,
      "learning_rate": 0.001258643216080402,
      "loss": 2.1003,
      "step": 116510
    },
    {
      "epoch": 0.5826,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001258492462311558,
      "loss": 2.1095,
      "step": 116520
    },
    {
      "epoch": 0.58265,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012583417085427135,
      "loss": 2.0898,
      "step": 116530
    },
    {
      "epoch": 0.5827,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012581909547738695,
      "loss": 2.0709,
      "step": 116540
    },
    {
      "epoch": 0.58275,
      "grad_norm": 0.640625,
      "learning_rate": 0.001258040201005025,
      "loss": 2.1377,
      "step": 116550
    },
    {
      "epoch": 0.5828,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001257889447236181,
      "loss": 2.0988,
      "step": 116560
    },
    {
      "epoch": 0.58285,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0012577386934673367,
      "loss": 2.1001,
      "step": 116570
    },
    {
      "epoch": 0.5829,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012575879396984925,
      "loss": 2.1163,
      "step": 116580
    },
    {
      "epoch": 0.58295,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012574371859296483,
      "loss": 2.1146,
      "step": 116590
    },
    {
      "epoch": 0.583,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0012572864321608041,
      "loss": 2.1389,
      "step": 116600
    },
    {
      "epoch": 0.58305,
      "grad_norm": 0.546875,
      "learning_rate": 0.0012571356783919597,
      "loss": 2.1625,
      "step": 116610
    },
    {
      "epoch": 0.5831,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0012569849246231155,
      "loss": 2.033,
      "step": 116620
    },
    {
      "epoch": 0.58315,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012568341708542713,
      "loss": 2.0776,
      "step": 116630
    },
    {
      "epoch": 0.5832,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012566834170854272,
      "loss": 2.0913,
      "step": 116640
    },
    {
      "epoch": 0.58325,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001256532663316583,
      "loss": 2.0608,
      "step": 116650
    },
    {
      "epoch": 0.5833,
      "grad_norm": 0.5625,
      "learning_rate": 0.0012563819095477388,
      "loss": 2.1304,
      "step": 116660
    },
    {
      "epoch": 0.58335,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0012562311557788946,
      "loss": 2.0641,
      "step": 116670
    },
    {
      "epoch": 0.5834,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012560804020100504,
      "loss": 2.1169,
      "step": 116680
    },
    {
      "epoch": 0.58345,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001255929648241206,
      "loss": 2.1159,
      "step": 116690
    },
    {
      "epoch": 0.5835,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012557788944723618,
      "loss": 2.0942,
      "step": 116700
    },
    {
      "epoch": 0.58355,
      "grad_norm": 0.6875,
      "learning_rate": 0.0012556281407035176,
      "loss": 2.1205,
      "step": 116710
    },
    {
      "epoch": 0.5836,
      "grad_norm": 0.625,
      "learning_rate": 0.0012554773869346734,
      "loss": 2.092,
      "step": 116720
    },
    {
      "epoch": 0.58365,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012553266331658292,
      "loss": 2.1212,
      "step": 116730
    },
    {
      "epoch": 0.5837,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001255175879396985,
      "loss": 2.1463,
      "step": 116740
    },
    {
      "epoch": 0.58375,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0012550251256281408,
      "loss": 2.0413,
      "step": 116750
    },
    {
      "epoch": 0.5838,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0012548743718592964,
      "loss": 2.1055,
      "step": 116760
    },
    {
      "epoch": 0.58385,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012547236180904522,
      "loss": 2.1311,
      "step": 116770
    },
    {
      "epoch": 0.5839,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001254572864321608,
      "loss": 2.0681,
      "step": 116780
    },
    {
      "epoch": 0.58395,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012544221105527638,
      "loss": 2.1264,
      "step": 116790
    },
    {
      "epoch": 0.584,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012542713567839196,
      "loss": 2.0437,
      "step": 116800
    },
    {
      "epoch": 0.58405,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012541206030150754,
      "loss": 2.0663,
      "step": 116810
    },
    {
      "epoch": 0.5841,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0012539698492462312,
      "loss": 2.0777,
      "step": 116820
    },
    {
      "epoch": 0.58415,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001253819095477387,
      "loss": 2.103,
      "step": 116830
    },
    {
      "epoch": 0.5842,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012536683417085426,
      "loss": 2.1303,
      "step": 116840
    },
    {
      "epoch": 0.58425,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012535175879396984,
      "loss": 2.0397,
      "step": 116850
    },
    {
      "epoch": 0.5843,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012533668341708543,
      "loss": 2.0905,
      "step": 116860
    },
    {
      "epoch": 0.58435,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00125321608040201,
      "loss": 2.0702,
      "step": 116870
    },
    {
      "epoch": 0.5844,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012530653266331659,
      "loss": 2.0787,
      "step": 116880
    },
    {
      "epoch": 0.58445,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012529145728643217,
      "loss": 2.144,
      "step": 116890
    },
    {
      "epoch": 0.5845,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012527638190954775,
      "loss": 2.1528,
      "step": 116900
    },
    {
      "epoch": 0.58455,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012526130653266333,
      "loss": 2.1027,
      "step": 116910
    },
    {
      "epoch": 0.5846,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012524623115577889,
      "loss": 2.1518,
      "step": 116920
    },
    {
      "epoch": 0.58465,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0012523115577889447,
      "loss": 2.0735,
      "step": 116930
    },
    {
      "epoch": 0.5847,
      "grad_norm": 0.625,
      "learning_rate": 0.0012521608040201005,
      "loss": 2.1445,
      "step": 116940
    },
    {
      "epoch": 0.58475,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012520100502512563,
      "loss": 2.1045,
      "step": 116950
    },
    {
      "epoch": 0.5848,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001251859296482412,
      "loss": 2.1069,
      "step": 116960
    },
    {
      "epoch": 0.58485,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001251708542713568,
      "loss": 2.1385,
      "step": 116970
    },
    {
      "epoch": 0.5849,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012515577889447235,
      "loss": 2.0891,
      "step": 116980
    },
    {
      "epoch": 0.58495,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012514070351758795,
      "loss": 2.095,
      "step": 116990
    },
    {
      "epoch": 0.585,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012512562814070351,
      "loss": 2.1237,
      "step": 117000
    },
    {
      "epoch": 0.58505,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001251105527638191,
      "loss": 2.094,
      "step": 117010
    },
    {
      "epoch": 0.5851,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012509547738693467,
      "loss": 2.1477,
      "step": 117020
    },
    {
      "epoch": 0.58515,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012508040201005025,
      "loss": 2.1154,
      "step": 117030
    },
    {
      "epoch": 0.5852,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012506532663316583,
      "loss": 2.109,
      "step": 117040
    },
    {
      "epoch": 0.58525,
      "grad_norm": 0.625,
      "learning_rate": 0.0012505025125628141,
      "loss": 2.055,
      "step": 117050
    },
    {
      "epoch": 0.5853,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012503517587939697,
      "loss": 2.1007,
      "step": 117060
    },
    {
      "epoch": 0.58535,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012502010050251258,
      "loss": 2.0544,
      "step": 117070
    },
    {
      "epoch": 0.5854,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012500502512562814,
      "loss": 2.0293,
      "step": 117080
    },
    {
      "epoch": 0.58545,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012498994974874372,
      "loss": 2.1229,
      "step": 117090
    },
    {
      "epoch": 0.5855,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001249748743718593,
      "loss": 2.0678,
      "step": 117100
    },
    {
      "epoch": 0.58555,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0012495979899497488,
      "loss": 2.0046,
      "step": 117110
    },
    {
      "epoch": 0.5856,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012494472361809046,
      "loss": 2.0947,
      "step": 117120
    },
    {
      "epoch": 0.58565,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012492964824120604,
      "loss": 2.0671,
      "step": 117130
    },
    {
      "epoch": 0.5857,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001249145728643216,
      "loss": 2.0749,
      "step": 117140
    },
    {
      "epoch": 0.58575,
      "grad_norm": 0.578125,
      "learning_rate": 0.001248994974874372,
      "loss": 2.1483,
      "step": 117150
    },
    {
      "epoch": 0.5858,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012488442211055276,
      "loss": 2.1183,
      "step": 117160
    },
    {
      "epoch": 0.58585,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012486934673366834,
      "loss": 2.0594,
      "step": 117170
    },
    {
      "epoch": 0.5859,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012485427135678392,
      "loss": 2.1081,
      "step": 117180
    },
    {
      "epoch": 0.58595,
      "grad_norm": 0.578125,
      "learning_rate": 0.001248391959798995,
      "loss": 2.016,
      "step": 117190
    },
    {
      "epoch": 0.586,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012482412060301508,
      "loss": 2.0477,
      "step": 117200
    },
    {
      "epoch": 0.58605,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012480904522613066,
      "loss": 2.0964,
      "step": 117210
    },
    {
      "epoch": 0.5861,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012479396984924622,
      "loss": 2.0297,
      "step": 117220
    },
    {
      "epoch": 0.58615,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012477889447236182,
      "loss": 2.0651,
      "step": 117230
    },
    {
      "epoch": 0.5862,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0012476381909547738,
      "loss": 2.1288,
      "step": 117240
    },
    {
      "epoch": 0.58625,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012474874371859296,
      "loss": 1.995,
      "step": 117250
    },
    {
      "epoch": 0.5863,
      "grad_norm": 0.546875,
      "learning_rate": 0.0012473366834170854,
      "loss": 2.0825,
      "step": 117260
    },
    {
      "epoch": 0.58635,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012471859296482412,
      "loss": 2.1234,
      "step": 117270
    },
    {
      "epoch": 0.5864,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001247035175879397,
      "loss": 2.0781,
      "step": 117280
    },
    {
      "epoch": 0.58645,
      "grad_norm": 0.671875,
      "learning_rate": 0.0012468844221105529,
      "loss": 2.1432,
      "step": 117290
    },
    {
      "epoch": 0.5865,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012467336683417085,
      "loss": 2.0856,
      "step": 117300
    },
    {
      "epoch": 0.58655,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012465829145728645,
      "loss": 2.049,
      "step": 117310
    },
    {
      "epoch": 0.5866,
      "grad_norm": 0.625,
      "learning_rate": 0.00124643216080402,
      "loss": 2.109,
      "step": 117320
    },
    {
      "epoch": 0.58665,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0012462814070351759,
      "loss": 2.1124,
      "step": 117330
    },
    {
      "epoch": 0.5867,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0012461306532663317,
      "loss": 2.0871,
      "step": 117340
    },
    {
      "epoch": 0.58675,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012459798994974875,
      "loss": 2.1355,
      "step": 117350
    },
    {
      "epoch": 0.5868,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0012458291457286433,
      "loss": 2.0234,
      "step": 117360
    },
    {
      "epoch": 0.58685,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001245678391959799,
      "loss": 2.0617,
      "step": 117370
    },
    {
      "epoch": 0.5869,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0012455276381909547,
      "loss": 2.1226,
      "step": 117380
    },
    {
      "epoch": 0.58695,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0012453768844221107,
      "loss": 2.0506,
      "step": 117390
    },
    {
      "epoch": 0.587,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012452261306532663,
      "loss": 2.0553,
      "step": 117400
    },
    {
      "epoch": 0.58705,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012450753768844221,
      "loss": 2.1103,
      "step": 117410
    },
    {
      "epoch": 0.5871,
      "grad_norm": 0.65625,
      "learning_rate": 0.001244924623115578,
      "loss": 2.063,
      "step": 117420
    },
    {
      "epoch": 0.58715,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012447738693467337,
      "loss": 2.0785,
      "step": 117430
    },
    {
      "epoch": 0.5872,
      "grad_norm": 0.546875,
      "learning_rate": 0.0012446231155778895,
      "loss": 2.08,
      "step": 117440
    },
    {
      "epoch": 0.58725,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012444723618090453,
      "loss": 2.1029,
      "step": 117450
    },
    {
      "epoch": 0.5873,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001244321608040201,
      "loss": 2.0962,
      "step": 117460
    },
    {
      "epoch": 0.58735,
      "grad_norm": 0.671875,
      "learning_rate": 0.001244170854271357,
      "loss": 2.0145,
      "step": 117470
    },
    {
      "epoch": 0.5874,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0012440201005025125,
      "loss": 2.0657,
      "step": 117480
    },
    {
      "epoch": 0.58745,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012438693467336683,
      "loss": 2.0853,
      "step": 117490
    },
    {
      "epoch": 0.5875,
      "grad_norm": 0.625,
      "learning_rate": 0.0012437185929648242,
      "loss": 2.0949,
      "step": 117500
    },
    {
      "epoch": 0.58755,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00124356783919598,
      "loss": 2.0843,
      "step": 117510
    },
    {
      "epoch": 0.5876,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012434170854271358,
      "loss": 2.1394,
      "step": 117520
    },
    {
      "epoch": 0.58765,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0012432663316582916,
      "loss": 2.0438,
      "step": 117530
    },
    {
      "epoch": 0.5877,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012431155778894472,
      "loss": 2.1127,
      "step": 117540
    },
    {
      "epoch": 0.58775,
      "grad_norm": 0.734375,
      "learning_rate": 0.001242964824120603,
      "loss": 2.0915,
      "step": 117550
    },
    {
      "epoch": 0.5878,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012428140703517588,
      "loss": 2.053,
      "step": 117560
    },
    {
      "epoch": 0.58785,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012426633165829146,
      "loss": 2.1293,
      "step": 117570
    },
    {
      "epoch": 0.5879,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012425125628140704,
      "loss": 2.0855,
      "step": 117580
    },
    {
      "epoch": 0.58795,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0012423618090452262,
      "loss": 2.0717,
      "step": 117590
    },
    {
      "epoch": 0.588,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001242211055276382,
      "loss": 2.0959,
      "step": 117600
    },
    {
      "epoch": 0.58805,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012420603015075378,
      "loss": 2.0467,
      "step": 117610
    },
    {
      "epoch": 0.5881,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012419095477386934,
      "loss": 2.042,
      "step": 117620
    },
    {
      "epoch": 0.58815,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012417587939698492,
      "loss": 2.1322,
      "step": 117630
    },
    {
      "epoch": 0.5882,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001241608040201005,
      "loss": 2.067,
      "step": 117640
    },
    {
      "epoch": 0.58825,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012414572864321608,
      "loss": 2.0564,
      "step": 117650
    },
    {
      "epoch": 0.5883,
      "grad_norm": 0.50390625,
      "learning_rate": 0.0012413065326633166,
      "loss": 2.0761,
      "step": 117660
    },
    {
      "epoch": 0.58835,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012411557788944724,
      "loss": 2.0832,
      "step": 117670
    },
    {
      "epoch": 0.5884,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012410050251256282,
      "loss": 2.1219,
      "step": 117680
    },
    {
      "epoch": 0.58845,
      "grad_norm": 0.625,
      "learning_rate": 0.001240854271356784,
      "loss": 2.0274,
      "step": 117690
    },
    {
      "epoch": 0.5885,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012407035175879396,
      "loss": 2.0684,
      "step": 117700
    },
    {
      "epoch": 0.58855,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012405527638190954,
      "loss": 2.1033,
      "step": 117710
    },
    {
      "epoch": 0.5886,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0012404020100502513,
      "loss": 2.0296,
      "step": 117720
    },
    {
      "epoch": 0.58865,
      "grad_norm": 0.578125,
      "learning_rate": 0.001240251256281407,
      "loss": 2.1307,
      "step": 117730
    },
    {
      "epoch": 0.5887,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012401005025125629,
      "loss": 2.0967,
      "step": 117740
    },
    {
      "epoch": 0.58875,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012399497487437187,
      "loss": 2.1072,
      "step": 117750
    },
    {
      "epoch": 0.5888,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012397989949748745,
      "loss": 2.1808,
      "step": 117760
    },
    {
      "epoch": 0.58885,
      "grad_norm": 0.625,
      "learning_rate": 0.0012396482412060303,
      "loss": 2.0337,
      "step": 117770
    },
    {
      "epoch": 0.5889,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012394974874371859,
      "loss": 2.1345,
      "step": 117780
    },
    {
      "epoch": 0.58895,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012393467336683417,
      "loss": 2.0989,
      "step": 117790
    },
    {
      "epoch": 0.589,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012391959798994975,
      "loss": 2.0532,
      "step": 117800
    },
    {
      "epoch": 0.58905,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012390452261306533,
      "loss": 2.0912,
      "step": 117810
    },
    {
      "epoch": 0.5891,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001238894472361809,
      "loss": 2.0829,
      "step": 117820
    },
    {
      "epoch": 0.58915,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001238743718592965,
      "loss": 2.033,
      "step": 117830
    },
    {
      "epoch": 0.5892,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012385929648241207,
      "loss": 2.1528,
      "step": 117840
    },
    {
      "epoch": 0.58925,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012384422110552765,
      "loss": 2.1235,
      "step": 117850
    },
    {
      "epoch": 0.5893,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0012382914572864321,
      "loss": 2.0497,
      "step": 117860
    },
    {
      "epoch": 0.58935,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001238140703517588,
      "loss": 2.0909,
      "step": 117870
    },
    {
      "epoch": 0.5894,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012379899497487437,
      "loss": 2.0914,
      "step": 117880
    },
    {
      "epoch": 0.58945,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012378391959798995,
      "loss": 2.0986,
      "step": 117890
    },
    {
      "epoch": 0.5895,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012376884422110553,
      "loss": 2.1122,
      "step": 117900
    },
    {
      "epoch": 0.58955,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001237537688442211,
      "loss": 2.0303,
      "step": 117910
    },
    {
      "epoch": 0.5896,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001237386934673367,
      "loss": 2.0802,
      "step": 117920
    },
    {
      "epoch": 0.58965,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0012372361809045225,
      "loss": 2.0728,
      "step": 117930
    },
    {
      "epoch": 0.5897,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012370854271356784,
      "loss": 2.1127,
      "step": 117940
    },
    {
      "epoch": 0.58975,
      "grad_norm": 0.625,
      "learning_rate": 0.0012369346733668342,
      "loss": 2.1313,
      "step": 117950
    },
    {
      "epoch": 0.5898,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00123678391959799,
      "loss": 2.0364,
      "step": 117960
    },
    {
      "epoch": 0.58985,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012366331658291458,
      "loss": 2.1265,
      "step": 117970
    },
    {
      "epoch": 0.5899,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012364824120603016,
      "loss": 2.0876,
      "step": 117980
    },
    {
      "epoch": 0.58995,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012363316582914572,
      "loss": 2.0707,
      "step": 117990
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012361809045226132,
      "loss": 2.1073,
      "step": 118000
    },
    {
      "epoch": 0.59,
      "eval_loss": 2.08506178855896,
      "eval_runtime": 48.0472,
      "eval_samples_per_second": 52.032,
      "eval_steps_per_second": 0.104,
      "step": 118000
    },
    {
      "epoch": 0.59005,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012360301507537688,
      "loss": 2.0768,
      "step": 118010
    },
    {
      "epoch": 0.5901,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012358793969849246,
      "loss": 2.0884,
      "step": 118020
    },
    {
      "epoch": 0.59015,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012357286432160804,
      "loss": 2.1282,
      "step": 118030
    },
    {
      "epoch": 0.5902,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012355778894472362,
      "loss": 2.093,
      "step": 118040
    },
    {
      "epoch": 0.59025,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001235427135678392,
      "loss": 2.1485,
      "step": 118050
    },
    {
      "epoch": 0.5903,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012352763819095478,
      "loss": 2.0473,
      "step": 118060
    },
    {
      "epoch": 0.59035,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012351256281407034,
      "loss": 2.0378,
      "step": 118070
    },
    {
      "epoch": 0.5904,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012349748743718594,
      "loss": 2.1291,
      "step": 118080
    },
    {
      "epoch": 0.59045,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001234824120603015,
      "loss": 2.0578,
      "step": 118090
    },
    {
      "epoch": 0.5905,
      "grad_norm": 0.53125,
      "learning_rate": 0.0012346733668341708,
      "loss": 2.0662,
      "step": 118100
    },
    {
      "epoch": 0.59055,
      "grad_norm": 0.546875,
      "learning_rate": 0.0012345226130653266,
      "loss": 2.0966,
      "step": 118110
    },
    {
      "epoch": 0.5906,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012343718592964824,
      "loss": 2.063,
      "step": 118120
    },
    {
      "epoch": 0.59065,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012342211055276382,
      "loss": 2.1057,
      "step": 118130
    },
    {
      "epoch": 0.5907,
      "grad_norm": 0.625,
      "learning_rate": 0.001234070351758794,
      "loss": 2.0326,
      "step": 118140
    },
    {
      "epoch": 0.59075,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012339195979899496,
      "loss": 2.0953,
      "step": 118150
    },
    {
      "epoch": 0.5908,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012337688442211057,
      "loss": 2.1409,
      "step": 118160
    },
    {
      "epoch": 0.59085,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012336180904522613,
      "loss": 2.1068,
      "step": 118170
    },
    {
      "epoch": 0.5909,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001233467336683417,
      "loss": 2.0864,
      "step": 118180
    },
    {
      "epoch": 0.59095,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0012333165829145729,
      "loss": 2.0856,
      "step": 118190
    },
    {
      "epoch": 0.591,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012331658291457287,
      "loss": 2.0853,
      "step": 118200
    },
    {
      "epoch": 0.59105,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012330150753768845,
      "loss": 2.1124,
      "step": 118210
    },
    {
      "epoch": 0.5911,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012328643216080403,
      "loss": 2.0482,
      "step": 118220
    },
    {
      "epoch": 0.59115,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012327135678391959,
      "loss": 2.1311,
      "step": 118230
    },
    {
      "epoch": 0.5912,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001232562814070352,
      "loss": 2.0972,
      "step": 118240
    },
    {
      "epoch": 0.59125,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012324120603015075,
      "loss": 2.054,
      "step": 118250
    },
    {
      "epoch": 0.5913,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012322613065326633,
      "loss": 2.0684,
      "step": 118260
    },
    {
      "epoch": 0.59135,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012321105527638191,
      "loss": 2.0599,
      "step": 118270
    },
    {
      "epoch": 0.5914,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001231959798994975,
      "loss": 2.1156,
      "step": 118280
    },
    {
      "epoch": 0.59145,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012318090452261307,
      "loss": 2.0782,
      "step": 118290
    },
    {
      "epoch": 0.5915,
      "grad_norm": 0.671875,
      "learning_rate": 0.0012316582914572865,
      "loss": 2.088,
      "step": 118300
    },
    {
      "epoch": 0.59155,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012315075376884421,
      "loss": 2.1019,
      "step": 118310
    },
    {
      "epoch": 0.5916,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012313567839195981,
      "loss": 2.0985,
      "step": 118320
    },
    {
      "epoch": 0.59165,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012312060301507537,
      "loss": 2.0851,
      "step": 118330
    },
    {
      "epoch": 0.5917,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012310552763819095,
      "loss": 2.1207,
      "step": 118340
    },
    {
      "epoch": 0.59175,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012309045226130653,
      "loss": 2.0357,
      "step": 118350
    },
    {
      "epoch": 0.5918,
      "grad_norm": 0.5625,
      "learning_rate": 0.0012307537688442212,
      "loss": 2.1051,
      "step": 118360
    },
    {
      "epoch": 0.59185,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001230603015075377,
      "loss": 2.0757,
      "step": 118370
    },
    {
      "epoch": 0.5919,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012304522613065328,
      "loss": 2.0708,
      "step": 118380
    },
    {
      "epoch": 0.59195,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0012303015075376884,
      "loss": 2.1318,
      "step": 118390
    },
    {
      "epoch": 0.592,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012301507537688444,
      "loss": 2.0299,
      "step": 118400
    },
    {
      "epoch": 0.59205,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00123,
      "loss": 2.119,
      "step": 118410
    },
    {
      "epoch": 0.5921,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012298492462311558,
      "loss": 2.0554,
      "step": 118420
    },
    {
      "epoch": 0.59215,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012296984924623116,
      "loss": 2.0552,
      "step": 118430
    },
    {
      "epoch": 0.5922,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012295477386934674,
      "loss": 2.1593,
      "step": 118440
    },
    {
      "epoch": 0.59225,
      "grad_norm": 0.5625,
      "learning_rate": 0.0012293969849246232,
      "loss": 2.04,
      "step": 118450
    },
    {
      "epoch": 0.5923,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001229246231155779,
      "loss": 2.1298,
      "step": 118460
    },
    {
      "epoch": 0.59235,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012290954773869346,
      "loss": 2.1035,
      "step": 118470
    },
    {
      "epoch": 0.5924,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012289447236180904,
      "loss": 2.075,
      "step": 118480
    },
    {
      "epoch": 0.59245,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012287939698492462,
      "loss": 2.1706,
      "step": 118490
    },
    {
      "epoch": 0.5925,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001228643216080402,
      "loss": 2.0662,
      "step": 118500
    },
    {
      "epoch": 0.59255,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012284924623115578,
      "loss": 2.0811,
      "step": 118510
    },
    {
      "epoch": 0.5926,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012283417085427136,
      "loss": 2.0667,
      "step": 118520
    },
    {
      "epoch": 0.59265,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0012281909547738694,
      "loss": 2.1249,
      "step": 118530
    },
    {
      "epoch": 0.5927,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0012280402010050252,
      "loss": 2.1193,
      "step": 118540
    },
    {
      "epoch": 0.59275,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012278894472361808,
      "loss": 2.105,
      "step": 118550
    },
    {
      "epoch": 0.5928,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0012277386934673366,
      "loss": 2.0683,
      "step": 118560
    },
    {
      "epoch": 0.59285,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012275879396984924,
      "loss": 2.0618,
      "step": 118570
    },
    {
      "epoch": 0.5929,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012274371859296483,
      "loss": 2.0021,
      "step": 118580
    },
    {
      "epoch": 0.59295,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001227286432160804,
      "loss": 2.0774,
      "step": 118590
    },
    {
      "epoch": 0.593,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012271356783919599,
      "loss": 2.061,
      "step": 118600
    },
    {
      "epoch": 0.59305,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012269849246231157,
      "loss": 2.1133,
      "step": 118610
    },
    {
      "epoch": 0.5931,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012268341708542715,
      "loss": 2.0285,
      "step": 118620
    },
    {
      "epoch": 0.59315,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001226683417085427,
      "loss": 2.069,
      "step": 118630
    },
    {
      "epoch": 0.5932,
      "grad_norm": 0.703125,
      "learning_rate": 0.0012265326633165829,
      "loss": 2.0915,
      "step": 118640
    },
    {
      "epoch": 0.59325,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012263819095477387,
      "loss": 2.0586,
      "step": 118650
    },
    {
      "epoch": 0.5933,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012262311557788945,
      "loss": 2.0981,
      "step": 118660
    },
    {
      "epoch": 0.59335,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012260804020100503,
      "loss": 2.0661,
      "step": 118670
    },
    {
      "epoch": 0.5934,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001225929648241206,
      "loss": 2.034,
      "step": 118680
    },
    {
      "epoch": 0.59345,
      "grad_norm": 0.625,
      "learning_rate": 0.001225778894472362,
      "loss": 2.092,
      "step": 118690
    },
    {
      "epoch": 0.5935,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012256281407035177,
      "loss": 2.0496,
      "step": 118700
    },
    {
      "epoch": 0.59355,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012254773869346733,
      "loss": 2.1363,
      "step": 118710
    },
    {
      "epoch": 0.5936,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012253266331658291,
      "loss": 2.0686,
      "step": 118720
    },
    {
      "epoch": 0.59365,
      "grad_norm": 0.578125,
      "learning_rate": 0.001225175879396985,
      "loss": 2.0859,
      "step": 118730
    },
    {
      "epoch": 0.5937,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012250251256281407,
      "loss": 2.1071,
      "step": 118740
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012248743718592965,
      "loss": 2.1041,
      "step": 118750
    },
    {
      "epoch": 0.5938,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012247236180904523,
      "loss": 2.0788,
      "step": 118760
    },
    {
      "epoch": 0.59385,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012245728643216082,
      "loss": 2.0664,
      "step": 118770
    },
    {
      "epoch": 0.5939,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001224422110552764,
      "loss": 2.0006,
      "step": 118780
    },
    {
      "epoch": 0.59395,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012242713567839195,
      "loss": 2.0856,
      "step": 118790
    },
    {
      "epoch": 0.594,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012241206030150754,
      "loss": 2.0851,
      "step": 118800
    },
    {
      "epoch": 0.59405,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012239698492462312,
      "loss": 2.0692,
      "step": 118810
    },
    {
      "epoch": 0.5941,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001223819095477387,
      "loss": 2.0723,
      "step": 118820
    },
    {
      "epoch": 0.59415,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012236683417085428,
      "loss": 2.0679,
      "step": 118830
    },
    {
      "epoch": 0.5942,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012235175879396984,
      "loss": 2.0751,
      "step": 118840
    },
    {
      "epoch": 0.59425,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012233668341708544,
      "loss": 2.0642,
      "step": 118850
    },
    {
      "epoch": 0.5943,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012232160804020102,
      "loss": 2.1182,
      "step": 118860
    },
    {
      "epoch": 0.59435,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012230653266331658,
      "loss": 2.0785,
      "step": 118870
    },
    {
      "epoch": 0.5944,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012229145728643216,
      "loss": 2.0821,
      "step": 118880
    },
    {
      "epoch": 0.59445,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012227638190954774,
      "loss": 2.1189,
      "step": 118890
    },
    {
      "epoch": 0.5945,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012226130653266332,
      "loss": 2.0457,
      "step": 118900
    },
    {
      "epoch": 0.59455,
      "grad_norm": 0.609375,
      "learning_rate": 0.001222462311557789,
      "loss": 2.103,
      "step": 118910
    },
    {
      "epoch": 0.5946,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012223115577889446,
      "loss": 2.0394,
      "step": 118920
    },
    {
      "epoch": 0.59465,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012221608040201006,
      "loss": 2.0811,
      "step": 118930
    },
    {
      "epoch": 0.5947,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012220100502512564,
      "loss": 2.0534,
      "step": 118940
    },
    {
      "epoch": 0.59475,
      "grad_norm": 0.671875,
      "learning_rate": 0.001221859296482412,
      "loss": 2.1024,
      "step": 118950
    },
    {
      "epoch": 0.5948,
      "grad_norm": 0.734375,
      "learning_rate": 0.0012217085427135678,
      "loss": 2.1115,
      "step": 118960
    },
    {
      "epoch": 0.59485,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012215577889447236,
      "loss": 2.0516,
      "step": 118970
    },
    {
      "epoch": 0.5949,
      "grad_norm": 0.625,
      "learning_rate": 0.0012214070351758794,
      "loss": 2.0253,
      "step": 118980
    },
    {
      "epoch": 0.59495,
      "grad_norm": 0.625,
      "learning_rate": 0.0012212562814070353,
      "loss": 2.0615,
      "step": 118990
    },
    {
      "epoch": 0.595,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012211055276381908,
      "loss": 2.0269,
      "step": 119000
    },
    {
      "epoch": 0.59505,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012209547738693469,
      "loss": 2.0766,
      "step": 119010
    },
    {
      "epoch": 0.5951,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0012208040201005025,
      "loss": 2.0906,
      "step": 119020
    },
    {
      "epoch": 0.59515,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012206532663316583,
      "loss": 2.0841,
      "step": 119030
    },
    {
      "epoch": 0.5952,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001220502512562814,
      "loss": 2.0557,
      "step": 119040
    },
    {
      "epoch": 0.59525,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012203517587939699,
      "loss": 2.0361,
      "step": 119050
    },
    {
      "epoch": 0.5953,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012202010050251257,
      "loss": 2.15,
      "step": 119060
    },
    {
      "epoch": 0.59535,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0012200502512562815,
      "loss": 2.0852,
      "step": 119070
    },
    {
      "epoch": 0.5954,
      "grad_norm": 0.65625,
      "learning_rate": 0.001219899497487437,
      "loss": 2.0972,
      "step": 119080
    },
    {
      "epoch": 0.59545,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001219748743718593,
      "loss": 2.0416,
      "step": 119090
    },
    {
      "epoch": 0.5955,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012195979899497487,
      "loss": 2.0228,
      "step": 119100
    },
    {
      "epoch": 0.59555,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012194472361809045,
      "loss": 2.0828,
      "step": 119110
    },
    {
      "epoch": 0.5956,
      "grad_norm": 0.625,
      "learning_rate": 0.0012192964824120603,
      "loss": 2.048,
      "step": 119120
    },
    {
      "epoch": 0.59565,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012191457286432161,
      "loss": 2.082,
      "step": 119130
    },
    {
      "epoch": 0.5957,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001218994974874372,
      "loss": 2.1299,
      "step": 119140
    },
    {
      "epoch": 0.59575,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0012188442211055277,
      "loss": 2.0746,
      "step": 119150
    },
    {
      "epoch": 0.5958,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012186934673366833,
      "loss": 2.0991,
      "step": 119160
    },
    {
      "epoch": 0.59585,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012185427135678393,
      "loss": 2.0455,
      "step": 119170
    },
    {
      "epoch": 0.5959,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001218391959798995,
      "loss": 2.0769,
      "step": 119180
    },
    {
      "epoch": 0.59595,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012182412060301507,
      "loss": 2.0619,
      "step": 119190
    },
    {
      "epoch": 0.596,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012180904522613065,
      "loss": 2.0796,
      "step": 119200
    },
    {
      "epoch": 0.59605,
      "grad_norm": 0.625,
      "learning_rate": 0.0012179396984924624,
      "loss": 2.1153,
      "step": 119210
    },
    {
      "epoch": 0.5961,
      "grad_norm": 0.625,
      "learning_rate": 0.0012177889447236182,
      "loss": 2.062,
      "step": 119220
    },
    {
      "epoch": 0.59615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001217638190954774,
      "loss": 2.1167,
      "step": 119230
    },
    {
      "epoch": 0.5962,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012174874371859296,
      "loss": 2.0351,
      "step": 119240
    },
    {
      "epoch": 0.59625,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012173366834170856,
      "loss": 2.1313,
      "step": 119250
    },
    {
      "epoch": 0.5963,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012171859296482412,
      "loss": 2.0637,
      "step": 119260
    },
    {
      "epoch": 0.59635,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001217035175879397,
      "loss": 2.0665,
      "step": 119270
    },
    {
      "epoch": 0.5964,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012168844221105528,
      "loss": 2.1037,
      "step": 119280
    },
    {
      "epoch": 0.59645,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012167336683417086,
      "loss": 2.0336,
      "step": 119290
    },
    {
      "epoch": 0.5965,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012165829145728644,
      "loss": 2.0862,
      "step": 119300
    },
    {
      "epoch": 0.59655,
      "grad_norm": 0.71875,
      "learning_rate": 0.0012164321608040202,
      "loss": 2.0847,
      "step": 119310
    },
    {
      "epoch": 0.5966,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012162814070351758,
      "loss": 2.0969,
      "step": 119320
    },
    {
      "epoch": 0.59665,
      "grad_norm": 0.625,
      "learning_rate": 0.0012161306532663318,
      "loss": 2.1271,
      "step": 119330
    },
    {
      "epoch": 0.5967,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012159798994974874,
      "loss": 2.0616,
      "step": 119340
    },
    {
      "epoch": 0.59675,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012158291457286432,
      "loss": 2.1414,
      "step": 119350
    },
    {
      "epoch": 0.5968,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001215678391959799,
      "loss": 2.0704,
      "step": 119360
    },
    {
      "epoch": 0.59685,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0012155276381909548,
      "loss": 2.1058,
      "step": 119370
    },
    {
      "epoch": 0.5969,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012153768844221106,
      "loss": 2.1033,
      "step": 119380
    },
    {
      "epoch": 0.59695,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0012152261306532664,
      "loss": 2.0607,
      "step": 119390
    },
    {
      "epoch": 0.597,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001215075376884422,
      "loss": 2.0719,
      "step": 119400
    },
    {
      "epoch": 0.59705,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0012149246231155778,
      "loss": 2.1014,
      "step": 119410
    },
    {
      "epoch": 0.5971,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0012147738693467336,
      "loss": 2.084,
      "step": 119420
    },
    {
      "epoch": 0.59715,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012146231155778895,
      "loss": 2.1085,
      "step": 119430
    },
    {
      "epoch": 0.5972,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012144723618090453,
      "loss": 2.0669,
      "step": 119440
    },
    {
      "epoch": 0.59725,
      "grad_norm": 0.625,
      "learning_rate": 0.001214321608040201,
      "loss": 2.0906,
      "step": 119450
    },
    {
      "epoch": 0.5973,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012141708542713569,
      "loss": 2.0154,
      "step": 119460
    },
    {
      "epoch": 0.59735,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012140201005025127,
      "loss": 2.1116,
      "step": 119470
    },
    {
      "epoch": 0.5974,
      "grad_norm": 0.625,
      "learning_rate": 0.0012138693467336683,
      "loss": 2.1045,
      "step": 119480
    },
    {
      "epoch": 0.59745,
      "grad_norm": 0.546875,
      "learning_rate": 0.001213718592964824,
      "loss": 2.0471,
      "step": 119490
    },
    {
      "epoch": 0.5975,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012135678391959799,
      "loss": 2.1191,
      "step": 119500
    },
    {
      "epoch": 0.59755,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0012134170854271357,
      "loss": 2.0477,
      "step": 119510
    },
    {
      "epoch": 0.5976,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012132663316582915,
      "loss": 2.0496,
      "step": 119520
    },
    {
      "epoch": 0.59765,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0012131155778894473,
      "loss": 2.0385,
      "step": 119530
    },
    {
      "epoch": 0.5977,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012129648241206031,
      "loss": 2.1257,
      "step": 119540
    },
    {
      "epoch": 0.59775,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001212814070351759,
      "loss": 2.0702,
      "step": 119550
    },
    {
      "epoch": 0.5978,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012126633165829145,
      "loss": 2.0928,
      "step": 119560
    },
    {
      "epoch": 0.59785,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012125125628140703,
      "loss": 2.0733,
      "step": 119570
    },
    {
      "epoch": 0.5979,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0012123618090452261,
      "loss": 2.0519,
      "step": 119580
    },
    {
      "epoch": 0.59795,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001212211055276382,
      "loss": 2.0953,
      "step": 119590
    },
    {
      "epoch": 0.598,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012120603015075377,
      "loss": 2.0763,
      "step": 119600
    },
    {
      "epoch": 0.59805,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012119095477386935,
      "loss": 2.0583,
      "step": 119610
    },
    {
      "epoch": 0.5981,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012117587939698493,
      "loss": 2.079,
      "step": 119620
    },
    {
      "epoch": 0.59815,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0012116080402010052,
      "loss": 2.0583,
      "step": 119630
    },
    {
      "epoch": 0.5982,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012114572864321607,
      "loss": 2.1212,
      "step": 119640
    },
    {
      "epoch": 0.59825,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012113065326633166,
      "loss": 2.1156,
      "step": 119650
    },
    {
      "epoch": 0.5983,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0012111557788944724,
      "loss": 2.1121,
      "step": 119660
    },
    {
      "epoch": 0.59835,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0012110050251256282,
      "loss": 2.1,
      "step": 119670
    },
    {
      "epoch": 0.5984,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001210854271356784,
      "loss": 2.0905,
      "step": 119680
    },
    {
      "epoch": 0.59845,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0012107035175879398,
      "loss": 2.0889,
      "step": 119690
    },
    {
      "epoch": 0.5985,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012105527638190956,
      "loss": 2.0302,
      "step": 119700
    },
    {
      "epoch": 0.59855,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012104020100502514,
      "loss": 2.0967,
      "step": 119710
    },
    {
      "epoch": 0.5986,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001210251256281407,
      "loss": 2.0736,
      "step": 119720
    },
    {
      "epoch": 0.59865,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012101005025125628,
      "loss": 2.1249,
      "step": 119730
    },
    {
      "epoch": 0.5987,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0012099497487437186,
      "loss": 2.0997,
      "step": 119740
    },
    {
      "epoch": 0.59875,
      "grad_norm": 0.625,
      "learning_rate": 0.0012097989949748744,
      "loss": 2.0862,
      "step": 119750
    },
    {
      "epoch": 0.5988,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0012096482412060302,
      "loss": 2.123,
      "step": 119760
    },
    {
      "epoch": 0.59885,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012094974874371858,
      "loss": 2.0671,
      "step": 119770
    },
    {
      "epoch": 0.5989,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012093467336683418,
      "loss": 2.1126,
      "step": 119780
    },
    {
      "epoch": 0.59895,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012091959798994976,
      "loss": 2.0837,
      "step": 119790
    },
    {
      "epoch": 0.599,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012090452261306532,
      "loss": 2.049,
      "step": 119800
    },
    {
      "epoch": 0.59905,
      "grad_norm": 0.640625,
      "learning_rate": 0.001208894472361809,
      "loss": 2.0719,
      "step": 119810
    },
    {
      "epoch": 0.5991,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0012087437185929648,
      "loss": 2.0782,
      "step": 119820
    },
    {
      "epoch": 0.59915,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012085929648241206,
      "loss": 2.1121,
      "step": 119830
    },
    {
      "epoch": 0.5992,
      "grad_norm": 0.625,
      "learning_rate": 0.0012084422110552764,
      "loss": 2.0718,
      "step": 119840
    },
    {
      "epoch": 0.59925,
      "grad_norm": 0.609375,
      "learning_rate": 0.001208291457286432,
      "loss": 2.1281,
      "step": 119850
    },
    {
      "epoch": 0.5993,
      "grad_norm": 0.671875,
      "learning_rate": 0.001208140703517588,
      "loss": 2.0498,
      "step": 119860
    },
    {
      "epoch": 0.59935,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012079899497487439,
      "loss": 2.0924,
      "step": 119870
    },
    {
      "epoch": 0.5994,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012078391959798995,
      "loss": 2.0849,
      "step": 119880
    },
    {
      "epoch": 0.59945,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012076884422110553,
      "loss": 2.0173,
      "step": 119890
    },
    {
      "epoch": 0.5995,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001207537688442211,
      "loss": 2.059,
      "step": 119900
    },
    {
      "epoch": 0.59955,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0012073869346733669,
      "loss": 2.0663,
      "step": 119910
    },
    {
      "epoch": 0.5996,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0012072361809045227,
      "loss": 2.0913,
      "step": 119920
    },
    {
      "epoch": 0.59965,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012070854271356783,
      "loss": 2.0496,
      "step": 119930
    },
    {
      "epoch": 0.5997,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012069346733668343,
      "loss": 2.0889,
      "step": 119940
    },
    {
      "epoch": 0.59975,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00120678391959799,
      "loss": 2.1369,
      "step": 119950
    },
    {
      "epoch": 0.5998,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0012066331658291457,
      "loss": 2.0856,
      "step": 119960
    },
    {
      "epoch": 0.59985,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012064824120603015,
      "loss": 2.061,
      "step": 119970
    },
    {
      "epoch": 0.5999,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0012063316582914573,
      "loss": 2.0656,
      "step": 119980
    },
    {
      "epoch": 0.59995,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012061809045226131,
      "loss": 2.0461,
      "step": 119990
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.578125,
      "learning_rate": 0.001206030150753769,
      "loss": 2.0898,
      "step": 120000
    },
    {
      "epoch": 0.6,
      "eval_loss": 2.076854944229126,
      "eval_runtime": 48.2503,
      "eval_samples_per_second": 51.813,
      "eval_steps_per_second": 0.104,
      "step": 120000
    },
    {
      "epoch": 0.60005,
      "grad_norm": 0.65625,
      "learning_rate": 0.0012058793969849245,
      "loss": 2.107,
      "step": 120010
    },
    {
      "epoch": 0.6001,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012057286432160805,
      "loss": 2.1323,
      "step": 120020
    },
    {
      "epoch": 0.60015,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012055778894472363,
      "loss": 2.026,
      "step": 120030
    },
    {
      "epoch": 0.6002,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001205427135678392,
      "loss": 2.0781,
      "step": 120040
    },
    {
      "epoch": 0.60025,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0012052763819095477,
      "loss": 2.0549,
      "step": 120050
    },
    {
      "epoch": 0.6003,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012051256281407035,
      "loss": 2.0979,
      "step": 120060
    },
    {
      "epoch": 0.60035,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0012049748743718594,
      "loss": 2.0761,
      "step": 120070
    },
    {
      "epoch": 0.6004,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0012048241206030152,
      "loss": 2.0368,
      "step": 120080
    },
    {
      "epoch": 0.60045,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012046733668341708,
      "loss": 2.1674,
      "step": 120090
    },
    {
      "epoch": 0.6005,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012045226130653268,
      "loss": 2.0221,
      "step": 120100
    },
    {
      "epoch": 0.60055,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0012043718592964826,
      "loss": 2.0759,
      "step": 120110
    },
    {
      "epoch": 0.6006,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0012042211055276382,
      "loss": 2.0749,
      "step": 120120
    },
    {
      "epoch": 0.60065,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001204070351758794,
      "loss": 2.1173,
      "step": 120130
    },
    {
      "epoch": 0.6007,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0012039195979899498,
      "loss": 2.0839,
      "step": 120140
    },
    {
      "epoch": 0.60075,
      "grad_norm": 0.625,
      "learning_rate": 0.0012037688442211056,
      "loss": 2.0516,
      "step": 120150
    },
    {
      "epoch": 0.6008,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012036180904522614,
      "loss": 2.0978,
      "step": 120160
    },
    {
      "epoch": 0.60085,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001203467336683417,
      "loss": 2.0745,
      "step": 120170
    },
    {
      "epoch": 0.6009,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001203316582914573,
      "loss": 2.1402,
      "step": 120180
    },
    {
      "epoch": 0.60095,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0012031658291457286,
      "loss": 2.0522,
      "step": 120190
    },
    {
      "epoch": 0.601,
      "grad_norm": 0.640625,
      "learning_rate": 0.0012030150753768844,
      "loss": 2.0808,
      "step": 120200
    },
    {
      "epoch": 0.60105,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0012028643216080402,
      "loss": 2.0955,
      "step": 120210
    },
    {
      "epoch": 0.6011,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001202713567839196,
      "loss": 2.0863,
      "step": 120220
    },
    {
      "epoch": 0.60115,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012025628140703518,
      "loss": 2.171,
      "step": 120230
    },
    {
      "epoch": 0.6012,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0012024120603015076,
      "loss": 2.066,
      "step": 120240
    },
    {
      "epoch": 0.60125,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0012022613065326632,
      "loss": 2.1003,
      "step": 120250
    },
    {
      "epoch": 0.6013,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0012021105527638192,
      "loss": 2.0244,
      "step": 120260
    },
    {
      "epoch": 0.60135,
      "grad_norm": 0.671875,
      "learning_rate": 0.0012019597989949748,
      "loss": 2.0797,
      "step": 120270
    },
    {
      "epoch": 0.6014,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0012018090452261306,
      "loss": 2.0979,
      "step": 120280
    },
    {
      "epoch": 0.60145,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0012016582914572865,
      "loss": 2.0612,
      "step": 120290
    },
    {
      "epoch": 0.6015,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0012015075376884423,
      "loss": 2.0867,
      "step": 120300
    },
    {
      "epoch": 0.60155,
      "grad_norm": 0.75390625,
      "learning_rate": 0.001201356783919598,
      "loss": 2.0581,
      "step": 120310
    },
    {
      "epoch": 0.6016,
      "grad_norm": 0.5625,
      "learning_rate": 0.0012012060301507539,
      "loss": 2.1236,
      "step": 120320
    },
    {
      "epoch": 0.60165,
      "grad_norm": 0.59375,
      "learning_rate": 0.0012010552763819095,
      "loss": 2.0812,
      "step": 120330
    },
    {
      "epoch": 0.6017,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0012009045226130653,
      "loss": 2.0908,
      "step": 120340
    },
    {
      "epoch": 0.60175,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001200753768844221,
      "loss": 2.1082,
      "step": 120350
    },
    {
      "epoch": 0.6018,
      "grad_norm": 0.609375,
      "learning_rate": 0.0012006030150753769,
      "loss": 2.0071,
      "step": 120360
    },
    {
      "epoch": 0.60185,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0012004522613065327,
      "loss": 2.1349,
      "step": 120370
    },
    {
      "epoch": 0.6019,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0012003015075376885,
      "loss": 2.0775,
      "step": 120380
    },
    {
      "epoch": 0.60195,
      "grad_norm": 0.578125,
      "learning_rate": 0.0012001507537688443,
      "loss": 2.0688,
      "step": 120390
    },
    {
      "epoch": 0.602,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0012000000000000001,
      "loss": 2.0746,
      "step": 120400
    },
    {
      "epoch": 0.60205,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011998492462311557,
      "loss": 2.0604,
      "step": 120410
    },
    {
      "epoch": 0.6021,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011996984924623115,
      "loss": 2.1158,
      "step": 120420
    },
    {
      "epoch": 0.60215,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011995477386934673,
      "loss": 2.0706,
      "step": 120430
    },
    {
      "epoch": 0.6022,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011993969849246231,
      "loss": 2.1084,
      "step": 120440
    },
    {
      "epoch": 0.60225,
      "grad_norm": 0.640625,
      "learning_rate": 0.001199246231155779,
      "loss": 2.0306,
      "step": 120450
    },
    {
      "epoch": 0.6023,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011990954773869347,
      "loss": 2.1321,
      "step": 120460
    },
    {
      "epoch": 0.60235,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011989447236180905,
      "loss": 2.0341,
      "step": 120470
    },
    {
      "epoch": 0.6024,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011987939698492463,
      "loss": 2.0944,
      "step": 120480
    },
    {
      "epoch": 0.60245,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001198643216080402,
      "loss": 2.0921,
      "step": 120490
    },
    {
      "epoch": 0.6025,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011984924623115577,
      "loss": 2.0205,
      "step": 120500
    },
    {
      "epoch": 0.60255,
      "grad_norm": 0.625,
      "learning_rate": 0.0011983417085427136,
      "loss": 2.1712,
      "step": 120510
    },
    {
      "epoch": 0.6026,
      "grad_norm": 0.625,
      "learning_rate": 0.0011981909547738694,
      "loss": 2.0691,
      "step": 120520
    },
    {
      "epoch": 0.60265,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011980402010050252,
      "loss": 2.0554,
      "step": 120530
    },
    {
      "epoch": 0.6027,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001197889447236181,
      "loss": 2.0346,
      "step": 120540
    },
    {
      "epoch": 0.60275,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011977386934673368,
      "loss": 2.1306,
      "step": 120550
    },
    {
      "epoch": 0.6028,
      "grad_norm": 0.625,
      "learning_rate": 0.0011975879396984926,
      "loss": 2.057,
      "step": 120560
    },
    {
      "epoch": 0.60285,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0011974371859296482,
      "loss": 2.0326,
      "step": 120570
    },
    {
      "epoch": 0.6029,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001197286432160804,
      "loss": 2.0948,
      "step": 120580
    },
    {
      "epoch": 0.60295,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011971356783919598,
      "loss": 2.0126,
      "step": 120590
    },
    {
      "epoch": 0.603,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0011969849246231156,
      "loss": 2.1046,
      "step": 120600
    },
    {
      "epoch": 0.60305,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011968341708542714,
      "loss": 2.0479,
      "step": 120610
    },
    {
      "epoch": 0.6031,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011966834170854272,
      "loss": 2.1044,
      "step": 120620
    },
    {
      "epoch": 0.60315,
      "grad_norm": 0.625,
      "learning_rate": 0.001196532663316583,
      "loss": 2.1196,
      "step": 120630
    },
    {
      "epoch": 0.6032,
      "grad_norm": 0.625,
      "learning_rate": 0.0011963819095477388,
      "loss": 2.1048,
      "step": 120640
    },
    {
      "epoch": 0.60325,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0011962311557788944,
      "loss": 2.1216,
      "step": 120650
    },
    {
      "epoch": 0.6033,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011960804020100502,
      "loss": 2.0924,
      "step": 120660
    },
    {
      "epoch": 0.60335,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001195929648241206,
      "loss": 2.0949,
      "step": 120670
    },
    {
      "epoch": 0.6034,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011957788944723618,
      "loss": 2.0384,
      "step": 120680
    },
    {
      "epoch": 0.60345,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011956281407035176,
      "loss": 2.0773,
      "step": 120690
    },
    {
      "epoch": 0.6035,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011954773869346732,
      "loss": 2.0994,
      "step": 120700
    },
    {
      "epoch": 0.60355,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011953266331658293,
      "loss": 2.1299,
      "step": 120710
    },
    {
      "epoch": 0.6036,
      "grad_norm": 0.68359375,
      "learning_rate": 0.001195175879396985,
      "loss": 2.0526,
      "step": 120720
    },
    {
      "epoch": 0.60365,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011950251256281407,
      "loss": 2.0385,
      "step": 120730
    },
    {
      "epoch": 0.6037,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011948743718592965,
      "loss": 2.0811,
      "step": 120740
    },
    {
      "epoch": 0.60375,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011947236180904523,
      "loss": 2.0703,
      "step": 120750
    },
    {
      "epoch": 0.6038,
      "grad_norm": 0.703125,
      "learning_rate": 0.001194572864321608,
      "loss": 2.1123,
      "step": 120760
    },
    {
      "epoch": 0.60385,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011944221105527639,
      "loss": 2.0491,
      "step": 120770
    },
    {
      "epoch": 0.6039,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011942713567839195,
      "loss": 2.1098,
      "step": 120780
    },
    {
      "epoch": 0.60395,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011941206030150755,
      "loss": 2.0988,
      "step": 120790
    },
    {
      "epoch": 0.604,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011939698492462313,
      "loss": 2.0793,
      "step": 120800
    },
    {
      "epoch": 0.60405,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011938190954773869,
      "loss": 2.0881,
      "step": 120810
    },
    {
      "epoch": 0.6041,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011936683417085427,
      "loss": 2.0623,
      "step": 120820
    },
    {
      "epoch": 0.60415,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011935175879396985,
      "loss": 2.1525,
      "step": 120830
    },
    {
      "epoch": 0.6042,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011933668341708543,
      "loss": 2.0403,
      "step": 120840
    },
    {
      "epoch": 0.60425,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011932160804020101,
      "loss": 2.1125,
      "step": 120850
    },
    {
      "epoch": 0.6043,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011930653266331657,
      "loss": 2.1365,
      "step": 120860
    },
    {
      "epoch": 0.60435,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011929145728643217,
      "loss": 2.1026,
      "step": 120870
    },
    {
      "epoch": 0.6044,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011927638190954775,
      "loss": 2.1053,
      "step": 120880
    },
    {
      "epoch": 0.60445,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011926130653266331,
      "loss": 2.0479,
      "step": 120890
    },
    {
      "epoch": 0.6045,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001192462311557789,
      "loss": 2.1117,
      "step": 120900
    },
    {
      "epoch": 0.60455,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011923115577889447,
      "loss": 2.0718,
      "step": 120910
    },
    {
      "epoch": 0.6046,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011921608040201005,
      "loss": 2.0688,
      "step": 120920
    },
    {
      "epoch": 0.60465,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011920100502512564,
      "loss": 2.0383,
      "step": 120930
    },
    {
      "epoch": 0.6047,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001191859296482412,
      "loss": 2.0767,
      "step": 120940
    },
    {
      "epoch": 0.60475,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001191708542713568,
      "loss": 2.1012,
      "step": 120950
    },
    {
      "epoch": 0.6048,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011915577889447238,
      "loss": 2.0958,
      "step": 120960
    },
    {
      "epoch": 0.60485,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011914070351758794,
      "loss": 2.1056,
      "step": 120970
    },
    {
      "epoch": 0.6049,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011912562814070352,
      "loss": 2.0572,
      "step": 120980
    },
    {
      "epoch": 0.60495,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001191105527638191,
      "loss": 2.0938,
      "step": 120990
    },
    {
      "epoch": 0.605,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011909547738693468,
      "loss": 2.0717,
      "step": 121000
    },
    {
      "epoch": 0.60505,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011908040201005026,
      "loss": 2.0798,
      "step": 121010
    },
    {
      "epoch": 0.6051,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011906532663316582,
      "loss": 2.0572,
      "step": 121020
    },
    {
      "epoch": 0.60515,
      "grad_norm": 0.625,
      "learning_rate": 0.0011905025125628142,
      "loss": 2.0766,
      "step": 121030
    },
    {
      "epoch": 0.6052,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00119035175879397,
      "loss": 2.1126,
      "step": 121040
    },
    {
      "epoch": 0.60525,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011902010050251256,
      "loss": 2.0296,
      "step": 121050
    },
    {
      "epoch": 0.6053,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011900502512562814,
      "loss": 2.0958,
      "step": 121060
    },
    {
      "epoch": 0.60535,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0011898994974874372,
      "loss": 2.0507,
      "step": 121070
    },
    {
      "epoch": 0.6054,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001189748743718593,
      "loss": 2.1481,
      "step": 121080
    },
    {
      "epoch": 0.60545,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011895979899497488,
      "loss": 2.0538,
      "step": 121090
    },
    {
      "epoch": 0.6055,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011894472361809044,
      "loss": 2.0891,
      "step": 121100
    },
    {
      "epoch": 0.60555,
      "grad_norm": 0.671875,
      "learning_rate": 0.0011892964824120604,
      "loss": 2.0447,
      "step": 121110
    },
    {
      "epoch": 0.6056,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011891457286432163,
      "loss": 2.0668,
      "step": 121120
    },
    {
      "epoch": 0.60565,
      "grad_norm": 0.5625,
      "learning_rate": 0.0011889949748743718,
      "loss": 2.0805,
      "step": 121130
    },
    {
      "epoch": 0.6057,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011888442211055276,
      "loss": 2.0407,
      "step": 121140
    },
    {
      "epoch": 0.60575,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011886934673366835,
      "loss": 2.0651,
      "step": 121150
    },
    {
      "epoch": 0.6058,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011885427135678393,
      "loss": 2.038,
      "step": 121160
    },
    {
      "epoch": 0.60585,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001188391959798995,
      "loss": 2.0757,
      "step": 121170
    },
    {
      "epoch": 0.6059,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0011882412060301507,
      "loss": 2.0973,
      "step": 121180
    },
    {
      "epoch": 0.60595,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011880904522613067,
      "loss": 2.1298,
      "step": 121190
    },
    {
      "epoch": 0.606,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011879396984924625,
      "loss": 2.0644,
      "step": 121200
    },
    {
      "epoch": 0.60605,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001187788944723618,
      "loss": 2.0957,
      "step": 121210
    },
    {
      "epoch": 0.6061,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0011876381909547739,
      "loss": 2.1185,
      "step": 121220
    },
    {
      "epoch": 0.60615,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011874874371859297,
      "loss": 2.0823,
      "step": 121230
    },
    {
      "epoch": 0.6062,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011873366834170855,
      "loss": 2.1062,
      "step": 121240
    },
    {
      "epoch": 0.60625,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011871859296482413,
      "loss": 2.0185,
      "step": 121250
    },
    {
      "epoch": 0.6063,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001187035175879397,
      "loss": 2.1193,
      "step": 121260
    },
    {
      "epoch": 0.60635,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011868844221105527,
      "loss": 2.0217,
      "step": 121270
    },
    {
      "epoch": 0.6064,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011867336683417087,
      "loss": 2.1299,
      "step": 121280
    },
    {
      "epoch": 0.60645,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0011865829145728643,
      "loss": 2.057,
      "step": 121290
    },
    {
      "epoch": 0.6065,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011864321608040201,
      "loss": 2.0785,
      "step": 121300
    },
    {
      "epoch": 0.60655,
      "grad_norm": 0.609375,
      "learning_rate": 0.001186281407035176,
      "loss": 2.0712,
      "step": 121310
    },
    {
      "epoch": 0.6066,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011861306532663317,
      "loss": 2.0514,
      "step": 121320
    },
    {
      "epoch": 0.60665,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0011859798994974875,
      "loss": 2.0785,
      "step": 121330
    },
    {
      "epoch": 0.6067,
      "grad_norm": 0.625,
      "learning_rate": 0.0011858291457286431,
      "loss": 2.043,
      "step": 121340
    },
    {
      "epoch": 0.60675,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001185678391959799,
      "loss": 2.1248,
      "step": 121350
    },
    {
      "epoch": 0.6068,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011855276381909547,
      "loss": 2.0716,
      "step": 121360
    },
    {
      "epoch": 0.60685,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011853768844221106,
      "loss": 2.1048,
      "step": 121370
    },
    {
      "epoch": 0.6069,
      "grad_norm": 0.671875,
      "learning_rate": 0.0011852261306532664,
      "loss": 2.1257,
      "step": 121380
    },
    {
      "epoch": 0.60695,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011850753768844222,
      "loss": 2.0955,
      "step": 121390
    },
    {
      "epoch": 0.607,
      "grad_norm": 0.609375,
      "learning_rate": 0.001184924623115578,
      "loss": 2.0663,
      "step": 121400
    },
    {
      "epoch": 0.60705,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0011847738693467338,
      "loss": 2.0747,
      "step": 121410
    },
    {
      "epoch": 0.6071,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0011846231155778894,
      "loss": 2.146,
      "step": 121420
    },
    {
      "epoch": 0.60715,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011844723618090452,
      "loss": 2.0839,
      "step": 121430
    },
    {
      "epoch": 0.6072,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001184321608040201,
      "loss": 2.1574,
      "step": 121440
    },
    {
      "epoch": 0.60725,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011841708542713568,
      "loss": 2.0697,
      "step": 121450
    },
    {
      "epoch": 0.6073,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011840201005025126,
      "loss": 2.0931,
      "step": 121460
    },
    {
      "epoch": 0.60735,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011838693467336684,
      "loss": 2.058,
      "step": 121470
    },
    {
      "epoch": 0.6074,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011837185929648242,
      "loss": 2.1081,
      "step": 121480
    },
    {
      "epoch": 0.60745,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00118356783919598,
      "loss": 2.0951,
      "step": 121490
    },
    {
      "epoch": 0.6075,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011834170854271356,
      "loss": 2.0635,
      "step": 121500
    },
    {
      "epoch": 0.60755,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011832663316582914,
      "loss": 2.0552,
      "step": 121510
    },
    {
      "epoch": 0.6076,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011831155778894472,
      "loss": 2.0893,
      "step": 121520
    },
    {
      "epoch": 0.60765,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001182964824120603,
      "loss": 2.0957,
      "step": 121530
    },
    {
      "epoch": 0.6077,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011828140703517588,
      "loss": 2.0874,
      "step": 121540
    },
    {
      "epoch": 0.60775,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011826633165829146,
      "loss": 2.1201,
      "step": 121550
    },
    {
      "epoch": 0.6078,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011825125628140705,
      "loss": 2.0827,
      "step": 121560
    },
    {
      "epoch": 0.60785,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011823618090452263,
      "loss": 2.0956,
      "step": 121570
    },
    {
      "epoch": 0.6079,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011822110552763818,
      "loss": 2.1041,
      "step": 121580
    },
    {
      "epoch": 0.60795,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011820603015075377,
      "loss": 2.1314,
      "step": 121590
    },
    {
      "epoch": 0.608,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011819095477386935,
      "loss": 2.0352,
      "step": 121600
    },
    {
      "epoch": 0.60805,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011817587939698493,
      "loss": 2.1421,
      "step": 121610
    },
    {
      "epoch": 0.6081,
      "grad_norm": 0.67578125,
      "learning_rate": 0.001181608040201005,
      "loss": 2.0853,
      "step": 121620
    },
    {
      "epoch": 0.60815,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011814572864321607,
      "loss": 2.0824,
      "step": 121630
    },
    {
      "epoch": 0.6082,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011813065326633167,
      "loss": 2.0434,
      "step": 121640
    },
    {
      "epoch": 0.60825,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011811557788944725,
      "loss": 2.0871,
      "step": 121650
    },
    {
      "epoch": 0.6083,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001181005025125628,
      "loss": 2.0952,
      "step": 121660
    },
    {
      "epoch": 0.60835,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001180854271356784,
      "loss": 2.0191,
      "step": 121670
    },
    {
      "epoch": 0.6084,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011807035175879397,
      "loss": 2.1186,
      "step": 121680
    },
    {
      "epoch": 0.60845,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011805527638190955,
      "loss": 2.0468,
      "step": 121690
    },
    {
      "epoch": 0.6085,
      "grad_norm": 0.5625,
      "learning_rate": 0.0011804020100502513,
      "loss": 2.0932,
      "step": 121700
    },
    {
      "epoch": 0.60855,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001180251256281407,
      "loss": 2.1119,
      "step": 121710
    },
    {
      "epoch": 0.6086,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001180100502512563,
      "loss": 2.1088,
      "step": 121720
    },
    {
      "epoch": 0.60865,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011799497487437187,
      "loss": 2.0746,
      "step": 121730
    },
    {
      "epoch": 0.6087,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011797989949748743,
      "loss": 2.0828,
      "step": 121740
    },
    {
      "epoch": 0.60875,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011796482412060301,
      "loss": 2.0858,
      "step": 121750
    },
    {
      "epoch": 0.6088,
      "grad_norm": 0.609375,
      "learning_rate": 0.001179497487437186,
      "loss": 2.081,
      "step": 121760
    },
    {
      "epoch": 0.60885,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011793467336683417,
      "loss": 2.069,
      "step": 121770
    },
    {
      "epoch": 0.6089,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011791959798994976,
      "loss": 2.0803,
      "step": 121780
    },
    {
      "epoch": 0.60895,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011790452261306531,
      "loss": 2.104,
      "step": 121790
    },
    {
      "epoch": 0.609,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0011788944723618092,
      "loss": 2.0953,
      "step": 121800
    },
    {
      "epoch": 0.60905,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001178743718592965,
      "loss": 2.1296,
      "step": 121810
    },
    {
      "epoch": 0.6091,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011785929648241206,
      "loss": 2.0626,
      "step": 121820
    },
    {
      "epoch": 0.60915,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0011784422110552764,
      "loss": 2.1538,
      "step": 121830
    },
    {
      "epoch": 0.6092,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011782914572864322,
      "loss": 2.0352,
      "step": 121840
    },
    {
      "epoch": 0.60925,
      "grad_norm": 0.6953125,
      "learning_rate": 0.001178140703517588,
      "loss": 2.0799,
      "step": 121850
    },
    {
      "epoch": 0.6093,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0011779899497487438,
      "loss": 2.0543,
      "step": 121860
    },
    {
      "epoch": 0.60935,
      "grad_norm": 0.703125,
      "learning_rate": 0.0011778391959798994,
      "loss": 2.0777,
      "step": 121870
    },
    {
      "epoch": 0.6094,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011776884422110554,
      "loss": 2.0672,
      "step": 121880
    },
    {
      "epoch": 0.60945,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011775376884422112,
      "loss": 2.0792,
      "step": 121890
    },
    {
      "epoch": 0.6095,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011773869346733668,
      "loss": 2.1388,
      "step": 121900
    },
    {
      "epoch": 0.60955,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011772361809045226,
      "loss": 2.0405,
      "step": 121910
    },
    {
      "epoch": 0.6096,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011770854271356784,
      "loss": 2.0687,
      "step": 121920
    },
    {
      "epoch": 0.60965,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0011769346733668342,
      "loss": 2.104,
      "step": 121930
    },
    {
      "epoch": 0.6097,
      "grad_norm": 0.609375,
      "learning_rate": 0.00117678391959799,
      "loss": 2.1581,
      "step": 121940
    },
    {
      "epoch": 0.60975,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011766331658291456,
      "loss": 2.0818,
      "step": 121950
    },
    {
      "epoch": 0.6098,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011764824120603016,
      "loss": 2.1093,
      "step": 121960
    },
    {
      "epoch": 0.60985,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011763316582914574,
      "loss": 2.072,
      "step": 121970
    },
    {
      "epoch": 0.6099,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001176180904522613,
      "loss": 2.1189,
      "step": 121980
    },
    {
      "epoch": 0.60995,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011760301507537688,
      "loss": 2.0687,
      "step": 121990
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.625,
      "learning_rate": 0.0011758793969849247,
      "loss": 2.0906,
      "step": 122000
    },
    {
      "epoch": 0.61,
      "eval_loss": 2.083836078643799,
      "eval_runtime": 45.8102,
      "eval_samples_per_second": 54.573,
      "eval_steps_per_second": 0.109,
      "step": 122000
    },
    {
      "epoch": 0.61005,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011757286432160805,
      "loss": 2.1421,
      "step": 122010
    },
    {
      "epoch": 0.6101,
      "grad_norm": 0.75,
      "learning_rate": 0.0011755778894472363,
      "loss": 2.0757,
      "step": 122020
    },
    {
      "epoch": 0.61015,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011754271356783919,
      "loss": 2.0523,
      "step": 122030
    },
    {
      "epoch": 0.6102,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011752763819095479,
      "loss": 2.0787,
      "step": 122040
    },
    {
      "epoch": 0.61025,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011751256281407037,
      "loss": 2.108,
      "step": 122050
    },
    {
      "epoch": 0.6103,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011749748743718593,
      "loss": 2.0312,
      "step": 122060
    },
    {
      "epoch": 0.61035,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001174824120603015,
      "loss": 2.0804,
      "step": 122070
    },
    {
      "epoch": 0.6104,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011746733668341709,
      "loss": 2.0414,
      "step": 122080
    },
    {
      "epoch": 0.61045,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0011745226130653267,
      "loss": 2.102,
      "step": 122090
    },
    {
      "epoch": 0.6105,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011743718592964825,
      "loss": 2.0803,
      "step": 122100
    },
    {
      "epoch": 0.61055,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001174221105527638,
      "loss": 2.1553,
      "step": 122110
    },
    {
      "epoch": 0.6106,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011740703517587941,
      "loss": 2.0702,
      "step": 122120
    },
    {
      "epoch": 0.61065,
      "grad_norm": 0.625,
      "learning_rate": 0.00117391959798995,
      "loss": 2.1079,
      "step": 122130
    },
    {
      "epoch": 0.6107,
      "grad_norm": 0.625,
      "learning_rate": 0.0011737688442211055,
      "loss": 2.071,
      "step": 122140
    },
    {
      "epoch": 0.61075,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011736180904522613,
      "loss": 2.0925,
      "step": 122150
    },
    {
      "epoch": 0.6108,
      "grad_norm": 0.625,
      "learning_rate": 0.0011734673366834171,
      "loss": 2.1371,
      "step": 122160
    },
    {
      "epoch": 0.61085,
      "grad_norm": 0.640625,
      "learning_rate": 0.001173316582914573,
      "loss": 2.0578,
      "step": 122170
    },
    {
      "epoch": 0.6109,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011731658291457287,
      "loss": 2.1506,
      "step": 122180
    },
    {
      "epoch": 0.61095,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0011730150753768843,
      "loss": 2.0638,
      "step": 122190
    },
    {
      "epoch": 0.611,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0011728643216080401,
      "loss": 2.1382,
      "step": 122200
    },
    {
      "epoch": 0.61105,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011727135678391962,
      "loss": 2.0497,
      "step": 122210
    },
    {
      "epoch": 0.6111,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011725628140703518,
      "loss": 2.1031,
      "step": 122220
    },
    {
      "epoch": 0.61115,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011724120603015076,
      "loss": 2.0981,
      "step": 122230
    },
    {
      "epoch": 0.6112,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011722613065326634,
      "loss": 2.0397,
      "step": 122240
    },
    {
      "epoch": 0.61125,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011721105527638192,
      "loss": 2.0753,
      "step": 122250
    },
    {
      "epoch": 0.6113,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001171959798994975,
      "loss": 2.0774,
      "step": 122260
    },
    {
      "epoch": 0.61135,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011718090452261306,
      "loss": 2.1044,
      "step": 122270
    },
    {
      "epoch": 0.6114,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011716582914572864,
      "loss": 2.0562,
      "step": 122280
    },
    {
      "epoch": 0.61145,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011715075376884424,
      "loss": 2.1231,
      "step": 122290
    },
    {
      "epoch": 0.6115,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001171356783919598,
      "loss": 2.0688,
      "step": 122300
    },
    {
      "epoch": 0.61155,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0011712060301507538,
      "loss": 2.0791,
      "step": 122310
    },
    {
      "epoch": 0.6116,
      "grad_norm": 0.765625,
      "learning_rate": 0.0011710552763819096,
      "loss": 2.1134,
      "step": 122320
    },
    {
      "epoch": 0.61165,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011709045226130654,
      "loss": 2.1132,
      "step": 122330
    },
    {
      "epoch": 0.6117,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0011707537688442212,
      "loss": 1.9916,
      "step": 122340
    },
    {
      "epoch": 0.61175,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011706030150753768,
      "loss": 2.1343,
      "step": 122350
    },
    {
      "epoch": 0.6118,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011704522613065326,
      "loss": 2.1143,
      "step": 122360
    },
    {
      "epoch": 0.61185,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011703015075376886,
      "loss": 2.1119,
      "step": 122370
    },
    {
      "epoch": 0.6119,
      "grad_norm": 0.71875,
      "learning_rate": 0.0011701507537688442,
      "loss": 2.0283,
      "step": 122380
    },
    {
      "epoch": 0.61195,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00117,
      "loss": 2.1049,
      "step": 122390
    },
    {
      "epoch": 0.612,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011698492462311558,
      "loss": 2.0685,
      "step": 122400
    },
    {
      "epoch": 0.61205,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0011696984924623116,
      "loss": 2.071,
      "step": 122410
    },
    {
      "epoch": 0.6121,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011695477386934675,
      "loss": 2.0834,
      "step": 122420
    },
    {
      "epoch": 0.61215,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001169396984924623,
      "loss": 2.121,
      "step": 122430
    },
    {
      "epoch": 0.6122,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011692462311557789,
      "loss": 2.1049,
      "step": 122440
    },
    {
      "epoch": 0.61225,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011690954773869349,
      "loss": 2.1011,
      "step": 122450
    },
    {
      "epoch": 0.6123,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011689447236180905,
      "loss": 2.0782,
      "step": 122460
    },
    {
      "epoch": 0.61235,
      "grad_norm": 0.6875,
      "learning_rate": 0.0011687939698492463,
      "loss": 2.0867,
      "step": 122470
    },
    {
      "epoch": 0.6124,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001168643216080402,
      "loss": 2.122,
      "step": 122480
    },
    {
      "epoch": 0.61245,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011684924623115579,
      "loss": 2.0763,
      "step": 122490
    },
    {
      "epoch": 0.6125,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011683417085427137,
      "loss": 2.0971,
      "step": 122500
    },
    {
      "epoch": 0.61255,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0011681909547738693,
      "loss": 2.051,
      "step": 122510
    },
    {
      "epoch": 0.6126,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001168040201005025,
      "loss": 2.0796,
      "step": 122520
    },
    {
      "epoch": 0.61265,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001167889447236181,
      "loss": 2.0901,
      "step": 122530
    },
    {
      "epoch": 0.6127,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011677386934673367,
      "loss": 2.0789,
      "step": 122540
    },
    {
      "epoch": 0.61275,
      "grad_norm": 0.6875,
      "learning_rate": 0.0011675879396984925,
      "loss": 2.047,
      "step": 122550
    },
    {
      "epoch": 0.6128,
      "grad_norm": 0.609375,
      "learning_rate": 0.001167437185929648,
      "loss": 2.1131,
      "step": 122560
    },
    {
      "epoch": 0.61285,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0011672864321608041,
      "loss": 2.1365,
      "step": 122570
    },
    {
      "epoch": 0.6129,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00116713567839196,
      "loss": 2.1391,
      "step": 122580
    },
    {
      "epoch": 0.61295,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0011669849246231155,
      "loss": 2.0998,
      "step": 122590
    },
    {
      "epoch": 0.613,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011668341708542713,
      "loss": 2.0888,
      "step": 122600
    },
    {
      "epoch": 0.61305,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011666834170854271,
      "loss": 2.0557,
      "step": 122610
    },
    {
      "epoch": 0.6131,
      "grad_norm": 0.625,
      "learning_rate": 0.001166532663316583,
      "loss": 2.0859,
      "step": 122620
    },
    {
      "epoch": 0.61315,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0011663819095477387,
      "loss": 2.1408,
      "step": 122630
    },
    {
      "epoch": 0.6132,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011662311557788943,
      "loss": 2.0207,
      "step": 122640
    },
    {
      "epoch": 0.61325,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0011660804020100504,
      "loss": 2.1637,
      "step": 122650
    },
    {
      "epoch": 0.6133,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0011659296482412062,
      "loss": 2.0944,
      "step": 122660
    },
    {
      "epoch": 0.61335,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011657788944723618,
      "loss": 2.1104,
      "step": 122670
    },
    {
      "epoch": 0.6134,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0011656281407035176,
      "loss": 2.033,
      "step": 122680
    },
    {
      "epoch": 0.61345,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011654773869346734,
      "loss": 2.1284,
      "step": 122690
    },
    {
      "epoch": 0.6135,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011653266331658292,
      "loss": 2.0655,
      "step": 122700
    },
    {
      "epoch": 0.61355,
      "grad_norm": 0.59375,
      "learning_rate": 0.001165175879396985,
      "loss": 2.0774,
      "step": 122710
    },
    {
      "epoch": 0.6136,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011650251256281406,
      "loss": 2.0874,
      "step": 122720
    },
    {
      "epoch": 0.61365,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011648743718592966,
      "loss": 2.1002,
      "step": 122730
    },
    {
      "epoch": 0.6137,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0011647236180904524,
      "loss": 2.0797,
      "step": 122740
    },
    {
      "epoch": 0.61375,
      "grad_norm": 0.65625,
      "learning_rate": 0.001164572864321608,
      "loss": 2.1418,
      "step": 122750
    },
    {
      "epoch": 0.6138,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0011644221105527638,
      "loss": 2.0844,
      "step": 122760
    },
    {
      "epoch": 0.61385,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011642713567839196,
      "loss": 2.1001,
      "step": 122770
    },
    {
      "epoch": 0.6139,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011641206030150754,
      "loss": 2.0664,
      "step": 122780
    },
    {
      "epoch": 0.61395,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011639698492462312,
      "loss": 2.0561,
      "step": 122790
    },
    {
      "epoch": 0.614,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011638190954773868,
      "loss": 2.081,
      "step": 122800
    },
    {
      "epoch": 0.61405,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0011636683417085428,
      "loss": 2.1182,
      "step": 122810
    },
    {
      "epoch": 0.6141,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011635175879396986,
      "loss": 2.1141,
      "step": 122820
    },
    {
      "epoch": 0.61415,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011633668341708542,
      "loss": 2.0591,
      "step": 122830
    },
    {
      "epoch": 0.6142,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00116321608040201,
      "loss": 2.1218,
      "step": 122840
    },
    {
      "epoch": 0.61425,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011630653266331658,
      "loss": 2.1147,
      "step": 122850
    },
    {
      "epoch": 0.6143,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0011629145728643217,
      "loss": 2.1429,
      "step": 122860
    },
    {
      "epoch": 0.61435,
      "grad_norm": 0.625,
      "learning_rate": 0.0011627638190954775,
      "loss": 2.0646,
      "step": 122870
    },
    {
      "epoch": 0.6144,
      "grad_norm": 0.640625,
      "learning_rate": 0.001162613065326633,
      "loss": 2.1073,
      "step": 122880
    },
    {
      "epoch": 0.61445,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001162462311557789,
      "loss": 2.0827,
      "step": 122890
    },
    {
      "epoch": 0.6145,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011623115577889449,
      "loss": 2.0541,
      "step": 122900
    },
    {
      "epoch": 0.61455,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011621608040201005,
      "loss": 2.1176,
      "step": 122910
    },
    {
      "epoch": 0.6146,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0011620100502512563,
      "loss": 2.0863,
      "step": 122920
    },
    {
      "epoch": 0.61465,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001161859296482412,
      "loss": 2.0654,
      "step": 122930
    },
    {
      "epoch": 0.6147,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011617085427135679,
      "loss": 2.0759,
      "step": 122940
    },
    {
      "epoch": 0.61475,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011615577889447237,
      "loss": 2.0808,
      "step": 122950
    },
    {
      "epoch": 0.6148,
      "grad_norm": 0.625,
      "learning_rate": 0.0011614070351758793,
      "loss": 2.0475,
      "step": 122960
    },
    {
      "epoch": 0.61485,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0011612562814070353,
      "loss": 2.0685,
      "step": 122970
    },
    {
      "epoch": 0.6149,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0011611055276381911,
      "loss": 2.1087,
      "step": 122980
    },
    {
      "epoch": 0.61495,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011609547738693467,
      "loss": 2.0871,
      "step": 122990
    },
    {
      "epoch": 0.615,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011608040201005025,
      "loss": 2.04,
      "step": 123000
    },
    {
      "epoch": 0.61505,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0011606532663316583,
      "loss": 2.1124,
      "step": 123010
    },
    {
      "epoch": 0.6151,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0011605025125628141,
      "loss": 2.1178,
      "step": 123020
    },
    {
      "epoch": 0.61515,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00116035175879397,
      "loss": 2.0848,
      "step": 123030
    },
    {
      "epoch": 0.6152,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011602010050251255,
      "loss": 2.0448,
      "step": 123040
    },
    {
      "epoch": 0.61525,
      "grad_norm": 0.703125,
      "learning_rate": 0.0011600502512562815,
      "loss": 2.0965,
      "step": 123050
    },
    {
      "epoch": 0.6153,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011598994974874374,
      "loss": 2.1511,
      "step": 123060
    },
    {
      "epoch": 0.61535,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001159748743718593,
      "loss": 2.0573,
      "step": 123070
    },
    {
      "epoch": 0.6154,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011595979899497488,
      "loss": 2.074,
      "step": 123080
    },
    {
      "epoch": 0.61545,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011594472361809046,
      "loss": 2.0621,
      "step": 123090
    },
    {
      "epoch": 0.6155,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011592964824120604,
      "loss": 2.0878,
      "step": 123100
    },
    {
      "epoch": 0.61555,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011591457286432162,
      "loss": 2.0693,
      "step": 123110
    },
    {
      "epoch": 0.6156,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0011589949748743718,
      "loss": 2.0657,
      "step": 123120
    },
    {
      "epoch": 0.61565,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011588442211055276,
      "loss": 2.0401,
      "step": 123130
    },
    {
      "epoch": 0.6157,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011586934673366836,
      "loss": 2.0606,
      "step": 123140
    },
    {
      "epoch": 0.61575,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011585427135678392,
      "loss": 2.05,
      "step": 123150
    },
    {
      "epoch": 0.6158,
      "grad_norm": 0.6953125,
      "learning_rate": 0.001158391959798995,
      "loss": 2.1186,
      "step": 123160
    },
    {
      "epoch": 0.61585,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011582412060301508,
      "loss": 2.0931,
      "step": 123170
    },
    {
      "epoch": 0.6159,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0011580904522613066,
      "loss": 2.1447,
      "step": 123180
    },
    {
      "epoch": 0.61595,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011579396984924624,
      "loss": 2.0596,
      "step": 123190
    },
    {
      "epoch": 0.616,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001157788944723618,
      "loss": 2.107,
      "step": 123200
    },
    {
      "epoch": 0.61605,
      "grad_norm": 0.625,
      "learning_rate": 0.0011576381909547738,
      "loss": 2.073,
      "step": 123210
    },
    {
      "epoch": 0.6161,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011574874371859298,
      "loss": 2.0797,
      "step": 123220
    },
    {
      "epoch": 0.61615,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0011573366834170854,
      "loss": 2.0755,
      "step": 123230
    },
    {
      "epoch": 0.6162,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011571859296482412,
      "loss": 2.1001,
      "step": 123240
    },
    {
      "epoch": 0.61625,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001157035175879397,
      "loss": 2.0768,
      "step": 123250
    },
    {
      "epoch": 0.6163,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011568844221105528,
      "loss": 2.0851,
      "step": 123260
    },
    {
      "epoch": 0.61635,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011567336683417086,
      "loss": 2.053,
      "step": 123270
    },
    {
      "epoch": 0.6164,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011565829145728642,
      "loss": 2.0981,
      "step": 123280
    },
    {
      "epoch": 0.61645,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00115643216080402,
      "loss": 2.0909,
      "step": 123290
    },
    {
      "epoch": 0.6165,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001156281407035176,
      "loss": 2.0786,
      "step": 123300
    },
    {
      "epoch": 0.61655,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011561306532663317,
      "loss": 2.0913,
      "step": 123310
    },
    {
      "epoch": 0.6166,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011559798994974875,
      "loss": 2.0971,
      "step": 123320
    },
    {
      "epoch": 0.61665,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0011558291457286433,
      "loss": 2.1067,
      "step": 123330
    },
    {
      "epoch": 0.6167,
      "grad_norm": 0.640625,
      "learning_rate": 0.001155678391959799,
      "loss": 2.1035,
      "step": 123340
    },
    {
      "epoch": 0.61675,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011555276381909549,
      "loss": 2.0772,
      "step": 123350
    },
    {
      "epoch": 0.6168,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011553768844221105,
      "loss": 2.0388,
      "step": 123360
    },
    {
      "epoch": 0.61685,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011552261306532663,
      "loss": 2.1317,
      "step": 123370
    },
    {
      "epoch": 0.6169,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011550753768844223,
      "loss": 2.0339,
      "step": 123380
    },
    {
      "epoch": 0.61695,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001154924623115578,
      "loss": 2.1395,
      "step": 123390
    },
    {
      "epoch": 0.617,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011547738693467337,
      "loss": 2.0796,
      "step": 123400
    },
    {
      "epoch": 0.61705,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011546231155778895,
      "loss": 2.0928,
      "step": 123410
    },
    {
      "epoch": 0.6171,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011544723618090453,
      "loss": 2.061,
      "step": 123420
    },
    {
      "epoch": 0.61715,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011543216080402011,
      "loss": 2.1157,
      "step": 123430
    },
    {
      "epoch": 0.6172,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011541708542713567,
      "loss": 2.0313,
      "step": 123440
    },
    {
      "epoch": 0.61725,
      "grad_norm": 0.671875,
      "learning_rate": 0.0011540201005025125,
      "loss": 2.0818,
      "step": 123450
    },
    {
      "epoch": 0.6173,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011538693467336685,
      "loss": 2.0507,
      "step": 123460
    },
    {
      "epoch": 0.61735,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011537185929648241,
      "loss": 2.1224,
      "step": 123470
    },
    {
      "epoch": 0.6174,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00115356783919598,
      "loss": 2.0522,
      "step": 123480
    },
    {
      "epoch": 0.61745,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011534170854271355,
      "loss": 2.0878,
      "step": 123490
    },
    {
      "epoch": 0.6175,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011532663316582916,
      "loss": 2.0702,
      "step": 123500
    },
    {
      "epoch": 0.61755,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011531155778894474,
      "loss": 2.0703,
      "step": 123510
    },
    {
      "epoch": 0.6176,
      "grad_norm": 0.609375,
      "learning_rate": 0.001152964824120603,
      "loss": 2.0727,
      "step": 123520
    },
    {
      "epoch": 0.61765,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011528140703517588,
      "loss": 2.1295,
      "step": 123530
    },
    {
      "epoch": 0.6177,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011526633165829148,
      "loss": 2.1222,
      "step": 123540
    },
    {
      "epoch": 0.61775,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011525125628140704,
      "loss": 2.1263,
      "step": 123550
    },
    {
      "epoch": 0.6178,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011523618090452262,
      "loss": 2.1088,
      "step": 123560
    },
    {
      "epoch": 0.61785,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011522110552763818,
      "loss": 2.1377,
      "step": 123570
    },
    {
      "epoch": 0.6179,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011520603015075378,
      "loss": 2.1068,
      "step": 123580
    },
    {
      "epoch": 0.61795,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0011519095477386936,
      "loss": 2.0855,
      "step": 123590
    },
    {
      "epoch": 0.618,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011517587939698492,
      "loss": 2.0844,
      "step": 123600
    },
    {
      "epoch": 0.61805,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001151608040201005,
      "loss": 2.0874,
      "step": 123610
    },
    {
      "epoch": 0.6181,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011514572864321608,
      "loss": 2.107,
      "step": 123620
    },
    {
      "epoch": 0.61815,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011513065326633166,
      "loss": 2.0387,
      "step": 123630
    },
    {
      "epoch": 0.6182,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011511557788944724,
      "loss": 2.1027,
      "step": 123640
    },
    {
      "epoch": 0.61825,
      "grad_norm": 0.7109375,
      "learning_rate": 0.001151005025125628,
      "loss": 2.0531,
      "step": 123650
    },
    {
      "epoch": 0.6183,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001150854271356784,
      "loss": 2.0813,
      "step": 123660
    },
    {
      "epoch": 0.61835,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011507035175879398,
      "loss": 2.0693,
      "step": 123670
    },
    {
      "epoch": 0.6184,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011505527638190954,
      "loss": 2.1193,
      "step": 123680
    },
    {
      "epoch": 0.61845,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0011504020100502512,
      "loss": 2.0695,
      "step": 123690
    },
    {
      "epoch": 0.6185,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001150251256281407,
      "loss": 2.1197,
      "step": 123700
    },
    {
      "epoch": 0.61855,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0011501005025125628,
      "loss": 2.0695,
      "step": 123710
    },
    {
      "epoch": 0.6186,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0011499497487437187,
      "loss": 2.1038,
      "step": 123720
    },
    {
      "epoch": 0.61865,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011497989949748742,
      "loss": 2.0588,
      "step": 123730
    },
    {
      "epoch": 0.6187,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011496482412060303,
      "loss": 2.1106,
      "step": 123740
    },
    {
      "epoch": 0.61875,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001149497487437186,
      "loss": 2.0471,
      "step": 123750
    },
    {
      "epoch": 0.6188,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011493467336683417,
      "loss": 2.1233,
      "step": 123760
    },
    {
      "epoch": 0.61885,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011491959798994975,
      "loss": 2.1116,
      "step": 123770
    },
    {
      "epoch": 0.6189,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011490452261306533,
      "loss": 2.0898,
      "step": 123780
    },
    {
      "epoch": 0.61895,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001148894472361809,
      "loss": 2.1431,
      "step": 123790
    },
    {
      "epoch": 0.619,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001148743718592965,
      "loss": 2.0992,
      "step": 123800
    },
    {
      "epoch": 0.61905,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011485929648241205,
      "loss": 2.099,
      "step": 123810
    },
    {
      "epoch": 0.6191,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011484422110552765,
      "loss": 2.0612,
      "step": 123820
    },
    {
      "epoch": 0.61915,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011482914572864323,
      "loss": 2.0897,
      "step": 123830
    },
    {
      "epoch": 0.6192,
      "grad_norm": 0.65625,
      "learning_rate": 0.001148140703517588,
      "loss": 2.0995,
      "step": 123840
    },
    {
      "epoch": 0.61925,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011479899497487437,
      "loss": 2.1162,
      "step": 123850
    },
    {
      "epoch": 0.6193,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011478391959798995,
      "loss": 2.0602,
      "step": 123860
    },
    {
      "epoch": 0.61935,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011476884422110553,
      "loss": 2.1199,
      "step": 123870
    },
    {
      "epoch": 0.6194,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011475376884422111,
      "loss": 2.0762,
      "step": 123880
    },
    {
      "epoch": 0.61945,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011473869346733667,
      "loss": 2.0842,
      "step": 123890
    },
    {
      "epoch": 0.6195,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011472361809045227,
      "loss": 2.0776,
      "step": 123900
    },
    {
      "epoch": 0.61955,
      "grad_norm": 0.703125,
      "learning_rate": 0.0011470854271356786,
      "loss": 2.1372,
      "step": 123910
    },
    {
      "epoch": 0.6196,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011469346733668341,
      "loss": 2.0745,
      "step": 123920
    },
    {
      "epoch": 0.61965,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00114678391959799,
      "loss": 2.1256,
      "step": 123930
    },
    {
      "epoch": 0.6197,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0011466331658291458,
      "loss": 2.0774,
      "step": 123940
    },
    {
      "epoch": 0.61975,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011464824120603016,
      "loss": 2.1509,
      "step": 123950
    },
    {
      "epoch": 0.6198,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011463316582914574,
      "loss": 2.0615,
      "step": 123960
    },
    {
      "epoch": 0.61985,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001146180904522613,
      "loss": 2.1099,
      "step": 123970
    },
    {
      "epoch": 0.6199,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001146030150753769,
      "loss": 2.0502,
      "step": 123980
    },
    {
      "epoch": 0.61995,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0011458793969849248,
      "loss": 2.1228,
      "step": 123990
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011457286432160804,
      "loss": 2.0819,
      "step": 124000
    },
    {
      "epoch": 0.62,
      "eval_loss": 2.0870893001556396,
      "eval_runtime": 47.8886,
      "eval_samples_per_second": 52.204,
      "eval_steps_per_second": 0.104,
      "step": 124000
    },
    {
      "epoch": 0.62005,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011455778894472362,
      "loss": 2.1235,
      "step": 124010
    },
    {
      "epoch": 0.6201,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001145427135678392,
      "loss": 2.1053,
      "step": 124020
    },
    {
      "epoch": 0.62015,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011452763819095478,
      "loss": 2.0308,
      "step": 124030
    },
    {
      "epoch": 0.6202,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0011451256281407036,
      "loss": 2.0645,
      "step": 124040
    },
    {
      "epoch": 0.62025,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011449748743718592,
      "loss": 2.1459,
      "step": 124050
    },
    {
      "epoch": 0.6203,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001144824120603015,
      "loss": 2.1167,
      "step": 124060
    },
    {
      "epoch": 0.62035,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001144673366834171,
      "loss": 2.1102,
      "step": 124070
    },
    {
      "epoch": 0.6204,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011445226130653266,
      "loss": 2.0995,
      "step": 124080
    },
    {
      "epoch": 0.62045,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011443718592964824,
      "loss": 2.1152,
      "step": 124090
    },
    {
      "epoch": 0.6205,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011442211055276382,
      "loss": 2.0768,
      "step": 124100
    },
    {
      "epoch": 0.62055,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001144070351758794,
      "loss": 2.0755,
      "step": 124110
    },
    {
      "epoch": 0.6206,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011439195979899498,
      "loss": 2.1176,
      "step": 124120
    },
    {
      "epoch": 0.62065,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0011437688442211054,
      "loss": 2.0474,
      "step": 124130
    },
    {
      "epoch": 0.6207,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011436180904522612,
      "loss": 2.105,
      "step": 124140
    },
    {
      "epoch": 0.62075,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011434673366834173,
      "loss": 2.0779,
      "step": 124150
    },
    {
      "epoch": 0.6208,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011433165829145729,
      "loss": 2.083,
      "step": 124160
    },
    {
      "epoch": 0.62085,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011431658291457287,
      "loss": 2.0677,
      "step": 124170
    },
    {
      "epoch": 0.6209,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011430150753768845,
      "loss": 2.0784,
      "step": 124180
    },
    {
      "epoch": 0.62095,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0011428643216080403,
      "loss": 2.0416,
      "step": 124190
    },
    {
      "epoch": 0.621,
      "grad_norm": 0.625,
      "learning_rate": 0.001142713567839196,
      "loss": 2.1011,
      "step": 124200
    },
    {
      "epoch": 0.62105,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0011425628140703517,
      "loss": 2.0395,
      "step": 124210
    },
    {
      "epoch": 0.6211,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011424120603015075,
      "loss": 2.1442,
      "step": 124220
    },
    {
      "epoch": 0.62115,
      "grad_norm": 0.625,
      "learning_rate": 0.0011422613065326635,
      "loss": 2.0725,
      "step": 124230
    },
    {
      "epoch": 0.6212,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001142110552763819,
      "loss": 2.099,
      "step": 124240
    },
    {
      "epoch": 0.62125,
      "grad_norm": 0.609375,
      "learning_rate": 0.001141959798994975,
      "loss": 2.0444,
      "step": 124250
    },
    {
      "epoch": 0.6213,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011418090452261307,
      "loss": 2.1116,
      "step": 124260
    },
    {
      "epoch": 0.62135,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011416582914572865,
      "loss": 2.0484,
      "step": 124270
    },
    {
      "epoch": 0.6214,
      "grad_norm": 0.6875,
      "learning_rate": 0.0011415075376884423,
      "loss": 2.1034,
      "step": 124280
    },
    {
      "epoch": 0.62145,
      "grad_norm": 0.51953125,
      "learning_rate": 0.001141356783919598,
      "loss": 2.0499,
      "step": 124290
    },
    {
      "epoch": 0.6215,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011412060301507537,
      "loss": 2.1106,
      "step": 124300
    },
    {
      "epoch": 0.62155,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011410552763819097,
      "loss": 2.0748,
      "step": 124310
    },
    {
      "epoch": 0.6216,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011409045226130653,
      "loss": 2.0779,
      "step": 124320
    },
    {
      "epoch": 0.62165,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0011407537688442211,
      "loss": 2.0243,
      "step": 124330
    },
    {
      "epoch": 0.6217,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001140603015075377,
      "loss": 2.1276,
      "step": 124340
    },
    {
      "epoch": 0.62175,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011404522613065328,
      "loss": 2.0547,
      "step": 124350
    },
    {
      "epoch": 0.6218,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011403015075376886,
      "loss": 2.1177,
      "step": 124360
    },
    {
      "epoch": 0.62185,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011401507537688441,
      "loss": 2.0897,
      "step": 124370
    },
    {
      "epoch": 0.6219,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00114,
      "loss": 2.1262,
      "step": 124380
    },
    {
      "epoch": 0.62195,
      "grad_norm": 0.609375,
      "learning_rate": 0.001139849246231156,
      "loss": 2.0639,
      "step": 124390
    },
    {
      "epoch": 0.622,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011396984924623116,
      "loss": 2.0915,
      "step": 124400
    },
    {
      "epoch": 0.62205,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0011395477386934674,
      "loss": 2.0979,
      "step": 124410
    },
    {
      "epoch": 0.6221,
      "grad_norm": 0.59375,
      "learning_rate": 0.001139396984924623,
      "loss": 2.1246,
      "step": 124420
    },
    {
      "epoch": 0.62215,
      "grad_norm": 0.59375,
      "learning_rate": 0.001139246231155779,
      "loss": 2.0693,
      "step": 124430
    },
    {
      "epoch": 0.6222,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011390954773869348,
      "loss": 2.083,
      "step": 124440
    },
    {
      "epoch": 0.62225,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011389447236180904,
      "loss": 2.0798,
      "step": 124450
    },
    {
      "epoch": 0.6223,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011387939698492462,
      "loss": 2.0935,
      "step": 124460
    },
    {
      "epoch": 0.62235,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0011386432160804022,
      "loss": 2.0825,
      "step": 124470
    },
    {
      "epoch": 0.6224,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0011384924623115578,
      "loss": 2.1284,
      "step": 124480
    },
    {
      "epoch": 0.62245,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011383417085427136,
      "loss": 2.1511,
      "step": 124490
    },
    {
      "epoch": 0.6225,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011381909547738692,
      "loss": 2.1079,
      "step": 124500
    },
    {
      "epoch": 0.62255,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011380402010050252,
      "loss": 2.1169,
      "step": 124510
    },
    {
      "epoch": 0.6226,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001137889447236181,
      "loss": 2.0353,
      "step": 124520
    },
    {
      "epoch": 0.62265,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011377386934673366,
      "loss": 2.128,
      "step": 124530
    },
    {
      "epoch": 0.6227,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011375879396984924,
      "loss": 2.0837,
      "step": 124540
    },
    {
      "epoch": 0.62275,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011374371859296482,
      "loss": 2.0622,
      "step": 124550
    },
    {
      "epoch": 0.6228,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001137286432160804,
      "loss": 2.0728,
      "step": 124560
    },
    {
      "epoch": 0.62285,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0011371356783919599,
      "loss": 2.0836,
      "step": 124570
    },
    {
      "epoch": 0.6229,
      "grad_norm": 0.703125,
      "learning_rate": 0.0011369849246231154,
      "loss": 2.1066,
      "step": 124580
    },
    {
      "epoch": 0.62295,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0011368341708542715,
      "loss": 2.0907,
      "step": 124590
    },
    {
      "epoch": 0.623,
      "grad_norm": 0.703125,
      "learning_rate": 0.0011366834170854273,
      "loss": 2.113,
      "step": 124600
    },
    {
      "epoch": 0.62305,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011365326633165829,
      "loss": 2.073,
      "step": 124610
    },
    {
      "epoch": 0.6231,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0011363819095477387,
      "loss": 2.0585,
      "step": 124620
    },
    {
      "epoch": 0.62315,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011362311557788945,
      "loss": 2.1174,
      "step": 124630
    },
    {
      "epoch": 0.6232,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011360804020100503,
      "loss": 2.0685,
      "step": 124640
    },
    {
      "epoch": 0.62325,
      "grad_norm": 0.671875,
      "learning_rate": 0.001135929648241206,
      "loss": 2.0999,
      "step": 124650
    },
    {
      "epoch": 0.6233,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011357788944723617,
      "loss": 2.0391,
      "step": 124660
    },
    {
      "epoch": 0.62335,
      "grad_norm": 0.546875,
      "learning_rate": 0.0011356281407035177,
      "loss": 2.1487,
      "step": 124670
    },
    {
      "epoch": 0.6234,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011354773869346735,
      "loss": 2.0682,
      "step": 124680
    },
    {
      "epoch": 0.62345,
      "grad_norm": 0.546875,
      "learning_rate": 0.001135326633165829,
      "loss": 2.0973,
      "step": 124690
    },
    {
      "epoch": 0.6235,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001135175879396985,
      "loss": 2.0287,
      "step": 124700
    },
    {
      "epoch": 0.62355,
      "grad_norm": 0.625,
      "learning_rate": 0.0011350251256281407,
      "loss": 2.1235,
      "step": 124710
    },
    {
      "epoch": 0.6236,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0011348743718592965,
      "loss": 2.0738,
      "step": 124720
    },
    {
      "epoch": 0.62365,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0011347236180904523,
      "loss": 2.1243,
      "step": 124730
    },
    {
      "epoch": 0.6237,
      "grad_norm": 0.625,
      "learning_rate": 0.001134572864321608,
      "loss": 2.0692,
      "step": 124740
    },
    {
      "epoch": 0.62375,
      "grad_norm": 0.640625,
      "learning_rate": 0.001134422110552764,
      "loss": 2.1211,
      "step": 124750
    },
    {
      "epoch": 0.6238,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011342713567839197,
      "loss": 2.1002,
      "step": 124760
    },
    {
      "epoch": 0.62385,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011341206030150753,
      "loss": 2.0549,
      "step": 124770
    },
    {
      "epoch": 0.6239,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011339698492462311,
      "loss": 2.0985,
      "step": 124780
    },
    {
      "epoch": 0.62395,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001133819095477387,
      "loss": 2.1211,
      "step": 124790
    },
    {
      "epoch": 0.624,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011336683417085428,
      "loss": 2.0814,
      "step": 124800
    },
    {
      "epoch": 0.62405,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011335175879396986,
      "loss": 2.0848,
      "step": 124810
    },
    {
      "epoch": 0.6241,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011333668341708542,
      "loss": 2.0697,
      "step": 124820
    },
    {
      "epoch": 0.62415,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011332160804020102,
      "loss": 2.1061,
      "step": 124830
    },
    {
      "epoch": 0.6242,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001133065326633166,
      "loss": 2.0474,
      "step": 124840
    },
    {
      "epoch": 0.62425,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011329145728643216,
      "loss": 2.1056,
      "step": 124850
    },
    {
      "epoch": 0.6243,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011327638190954774,
      "loss": 2.0606,
      "step": 124860
    },
    {
      "epoch": 0.62435,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011326130653266332,
      "loss": 2.0981,
      "step": 124870
    },
    {
      "epoch": 0.6244,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001132462311557789,
      "loss": 2.0485,
      "step": 124880
    },
    {
      "epoch": 0.62445,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011323115577889448,
      "loss": 2.1,
      "step": 124890
    },
    {
      "epoch": 0.6245,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011321608040201004,
      "loss": 2.08,
      "step": 124900
    },
    {
      "epoch": 0.62455,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011320100502512564,
      "loss": 2.1397,
      "step": 124910
    },
    {
      "epoch": 0.6246,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011318592964824122,
      "loss": 2.0249,
      "step": 124920
    },
    {
      "epoch": 0.62465,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011317085427135678,
      "loss": 2.1121,
      "step": 124930
    },
    {
      "epoch": 0.6247,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011315577889447236,
      "loss": 2.08,
      "step": 124940
    },
    {
      "epoch": 0.62475,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011314070351758794,
      "loss": 2.0916,
      "step": 124950
    },
    {
      "epoch": 0.6248,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0011312562814070352,
      "loss": 2.0809,
      "step": 124960
    },
    {
      "epoch": 0.62485,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001131105527638191,
      "loss": 2.1116,
      "step": 124970
    },
    {
      "epoch": 0.6249,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011309547738693466,
      "loss": 2.05,
      "step": 124980
    },
    {
      "epoch": 0.62495,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011308040201005024,
      "loss": 2.1089,
      "step": 124990
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011306532663316585,
      "loss": 2.0638,
      "step": 125000
    },
    {
      "epoch": 0.62505,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001130502512562814,
      "loss": 2.069,
      "step": 125010
    },
    {
      "epoch": 0.6251,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011303517587939699,
      "loss": 2.0617,
      "step": 125020
    },
    {
      "epoch": 0.62515,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011302010050251257,
      "loss": 2.1233,
      "step": 125030
    },
    {
      "epoch": 0.6252,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011300502512562815,
      "loss": 2.1061,
      "step": 125040
    },
    {
      "epoch": 0.62525,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011298994974874373,
      "loss": 2.1094,
      "step": 125050
    },
    {
      "epoch": 0.6253,
      "grad_norm": 0.5625,
      "learning_rate": 0.0011297487437185929,
      "loss": 2.051,
      "step": 125060
    },
    {
      "epoch": 0.62535,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011295979899497487,
      "loss": 2.0879,
      "step": 125070
    },
    {
      "epoch": 0.6254,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011294472361809047,
      "loss": 2.0955,
      "step": 125080
    },
    {
      "epoch": 0.62545,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011292964824120603,
      "loss": 2.1193,
      "step": 125090
    },
    {
      "epoch": 0.6255,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001129145728643216,
      "loss": 2.0991,
      "step": 125100
    },
    {
      "epoch": 0.62555,
      "grad_norm": 0.59375,
      "learning_rate": 0.001128994974874372,
      "loss": 2.1593,
      "step": 125110
    },
    {
      "epoch": 0.6256,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011288442211055277,
      "loss": 2.0234,
      "step": 125120
    },
    {
      "epoch": 0.62565,
      "grad_norm": 0.625,
      "learning_rate": 0.0011286934673366835,
      "loss": 2.1173,
      "step": 125130
    },
    {
      "epoch": 0.6257,
      "grad_norm": 0.640625,
      "learning_rate": 0.001128542713567839,
      "loss": 2.1016,
      "step": 125140
    },
    {
      "epoch": 0.62575,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001128391959798995,
      "loss": 2.16,
      "step": 125150
    },
    {
      "epoch": 0.6258,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001128241206030151,
      "loss": 2.0821,
      "step": 125160
    },
    {
      "epoch": 0.62585,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011280904522613065,
      "loss": 2.131,
      "step": 125170
    },
    {
      "epoch": 0.6259,
      "grad_norm": 0.6875,
      "learning_rate": 0.0011279396984924623,
      "loss": 2.0667,
      "step": 125180
    },
    {
      "epoch": 0.62595,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011277889447236181,
      "loss": 2.0884,
      "step": 125190
    },
    {
      "epoch": 0.626,
      "grad_norm": 0.6171875,
      "learning_rate": 0.001127638190954774,
      "loss": 2.0413,
      "step": 125200
    },
    {
      "epoch": 0.62605,
      "grad_norm": 0.625,
      "learning_rate": 0.0011274874371859298,
      "loss": 2.0993,
      "step": 125210
    },
    {
      "epoch": 0.6261,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0011273366834170853,
      "loss": 2.0647,
      "step": 125220
    },
    {
      "epoch": 0.62615,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0011271859296482411,
      "loss": 2.1691,
      "step": 125230
    },
    {
      "epoch": 0.6262,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011270351758793972,
      "loss": 2.079,
      "step": 125240
    },
    {
      "epoch": 0.62625,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011268844221105528,
      "loss": 2.096,
      "step": 125250
    },
    {
      "epoch": 0.6263,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011267336683417086,
      "loss": 2.0671,
      "step": 125260
    },
    {
      "epoch": 0.62635,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011265829145728644,
      "loss": 2.1484,
      "step": 125270
    },
    {
      "epoch": 0.6264,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011264321608040202,
      "loss": 2.0831,
      "step": 125280
    },
    {
      "epoch": 0.62645,
      "grad_norm": 0.609375,
      "learning_rate": 0.001126281407035176,
      "loss": 2.0972,
      "step": 125290
    },
    {
      "epoch": 0.6265,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0011261306532663316,
      "loss": 2.0968,
      "step": 125300
    },
    {
      "epoch": 0.62655,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011259798994974874,
      "loss": 2.0742,
      "step": 125310
    },
    {
      "epoch": 0.6266,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011258291457286434,
      "loss": 2.0184,
      "step": 125320
    },
    {
      "epoch": 0.62665,
      "grad_norm": 0.609375,
      "learning_rate": 0.001125678391959799,
      "loss": 2.1113,
      "step": 125330
    },
    {
      "epoch": 0.6267,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0011255276381909548,
      "loss": 2.0848,
      "step": 125340
    },
    {
      "epoch": 0.62675,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011253768844221104,
      "loss": 2.1107,
      "step": 125350
    },
    {
      "epoch": 0.6268,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0011252261306532664,
      "loss": 2.0879,
      "step": 125360
    },
    {
      "epoch": 0.62685,
      "grad_norm": 0.625,
      "learning_rate": 0.0011250753768844222,
      "loss": 2.1289,
      "step": 125370
    },
    {
      "epoch": 0.6269,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011249246231155778,
      "loss": 2.0649,
      "step": 125380
    },
    {
      "epoch": 0.62695,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011247738693467336,
      "loss": 2.0914,
      "step": 125390
    },
    {
      "epoch": 0.627,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011246231155778896,
      "loss": 2.0898,
      "step": 125400
    },
    {
      "epoch": 0.62705,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011244723618090452,
      "loss": 2.1263,
      "step": 125410
    },
    {
      "epoch": 0.6271,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001124321608040201,
      "loss": 2.0812,
      "step": 125420
    },
    {
      "epoch": 0.62715,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011241708542713566,
      "loss": 2.1107,
      "step": 125430
    },
    {
      "epoch": 0.6272,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011240201005025127,
      "loss": 2.0963,
      "step": 125440
    },
    {
      "epoch": 0.62725,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011238693467336685,
      "loss": 2.0985,
      "step": 125450
    },
    {
      "epoch": 0.6273,
      "grad_norm": 0.59375,
      "learning_rate": 0.001123718592964824,
      "loss": 2.058,
      "step": 125460
    },
    {
      "epoch": 0.62735,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011235678391959799,
      "loss": 2.1443,
      "step": 125470
    },
    {
      "epoch": 0.6274,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011234170854271357,
      "loss": 2.0608,
      "step": 125480
    },
    {
      "epoch": 0.62745,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011232663316582915,
      "loss": 2.1503,
      "step": 125490
    },
    {
      "epoch": 0.6275,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011231155778894473,
      "loss": 2.0858,
      "step": 125500
    },
    {
      "epoch": 0.62755,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0011229648241206029,
      "loss": 2.0952,
      "step": 125510
    },
    {
      "epoch": 0.6276,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001122814070351759,
      "loss": 2.0812,
      "step": 125520
    },
    {
      "epoch": 0.62765,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011226633165829147,
      "loss": 2.1106,
      "step": 125530
    },
    {
      "epoch": 0.6277,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011225125628140703,
      "loss": 2.0798,
      "step": 125540
    },
    {
      "epoch": 0.62775,
      "grad_norm": 0.609375,
      "learning_rate": 0.001122361809045226,
      "loss": 2.1902,
      "step": 125550
    },
    {
      "epoch": 0.6278,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001122211055276382,
      "loss": 2.1121,
      "step": 125560
    },
    {
      "epoch": 0.62785,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011220603015075377,
      "loss": 2.1291,
      "step": 125570
    },
    {
      "epoch": 0.6279,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011219095477386935,
      "loss": 2.0733,
      "step": 125580
    },
    {
      "epoch": 0.62795,
      "grad_norm": 0.625,
      "learning_rate": 0.0011217587939698491,
      "loss": 2.062,
      "step": 125590
    },
    {
      "epoch": 0.628,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011216080402010051,
      "loss": 2.0722,
      "step": 125600
    },
    {
      "epoch": 0.62805,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001121457286432161,
      "loss": 2.0733,
      "step": 125610
    },
    {
      "epoch": 0.6281,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0011213065326633165,
      "loss": 2.0509,
      "step": 125620
    },
    {
      "epoch": 0.62815,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011211557788944723,
      "loss": 2.1229,
      "step": 125630
    },
    {
      "epoch": 0.6282,
      "grad_norm": 0.671875,
      "learning_rate": 0.0011210050251256281,
      "loss": 2.0661,
      "step": 125640
    },
    {
      "epoch": 0.62825,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001120854271356784,
      "loss": 2.0647,
      "step": 125650
    },
    {
      "epoch": 0.6283,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011207035175879398,
      "loss": 2.0611,
      "step": 125660
    },
    {
      "epoch": 0.62835,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011205527638190953,
      "loss": 2.1331,
      "step": 125670
    },
    {
      "epoch": 0.6284,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011204020100502514,
      "loss": 2.0178,
      "step": 125680
    },
    {
      "epoch": 0.62845,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011202512562814072,
      "loss": 2.1044,
      "step": 125690
    },
    {
      "epoch": 0.6285,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011201005025125628,
      "loss": 2.0628,
      "step": 125700
    },
    {
      "epoch": 0.62855,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011199497487437186,
      "loss": 2.1304,
      "step": 125710
    },
    {
      "epoch": 0.6286,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011197989949748744,
      "loss": 2.0628,
      "step": 125720
    },
    {
      "epoch": 0.62865,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011196482412060302,
      "loss": 2.0478,
      "step": 125730
    },
    {
      "epoch": 0.6287,
      "grad_norm": 0.609375,
      "learning_rate": 0.001119497487437186,
      "loss": 2.0343,
      "step": 125740
    },
    {
      "epoch": 0.62875,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011193467336683416,
      "loss": 2.0997,
      "step": 125750
    },
    {
      "epoch": 0.6288,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011191959798994976,
      "loss": 2.053,
      "step": 125760
    },
    {
      "epoch": 0.62885,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011190452261306534,
      "loss": 2.1189,
      "step": 125770
    },
    {
      "epoch": 0.6289,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001118894472361809,
      "loss": 2.0675,
      "step": 125780
    },
    {
      "epoch": 0.62895,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011187437185929648,
      "loss": 2.0931,
      "step": 125790
    },
    {
      "epoch": 0.629,
      "grad_norm": 0.671875,
      "learning_rate": 0.0011185929648241206,
      "loss": 2.0686,
      "step": 125800
    },
    {
      "epoch": 0.62905,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0011184422110552764,
      "loss": 2.0931,
      "step": 125810
    },
    {
      "epoch": 0.6291,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011182914572864322,
      "loss": 2.1202,
      "step": 125820
    },
    {
      "epoch": 0.62915,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011181407035175878,
      "loss": 2.1213,
      "step": 125830
    },
    {
      "epoch": 0.6292,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011179899497487436,
      "loss": 2.1149,
      "step": 125840
    },
    {
      "epoch": 0.62925,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0011178391959798997,
      "loss": 2.0944,
      "step": 125850
    },
    {
      "epoch": 0.6293,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011176884422110552,
      "loss": 2.1306,
      "step": 125860
    },
    {
      "epoch": 0.62935,
      "grad_norm": 0.65625,
      "learning_rate": 0.001117537688442211,
      "loss": 2.0905,
      "step": 125870
    },
    {
      "epoch": 0.6294,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011173869346733669,
      "loss": 2.0749,
      "step": 125880
    },
    {
      "epoch": 0.62945,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011172361809045227,
      "loss": 2.0913,
      "step": 125890
    },
    {
      "epoch": 0.6295,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011170854271356785,
      "loss": 2.0763,
      "step": 125900
    },
    {
      "epoch": 0.62955,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001116934673366834,
      "loss": 2.0689,
      "step": 125910
    },
    {
      "epoch": 0.6296,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011167839195979899,
      "loss": 2.1237,
      "step": 125920
    },
    {
      "epoch": 0.62965,
      "grad_norm": 0.59375,
      "learning_rate": 0.001116633165829146,
      "loss": 2.0738,
      "step": 125930
    },
    {
      "epoch": 0.6297,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011164824120603015,
      "loss": 2.0608,
      "step": 125940
    },
    {
      "epoch": 0.62975,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011163316582914573,
      "loss": 2.1017,
      "step": 125950
    },
    {
      "epoch": 0.6298,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001116180904522613,
      "loss": 2.0551,
      "step": 125960
    },
    {
      "epoch": 0.62985,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001116030150753769,
      "loss": 2.1077,
      "step": 125970
    },
    {
      "epoch": 0.6299,
      "grad_norm": 0.625,
      "learning_rate": 0.0011158793969849247,
      "loss": 2.0994,
      "step": 125980
    },
    {
      "epoch": 0.62995,
      "grad_norm": 0.671875,
      "learning_rate": 0.0011157286432160803,
      "loss": 2.0744,
      "step": 125990
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001115577889447236,
      "loss": 2.0984,
      "step": 126000
    },
    {
      "epoch": 0.63,
      "eval_loss": 2.0816409587860107,
      "eval_runtime": 47.0542,
      "eval_samples_per_second": 53.13,
      "eval_steps_per_second": 0.106,
      "step": 126000
    },
    {
      "epoch": 0.63005,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0011154271356783921,
      "loss": 2.0757,
      "step": 126010
    },
    {
      "epoch": 0.6301,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011152763819095477,
      "loss": 2.0726,
      "step": 126020
    },
    {
      "epoch": 0.63015,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011151256281407035,
      "loss": 2.0668,
      "step": 126030
    },
    {
      "epoch": 0.6302,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0011149748743718593,
      "loss": 2.1334,
      "step": 126040
    },
    {
      "epoch": 0.63025,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0011148241206030151,
      "loss": 2.031,
      "step": 126050
    },
    {
      "epoch": 0.6303,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001114673366834171,
      "loss": 2.1104,
      "step": 126060
    },
    {
      "epoch": 0.63035,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011145226130653265,
      "loss": 2.0664,
      "step": 126070
    },
    {
      "epoch": 0.6304,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011143718592964823,
      "loss": 2.1344,
      "step": 126080
    },
    {
      "epoch": 0.63045,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011142211055276384,
      "loss": 2.0811,
      "step": 126090
    },
    {
      "epoch": 0.6305,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001114070351758794,
      "loss": 2.1047,
      "step": 126100
    },
    {
      "epoch": 0.63055,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0011139195979899498,
      "loss": 2.0451,
      "step": 126110
    },
    {
      "epoch": 0.6306,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0011137688442211056,
      "loss": 2.1323,
      "step": 126120
    },
    {
      "epoch": 0.63065,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011136180904522614,
      "loss": 2.0231,
      "step": 126130
    },
    {
      "epoch": 0.6307,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011134673366834172,
      "loss": 2.0803,
      "step": 126140
    },
    {
      "epoch": 0.63075,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011133165829145728,
      "loss": 2.0263,
      "step": 126150
    },
    {
      "epoch": 0.6308,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011131658291457286,
      "loss": 2.1561,
      "step": 126160
    },
    {
      "epoch": 0.63085,
      "grad_norm": 0.625,
      "learning_rate": 0.0011130150753768846,
      "loss": 2.0636,
      "step": 126170
    },
    {
      "epoch": 0.6309,
      "grad_norm": 0.75,
      "learning_rate": 0.0011128643216080402,
      "loss": 2.0879,
      "step": 126180
    },
    {
      "epoch": 0.63095,
      "grad_norm": 0.640625,
      "learning_rate": 0.001112713567839196,
      "loss": 2.0524,
      "step": 126190
    },
    {
      "epoch": 0.631,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0011125628140703518,
      "loss": 2.1016,
      "step": 126200
    },
    {
      "epoch": 0.63105,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011124120603015076,
      "loss": 2.1126,
      "step": 126210
    },
    {
      "epoch": 0.6311,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0011122613065326634,
      "loss": 2.1287,
      "step": 126220
    },
    {
      "epoch": 0.63115,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001112110552763819,
      "loss": 2.0992,
      "step": 126230
    },
    {
      "epoch": 0.6312,
      "grad_norm": 0.5625,
      "learning_rate": 0.0011119597989949748,
      "loss": 2.1298,
      "step": 126240
    },
    {
      "epoch": 0.63125,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011118090452261308,
      "loss": 2.1124,
      "step": 126250
    },
    {
      "epoch": 0.6313,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0011116582914572864,
      "loss": 2.0897,
      "step": 126260
    },
    {
      "epoch": 0.63135,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0011115075376884422,
      "loss": 2.0381,
      "step": 126270
    },
    {
      "epoch": 0.6314,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011113567839195978,
      "loss": 2.1218,
      "step": 126280
    },
    {
      "epoch": 0.63145,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011112060301507539,
      "loss": 2.1158,
      "step": 126290
    },
    {
      "epoch": 0.6315,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011110552763819097,
      "loss": 2.0968,
      "step": 126300
    },
    {
      "epoch": 0.63155,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011109045226130653,
      "loss": 2.0784,
      "step": 126310
    },
    {
      "epoch": 0.6316,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001110753768844221,
      "loss": 2.0924,
      "step": 126320
    },
    {
      "epoch": 0.63165,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001110603015075377,
      "loss": 2.1093,
      "step": 126330
    },
    {
      "epoch": 0.6317,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0011104522613065327,
      "loss": 2.0449,
      "step": 126340
    },
    {
      "epoch": 0.63175,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0011103015075376885,
      "loss": 2.0979,
      "step": 126350
    },
    {
      "epoch": 0.6318,
      "grad_norm": 0.640625,
      "learning_rate": 0.001110150753768844,
      "loss": 2.1244,
      "step": 126360
    },
    {
      "epoch": 0.63185,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00111,
      "loss": 2.1061,
      "step": 126370
    },
    {
      "epoch": 0.6319,
      "grad_norm": 0.7109375,
      "learning_rate": 0.001109849246231156,
      "loss": 2.066,
      "step": 126380
    },
    {
      "epoch": 0.63195,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0011096984924623115,
      "loss": 2.0644,
      "step": 126390
    },
    {
      "epoch": 0.632,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0011095477386934673,
      "loss": 2.0295,
      "step": 126400
    },
    {
      "epoch": 0.63205,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001109396984924623,
      "loss": 2.1549,
      "step": 126410
    },
    {
      "epoch": 0.6321,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001109246231155779,
      "loss": 2.0583,
      "step": 126420
    },
    {
      "epoch": 0.63215,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0011090954773869347,
      "loss": 2.0978,
      "step": 126430
    },
    {
      "epoch": 0.6322,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011089447236180903,
      "loss": 2.0804,
      "step": 126440
    },
    {
      "epoch": 0.63225,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011087939698492463,
      "loss": 2.1657,
      "step": 126450
    },
    {
      "epoch": 0.6323,
      "grad_norm": 0.59375,
      "learning_rate": 0.0011086432160804021,
      "loss": 2.0816,
      "step": 126460
    },
    {
      "epoch": 0.63235,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011084924623115577,
      "loss": 2.1683,
      "step": 126470
    },
    {
      "epoch": 0.6324,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011083417085427135,
      "loss": 2.0413,
      "step": 126480
    },
    {
      "epoch": 0.63245,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011081909547738693,
      "loss": 2.1359,
      "step": 126490
    },
    {
      "epoch": 0.6325,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011080402010050251,
      "loss": 2.0932,
      "step": 126500
    },
    {
      "epoch": 0.63255,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001107889447236181,
      "loss": 2.1431,
      "step": 126510
    },
    {
      "epoch": 0.6326,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011077386934673365,
      "loss": 2.0489,
      "step": 126520
    },
    {
      "epoch": 0.63265,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011075879396984926,
      "loss": 2.1556,
      "step": 126530
    },
    {
      "epoch": 0.6327,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0011074371859296484,
      "loss": 2.1173,
      "step": 126540
    },
    {
      "epoch": 0.63275,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001107286432160804,
      "loss": 2.1206,
      "step": 126550
    },
    {
      "epoch": 0.6328,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011071356783919598,
      "loss": 2.0775,
      "step": 126560
    },
    {
      "epoch": 0.63285,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011069849246231156,
      "loss": 2.1038,
      "step": 126570
    },
    {
      "epoch": 0.6329,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0011068341708542714,
      "loss": 2.0833,
      "step": 126580
    },
    {
      "epoch": 0.63295,
      "grad_norm": 0.578125,
      "learning_rate": 0.0011066834170854272,
      "loss": 2.154,
      "step": 126590
    },
    {
      "epoch": 0.633,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011065326633165828,
      "loss": 2.1207,
      "step": 126600
    },
    {
      "epoch": 0.63305,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0011063819095477388,
      "loss": 2.075,
      "step": 126610
    },
    {
      "epoch": 0.6331,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011062311557788946,
      "loss": 2.1017,
      "step": 126620
    },
    {
      "epoch": 0.63315,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0011060804020100502,
      "loss": 2.0714,
      "step": 126630
    },
    {
      "epoch": 0.6332,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001105929648241206,
      "loss": 2.0809,
      "step": 126640
    },
    {
      "epoch": 0.63325,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011057788944723618,
      "loss": 2.0716,
      "step": 126650
    },
    {
      "epoch": 0.6333,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0011056281407035176,
      "loss": 2.0843,
      "step": 126660
    },
    {
      "epoch": 0.63335,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0011054773869346734,
      "loss": 2.1165,
      "step": 126670
    },
    {
      "epoch": 0.6334,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001105326633165829,
      "loss": 2.0855,
      "step": 126680
    },
    {
      "epoch": 0.63345,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001105175879396985,
      "loss": 2.0867,
      "step": 126690
    },
    {
      "epoch": 0.6335,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0011050251256281409,
      "loss": 2.1027,
      "step": 126700
    },
    {
      "epoch": 0.63355,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011048743718592964,
      "loss": 2.1126,
      "step": 126710
    },
    {
      "epoch": 0.6336,
      "grad_norm": 0.625,
      "learning_rate": 0.0011047236180904522,
      "loss": 2.0937,
      "step": 126720
    },
    {
      "epoch": 0.63365,
      "grad_norm": 0.6796875,
      "learning_rate": 0.001104572864321608,
      "loss": 2.1048,
      "step": 126730
    },
    {
      "epoch": 0.6337,
      "grad_norm": 0.671875,
      "learning_rate": 0.0011044221105527639,
      "loss": 2.1404,
      "step": 126740
    },
    {
      "epoch": 0.63375,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011042713567839197,
      "loss": 2.0301,
      "step": 126750
    },
    {
      "epoch": 0.6338,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0011041206030150753,
      "loss": 2.1262,
      "step": 126760
    },
    {
      "epoch": 0.63385,
      "grad_norm": 0.609375,
      "learning_rate": 0.001103969849246231,
      "loss": 2.0512,
      "step": 126770
    },
    {
      "epoch": 0.6339,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001103819095477387,
      "loss": 2.0993,
      "step": 126780
    },
    {
      "epoch": 0.63395,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011036683417085427,
      "loss": 2.1125,
      "step": 126790
    },
    {
      "epoch": 0.634,
      "grad_norm": 0.703125,
      "learning_rate": 0.0011035175879396985,
      "loss": 2.0847,
      "step": 126800
    },
    {
      "epoch": 0.63405,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011033668341708543,
      "loss": 2.0747,
      "step": 126810
    },
    {
      "epoch": 0.6341,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00110321608040201,
      "loss": 2.0347,
      "step": 126820
    },
    {
      "epoch": 0.63415,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001103065326633166,
      "loss": 2.0917,
      "step": 126830
    },
    {
      "epoch": 0.6342,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0011029145728643215,
      "loss": 2.1037,
      "step": 126840
    },
    {
      "epoch": 0.63425,
      "grad_norm": 0.65625,
      "learning_rate": 0.0011027638190954773,
      "loss": 2.0535,
      "step": 126850
    },
    {
      "epoch": 0.6343,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011026130653266333,
      "loss": 2.1135,
      "step": 126860
    },
    {
      "epoch": 0.63435,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001102462311557789,
      "loss": 2.0308,
      "step": 126870
    },
    {
      "epoch": 0.6344,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011023115577889447,
      "loss": 2.1314,
      "step": 126880
    },
    {
      "epoch": 0.63445,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0011021608040201005,
      "loss": 2.0622,
      "step": 126890
    },
    {
      "epoch": 0.6345,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0011020100502512563,
      "loss": 2.0628,
      "step": 126900
    },
    {
      "epoch": 0.63455,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0011018592964824121,
      "loss": 2.0942,
      "step": 126910
    },
    {
      "epoch": 0.6346,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0011017085427135677,
      "loss": 2.1146,
      "step": 126920
    },
    {
      "epoch": 0.63465,
      "grad_norm": 0.609375,
      "learning_rate": 0.0011015577889447235,
      "loss": 2.1189,
      "step": 126930
    },
    {
      "epoch": 0.6347,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0011014070351758796,
      "loss": 2.0798,
      "step": 126940
    },
    {
      "epoch": 0.63475,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0011012562814070352,
      "loss": 2.1434,
      "step": 126950
    },
    {
      "epoch": 0.6348,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001101105527638191,
      "loss": 2.0623,
      "step": 126960
    },
    {
      "epoch": 0.63485,
      "grad_norm": 0.625,
      "learning_rate": 0.0011009547738693468,
      "loss": 2.1364,
      "step": 126970
    },
    {
      "epoch": 0.6349,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0011008040201005026,
      "loss": 2.063,
      "step": 126980
    },
    {
      "epoch": 0.63495,
      "grad_norm": 0.640625,
      "learning_rate": 0.0011006532663316584,
      "loss": 2.1401,
      "step": 126990
    },
    {
      "epoch": 0.635,
      "grad_norm": 0.578125,
      "learning_rate": 0.001100502512562814,
      "loss": 2.1055,
      "step": 127000
    },
    {
      "epoch": 0.63505,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0011003517587939698,
      "loss": 2.1513,
      "step": 127010
    },
    {
      "epoch": 0.6351,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0011002010050251258,
      "loss": 2.0404,
      "step": 127020
    },
    {
      "epoch": 0.63515,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0011000502512562814,
      "loss": 2.0809,
      "step": 127030
    },
    {
      "epoch": 0.6352,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010998994974874372,
      "loss": 2.1047,
      "step": 127040
    },
    {
      "epoch": 0.63525,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001099748743718593,
      "loss": 2.1036,
      "step": 127050
    },
    {
      "epoch": 0.6353,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010995979899497488,
      "loss": 2.0901,
      "step": 127060
    },
    {
      "epoch": 0.63535,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010994472361809046,
      "loss": 2.096,
      "step": 127070
    },
    {
      "epoch": 0.6354,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010992964824120602,
      "loss": 2.0359,
      "step": 127080
    },
    {
      "epoch": 0.63545,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001099145728643216,
      "loss": 2.1375,
      "step": 127090
    },
    {
      "epoch": 0.6355,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001098994974874372,
      "loss": 1.9867,
      "step": 127100
    },
    {
      "epoch": 0.63555,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010988442211055276,
      "loss": 2.1316,
      "step": 127110
    },
    {
      "epoch": 0.6356,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010986934673366834,
      "loss": 2.0276,
      "step": 127120
    },
    {
      "epoch": 0.63565,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010985427135678392,
      "loss": 2.0983,
      "step": 127130
    },
    {
      "epoch": 0.6357,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001098391959798995,
      "loss": 2.0729,
      "step": 127140
    },
    {
      "epoch": 0.63575,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010982412060301509,
      "loss": 2.0618,
      "step": 127150
    },
    {
      "epoch": 0.6358,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0010980904522613064,
      "loss": 2.1045,
      "step": 127160
    },
    {
      "epoch": 0.63585,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010979396984924623,
      "loss": 2.0965,
      "step": 127170
    },
    {
      "epoch": 0.6359,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0010977889447236183,
      "loss": 2.0574,
      "step": 127180
    },
    {
      "epoch": 0.63595,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010976381909547739,
      "loss": 2.0947,
      "step": 127190
    },
    {
      "epoch": 0.636,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0010974874371859297,
      "loss": 2.0881,
      "step": 127200
    },
    {
      "epoch": 0.63605,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010973366834170853,
      "loss": 2.0975,
      "step": 127210
    },
    {
      "epoch": 0.6361,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010971859296482413,
      "loss": 2.0854,
      "step": 127220
    },
    {
      "epoch": 0.63615,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001097035175879397,
      "loss": 2.0621,
      "step": 127230
    },
    {
      "epoch": 0.6362,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0010968844221105527,
      "loss": 2.1072,
      "step": 127240
    },
    {
      "epoch": 0.63625,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010967336683417085,
      "loss": 2.079,
      "step": 127250
    },
    {
      "epoch": 0.6363,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010965829145728645,
      "loss": 2.096,
      "step": 127260
    },
    {
      "epoch": 0.63635,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00109643216080402,
      "loss": 2.1011,
      "step": 127270
    },
    {
      "epoch": 0.6364,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001096281407035176,
      "loss": 2.1502,
      "step": 127280
    },
    {
      "epoch": 0.63645,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010961306532663315,
      "loss": 1.9932,
      "step": 127290
    },
    {
      "epoch": 0.6365,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0010959798994974875,
      "loss": 2.1269,
      "step": 127300
    },
    {
      "epoch": 0.63655,
      "grad_norm": 0.625,
      "learning_rate": 0.0010958291457286433,
      "loss": 2.1006,
      "step": 127310
    },
    {
      "epoch": 0.6366,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001095678391959799,
      "loss": 2.1183,
      "step": 127320
    },
    {
      "epoch": 0.63665,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010955276381909547,
      "loss": 2.06,
      "step": 127330
    },
    {
      "epoch": 0.6367,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010953768844221105,
      "loss": 2.1149,
      "step": 127340
    },
    {
      "epoch": 0.63675,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010952261306532663,
      "loss": 2.1453,
      "step": 127350
    },
    {
      "epoch": 0.6368,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010950753768844221,
      "loss": 2.0646,
      "step": 127360
    },
    {
      "epoch": 0.63685,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0010949246231155777,
      "loss": 2.1619,
      "step": 127370
    },
    {
      "epoch": 0.6369,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010947738693467338,
      "loss": 2.0886,
      "step": 127380
    },
    {
      "epoch": 0.63695,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010946231155778896,
      "loss": 2.1025,
      "step": 127390
    },
    {
      "epoch": 0.637,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010944723618090452,
      "loss": 2.0748,
      "step": 127400
    },
    {
      "epoch": 0.63705,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001094321608040201,
      "loss": 2.1041,
      "step": 127410
    },
    {
      "epoch": 0.6371,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010941708542713568,
      "loss": 2.0557,
      "step": 127420
    },
    {
      "epoch": 0.63715,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010940201005025126,
      "loss": 2.1762,
      "step": 127430
    },
    {
      "epoch": 0.6372,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010938693467336684,
      "loss": 2.073,
      "step": 127440
    },
    {
      "epoch": 0.63725,
      "grad_norm": 0.609375,
      "learning_rate": 0.001093718592964824,
      "loss": 2.0742,
      "step": 127450
    },
    {
      "epoch": 0.6373,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00109356783919598,
      "loss": 2.0635,
      "step": 127460
    },
    {
      "epoch": 0.63735,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0010934170854271358,
      "loss": 2.1268,
      "step": 127470
    },
    {
      "epoch": 0.6374,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010932663316582914,
      "loss": 2.049,
      "step": 127480
    },
    {
      "epoch": 0.63745,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010931155778894472,
      "loss": 2.1264,
      "step": 127490
    },
    {
      "epoch": 0.6375,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001092964824120603,
      "loss": 2.0184,
      "step": 127500
    },
    {
      "epoch": 0.63755,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0010928140703517588,
      "loss": 2.0619,
      "step": 127510
    },
    {
      "epoch": 0.6376,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010926633165829146,
      "loss": 2.0685,
      "step": 127520
    },
    {
      "epoch": 0.63765,
      "grad_norm": 0.5625,
      "learning_rate": 0.0010925125628140702,
      "loss": 2.0723,
      "step": 127530
    },
    {
      "epoch": 0.6377,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0010923618090452262,
      "loss": 2.0862,
      "step": 127540
    },
    {
      "epoch": 0.63775,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001092211055276382,
      "loss": 2.123,
      "step": 127550
    },
    {
      "epoch": 0.6378,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010920603015075376,
      "loss": 2.1202,
      "step": 127560
    },
    {
      "epoch": 0.63785,
      "grad_norm": 0.703125,
      "learning_rate": 0.0010919095477386934,
      "loss": 2.0776,
      "step": 127570
    },
    {
      "epoch": 0.6379,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010917587939698492,
      "loss": 2.1006,
      "step": 127580
    },
    {
      "epoch": 0.63795,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001091608040201005,
      "loss": 2.0405,
      "step": 127590
    },
    {
      "epoch": 0.638,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010914572864321609,
      "loss": 2.0426,
      "step": 127600
    },
    {
      "epoch": 0.63805,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010913065326633165,
      "loss": 2.0806,
      "step": 127610
    },
    {
      "epoch": 0.6381,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010911557788944725,
      "loss": 2.1069,
      "step": 127620
    },
    {
      "epoch": 0.63815,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010910050251256283,
      "loss": 2.0474,
      "step": 127630
    },
    {
      "epoch": 0.6382,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0010908542713567839,
      "loss": 2.0954,
      "step": 127640
    },
    {
      "epoch": 0.63825,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010907035175879397,
      "loss": 2.0218,
      "step": 127650
    },
    {
      "epoch": 0.6383,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010905527638190955,
      "loss": 2.1143,
      "step": 127660
    },
    {
      "epoch": 0.63835,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010904020100502513,
      "loss": 2.0991,
      "step": 127670
    },
    {
      "epoch": 0.6384,
      "grad_norm": 0.515625,
      "learning_rate": 0.001090251256281407,
      "loss": 2.1116,
      "step": 127680
    },
    {
      "epoch": 0.63845,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010901005025125627,
      "loss": 2.1008,
      "step": 127690
    },
    {
      "epoch": 0.6385,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010899497487437185,
      "loss": 2.1221,
      "step": 127700
    },
    {
      "epoch": 0.63855,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010897989949748745,
      "loss": 2.0708,
      "step": 127710
    },
    {
      "epoch": 0.6386,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010896482412060301,
      "loss": 2.0901,
      "step": 127720
    },
    {
      "epoch": 0.63865,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001089497487437186,
      "loss": 2.1193,
      "step": 127730
    },
    {
      "epoch": 0.6387,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010893467336683417,
      "loss": 2.0551,
      "step": 127740
    },
    {
      "epoch": 0.63875,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010891959798994975,
      "loss": 2.0895,
      "step": 127750
    },
    {
      "epoch": 0.6388,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010890452261306533,
      "loss": 2.092,
      "step": 127760
    },
    {
      "epoch": 0.63885,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001088894472361809,
      "loss": 2.0675,
      "step": 127770
    },
    {
      "epoch": 0.6389,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010887437185929647,
      "loss": 2.0573,
      "step": 127780
    },
    {
      "epoch": 0.63895,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010885929648241208,
      "loss": 2.1226,
      "step": 127790
    },
    {
      "epoch": 0.639,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010884422110552763,
      "loss": 2.0921,
      "step": 127800
    },
    {
      "epoch": 0.63905,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010882914572864322,
      "loss": 2.1434,
      "step": 127810
    },
    {
      "epoch": 0.6391,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001088140703517588,
      "loss": 2.0459,
      "step": 127820
    },
    {
      "epoch": 0.63915,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010879899497487438,
      "loss": 2.164,
      "step": 127830
    },
    {
      "epoch": 0.6392,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010878391959798996,
      "loss": 2.0132,
      "step": 127840
    },
    {
      "epoch": 0.63925,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010876884422110552,
      "loss": 2.0894,
      "step": 127850
    },
    {
      "epoch": 0.6393,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001087537688442211,
      "loss": 2.0125,
      "step": 127860
    },
    {
      "epoch": 0.63935,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001087386934673367,
      "loss": 2.0893,
      "step": 127870
    },
    {
      "epoch": 0.6394,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010872361809045226,
      "loss": 2.0752,
      "step": 127880
    },
    {
      "epoch": 0.63945,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010870854271356784,
      "loss": 2.1335,
      "step": 127890
    },
    {
      "epoch": 0.6395,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010869346733668342,
      "loss": 2.0779,
      "step": 127900
    },
    {
      "epoch": 0.63955,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00108678391959799,
      "loss": 2.0902,
      "step": 127910
    },
    {
      "epoch": 0.6396,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010866331658291458,
      "loss": 2.0828,
      "step": 127920
    },
    {
      "epoch": 0.63965,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010864824120603014,
      "loss": 2.119,
      "step": 127930
    },
    {
      "epoch": 0.6397,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010863316582914572,
      "loss": 2.0742,
      "step": 127940
    },
    {
      "epoch": 0.63975,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0010861809045226132,
      "loss": 2.1009,
      "step": 127950
    },
    {
      "epoch": 0.6398,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010860301507537688,
      "loss": 2.0746,
      "step": 127960
    },
    {
      "epoch": 0.63985,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010858793969849246,
      "loss": 2.0465,
      "step": 127970
    },
    {
      "epoch": 0.6399,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010857286432160804,
      "loss": 2.0858,
      "step": 127980
    },
    {
      "epoch": 0.63995,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010855778894472362,
      "loss": 2.0877,
      "step": 127990
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001085427135678392,
      "loss": 2.1311,
      "step": 128000
    },
    {
      "epoch": 0.64,
      "eval_loss": 2.0878918170928955,
      "eval_runtime": 48.2178,
      "eval_samples_per_second": 51.848,
      "eval_steps_per_second": 0.104,
      "step": 128000
    },
    {
      "epoch": 0.64005,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010852763819095476,
      "loss": 2.0687,
      "step": 128010
    },
    {
      "epoch": 0.6401,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010851256281407034,
      "loss": 2.1324,
      "step": 128020
    },
    {
      "epoch": 0.64015,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0010849748743718595,
      "loss": 2.0608,
      "step": 128030
    },
    {
      "epoch": 0.6402,
      "grad_norm": 0.59375,
      "learning_rate": 0.001084824120603015,
      "loss": 2.0738,
      "step": 128040
    },
    {
      "epoch": 0.64025,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010846733668341709,
      "loss": 2.086,
      "step": 128050
    },
    {
      "epoch": 0.6403,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010845226130653267,
      "loss": 2.0743,
      "step": 128060
    },
    {
      "epoch": 0.64035,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010843718592964825,
      "loss": 2.0766,
      "step": 128070
    },
    {
      "epoch": 0.6404,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010842211055276383,
      "loss": 2.0457,
      "step": 128080
    },
    {
      "epoch": 0.64045,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010840703517587939,
      "loss": 2.139,
      "step": 128090
    },
    {
      "epoch": 0.6405,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0010839195979899497,
      "loss": 2.1119,
      "step": 128100
    },
    {
      "epoch": 0.64055,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010837688442211057,
      "loss": 2.1601,
      "step": 128110
    },
    {
      "epoch": 0.6406,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010836180904522613,
      "loss": 2.0491,
      "step": 128120
    },
    {
      "epoch": 0.64065,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001083467336683417,
      "loss": 2.1267,
      "step": 128130
    },
    {
      "epoch": 0.6407,
      "grad_norm": 0.609375,
      "learning_rate": 0.001083316582914573,
      "loss": 2.0822,
      "step": 128140
    },
    {
      "epoch": 0.64075,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010831658291457287,
      "loss": 2.0976,
      "step": 128150
    },
    {
      "epoch": 0.6408,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010830150753768845,
      "loss": 2.0923,
      "step": 128160
    },
    {
      "epoch": 0.64085,
      "grad_norm": 0.53125,
      "learning_rate": 0.0010828643216080401,
      "loss": 2.0634,
      "step": 128170
    },
    {
      "epoch": 0.6409,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001082713567839196,
      "loss": 2.1128,
      "step": 128180
    },
    {
      "epoch": 0.64095,
      "grad_norm": 0.6875,
      "learning_rate": 0.001082562814070352,
      "loss": 2.1377,
      "step": 128190
    },
    {
      "epoch": 0.641,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010824120603015075,
      "loss": 2.0937,
      "step": 128200
    },
    {
      "epoch": 0.64105,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010822613065326633,
      "loss": 2.0664,
      "step": 128210
    },
    {
      "epoch": 0.6411,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010821105527638192,
      "loss": 2.0886,
      "step": 128220
    },
    {
      "epoch": 0.64115,
      "grad_norm": 0.6875,
      "learning_rate": 0.001081959798994975,
      "loss": 2.0072,
      "step": 128230
    },
    {
      "epoch": 0.6412,
      "grad_norm": 0.546875,
      "learning_rate": 0.0010818090452261308,
      "loss": 2.1112,
      "step": 128240
    },
    {
      "epoch": 0.64125,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0010816582914572864,
      "loss": 2.1076,
      "step": 128250
    },
    {
      "epoch": 0.6413,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0010815075376884422,
      "loss": 2.1103,
      "step": 128260
    },
    {
      "epoch": 0.64135,
      "grad_norm": 0.609375,
      "learning_rate": 0.001081356783919598,
      "loss": 2.0836,
      "step": 128270
    },
    {
      "epoch": 0.6414,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010812060301507538,
      "loss": 2.0952,
      "step": 128280
    },
    {
      "epoch": 0.64145,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010810552763819096,
      "loss": 2.1128,
      "step": 128290
    },
    {
      "epoch": 0.6415,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010809045226130652,
      "loss": 2.0364,
      "step": 128300
    },
    {
      "epoch": 0.64155,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010807537688442212,
      "loss": 2.1024,
      "step": 128310
    },
    {
      "epoch": 0.6416,
      "grad_norm": 0.68359375,
      "learning_rate": 0.001080603015075377,
      "loss": 2.0543,
      "step": 128320
    },
    {
      "epoch": 0.64165,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010804522613065326,
      "loss": 2.0989,
      "step": 128330
    },
    {
      "epoch": 0.6417,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010803015075376884,
      "loss": 2.0484,
      "step": 128340
    },
    {
      "epoch": 0.64175,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0010801507537688442,
      "loss": 2.0943,
      "step": 128350
    },
    {
      "epoch": 0.6418,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00108,
      "loss": 2.0508,
      "step": 128360
    },
    {
      "epoch": 0.64185,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010798492462311558,
      "loss": 2.0993,
      "step": 128370
    },
    {
      "epoch": 0.6419,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0010796984924623114,
      "loss": 2.0665,
      "step": 128380
    },
    {
      "epoch": 0.64195,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0010795477386934674,
      "loss": 2.1056,
      "step": 128390
    },
    {
      "epoch": 0.642,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010793969849246232,
      "loss": 2.0969,
      "step": 128400
    },
    {
      "epoch": 0.64205,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0010792462311557788,
      "loss": 2.1107,
      "step": 128410
    },
    {
      "epoch": 0.6421,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0010790954773869346,
      "loss": 2.0946,
      "step": 128420
    },
    {
      "epoch": 0.64215,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010789447236180904,
      "loss": 2.1015,
      "step": 128430
    },
    {
      "epoch": 0.6422,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010787939698492463,
      "loss": 2.0883,
      "step": 128440
    },
    {
      "epoch": 0.64225,
      "grad_norm": 0.640625,
      "learning_rate": 0.001078643216080402,
      "loss": 2.0843,
      "step": 128450
    },
    {
      "epoch": 0.6423,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010784924623115576,
      "loss": 2.0982,
      "step": 128460
    },
    {
      "epoch": 0.64235,
      "grad_norm": 0.5625,
      "learning_rate": 0.0010783417085427137,
      "loss": 2.0953,
      "step": 128470
    },
    {
      "epoch": 0.6424,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010781909547738695,
      "loss": 2.1284,
      "step": 128480
    },
    {
      "epoch": 0.64245,
      "grad_norm": 0.671875,
      "learning_rate": 0.001078040201005025,
      "loss": 2.1311,
      "step": 128490
    },
    {
      "epoch": 0.6425,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010778894472361809,
      "loss": 2.1165,
      "step": 128500
    },
    {
      "epoch": 0.64255,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0010777386934673367,
      "loss": 2.0664,
      "step": 128510
    },
    {
      "epoch": 0.6426,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010775879396984925,
      "loss": 2.1048,
      "step": 128520
    },
    {
      "epoch": 0.64265,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010774371859296483,
      "loss": 2.1202,
      "step": 128530
    },
    {
      "epoch": 0.6427,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010772864321608039,
      "loss": 2.0854,
      "step": 128540
    },
    {
      "epoch": 0.64275,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00107713567839196,
      "loss": 2.0695,
      "step": 128550
    },
    {
      "epoch": 0.6428,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0010769849246231157,
      "loss": 2.1021,
      "step": 128560
    },
    {
      "epoch": 0.64285,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010768341708542713,
      "loss": 2.0473,
      "step": 128570
    },
    {
      "epoch": 0.6429,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010766834170854271,
      "loss": 2.0849,
      "step": 128580
    },
    {
      "epoch": 0.64295,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001076532663316583,
      "loss": 2.1239,
      "step": 128590
    },
    {
      "epoch": 0.643,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010763819095477387,
      "loss": 2.0638,
      "step": 128600
    },
    {
      "epoch": 0.64305,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010762311557788945,
      "loss": 2.1026,
      "step": 128610
    },
    {
      "epoch": 0.6431,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010760804020100501,
      "loss": 2.0997,
      "step": 128620
    },
    {
      "epoch": 0.64315,
      "grad_norm": 0.6015625,
      "learning_rate": 0.001075929648241206,
      "loss": 2.0823,
      "step": 128630
    },
    {
      "epoch": 0.6432,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001075778894472362,
      "loss": 2.0971,
      "step": 128640
    },
    {
      "epoch": 0.64325,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010756281407035175,
      "loss": 2.0598,
      "step": 128650
    },
    {
      "epoch": 0.6433,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010754773869346734,
      "loss": 2.1473,
      "step": 128660
    },
    {
      "epoch": 0.64335,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0010753266331658292,
      "loss": 2.0183,
      "step": 128670
    },
    {
      "epoch": 0.6434,
      "grad_norm": 0.640625,
      "learning_rate": 0.001075175879396985,
      "loss": 2.1344,
      "step": 128680
    },
    {
      "epoch": 0.64345,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010750251256281408,
      "loss": 2.0192,
      "step": 128690
    },
    {
      "epoch": 0.6435,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010748743718592964,
      "loss": 2.1561,
      "step": 128700
    },
    {
      "epoch": 0.64355,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010747236180904522,
      "loss": 2.0652,
      "step": 128710
    },
    {
      "epoch": 0.6436,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0010745728643216082,
      "loss": 2.0931,
      "step": 128720
    },
    {
      "epoch": 0.64365,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0010744221105527638,
      "loss": 2.1402,
      "step": 128730
    },
    {
      "epoch": 0.6437,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0010742713567839196,
      "loss": 2.0779,
      "step": 128740
    },
    {
      "epoch": 0.64375,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010741206030150754,
      "loss": 2.0755,
      "step": 128750
    },
    {
      "epoch": 0.6438,
      "grad_norm": 0.5625,
      "learning_rate": 0.0010739698492462312,
      "loss": 2.0702,
      "step": 128760
    },
    {
      "epoch": 0.64385,
      "grad_norm": 0.703125,
      "learning_rate": 0.001073819095477387,
      "loss": 2.0646,
      "step": 128770
    },
    {
      "epoch": 0.6439,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010736683417085426,
      "loss": 2.0779,
      "step": 128780
    },
    {
      "epoch": 0.64395,
      "grad_norm": 0.703125,
      "learning_rate": 0.0010735175879396984,
      "loss": 2.1148,
      "step": 128790
    },
    {
      "epoch": 0.644,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010733668341708544,
      "loss": 2.0547,
      "step": 128800
    },
    {
      "epoch": 0.64405,
      "grad_norm": 0.53125,
      "learning_rate": 0.00107321608040201,
      "loss": 2.1363,
      "step": 128810
    },
    {
      "epoch": 0.6441,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010730653266331658,
      "loss": 2.1015,
      "step": 128820
    },
    {
      "epoch": 0.64415,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010729145728643216,
      "loss": 2.1322,
      "step": 128830
    },
    {
      "epoch": 0.6442,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010727638190954774,
      "loss": 2.1252,
      "step": 128840
    },
    {
      "epoch": 0.64425,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010726130653266332,
      "loss": 2.1147,
      "step": 128850
    },
    {
      "epoch": 0.6443,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0010724623115577888,
      "loss": 2.1412,
      "step": 128860
    },
    {
      "epoch": 0.64435,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010723115577889446,
      "loss": 2.1029,
      "step": 128870
    },
    {
      "epoch": 0.6444,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010721608040201007,
      "loss": 2.1342,
      "step": 128880
    },
    {
      "epoch": 0.64445,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0010720100502512563,
      "loss": 2.0742,
      "step": 128890
    },
    {
      "epoch": 0.6445,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001071859296482412,
      "loss": 2.0885,
      "step": 128900
    },
    {
      "epoch": 0.64455,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010717085427135679,
      "loss": 2.0644,
      "step": 128910
    },
    {
      "epoch": 0.6446,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010715577889447237,
      "loss": 2.0733,
      "step": 128920
    },
    {
      "epoch": 0.64465,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010714070351758795,
      "loss": 2.0785,
      "step": 128930
    },
    {
      "epoch": 0.6447,
      "grad_norm": 0.62109375,
      "learning_rate": 0.001071256281407035,
      "loss": 2.1339,
      "step": 128940
    },
    {
      "epoch": 0.64475,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010711055276381909,
      "loss": 2.1263,
      "step": 128950
    },
    {
      "epoch": 0.6448,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001070954773869347,
      "loss": 2.077,
      "step": 128960
    },
    {
      "epoch": 0.64485,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0010708040201005025,
      "loss": 2.1292,
      "step": 128970
    },
    {
      "epoch": 0.6449,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010706532663316583,
      "loss": 2.0641,
      "step": 128980
    },
    {
      "epoch": 0.64495,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0010705025125628141,
      "loss": 2.103,
      "step": 128990
    },
    {
      "epoch": 0.645,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00107035175879397,
      "loss": 2.084,
      "step": 129000
    },
    {
      "epoch": 0.64505,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010702010050251257,
      "loss": 2.1436,
      "step": 129010
    },
    {
      "epoch": 0.6451,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010700502512562813,
      "loss": 2.0817,
      "step": 129020
    },
    {
      "epoch": 0.64515,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010698994974874371,
      "loss": 2.0986,
      "step": 129030
    },
    {
      "epoch": 0.6452,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0010697487437185931,
      "loss": 2.0928,
      "step": 129040
    },
    {
      "epoch": 0.64525,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010695979899497487,
      "loss": 2.0727,
      "step": 129050
    },
    {
      "epoch": 0.6453,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010694472361809045,
      "loss": 2.0946,
      "step": 129060
    },
    {
      "epoch": 0.64535,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010692964824120603,
      "loss": 2.0522,
      "step": 129070
    },
    {
      "epoch": 0.6454,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010691457286432162,
      "loss": 2.1574,
      "step": 129080
    },
    {
      "epoch": 0.64545,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001068994974874372,
      "loss": 2.0258,
      "step": 129090
    },
    {
      "epoch": 0.6455,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010688442211055276,
      "loss": 2.0844,
      "step": 129100
    },
    {
      "epoch": 0.64555,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010686934673366834,
      "loss": 2.1356,
      "step": 129110
    },
    {
      "epoch": 0.6456,
      "grad_norm": 0.515625,
      "learning_rate": 0.0010685427135678394,
      "loss": 2.0068,
      "step": 129120
    },
    {
      "epoch": 0.64565,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001068391959798995,
      "loss": 2.0904,
      "step": 129130
    },
    {
      "epoch": 0.6457,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010682412060301508,
      "loss": 2.1041,
      "step": 129140
    },
    {
      "epoch": 0.64575,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0010680904522613066,
      "loss": 2.1215,
      "step": 129150
    },
    {
      "epoch": 0.6458,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010679396984924624,
      "loss": 2.1214,
      "step": 129160
    },
    {
      "epoch": 0.64585,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010677889447236182,
      "loss": 2.1602,
      "step": 129170
    },
    {
      "epoch": 0.6459,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010676381909547738,
      "loss": 2.0702,
      "step": 129180
    },
    {
      "epoch": 0.64595,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010674874371859296,
      "loss": 2.1133,
      "step": 129190
    },
    {
      "epoch": 0.646,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010673366834170854,
      "loss": 2.0876,
      "step": 129200
    },
    {
      "epoch": 0.64605,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010671859296482412,
      "loss": 2.1058,
      "step": 129210
    },
    {
      "epoch": 0.6461,
      "grad_norm": 0.69921875,
      "learning_rate": 0.001067035175879397,
      "loss": 2.0732,
      "step": 129220
    },
    {
      "epoch": 0.64615,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010668844221105528,
      "loss": 2.115,
      "step": 129230
    },
    {
      "epoch": 0.6462,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0010667336683417086,
      "loss": 2.125,
      "step": 129240
    },
    {
      "epoch": 0.64625,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010665829145728644,
      "loss": 2.1095,
      "step": 129250
    },
    {
      "epoch": 0.6463,
      "grad_norm": 0.640625,
      "learning_rate": 0.00106643216080402,
      "loss": 2.1154,
      "step": 129260
    },
    {
      "epoch": 0.64635,
      "grad_norm": 0.71875,
      "learning_rate": 0.0010662814070351758,
      "loss": 2.0494,
      "step": 129270
    },
    {
      "epoch": 0.6464,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010661306532663316,
      "loss": 2.1257,
      "step": 129280
    },
    {
      "epoch": 0.64645,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010659798994974874,
      "loss": 2.0851,
      "step": 129290
    },
    {
      "epoch": 0.6465,
      "grad_norm": 0.5625,
      "learning_rate": 0.0010658291457286433,
      "loss": 2.0805,
      "step": 129300
    },
    {
      "epoch": 0.64655,
      "grad_norm": 0.59375,
      "learning_rate": 0.001065678391959799,
      "loss": 2.0987,
      "step": 129310
    },
    {
      "epoch": 0.6466,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010655276381909549,
      "loss": 2.1054,
      "step": 129320
    },
    {
      "epoch": 0.64665,
      "grad_norm": 0.546875,
      "learning_rate": 0.0010653768844221107,
      "loss": 2.1176,
      "step": 129330
    },
    {
      "epoch": 0.6467,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010652261306532663,
      "loss": 2.0466,
      "step": 129340
    },
    {
      "epoch": 0.64675,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001065075376884422,
      "loss": 2.0915,
      "step": 129350
    },
    {
      "epoch": 0.6468,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010649246231155779,
      "loss": 2.064,
      "step": 129360
    },
    {
      "epoch": 0.64685,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010647738693467337,
      "loss": 2.0675,
      "step": 129370
    },
    {
      "epoch": 0.6469,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010646231155778895,
      "loss": 2.043,
      "step": 129380
    },
    {
      "epoch": 0.64695,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0010644723618090453,
      "loss": 2.0848,
      "step": 129390
    },
    {
      "epoch": 0.647,
      "grad_norm": 0.56640625,
      "learning_rate": 0.001064321608040201,
      "loss": 2.1049,
      "step": 129400
    },
    {
      "epoch": 0.64705,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001064170854271357,
      "loss": 2.1241,
      "step": 129410
    },
    {
      "epoch": 0.6471,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010640201005025125,
      "loss": 2.1026,
      "step": 129420
    },
    {
      "epoch": 0.64715,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010638693467336683,
      "loss": 2.0245,
      "step": 129430
    },
    {
      "epoch": 0.6472,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0010637185929648241,
      "loss": 2.1249,
      "step": 129440
    },
    {
      "epoch": 0.64725,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00106356783919598,
      "loss": 2.036,
      "step": 129450
    },
    {
      "epoch": 0.6473,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010634170854271357,
      "loss": 2.1071,
      "step": 129460
    },
    {
      "epoch": 0.64735,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010632663316582913,
      "loss": 2.0845,
      "step": 129470
    },
    {
      "epoch": 0.6474,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010631155778894473,
      "loss": 2.069,
      "step": 129480
    },
    {
      "epoch": 0.64745,
      "grad_norm": 0.546875,
      "learning_rate": 0.0010629648241206031,
      "loss": 2.0641,
      "step": 129490
    },
    {
      "epoch": 0.6475,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010628140703517587,
      "loss": 2.0991,
      "step": 129500
    },
    {
      "epoch": 0.64755,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010626633165829145,
      "loss": 2.13,
      "step": 129510
    },
    {
      "epoch": 0.6476,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0010625125628140704,
      "loss": 2.13,
      "step": 129520
    },
    {
      "epoch": 0.64765,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010623618090452262,
      "loss": 2.1429,
      "step": 129530
    },
    {
      "epoch": 0.6477,
      "grad_norm": 0.68359375,
      "learning_rate": 0.001062211055276382,
      "loss": 2.0151,
      "step": 129540
    },
    {
      "epoch": 0.64775,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010620603015075376,
      "loss": 2.1101,
      "step": 129550
    },
    {
      "epoch": 0.6478,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010619095477386934,
      "loss": 2.1148,
      "step": 129560
    },
    {
      "epoch": 0.64785,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0010617587939698494,
      "loss": 2.0866,
      "step": 129570
    },
    {
      "epoch": 0.6479,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001061608040201005,
      "loss": 2.104,
      "step": 129580
    },
    {
      "epoch": 0.64795,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010614572864321608,
      "loss": 2.0691,
      "step": 129590
    },
    {
      "epoch": 0.648,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010613065326633166,
      "loss": 2.1695,
      "step": 129600
    },
    {
      "epoch": 0.64805,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010611557788944724,
      "loss": 2.1075,
      "step": 129610
    },
    {
      "epoch": 0.6481,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010610050251256282,
      "loss": 2.0606,
      "step": 129620
    },
    {
      "epoch": 0.64815,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010608542713567838,
      "loss": 2.0576,
      "step": 129630
    },
    {
      "epoch": 0.6482,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0010607035175879396,
      "loss": 2.1058,
      "step": 129640
    },
    {
      "epoch": 0.64825,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010605527638190956,
      "loss": 2.1233,
      "step": 129650
    },
    {
      "epoch": 0.6483,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0010604020100502512,
      "loss": 2.0865,
      "step": 129660
    },
    {
      "epoch": 0.64835,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001060251256281407,
      "loss": 2.084,
      "step": 129670
    },
    {
      "epoch": 0.6484,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010601005025125628,
      "loss": 2.1081,
      "step": 129680
    },
    {
      "epoch": 0.64845,
      "grad_norm": 0.671875,
      "learning_rate": 0.0010599497487437186,
      "loss": 2.0905,
      "step": 129690
    },
    {
      "epoch": 0.6485,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010597989949748744,
      "loss": 2.0665,
      "step": 129700
    },
    {
      "epoch": 0.64855,
      "grad_norm": 0.640625,
      "learning_rate": 0.00105964824120603,
      "loss": 2.1208,
      "step": 129710
    },
    {
      "epoch": 0.6486,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010594974874371858,
      "loss": 2.0461,
      "step": 129720
    },
    {
      "epoch": 0.64865,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010593467336683419,
      "loss": 2.093,
      "step": 129730
    },
    {
      "epoch": 0.6487,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010591959798994975,
      "loss": 2.0737,
      "step": 129740
    },
    {
      "epoch": 0.64875,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0010590452261306533,
      "loss": 2.1218,
      "step": 129750
    },
    {
      "epoch": 0.6488,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001058894472361809,
      "loss": 2.1167,
      "step": 129760
    },
    {
      "epoch": 0.64885,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010587437185929649,
      "loss": 2.0737,
      "step": 129770
    },
    {
      "epoch": 0.6489,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0010585929648241207,
      "loss": 2.0804,
      "step": 129780
    },
    {
      "epoch": 0.64895,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0010584422110552763,
      "loss": 2.1274,
      "step": 129790
    },
    {
      "epoch": 0.649,
      "grad_norm": 0.57421875,
      "learning_rate": 0.001058291457286432,
      "loss": 2.0933,
      "step": 129800
    },
    {
      "epoch": 0.64905,
      "grad_norm": 0.70703125,
      "learning_rate": 0.001058140703517588,
      "loss": 2.1084,
      "step": 129810
    },
    {
      "epoch": 0.6491,
      "grad_norm": 0.671875,
      "learning_rate": 0.0010579899497487437,
      "loss": 2.0248,
      "step": 129820
    },
    {
      "epoch": 0.64915,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0010578391959798995,
      "loss": 2.1167,
      "step": 129830
    },
    {
      "epoch": 0.6492,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0010576884422110553,
      "loss": 2.0907,
      "step": 129840
    },
    {
      "epoch": 0.64925,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0010575376884422111,
      "loss": 2.139,
      "step": 129850
    },
    {
      "epoch": 0.6493,
      "grad_norm": 0.54296875,
      "learning_rate": 0.001057386934673367,
      "loss": 2.0839,
      "step": 129860
    },
    {
      "epoch": 0.64935,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010572361809045225,
      "loss": 2.1005,
      "step": 129870
    },
    {
      "epoch": 0.6494,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010570854271356783,
      "loss": 2.0705,
      "step": 129880
    },
    {
      "epoch": 0.64945,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010569346733668343,
      "loss": 2.1136,
      "step": 129890
    },
    {
      "epoch": 0.6495,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00105678391959799,
      "loss": 2.0691,
      "step": 129900
    },
    {
      "epoch": 0.64955,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010566331658291457,
      "loss": 2.0844,
      "step": 129910
    },
    {
      "epoch": 0.6496,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010564824120603015,
      "loss": 2.1056,
      "step": 129920
    },
    {
      "epoch": 0.64965,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010563316582914573,
      "loss": 2.0578,
      "step": 129930
    },
    {
      "epoch": 0.6497,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0010561809045226132,
      "loss": 2.111,
      "step": 129940
    },
    {
      "epoch": 0.64975,
      "grad_norm": 0.625,
      "learning_rate": 0.0010560301507537687,
      "loss": 2.0417,
      "step": 129950
    },
    {
      "epoch": 0.6498,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0010558793969849246,
      "loss": 2.0809,
      "step": 129960
    },
    {
      "epoch": 0.64985,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010557286432160806,
      "loss": 2.0414,
      "step": 129970
    },
    {
      "epoch": 0.6499,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010555778894472362,
      "loss": 2.0875,
      "step": 129980
    },
    {
      "epoch": 0.64995,
      "grad_norm": 0.55859375,
      "learning_rate": 0.001055427135678392,
      "loss": 2.0887,
      "step": 129990
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010552763819095478,
      "loss": 2.0526,
      "step": 130000
    },
    {
      "epoch": 0.65,
      "eval_loss": 2.0847275257110596,
      "eval_runtime": 48.0292,
      "eval_samples_per_second": 52.052,
      "eval_steps_per_second": 0.104,
      "step": 130000
    },
    {
      "epoch": 0.65005,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010551256281407036,
      "loss": 2.065,
      "step": 130010
    },
    {
      "epoch": 0.6501,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0010549748743718594,
      "loss": 2.0522,
      "step": 130020
    },
    {
      "epoch": 0.65015,
      "grad_norm": 0.625,
      "learning_rate": 0.001054824120603015,
      "loss": 2.1641,
      "step": 130030
    },
    {
      "epoch": 0.6502,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0010546733668341708,
      "loss": 2.0469,
      "step": 130040
    },
    {
      "epoch": 0.65025,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0010545226130653268,
      "loss": 2.0504,
      "step": 130050
    },
    {
      "epoch": 0.6503,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0010543718592964824,
      "loss": 2.124,
      "step": 130060
    },
    {
      "epoch": 0.65035,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010542211055276382,
      "loss": 2.0316,
      "step": 130070
    },
    {
      "epoch": 0.6504,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001054070351758794,
      "loss": 2.0721,
      "step": 130080
    },
    {
      "epoch": 0.65045,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0010539195979899498,
      "loss": 2.07,
      "step": 130090
    },
    {
      "epoch": 0.6505,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010537688442211056,
      "loss": 2.134,
      "step": 130100
    },
    {
      "epoch": 0.65055,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010536180904522612,
      "loss": 2.0581,
      "step": 130110
    },
    {
      "epoch": 0.6506,
      "grad_norm": 0.77734375,
      "learning_rate": 0.001053467336683417,
      "loss": 2.1076,
      "step": 130120
    },
    {
      "epoch": 0.65065,
      "grad_norm": 0.5625,
      "learning_rate": 0.0010533165829145728,
      "loss": 2.0918,
      "step": 130130
    },
    {
      "epoch": 0.6507,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010531658291457286,
      "loss": 2.0576,
      "step": 130140
    },
    {
      "epoch": 0.65075,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010530150753768844,
      "loss": 2.091,
      "step": 130150
    },
    {
      "epoch": 0.6508,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010528643216080403,
      "loss": 2.0462,
      "step": 130160
    },
    {
      "epoch": 0.65085,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001052713567839196,
      "loss": 2.098,
      "step": 130170
    },
    {
      "epoch": 0.6509,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0010525628140703519,
      "loss": 2.1328,
      "step": 130180
    },
    {
      "epoch": 0.65095,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010524120603015075,
      "loss": 2.09,
      "step": 130190
    },
    {
      "epoch": 0.651,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010522613065326633,
      "loss": 2.1133,
      "step": 130200
    },
    {
      "epoch": 0.65105,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001052110552763819,
      "loss": 2.1186,
      "step": 130210
    },
    {
      "epoch": 0.6511,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010519597989949749,
      "loss": 2.092,
      "step": 130220
    },
    {
      "epoch": 0.65115,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010518090452261307,
      "loss": 2.058,
      "step": 130230
    },
    {
      "epoch": 0.6512,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0010516582914572865,
      "loss": 2.093,
      "step": 130240
    },
    {
      "epoch": 0.65125,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010515075376884423,
      "loss": 2.0719,
      "step": 130250
    },
    {
      "epoch": 0.6513,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001051356783919598,
      "loss": 2.0961,
      "step": 130260
    },
    {
      "epoch": 0.65135,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0010512060301507537,
      "loss": 2.0427,
      "step": 130270
    },
    {
      "epoch": 0.6514,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010510552763819095,
      "loss": 2.0977,
      "step": 130280
    },
    {
      "epoch": 0.65145,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010509045226130653,
      "loss": 2.0655,
      "step": 130290
    },
    {
      "epoch": 0.6515,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010507537688442211,
      "loss": 2.1019,
      "step": 130300
    },
    {
      "epoch": 0.65155,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001050603015075377,
      "loss": 2.0764,
      "step": 130310
    },
    {
      "epoch": 0.6516,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010504522613065327,
      "loss": 2.0725,
      "step": 130320
    },
    {
      "epoch": 0.65165,
      "grad_norm": 0.625,
      "learning_rate": 0.0010503015075376885,
      "loss": 2.0883,
      "step": 130330
    },
    {
      "epoch": 0.6517,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010501507537688443,
      "loss": 2.1518,
      "step": 130340
    },
    {
      "epoch": 0.65175,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00105,
      "loss": 2.1009,
      "step": 130350
    },
    {
      "epoch": 0.6518,
      "grad_norm": 0.625,
      "learning_rate": 0.0010498492462311557,
      "loss": 2.1602,
      "step": 130360
    },
    {
      "epoch": 0.65185,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010496984924623115,
      "loss": 2.0738,
      "step": 130370
    },
    {
      "epoch": 0.6519,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010495477386934674,
      "loss": 2.1059,
      "step": 130380
    },
    {
      "epoch": 0.65195,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010493969849246232,
      "loss": 2.0722,
      "step": 130390
    },
    {
      "epoch": 0.652,
      "grad_norm": 0.69140625,
      "learning_rate": 0.001049246231155779,
      "loss": 2.1177,
      "step": 130400
    },
    {
      "epoch": 0.65205,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010490954773869348,
      "loss": 2.0284,
      "step": 130410
    },
    {
      "epoch": 0.6521,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010489447236180906,
      "loss": 2.1014,
      "step": 130420
    },
    {
      "epoch": 0.65215,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010487939698492462,
      "loss": 2.0791,
      "step": 130430
    },
    {
      "epoch": 0.6522,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001048643216080402,
      "loss": 2.0467,
      "step": 130440
    },
    {
      "epoch": 0.65225,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010484924623115578,
      "loss": 2.1331,
      "step": 130450
    },
    {
      "epoch": 0.6523,
      "grad_norm": 0.703125,
      "learning_rate": 0.0010483417085427136,
      "loss": 2.0628,
      "step": 130460
    },
    {
      "epoch": 0.65235,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010481909547738694,
      "loss": 2.1057,
      "step": 130470
    },
    {
      "epoch": 0.6524,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010480402010050252,
      "loss": 2.0853,
      "step": 130480
    },
    {
      "epoch": 0.65245,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010478894472361808,
      "loss": 2.0849,
      "step": 130490
    },
    {
      "epoch": 0.6525,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010477386934673368,
      "loss": 2.0986,
      "step": 130500
    },
    {
      "epoch": 0.65255,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010475879396984924,
      "loss": 2.1119,
      "step": 130510
    },
    {
      "epoch": 0.6526,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010474371859296482,
      "loss": 2.1202,
      "step": 130520
    },
    {
      "epoch": 0.65265,
      "grad_norm": 0.671875,
      "learning_rate": 0.001047286432160804,
      "loss": 2.0722,
      "step": 130530
    },
    {
      "epoch": 0.6527,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0010471356783919598,
      "loss": 2.1394,
      "step": 130540
    },
    {
      "epoch": 0.65275,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0010469849246231156,
      "loss": 2.1146,
      "step": 130550
    },
    {
      "epoch": 0.6528,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010468341708542714,
      "loss": 2.1072,
      "step": 130560
    },
    {
      "epoch": 0.65285,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001046683417085427,
      "loss": 2.0686,
      "step": 130570
    },
    {
      "epoch": 0.6529,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001046532663316583,
      "loss": 2.1146,
      "step": 130580
    },
    {
      "epoch": 0.65295,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0010463819095477386,
      "loss": 2.0652,
      "step": 130590
    },
    {
      "epoch": 0.653,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010462311557788945,
      "loss": 2.0451,
      "step": 130600
    },
    {
      "epoch": 0.65305,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010460804020100503,
      "loss": 2.1207,
      "step": 130610
    },
    {
      "epoch": 0.6531,
      "grad_norm": 0.66796875,
      "learning_rate": 0.001045929648241206,
      "loss": 2.028,
      "step": 130620
    },
    {
      "epoch": 0.65315,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0010457788944723619,
      "loss": 2.0669,
      "step": 130630
    },
    {
      "epoch": 0.6532,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010456281407035175,
      "loss": 2.0573,
      "step": 130640
    },
    {
      "epoch": 0.65325,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010454773869346733,
      "loss": 2.0942,
      "step": 130650
    },
    {
      "epoch": 0.6533,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010453266331658293,
      "loss": 2.1179,
      "step": 130660
    },
    {
      "epoch": 0.65335,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010451758793969849,
      "loss": 2.0616,
      "step": 130670
    },
    {
      "epoch": 0.6534,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010450251256281407,
      "loss": 2.1122,
      "step": 130680
    },
    {
      "epoch": 0.65345,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010448743718592965,
      "loss": 2.0594,
      "step": 130690
    },
    {
      "epoch": 0.6535,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010447236180904523,
      "loss": 2.0848,
      "step": 130700
    },
    {
      "epoch": 0.65355,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010445728643216081,
      "loss": 2.1229,
      "step": 130710
    },
    {
      "epoch": 0.6536,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010444221105527637,
      "loss": 2.0641,
      "step": 130720
    },
    {
      "epoch": 0.65365,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010442713567839195,
      "loss": 2.1091,
      "step": 130730
    },
    {
      "epoch": 0.6537,
      "grad_norm": 0.71875,
      "learning_rate": 0.0010441206030150755,
      "loss": 2.0882,
      "step": 130740
    },
    {
      "epoch": 0.65375,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010439698492462311,
      "loss": 2.1147,
      "step": 130750
    },
    {
      "epoch": 0.6538,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001043819095477387,
      "loss": 2.1024,
      "step": 130760
    },
    {
      "epoch": 0.65385,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0010436683417085427,
      "loss": 2.0643,
      "step": 130770
    },
    {
      "epoch": 0.6539,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010435175879396985,
      "loss": 2.0814,
      "step": 130780
    },
    {
      "epoch": 0.65395,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0010433668341708544,
      "loss": 2.0348,
      "step": 130790
    },
    {
      "epoch": 0.654,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00104321608040201,
      "loss": 2.1127,
      "step": 130800
    },
    {
      "epoch": 0.65405,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010430653266331657,
      "loss": 2.0729,
      "step": 130810
    },
    {
      "epoch": 0.6541,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010429145728643218,
      "loss": 2.1424,
      "step": 130820
    },
    {
      "epoch": 0.65415,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0010427638190954774,
      "loss": 2.0314,
      "step": 130830
    },
    {
      "epoch": 0.6542,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010426130653266332,
      "loss": 2.0963,
      "step": 130840
    },
    {
      "epoch": 0.65425,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001042462311557789,
      "loss": 2.1304,
      "step": 130850
    },
    {
      "epoch": 0.6543,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0010423115577889448,
      "loss": 2.068,
      "step": 130860
    },
    {
      "epoch": 0.65435,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010421608040201006,
      "loss": 2.1046,
      "step": 130870
    },
    {
      "epoch": 0.6544,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010420100502512562,
      "loss": 2.1175,
      "step": 130880
    },
    {
      "epoch": 0.65445,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001041859296482412,
      "loss": 2.0697,
      "step": 130890
    },
    {
      "epoch": 0.6545,
      "grad_norm": 0.70703125,
      "learning_rate": 0.001041708542713568,
      "loss": 2.0844,
      "step": 130900
    },
    {
      "epoch": 0.65455,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0010415577889447236,
      "loss": 2.0657,
      "step": 130910
    },
    {
      "epoch": 0.6546,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010414070351758794,
      "loss": 2.1128,
      "step": 130920
    },
    {
      "epoch": 0.65465,
      "grad_norm": 0.79296875,
      "learning_rate": 0.0010412562814070352,
      "loss": 2.1223,
      "step": 130930
    },
    {
      "epoch": 0.6547,
      "grad_norm": 0.640625,
      "learning_rate": 0.001041105527638191,
      "loss": 2.1273,
      "step": 130940
    },
    {
      "epoch": 0.65475,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010409547738693468,
      "loss": 2.0428,
      "step": 130950
    },
    {
      "epoch": 0.6548,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010408040201005024,
      "loss": 2.0803,
      "step": 130960
    },
    {
      "epoch": 0.65485,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010406532663316582,
      "loss": 2.0873,
      "step": 130970
    },
    {
      "epoch": 0.6549,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0010405025125628142,
      "loss": 2.1014,
      "step": 130980
    },
    {
      "epoch": 0.65495,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0010403517587939698,
      "loss": 2.1085,
      "step": 130990
    },
    {
      "epoch": 0.655,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010402010050251256,
      "loss": 2.0791,
      "step": 131000
    },
    {
      "epoch": 0.65505,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0010400502512562815,
      "loss": 2.1331,
      "step": 131010
    },
    {
      "epoch": 0.6551,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010398994974874373,
      "loss": 2.0872,
      "step": 131020
    },
    {
      "epoch": 0.65515,
      "grad_norm": 0.59375,
      "learning_rate": 0.001039748743718593,
      "loss": 2.141,
      "step": 131030
    },
    {
      "epoch": 0.6552,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010395979899497487,
      "loss": 2.0331,
      "step": 131040
    },
    {
      "epoch": 0.65525,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010394472361809045,
      "loss": 2.1183,
      "step": 131050
    },
    {
      "epoch": 0.6553,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010392964824120603,
      "loss": 2.0841,
      "step": 131060
    },
    {
      "epoch": 0.65535,
      "grad_norm": 0.640625,
      "learning_rate": 0.001039145728643216,
      "loss": 2.1228,
      "step": 131070
    },
    {
      "epoch": 0.6554,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010389949748743719,
      "loss": 2.0905,
      "step": 131080
    },
    {
      "epoch": 0.65545,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0010388442211055277,
      "loss": 2.0863,
      "step": 131090
    },
    {
      "epoch": 0.6555,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010386934673366835,
      "loss": 2.1053,
      "step": 131100
    },
    {
      "epoch": 0.65555,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010385427135678393,
      "loss": 2.1296,
      "step": 131110
    },
    {
      "epoch": 0.6556,
      "grad_norm": 0.640625,
      "learning_rate": 0.001038391959798995,
      "loss": 2.0326,
      "step": 131120
    },
    {
      "epoch": 0.65565,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010382412060301507,
      "loss": 2.0964,
      "step": 131130
    },
    {
      "epoch": 0.6557,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010380904522613065,
      "loss": 2.0922,
      "step": 131140
    },
    {
      "epoch": 0.65575,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010379396984924623,
      "loss": 2.1067,
      "step": 131150
    },
    {
      "epoch": 0.6558,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0010377889447236181,
      "loss": 2.0661,
      "step": 131160
    },
    {
      "epoch": 0.65585,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001037638190954774,
      "loss": 2.0834,
      "step": 131170
    },
    {
      "epoch": 0.6559,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010374874371859297,
      "loss": 2.1158,
      "step": 131180
    },
    {
      "epoch": 0.65595,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0010373366834170855,
      "loss": 2.1182,
      "step": 131190
    },
    {
      "epoch": 0.656,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010371859296482411,
      "loss": 2.1505,
      "step": 131200
    },
    {
      "epoch": 0.65605,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001037035175879397,
      "loss": 2.0746,
      "step": 131210
    },
    {
      "epoch": 0.6561,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0010368844221105527,
      "loss": 2.0714,
      "step": 131220
    },
    {
      "epoch": 0.65615,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010367336683417086,
      "loss": 2.0847,
      "step": 131230
    },
    {
      "epoch": 0.6562,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0010365829145728644,
      "loss": 2.0802,
      "step": 131240
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010364321608040202,
      "loss": 2.0863,
      "step": 131250
    },
    {
      "epoch": 0.6563,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001036281407035176,
      "loss": 2.0677,
      "step": 131260
    },
    {
      "epoch": 0.65635,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010361306532663318,
      "loss": 2.0565,
      "step": 131270
    },
    {
      "epoch": 0.6564,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010359798994974874,
      "loss": 2.0674,
      "step": 131280
    },
    {
      "epoch": 0.65645,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010358291457286432,
      "loss": 2.1388,
      "step": 131290
    },
    {
      "epoch": 0.6565,
      "grad_norm": 0.578125,
      "learning_rate": 0.001035678391959799,
      "loss": 2.1511,
      "step": 131300
    },
    {
      "epoch": 0.65655,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010355276381909548,
      "loss": 2.0445,
      "step": 131310
    },
    {
      "epoch": 0.6566,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010353768844221106,
      "loss": 2.1227,
      "step": 131320
    },
    {
      "epoch": 0.65665,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010352261306532664,
      "loss": 2.1038,
      "step": 131330
    },
    {
      "epoch": 0.6567,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010350753768844222,
      "loss": 2.1723,
      "step": 131340
    },
    {
      "epoch": 0.65675,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001034924623115578,
      "loss": 2.0839,
      "step": 131350
    },
    {
      "epoch": 0.6568,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010347738693467336,
      "loss": 2.0877,
      "step": 131360
    },
    {
      "epoch": 0.65685,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010346231155778894,
      "loss": 2.1127,
      "step": 131370
    },
    {
      "epoch": 0.6569,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010344723618090452,
      "loss": 2.0963,
      "step": 131380
    },
    {
      "epoch": 0.65695,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001034321608040201,
      "loss": 2.0711,
      "step": 131390
    },
    {
      "epoch": 0.657,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010341708542713568,
      "loss": 2.0984,
      "step": 131400
    },
    {
      "epoch": 0.65705,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010340201005025126,
      "loss": 2.0985,
      "step": 131410
    },
    {
      "epoch": 0.6571,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010338693467336682,
      "loss": 2.0952,
      "step": 131420
    },
    {
      "epoch": 0.65715,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010337185929648243,
      "loss": 2.0609,
      "step": 131430
    },
    {
      "epoch": 0.6572,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010335678391959798,
      "loss": 2.0991,
      "step": 131440
    },
    {
      "epoch": 0.65725,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010334170854271357,
      "loss": 2.0951,
      "step": 131450
    },
    {
      "epoch": 0.6573,
      "grad_norm": 0.515625,
      "learning_rate": 0.0010332663316582915,
      "loss": 2.091,
      "step": 131460
    },
    {
      "epoch": 0.65735,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0010331155778894473,
      "loss": 2.1111,
      "step": 131470
    },
    {
      "epoch": 0.6574,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001032964824120603,
      "loss": 2.0947,
      "step": 131480
    },
    {
      "epoch": 0.65745,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010328140703517589,
      "loss": 2.1219,
      "step": 131490
    },
    {
      "epoch": 0.6575,
      "grad_norm": 0.625,
      "learning_rate": 0.0010326633165829145,
      "loss": 2.045,
      "step": 131500
    },
    {
      "epoch": 0.65755,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010325125628140705,
      "loss": 2.1688,
      "step": 131510
    },
    {
      "epoch": 0.6576,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001032361809045226,
      "loss": 2.0583,
      "step": 131520
    },
    {
      "epoch": 0.65765,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010322110552763819,
      "loss": 2.1024,
      "step": 131530
    },
    {
      "epoch": 0.6577,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010320603015075377,
      "loss": 2.0904,
      "step": 131540
    },
    {
      "epoch": 0.65775,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010319095477386935,
      "loss": 2.0599,
      "step": 131550
    },
    {
      "epoch": 0.6578,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010317587939698493,
      "loss": 2.1078,
      "step": 131560
    },
    {
      "epoch": 0.65785,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010316080402010051,
      "loss": 2.0789,
      "step": 131570
    },
    {
      "epoch": 0.6579,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010314572864321607,
      "loss": 2.0656,
      "step": 131580
    },
    {
      "epoch": 0.65795,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010313065326633167,
      "loss": 2.0868,
      "step": 131590
    },
    {
      "epoch": 0.658,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010311557788944723,
      "loss": 2.0546,
      "step": 131600
    },
    {
      "epoch": 0.65805,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010310050251256281,
      "loss": 2.0787,
      "step": 131610
    },
    {
      "epoch": 0.6581,
      "grad_norm": 0.72265625,
      "learning_rate": 0.001030854271356784,
      "loss": 2.0801,
      "step": 131620
    },
    {
      "epoch": 0.65815,
      "grad_norm": 0.625,
      "learning_rate": 0.0010307035175879397,
      "loss": 2.1079,
      "step": 131630
    },
    {
      "epoch": 0.6582,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010305527638190955,
      "loss": 2.1194,
      "step": 131640
    },
    {
      "epoch": 0.65825,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010304020100502514,
      "loss": 2.0592,
      "step": 131650
    },
    {
      "epoch": 0.6583,
      "grad_norm": 0.62890625,
      "learning_rate": 0.001030251256281407,
      "loss": 2.1146,
      "step": 131660
    },
    {
      "epoch": 0.65835,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001030100502512563,
      "loss": 2.1299,
      "step": 131670
    },
    {
      "epoch": 0.6584,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010299497487437186,
      "loss": 2.0815,
      "step": 131680
    },
    {
      "epoch": 0.65845,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010297989949748744,
      "loss": 2.1018,
      "step": 131690
    },
    {
      "epoch": 0.6585,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010296482412060302,
      "loss": 2.0933,
      "step": 131700
    },
    {
      "epoch": 0.65855,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001029497487437186,
      "loss": 2.1197,
      "step": 131710
    },
    {
      "epoch": 0.6586,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010293467336683418,
      "loss": 2.0619,
      "step": 131720
    },
    {
      "epoch": 0.65865,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0010291959798994976,
      "loss": 2.1013,
      "step": 131730
    },
    {
      "epoch": 0.6587,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010290452261306532,
      "loss": 2.038,
      "step": 131740
    },
    {
      "epoch": 0.65875,
      "grad_norm": 0.625,
      "learning_rate": 0.0010288944723618092,
      "loss": 2.0806,
      "step": 131750
    },
    {
      "epoch": 0.6588,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010287437185929648,
      "loss": 2.1161,
      "step": 131760
    },
    {
      "epoch": 0.65885,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010285929648241206,
      "loss": 2.0891,
      "step": 131770
    },
    {
      "epoch": 0.6589,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010284422110552764,
      "loss": 2.1013,
      "step": 131780
    },
    {
      "epoch": 0.65895,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010282914572864322,
      "loss": 2.0951,
      "step": 131790
    },
    {
      "epoch": 0.659,
      "grad_norm": 0.61328125,
      "learning_rate": 0.001028140703517588,
      "loss": 2.1256,
      "step": 131800
    },
    {
      "epoch": 0.65905,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010279899497487436,
      "loss": 2.1124,
      "step": 131810
    },
    {
      "epoch": 0.6591,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010278391959798994,
      "loss": 2.0571,
      "step": 131820
    },
    {
      "epoch": 0.65915,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010276884422110554,
      "loss": 2.0675,
      "step": 131830
    },
    {
      "epoch": 0.6592,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001027537688442211,
      "loss": 2.0811,
      "step": 131840
    },
    {
      "epoch": 0.65925,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010273869346733668,
      "loss": 2.0925,
      "step": 131850
    },
    {
      "epoch": 0.6593,
      "grad_norm": 0.625,
      "learning_rate": 0.0010272361809045226,
      "loss": 2.0756,
      "step": 131860
    },
    {
      "epoch": 0.65935,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010270854271356785,
      "loss": 2.1013,
      "step": 131870
    },
    {
      "epoch": 0.6594,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010269346733668343,
      "loss": 2.0647,
      "step": 131880
    },
    {
      "epoch": 0.65945,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010267839195979899,
      "loss": 2.1098,
      "step": 131890
    },
    {
      "epoch": 0.6595,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010266331658291457,
      "loss": 2.0549,
      "step": 131900
    },
    {
      "epoch": 0.65955,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0010264824120603017,
      "loss": 2.0799,
      "step": 131910
    },
    {
      "epoch": 0.6596,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010263316582914573,
      "loss": 2.0424,
      "step": 131920
    },
    {
      "epoch": 0.65965,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001026180904522613,
      "loss": 2.0729,
      "step": 131930
    },
    {
      "epoch": 0.6597,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010260301507537689,
      "loss": 2.0924,
      "step": 131940
    },
    {
      "epoch": 0.65975,
      "grad_norm": 0.625,
      "learning_rate": 0.0010258793969849247,
      "loss": 2.0623,
      "step": 131950
    },
    {
      "epoch": 0.6598,
      "grad_norm": 0.625,
      "learning_rate": 0.0010257286432160805,
      "loss": 2.086,
      "step": 131960
    },
    {
      "epoch": 0.65985,
      "grad_norm": 0.625,
      "learning_rate": 0.001025577889447236,
      "loss": 2.0856,
      "step": 131970
    },
    {
      "epoch": 0.6599,
      "grad_norm": 0.5390625,
      "learning_rate": 0.001025427135678392,
      "loss": 2.0979,
      "step": 131980
    },
    {
      "epoch": 0.65995,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010252763819095477,
      "loss": 2.1069,
      "step": 131990
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.625,
      "learning_rate": 0.0010251256281407035,
      "loss": 2.0783,
      "step": 132000
    },
    {
      "epoch": 0.66,
      "eval_loss": 2.0823557376861572,
      "eval_runtime": 46.6908,
      "eval_samples_per_second": 53.544,
      "eval_steps_per_second": 0.107,
      "step": 132000
    },
    {
      "epoch": 0.66005,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010249748743718593,
      "loss": 2.1083,
      "step": 132010
    },
    {
      "epoch": 0.6601,
      "grad_norm": 0.546875,
      "learning_rate": 0.0010248241206030151,
      "loss": 2.1374,
      "step": 132020
    },
    {
      "epoch": 0.66015,
      "grad_norm": 0.66015625,
      "learning_rate": 0.001024673366834171,
      "loss": 2.0768,
      "step": 132030
    },
    {
      "epoch": 0.6602,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010245226130653267,
      "loss": 2.0691,
      "step": 132040
    },
    {
      "epoch": 0.66025,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010243718592964823,
      "loss": 2.0552,
      "step": 132050
    },
    {
      "epoch": 0.6603,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010242211055276381,
      "loss": 2.1029,
      "step": 132060
    },
    {
      "epoch": 0.66035,
      "grad_norm": 0.5546875,
      "learning_rate": 0.001024070351758794,
      "loss": 2.0592,
      "step": 132070
    },
    {
      "epoch": 0.6604,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0010239195979899497,
      "loss": 2.1084,
      "step": 132080
    },
    {
      "epoch": 0.66045,
      "grad_norm": 0.625,
      "learning_rate": 0.0010237688442211056,
      "loss": 2.0305,
      "step": 132090
    },
    {
      "epoch": 0.6605,
      "grad_norm": 0.734375,
      "learning_rate": 0.0010236180904522614,
      "loss": 2.117,
      "step": 132100
    },
    {
      "epoch": 0.66055,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010234673366834172,
      "loss": 2.0738,
      "step": 132110
    },
    {
      "epoch": 0.6606,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001023316582914573,
      "loss": 2.1085,
      "step": 132120
    },
    {
      "epoch": 0.66065,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010231658291457286,
      "loss": 2.1008,
      "step": 132130
    },
    {
      "epoch": 0.6607,
      "grad_norm": 0.671875,
      "learning_rate": 0.0010230150753768844,
      "loss": 2.0588,
      "step": 132140
    },
    {
      "epoch": 0.66075,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010228643216080402,
      "loss": 2.0668,
      "step": 132150
    },
    {
      "epoch": 0.6608,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001022713567839196,
      "loss": 2.0978,
      "step": 132160
    },
    {
      "epoch": 0.66085,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010225628140703518,
      "loss": 2.0827,
      "step": 132170
    },
    {
      "epoch": 0.6609,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0010224120603015076,
      "loss": 2.0826,
      "step": 132180
    },
    {
      "epoch": 0.66095,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010222613065326634,
      "loss": 2.0971,
      "step": 132190
    },
    {
      "epoch": 0.661,
      "grad_norm": 0.546875,
      "learning_rate": 0.0010221105527638192,
      "loss": 2.1117,
      "step": 132200
    },
    {
      "epoch": 0.66105,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010219597989949748,
      "loss": 2.1029,
      "step": 132210
    },
    {
      "epoch": 0.6611,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010218090452261306,
      "loss": 2.0693,
      "step": 132220
    },
    {
      "epoch": 0.66115,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010216582914572864,
      "loss": 2.0589,
      "step": 132230
    },
    {
      "epoch": 0.6612,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010215075376884422,
      "loss": 2.1134,
      "step": 132240
    },
    {
      "epoch": 0.66125,
      "grad_norm": 0.73828125,
      "learning_rate": 0.001021356783919598,
      "loss": 2.1214,
      "step": 132250
    },
    {
      "epoch": 0.6613,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010212060301507538,
      "loss": 2.0801,
      "step": 132260
    },
    {
      "epoch": 0.66135,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010210552763819096,
      "loss": 2.082,
      "step": 132270
    },
    {
      "epoch": 0.6614,
      "grad_norm": 0.625,
      "learning_rate": 0.0010209045226130654,
      "loss": 2.0633,
      "step": 132280
    },
    {
      "epoch": 0.66145,
      "grad_norm": 0.58203125,
      "learning_rate": 0.001020753768844221,
      "loss": 2.1045,
      "step": 132290
    },
    {
      "epoch": 0.6615,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010206030150753768,
      "loss": 2.0825,
      "step": 132300
    },
    {
      "epoch": 0.66155,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010204522613065327,
      "loss": 2.0502,
      "step": 132310
    },
    {
      "epoch": 0.6616,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010203015075376885,
      "loss": 2.1424,
      "step": 132320
    },
    {
      "epoch": 0.66165,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010201507537688443,
      "loss": 2.0476,
      "step": 132330
    },
    {
      "epoch": 0.6617,
      "grad_norm": 0.65625,
      "learning_rate": 0.00102,
      "loss": 2.0981,
      "step": 132340
    },
    {
      "epoch": 0.66175,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010198492462311557,
      "loss": 2.1146,
      "step": 132350
    },
    {
      "epoch": 0.6618,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0010196984924623117,
      "loss": 2.0677,
      "step": 132360
    },
    {
      "epoch": 0.66185,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010195477386934673,
      "loss": 2.1435,
      "step": 132370
    },
    {
      "epoch": 0.6619,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001019396984924623,
      "loss": 2.0751,
      "step": 132380
    },
    {
      "epoch": 0.66195,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0010192462311557789,
      "loss": 2.1148,
      "step": 132390
    },
    {
      "epoch": 0.662,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010190954773869347,
      "loss": 2.0549,
      "step": 132400
    },
    {
      "epoch": 0.66205,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0010189447236180905,
      "loss": 2.0798,
      "step": 132410
    },
    {
      "epoch": 0.6621,
      "grad_norm": 0.5625,
      "learning_rate": 0.0010187939698492463,
      "loss": 2.1244,
      "step": 132420
    },
    {
      "epoch": 0.66215,
      "grad_norm": 0.5859375,
      "learning_rate": 0.001018643216080402,
      "loss": 2.0456,
      "step": 132430
    },
    {
      "epoch": 0.6622,
      "grad_norm": 0.578125,
      "learning_rate": 0.001018492462311558,
      "loss": 2.0845,
      "step": 132440
    },
    {
      "epoch": 0.66225,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010183417085427135,
      "loss": 2.085,
      "step": 132450
    },
    {
      "epoch": 0.6623,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010181909547738693,
      "loss": 2.0421,
      "step": 132460
    },
    {
      "epoch": 0.66235,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010180402010050251,
      "loss": 2.0595,
      "step": 132470
    },
    {
      "epoch": 0.6624,
      "grad_norm": 0.64453125,
      "learning_rate": 0.001017889447236181,
      "loss": 2.0753,
      "step": 132480
    },
    {
      "epoch": 0.66245,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010177386934673367,
      "loss": 2.1026,
      "step": 132490
    },
    {
      "epoch": 0.6625,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010175879396984925,
      "loss": 2.0782,
      "step": 132500
    },
    {
      "epoch": 0.66255,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0010174371859296481,
      "loss": 2.0805,
      "step": 132510
    },
    {
      "epoch": 0.6626,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010172864321608042,
      "loss": 2.1172,
      "step": 132520
    },
    {
      "epoch": 0.66265,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010171356783919598,
      "loss": 2.0593,
      "step": 132530
    },
    {
      "epoch": 0.6627,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010169849246231156,
      "loss": 2.031,
      "step": 132540
    },
    {
      "epoch": 0.66275,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0010168341708542714,
      "loss": 2.1089,
      "step": 132550
    },
    {
      "epoch": 0.6628,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010166834170854272,
      "loss": 2.0889,
      "step": 132560
    },
    {
      "epoch": 0.66285,
      "grad_norm": 0.5703125,
      "learning_rate": 0.001016532663316583,
      "loss": 2.1285,
      "step": 132570
    },
    {
      "epoch": 0.6629,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010163819095477388,
      "loss": 2.0862,
      "step": 132580
    },
    {
      "epoch": 0.66295,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010162311557788944,
      "loss": 2.0876,
      "step": 132590
    },
    {
      "epoch": 0.663,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010160804020100504,
      "loss": 2.1283,
      "step": 132600
    },
    {
      "epoch": 0.66305,
      "grad_norm": 0.53515625,
      "learning_rate": 0.001015929648241206,
      "loss": 2.0509,
      "step": 132610
    },
    {
      "epoch": 0.6631,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010157788944723618,
      "loss": 2.0817,
      "step": 132620
    },
    {
      "epoch": 0.66315,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0010156281407035176,
      "loss": 2.087,
      "step": 132630
    },
    {
      "epoch": 0.6632,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010154773869346734,
      "loss": 2.0775,
      "step": 132640
    },
    {
      "epoch": 0.66325,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0010153266331658292,
      "loss": 2.0972,
      "step": 132650
    },
    {
      "epoch": 0.6633,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001015175879396985,
      "loss": 2.1042,
      "step": 132660
    },
    {
      "epoch": 0.66335,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010150251256281406,
      "loss": 2.0795,
      "step": 132670
    },
    {
      "epoch": 0.6634,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010148743718592966,
      "loss": 2.0421,
      "step": 132680
    },
    {
      "epoch": 0.66345,
      "grad_norm": 0.625,
      "learning_rate": 0.0010147236180904522,
      "loss": 2.1237,
      "step": 132690
    },
    {
      "epoch": 0.6635,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001014572864321608,
      "loss": 2.0613,
      "step": 132700
    },
    {
      "epoch": 0.66355,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010144221105527638,
      "loss": 2.1412,
      "step": 132710
    },
    {
      "epoch": 0.6636,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010142713567839196,
      "loss": 2.122,
      "step": 132720
    },
    {
      "epoch": 0.66365,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010141206030150755,
      "loss": 2.1266,
      "step": 132730
    },
    {
      "epoch": 0.6637,
      "grad_norm": 0.671875,
      "learning_rate": 0.0010139698492462313,
      "loss": 2.1126,
      "step": 132740
    },
    {
      "epoch": 0.66375,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010138190954773869,
      "loss": 2.0542,
      "step": 132750
    },
    {
      "epoch": 0.6638,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010136683417085429,
      "loss": 2.0967,
      "step": 132760
    },
    {
      "epoch": 0.66385,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0010135175879396985,
      "loss": 2.0457,
      "step": 132770
    },
    {
      "epoch": 0.6639,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010133668341708543,
      "loss": 2.0732,
      "step": 132780
    },
    {
      "epoch": 0.66395,
      "grad_norm": 0.59375,
      "learning_rate": 0.00101321608040201,
      "loss": 2.0899,
      "step": 132790
    },
    {
      "epoch": 0.664,
      "grad_norm": 0.640625,
      "learning_rate": 0.0010130653266331659,
      "loss": 2.0847,
      "step": 132800
    },
    {
      "epoch": 0.66405,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010129145728643217,
      "loss": 2.1137,
      "step": 132810
    },
    {
      "epoch": 0.6641,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010127638190954775,
      "loss": 2.0552,
      "step": 132820
    },
    {
      "epoch": 0.66415,
      "grad_norm": 0.5625,
      "learning_rate": 0.001012613065326633,
      "loss": 2.1257,
      "step": 132830
    },
    {
      "epoch": 0.6642,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010124623115577891,
      "loss": 2.108,
      "step": 132840
    },
    {
      "epoch": 0.66425,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0010123115577889447,
      "loss": 2.0532,
      "step": 132850
    },
    {
      "epoch": 0.6643,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0010121608040201005,
      "loss": 2.0756,
      "step": 132860
    },
    {
      "epoch": 0.66435,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010120100502512563,
      "loss": 2.0882,
      "step": 132870
    },
    {
      "epoch": 0.6644,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010118592964824121,
      "loss": 2.0792,
      "step": 132880
    },
    {
      "epoch": 0.66445,
      "grad_norm": 0.60546875,
      "learning_rate": 0.001011708542713568,
      "loss": 2.0764,
      "step": 132890
    },
    {
      "epoch": 0.6645,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0010115577889447235,
      "loss": 2.0471,
      "step": 132900
    },
    {
      "epoch": 0.66455,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0010114070351758793,
      "loss": 2.0868,
      "step": 132910
    },
    {
      "epoch": 0.6646,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010112562814070351,
      "loss": 2.1073,
      "step": 132920
    },
    {
      "epoch": 0.66465,
      "grad_norm": 0.6484375,
      "learning_rate": 0.001011105527638191,
      "loss": 2.1134,
      "step": 132930
    },
    {
      "epoch": 0.6647,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010109547738693467,
      "loss": 2.1077,
      "step": 132940
    },
    {
      "epoch": 0.66475,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010108040201005026,
      "loss": 2.0656,
      "step": 132950
    },
    {
      "epoch": 0.6648,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0010106532663316584,
      "loss": 2.0438,
      "step": 132960
    },
    {
      "epoch": 0.66485,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010105025125628142,
      "loss": 2.1011,
      "step": 132970
    },
    {
      "epoch": 0.6649,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010103517587939698,
      "loss": 2.086,
      "step": 132980
    },
    {
      "epoch": 0.66495,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010102010050251256,
      "loss": 2.1091,
      "step": 132990
    },
    {
      "epoch": 0.665,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0010100502512562814,
      "loss": 2.0856,
      "step": 133000
    },
    {
      "epoch": 0.66505,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0010098994974874372,
      "loss": 2.1101,
      "step": 133010
    },
    {
      "epoch": 0.6651,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001009748743718593,
      "loss": 2.0727,
      "step": 133020
    },
    {
      "epoch": 0.66515,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010095979899497488,
      "loss": 2.0794,
      "step": 133030
    },
    {
      "epoch": 0.6652,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010094472361809046,
      "loss": 2.2061,
      "step": 133040
    },
    {
      "epoch": 0.66525,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010092964824120604,
      "loss": 2.077,
      "step": 133050
    },
    {
      "epoch": 0.6653,
      "grad_norm": 0.55078125,
      "learning_rate": 0.001009145728643216,
      "loss": 2.073,
      "step": 133060
    },
    {
      "epoch": 0.66535,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010089949748743718,
      "loss": 2.0997,
      "step": 133070
    },
    {
      "epoch": 0.6654,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010088442211055276,
      "loss": 2.0591,
      "step": 133080
    },
    {
      "epoch": 0.66545,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0010086934673366834,
      "loss": 2.0835,
      "step": 133090
    },
    {
      "epoch": 0.6655,
      "grad_norm": 0.703125,
      "learning_rate": 0.0010085427135678392,
      "loss": 2.1025,
      "step": 133100
    },
    {
      "epoch": 0.66555,
      "grad_norm": 0.671875,
      "learning_rate": 0.001008391959798995,
      "loss": 2.0674,
      "step": 133110
    },
    {
      "epoch": 0.6656,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010082412060301508,
      "loss": 2.0698,
      "step": 133120
    },
    {
      "epoch": 0.66565,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0010080904522613066,
      "loss": 2.0839,
      "step": 133130
    },
    {
      "epoch": 0.6657,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010079396984924622,
      "loss": 2.0686,
      "step": 133140
    },
    {
      "epoch": 0.66575,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001007788944723618,
      "loss": 2.0967,
      "step": 133150
    },
    {
      "epoch": 0.6658,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010076381909547738,
      "loss": 2.0995,
      "step": 133160
    },
    {
      "epoch": 0.66585,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0010074874371859297,
      "loss": 2.094,
      "step": 133170
    },
    {
      "epoch": 0.6659,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010073366834170855,
      "loss": 2.0372,
      "step": 133180
    },
    {
      "epoch": 0.66595,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010071859296482413,
      "loss": 2.0813,
      "step": 133190
    },
    {
      "epoch": 0.666,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001007035175879397,
      "loss": 2.0629,
      "step": 133200
    },
    {
      "epoch": 0.66605,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010068844221105529,
      "loss": 2.061,
      "step": 133210
    },
    {
      "epoch": 0.6661,
      "grad_norm": 0.578125,
      "learning_rate": 0.0010067336683417085,
      "loss": 2.0853,
      "step": 133220
    },
    {
      "epoch": 0.66615,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010065829145728643,
      "loss": 2.0814,
      "step": 133230
    },
    {
      "epoch": 0.6662,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00100643216080402,
      "loss": 2.0839,
      "step": 133240
    },
    {
      "epoch": 0.66625,
      "grad_norm": 0.578125,
      "learning_rate": 0.001006281407035176,
      "loss": 2.0602,
      "step": 133250
    },
    {
      "epoch": 0.6663,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010061306532663317,
      "loss": 2.079,
      "step": 133260
    },
    {
      "epoch": 0.66635,
      "grad_norm": 0.59375,
      "learning_rate": 0.0010059798994974875,
      "loss": 2.1121,
      "step": 133270
    },
    {
      "epoch": 0.6664,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001005829145728643,
      "loss": 2.0581,
      "step": 133280
    },
    {
      "epoch": 0.66645,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010056783919597991,
      "loss": 2.1527,
      "step": 133290
    },
    {
      "epoch": 0.6665,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010055276381909547,
      "loss": 2.1474,
      "step": 133300
    },
    {
      "epoch": 0.66655,
      "grad_norm": 0.671875,
      "learning_rate": 0.0010053768844221105,
      "loss": 2.0886,
      "step": 133310
    },
    {
      "epoch": 0.6666,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0010052261306532663,
      "loss": 2.1043,
      "step": 133320
    },
    {
      "epoch": 0.66665,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010050753768844221,
      "loss": 2.0798,
      "step": 133330
    },
    {
      "epoch": 0.6667,
      "grad_norm": 0.59375,
      "learning_rate": 0.001004924623115578,
      "loss": 2.0782,
      "step": 133340
    },
    {
      "epoch": 0.66675,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010047738693467337,
      "loss": 2.0984,
      "step": 133350
    },
    {
      "epoch": 0.6668,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0010046231155778893,
      "loss": 2.0631,
      "step": 133360
    },
    {
      "epoch": 0.66685,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0010044723618090454,
      "loss": 2.1189,
      "step": 133370
    },
    {
      "epoch": 0.6669,
      "grad_norm": 0.58984375,
      "learning_rate": 0.001004321608040201,
      "loss": 2.0827,
      "step": 133380
    },
    {
      "epoch": 0.66695,
      "grad_norm": 0.609375,
      "learning_rate": 0.0010041708542713568,
      "loss": 2.082,
      "step": 133390
    },
    {
      "epoch": 0.667,
      "grad_norm": 0.765625,
      "learning_rate": 0.0010040201005025126,
      "loss": 2.0779,
      "step": 133400
    },
    {
      "epoch": 0.66705,
      "grad_norm": 0.6875,
      "learning_rate": 0.0010038693467336684,
      "loss": 2.0466,
      "step": 133410
    },
    {
      "epoch": 0.6671,
      "grad_norm": 0.625,
      "learning_rate": 0.0010037185929648242,
      "loss": 2.0983,
      "step": 133420
    },
    {
      "epoch": 0.66715,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00100356783919598,
      "loss": 2.0768,
      "step": 133430
    },
    {
      "epoch": 0.6672,
      "grad_norm": 0.625,
      "learning_rate": 0.0010034170854271356,
      "loss": 2.0876,
      "step": 133440
    },
    {
      "epoch": 0.66725,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0010032663316582916,
      "loss": 2.0386,
      "step": 133450
    },
    {
      "epoch": 0.6673,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0010031155778894472,
      "loss": 2.0687,
      "step": 133460
    },
    {
      "epoch": 0.66735,
      "grad_norm": 0.63671875,
      "learning_rate": 0.001002964824120603,
      "loss": 2.1339,
      "step": 133470
    },
    {
      "epoch": 0.6674,
      "grad_norm": 0.5625,
      "learning_rate": 0.0010028140703517588,
      "loss": 2.1151,
      "step": 133480
    },
    {
      "epoch": 0.66745,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010026633165829146,
      "loss": 2.1051,
      "step": 133490
    },
    {
      "epoch": 0.6675,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0010025125628140704,
      "loss": 2.0905,
      "step": 133500
    },
    {
      "epoch": 0.66755,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0010023618090452262,
      "loss": 2.0832,
      "step": 133510
    },
    {
      "epoch": 0.6676,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0010022110552763818,
      "loss": 2.1072,
      "step": 133520
    },
    {
      "epoch": 0.66765,
      "grad_norm": 0.65625,
      "learning_rate": 0.0010020603015075378,
      "loss": 2.092,
      "step": 133530
    },
    {
      "epoch": 0.6677,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0010019095477386934,
      "loss": 2.034,
      "step": 133540
    },
    {
      "epoch": 0.66775,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0010017587939698492,
      "loss": 2.1744,
      "step": 133550
    },
    {
      "epoch": 0.6678,
      "grad_norm": 0.6328125,
      "learning_rate": 0.001001608040201005,
      "loss": 2.0839,
      "step": 133560
    },
    {
      "epoch": 0.66785,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0010014572864321608,
      "loss": 2.066,
      "step": 133570
    },
    {
      "epoch": 0.6679,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0010013065326633167,
      "loss": 2.0397,
      "step": 133580
    },
    {
      "epoch": 0.66795,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0010011557788944725,
      "loss": 2.0591,
      "step": 133590
    },
    {
      "epoch": 0.668,
      "grad_norm": 0.6640625,
      "learning_rate": 0.001001005025125628,
      "loss": 2.0944,
      "step": 133600
    },
    {
      "epoch": 0.66805,
      "grad_norm": 0.65234375,
      "learning_rate": 0.001000854271356784,
      "loss": 2.0828,
      "step": 133610
    },
    {
      "epoch": 0.6681,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0010007035175879397,
      "loss": 2.1097,
      "step": 133620
    },
    {
      "epoch": 0.66815,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0010005527638190955,
      "loss": 2.1362,
      "step": 133630
    },
    {
      "epoch": 0.6682,
      "grad_norm": 0.671875,
      "learning_rate": 0.0010004020100502513,
      "loss": 2.0512,
      "step": 133640
    },
    {
      "epoch": 0.66825,
      "grad_norm": 0.59765625,
      "learning_rate": 0.001000251256281407,
      "loss": 2.0973,
      "step": 133650
    },
    {
      "epoch": 0.6683,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0010001005025125629,
      "loss": 2.0806,
      "step": 133660
    },
    {
      "epoch": 0.66835,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009999497487437187,
      "loss": 2.1003,
      "step": 133670
    },
    {
      "epoch": 0.6684,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009997989949748743,
      "loss": 2.1278,
      "step": 133680
    },
    {
      "epoch": 0.66845,
      "grad_norm": 0.625,
      "learning_rate": 0.0009996482412060303,
      "loss": 2.1173,
      "step": 133690
    },
    {
      "epoch": 0.6685,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000999497487437186,
      "loss": 2.0805,
      "step": 133700
    },
    {
      "epoch": 0.66855,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009993467336683417,
      "loss": 2.0646,
      "step": 133710
    },
    {
      "epoch": 0.6686,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009991959798994975,
      "loss": 2.0972,
      "step": 133720
    },
    {
      "epoch": 0.66865,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009990452261306533,
      "loss": 2.0914,
      "step": 133730
    },
    {
      "epoch": 0.6687,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009988944723618091,
      "loss": 2.1339,
      "step": 133740
    },
    {
      "epoch": 0.66875,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000998743718592965,
      "loss": 2.1265,
      "step": 133750
    },
    {
      "epoch": 0.6688,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0009985929648241205,
      "loss": 2.0809,
      "step": 133760
    },
    {
      "epoch": 0.66885,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0009984422110552765,
      "loss": 2.0894,
      "step": 133770
    },
    {
      "epoch": 0.6689,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009982914572864321,
      "loss": 2.139,
      "step": 133780
    },
    {
      "epoch": 0.66895,
      "grad_norm": 0.625,
      "learning_rate": 0.000998140703517588,
      "loss": 2.0718,
      "step": 133790
    },
    {
      "epoch": 0.669,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009979899497487438,
      "loss": 2.169,
      "step": 133800
    },
    {
      "epoch": 0.66905,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009978391959798996,
      "loss": 2.0811,
      "step": 133810
    },
    {
      "epoch": 0.6691,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009976884422110554,
      "loss": 2.0242,
      "step": 133820
    },
    {
      "epoch": 0.66915,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009975376884422112,
      "loss": 2.1297,
      "step": 133830
    },
    {
      "epoch": 0.6692,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009973869346733668,
      "loss": 2.0787,
      "step": 133840
    },
    {
      "epoch": 0.66925,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009972361809045226,
      "loss": 2.0922,
      "step": 133850
    },
    {
      "epoch": 0.6693,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009970854271356784,
      "loss": 2.0817,
      "step": 133860
    },
    {
      "epoch": 0.66935,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009969346733668342,
      "loss": 2.0839,
      "step": 133870
    },
    {
      "epoch": 0.6694,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00099678391959799,
      "loss": 2.0767,
      "step": 133880
    },
    {
      "epoch": 0.66945,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009966331658291458,
      "loss": 2.055,
      "step": 133890
    },
    {
      "epoch": 0.6695,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009964824120603016,
      "loss": 2.0881,
      "step": 133900
    },
    {
      "epoch": 0.66955,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009963316582914574,
      "loss": 2.1103,
      "step": 133910
    },
    {
      "epoch": 0.6696,
      "grad_norm": 0.65625,
      "learning_rate": 0.000996180904522613,
      "loss": 2.1014,
      "step": 133920
    },
    {
      "epoch": 0.66965,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009960301507537688,
      "loss": 2.0905,
      "step": 133930
    },
    {
      "epoch": 0.6697,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009958793969849246,
      "loss": 2.0886,
      "step": 133940
    },
    {
      "epoch": 0.66975,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009957286432160804,
      "loss": 2.1507,
      "step": 133950
    },
    {
      "epoch": 0.6698,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009955778894472362,
      "loss": 2.1119,
      "step": 133960
    },
    {
      "epoch": 0.66985,
      "grad_norm": 0.69140625,
      "learning_rate": 0.000995427135678392,
      "loss": 2.1226,
      "step": 133970
    },
    {
      "epoch": 0.6699,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009952763819095478,
      "loss": 2.0808,
      "step": 133980
    },
    {
      "epoch": 0.66995,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009951256281407036,
      "loss": 2.0325,
      "step": 133990
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009949748743718592,
      "loss": 2.0932,
      "step": 134000
    },
    {
      "epoch": 0.67,
      "eval_loss": 2.082355499267578,
      "eval_runtime": 46.966,
      "eval_samples_per_second": 53.23,
      "eval_steps_per_second": 0.106,
      "step": 134000
    },
    {
      "epoch": 0.67005,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000994824120603015,
      "loss": 2.145,
      "step": 134010
    },
    {
      "epoch": 0.6701,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009946733668341709,
      "loss": 2.0825,
      "step": 134020
    },
    {
      "epoch": 0.67015,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009945226130653267,
      "loss": 2.0812,
      "step": 134030
    },
    {
      "epoch": 0.6702,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009943718592964825,
      "loss": 2.0548,
      "step": 134040
    },
    {
      "epoch": 0.67025,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009942211055276383,
      "loss": 2.102,
      "step": 134050
    },
    {
      "epoch": 0.6703,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000994070351758794,
      "loss": 2.1303,
      "step": 134060
    },
    {
      "epoch": 0.67035,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0009939195979899497,
      "loss": 2.0871,
      "step": 134070
    },
    {
      "epoch": 0.6704,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009937688442211055,
      "loss": 2.1101,
      "step": 134080
    },
    {
      "epoch": 0.67045,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009936180904522613,
      "loss": 2.1162,
      "step": 134090
    },
    {
      "epoch": 0.6705,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000993467336683417,
      "loss": 2.0994,
      "step": 134100
    },
    {
      "epoch": 0.67055,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000993316582914573,
      "loss": 2.1057,
      "step": 134110
    },
    {
      "epoch": 0.6706,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0009931658291457287,
      "loss": 2.0609,
      "step": 134120
    },
    {
      "epoch": 0.67065,
      "grad_norm": 0.734375,
      "learning_rate": 0.0009930150753768845,
      "loss": 2.1136,
      "step": 134130
    },
    {
      "epoch": 0.6707,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009928643216080403,
      "loss": 2.0676,
      "step": 134140
    },
    {
      "epoch": 0.67075,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000992713567839196,
      "loss": 2.0919,
      "step": 134150
    },
    {
      "epoch": 0.6708,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009925628140703517,
      "loss": 2.0641,
      "step": 134160
    },
    {
      "epoch": 0.67085,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009924120603015075,
      "loss": 2.0967,
      "step": 134170
    },
    {
      "epoch": 0.6709,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0009922613065326633,
      "loss": 2.0973,
      "step": 134180
    },
    {
      "epoch": 0.67095,
      "grad_norm": 0.625,
      "learning_rate": 0.0009921105527638191,
      "loss": 2.1045,
      "step": 134190
    },
    {
      "epoch": 0.671,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000991959798994975,
      "loss": 2.0706,
      "step": 134200
    },
    {
      "epoch": 0.67105,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009918090452261305,
      "loss": 2.0981,
      "step": 134210
    },
    {
      "epoch": 0.6711,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0009916582914572866,
      "loss": 2.0913,
      "step": 134220
    },
    {
      "epoch": 0.67115,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009915075376884421,
      "loss": 2.092,
      "step": 134230
    },
    {
      "epoch": 0.6712,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000991356783919598,
      "loss": 2.143,
      "step": 134240
    },
    {
      "epoch": 0.67125,
      "grad_norm": 0.671875,
      "learning_rate": 0.0009912060301507538,
      "loss": 2.0851,
      "step": 134250
    },
    {
      "epoch": 0.6713,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0009910552763819096,
      "loss": 2.0882,
      "step": 134260
    },
    {
      "epoch": 0.67135,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009909045226130654,
      "loss": 2.0805,
      "step": 134270
    },
    {
      "epoch": 0.6714,
      "grad_norm": 0.671875,
      "learning_rate": 0.0009907537688442212,
      "loss": 2.1147,
      "step": 134280
    },
    {
      "epoch": 0.67145,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009906030150753768,
      "loss": 2.078,
      "step": 134290
    },
    {
      "epoch": 0.6715,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009904522613065328,
      "loss": 2.0948,
      "step": 134300
    },
    {
      "epoch": 0.67155,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009903015075376884,
      "loss": 2.1149,
      "step": 134310
    },
    {
      "epoch": 0.6716,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009901507537688442,
      "loss": 2.0931,
      "step": 134320
    },
    {
      "epoch": 0.67165,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00099,
      "loss": 2.0865,
      "step": 134330
    },
    {
      "epoch": 0.6717,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009898492462311558,
      "loss": 2.0955,
      "step": 134340
    },
    {
      "epoch": 0.67175,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009896984924623116,
      "loss": 2.0799,
      "step": 134350
    },
    {
      "epoch": 0.6718,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009895477386934674,
      "loss": 2.1128,
      "step": 134360
    },
    {
      "epoch": 0.67185,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000989396984924623,
      "loss": 2.0437,
      "step": 134370
    },
    {
      "epoch": 0.6719,
      "grad_norm": 0.66015625,
      "learning_rate": 0.000989246231155779,
      "loss": 2.05,
      "step": 134380
    },
    {
      "epoch": 0.67195,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009890954773869346,
      "loss": 2.1031,
      "step": 134390
    },
    {
      "epoch": 0.672,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009889447236180904,
      "loss": 2.1368,
      "step": 134400
    },
    {
      "epoch": 0.67205,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009887939698492462,
      "loss": 2.1053,
      "step": 134410
    },
    {
      "epoch": 0.6721,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000988643216080402,
      "loss": 2.0952,
      "step": 134420
    },
    {
      "epoch": 0.67215,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0009884924623115578,
      "loss": 2.0377,
      "step": 134430
    },
    {
      "epoch": 0.6722,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009883417085427137,
      "loss": 2.0625,
      "step": 134440
    },
    {
      "epoch": 0.67225,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009881909547738692,
      "loss": 2.0802,
      "step": 134450
    },
    {
      "epoch": 0.6723,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009880402010050253,
      "loss": 2.1042,
      "step": 134460
    },
    {
      "epoch": 0.67235,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009878894472361809,
      "loss": 2.1163,
      "step": 134470
    },
    {
      "epoch": 0.6724,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009877386934673367,
      "loss": 2.0646,
      "step": 134480
    },
    {
      "epoch": 0.67245,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009875879396984925,
      "loss": 2.0767,
      "step": 134490
    },
    {
      "epoch": 0.6725,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009874371859296483,
      "loss": 2.088,
      "step": 134500
    },
    {
      "epoch": 0.67255,
      "grad_norm": 0.640625,
      "learning_rate": 0.000987286432160804,
      "loss": 2.0771,
      "step": 134510
    },
    {
      "epoch": 0.6726,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009871356783919599,
      "loss": 2.1101,
      "step": 134520
    },
    {
      "epoch": 0.67265,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009869849246231155,
      "loss": 2.1249,
      "step": 134530
    },
    {
      "epoch": 0.6727,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009868341708542715,
      "loss": 2.0869,
      "step": 134540
    },
    {
      "epoch": 0.67275,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000986683417085427,
      "loss": 2.0928,
      "step": 134550
    },
    {
      "epoch": 0.6728,
      "grad_norm": 0.609375,
      "learning_rate": 0.000986532663316583,
      "loss": 2.1091,
      "step": 134560
    },
    {
      "epoch": 0.67285,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009863819095477387,
      "loss": 2.0934,
      "step": 134570
    },
    {
      "epoch": 0.6729,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009862311557788945,
      "loss": 2.1005,
      "step": 134580
    },
    {
      "epoch": 0.67295,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0009860804020100503,
      "loss": 2.0991,
      "step": 134590
    },
    {
      "epoch": 0.673,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0009859296482412061,
      "loss": 2.061,
      "step": 134600
    },
    {
      "epoch": 0.67305,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009857788944723617,
      "loss": 2.1042,
      "step": 134610
    },
    {
      "epoch": 0.6731,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009856281407035177,
      "loss": 2.1045,
      "step": 134620
    },
    {
      "epoch": 0.67315,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0009854773869346733,
      "loss": 2.0928,
      "step": 134630
    },
    {
      "epoch": 0.6732,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0009853266331658291,
      "loss": 2.0703,
      "step": 134640
    },
    {
      "epoch": 0.67325,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000985175879396985,
      "loss": 2.0895,
      "step": 134650
    },
    {
      "epoch": 0.6733,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009850251256281408,
      "loss": 2.1567,
      "step": 134660
    },
    {
      "epoch": 0.67335,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0009848743718592966,
      "loss": 2.039,
      "step": 134670
    },
    {
      "epoch": 0.6734,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009847236180904524,
      "loss": 2.1372,
      "step": 134680
    },
    {
      "epoch": 0.67345,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000984572864321608,
      "loss": 2.0993,
      "step": 134690
    },
    {
      "epoch": 0.6735,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000984422110552764,
      "loss": 2.1122,
      "step": 134700
    },
    {
      "epoch": 0.67355,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009842713567839196,
      "loss": 2.0619,
      "step": 134710
    },
    {
      "epoch": 0.6736,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009841206030150754,
      "loss": 2.0816,
      "step": 134720
    },
    {
      "epoch": 0.67365,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0009839698492462312,
      "loss": 2.088,
      "step": 134730
    },
    {
      "epoch": 0.6737,
      "grad_norm": 0.5625,
      "learning_rate": 0.000983819095477387,
      "loss": 2.0439,
      "step": 134740
    },
    {
      "epoch": 0.67375,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009836683417085428,
      "loss": 2.095,
      "step": 134750
    },
    {
      "epoch": 0.6738,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009835175879396986,
      "loss": 2.1313,
      "step": 134760
    },
    {
      "epoch": 0.67385,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0009833668341708542,
      "loss": 2.1073,
      "step": 134770
    },
    {
      "epoch": 0.6739,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00098321608040201,
      "loss": 2.0638,
      "step": 134780
    },
    {
      "epoch": 0.67395,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009830653266331658,
      "loss": 2.1388,
      "step": 134790
    },
    {
      "epoch": 0.674,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009829145728643216,
      "loss": 2.0821,
      "step": 134800
    },
    {
      "epoch": 0.67405,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009827638190954774,
      "loss": 2.1367,
      "step": 134810
    },
    {
      "epoch": 0.6741,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009826130653266332,
      "loss": 2.1114,
      "step": 134820
    },
    {
      "epoch": 0.67415,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000982462311557789,
      "loss": 2.0759,
      "step": 134830
    },
    {
      "epoch": 0.6742,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009823115577889448,
      "loss": 2.1636,
      "step": 134840
    },
    {
      "epoch": 0.67425,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009821608040201004,
      "loss": 2.0874,
      "step": 134850
    },
    {
      "epoch": 0.6743,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009820100502512562,
      "loss": 2.1164,
      "step": 134860
    },
    {
      "epoch": 0.67435,
      "grad_norm": 0.625,
      "learning_rate": 0.000981859296482412,
      "loss": 2.0629,
      "step": 134870
    },
    {
      "epoch": 0.6744,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009817085427135679,
      "loss": 2.1008,
      "step": 134880
    },
    {
      "epoch": 0.67445,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009815577889447237,
      "loss": 2.1144,
      "step": 134890
    },
    {
      "epoch": 0.6745,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009814070351758795,
      "loss": 2.1018,
      "step": 134900
    },
    {
      "epoch": 0.67455,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0009812562814070353,
      "loss": 2.0854,
      "step": 134910
    },
    {
      "epoch": 0.6746,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000981105527638191,
      "loss": 2.1137,
      "step": 134920
    },
    {
      "epoch": 0.67465,
      "grad_norm": 0.703125,
      "learning_rate": 0.0009809547738693467,
      "loss": 2.0978,
      "step": 134930
    },
    {
      "epoch": 0.6747,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009808040201005025,
      "loss": 2.1475,
      "step": 134940
    },
    {
      "epoch": 0.67475,
      "grad_norm": 0.546875,
      "learning_rate": 0.0009806532663316583,
      "loss": 2.1949,
      "step": 134950
    },
    {
      "epoch": 0.6748,
      "grad_norm": 0.7265625,
      "learning_rate": 0.000980502512562814,
      "loss": 2.1297,
      "step": 134960
    },
    {
      "epoch": 0.67485,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00098035175879397,
      "loss": 2.1578,
      "step": 134970
    },
    {
      "epoch": 0.6749,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009802010050251257,
      "loss": 2.0704,
      "step": 134980
    },
    {
      "epoch": 0.67495,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009800502512562815,
      "loss": 2.0879,
      "step": 134990
    },
    {
      "epoch": 0.675,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009798994974874373,
      "loss": 2.1522,
      "step": 135000
    },
    {
      "epoch": 0.67505,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000979748743718593,
      "loss": 2.0846,
      "step": 135010
    },
    {
      "epoch": 0.6751,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0009795979899497487,
      "loss": 2.1047,
      "step": 135020
    },
    {
      "epoch": 0.67515,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009794472361809045,
      "loss": 2.1204,
      "step": 135030
    },
    {
      "epoch": 0.6752,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009792964824120603,
      "loss": 2.101,
      "step": 135040
    },
    {
      "epoch": 0.67525,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009791457286432161,
      "loss": 2.0949,
      "step": 135050
    },
    {
      "epoch": 0.6753,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000978994974874372,
      "loss": 2.0634,
      "step": 135060
    },
    {
      "epoch": 0.67535,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009788442211055277,
      "loss": 2.0365,
      "step": 135070
    },
    {
      "epoch": 0.6754,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009786934673366836,
      "loss": 2.1111,
      "step": 135080
    },
    {
      "epoch": 0.67545,
      "grad_norm": 0.76171875,
      "learning_rate": 0.0009785427135678391,
      "loss": 2.0749,
      "step": 135090
    },
    {
      "epoch": 0.6755,
      "grad_norm": 0.640625,
      "learning_rate": 0.000978391959798995,
      "loss": 2.1738,
      "step": 135100
    },
    {
      "epoch": 0.67555,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009782412060301508,
      "loss": 2.0696,
      "step": 135110
    },
    {
      "epoch": 0.6756,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009780904522613066,
      "loss": 2.0797,
      "step": 135120
    },
    {
      "epoch": 0.67565,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009779396984924624,
      "loss": 2.1011,
      "step": 135130
    },
    {
      "epoch": 0.6757,
      "grad_norm": 0.609375,
      "learning_rate": 0.000977788944723618,
      "loss": 2.1307,
      "step": 135140
    },
    {
      "epoch": 0.67575,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000977638190954774,
      "loss": 2.0989,
      "step": 135150
    },
    {
      "epoch": 0.6758,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0009774874371859298,
      "loss": 2.1063,
      "step": 135160
    },
    {
      "epoch": 0.67585,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009773366834170854,
      "loss": 2.1185,
      "step": 135170
    },
    {
      "epoch": 0.6759,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009771859296482412,
      "loss": 2.0766,
      "step": 135180
    },
    {
      "epoch": 0.67595,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000977035175879397,
      "loss": 2.0995,
      "step": 135190
    },
    {
      "epoch": 0.676,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009768844221105528,
      "loss": 2.124,
      "step": 135200
    },
    {
      "epoch": 0.67605,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009767336683417086,
      "loss": 2.087,
      "step": 135210
    },
    {
      "epoch": 0.6761,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0009765829145728642,
      "loss": 2.071,
      "step": 135220
    },
    {
      "epoch": 0.67615,
      "grad_norm": 0.5625,
      "learning_rate": 0.0009764321608040201,
      "loss": 2.0851,
      "step": 135230
    },
    {
      "epoch": 0.6762,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009762814070351758,
      "loss": 2.1078,
      "step": 135240
    },
    {
      "epoch": 0.67625,
      "grad_norm": 0.625,
      "learning_rate": 0.0009761306532663316,
      "loss": 2.0672,
      "step": 135250
    },
    {
      "epoch": 0.6763,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009759798994974875,
      "loss": 2.1112,
      "step": 135260
    },
    {
      "epoch": 0.67635,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009758291457286431,
      "loss": 2.0936,
      "step": 135270
    },
    {
      "epoch": 0.6764,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000975678391959799,
      "loss": 2.0488,
      "step": 135280
    },
    {
      "epoch": 0.67645,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009755276381909548,
      "loss": 2.1165,
      "step": 135290
    },
    {
      "epoch": 0.6765,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009753768844221105,
      "loss": 2.0563,
      "step": 135300
    },
    {
      "epoch": 0.67655,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0009752261306532664,
      "loss": 2.1115,
      "step": 135310
    },
    {
      "epoch": 0.6766,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000975075376884422,
      "loss": 2.0899,
      "step": 135320
    },
    {
      "epoch": 0.67665,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009749246231155779,
      "loss": 2.1226,
      "step": 135330
    },
    {
      "epoch": 0.6767,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009747738693467338,
      "loss": 2.096,
      "step": 135340
    },
    {
      "epoch": 0.67675,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009746231155778894,
      "loss": 2.0819,
      "step": 135350
    },
    {
      "epoch": 0.6768,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009744723618090453,
      "loss": 2.0718,
      "step": 135360
    },
    {
      "epoch": 0.67685,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0009743216080402011,
      "loss": 2.0921,
      "step": 135370
    },
    {
      "epoch": 0.6769,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009741708542713568,
      "loss": 2.0682,
      "step": 135380
    },
    {
      "epoch": 0.67695,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009740201005025126,
      "loss": 2.0911,
      "step": 135390
    },
    {
      "epoch": 0.677,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009738693467336683,
      "loss": 2.1207,
      "step": 135400
    },
    {
      "epoch": 0.67705,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0009737185929648241,
      "loss": 2.0953,
      "step": 135410
    },
    {
      "epoch": 0.6771,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00097356783919598,
      "loss": 2.1247,
      "step": 135420
    },
    {
      "epoch": 0.67715,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009734170854271356,
      "loss": 2.1038,
      "step": 135430
    },
    {
      "epoch": 0.6772,
      "grad_norm": 0.5625,
      "learning_rate": 0.0009732663316582915,
      "loss": 2.0855,
      "step": 135440
    },
    {
      "epoch": 0.67725,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009731155778894473,
      "loss": 2.0909,
      "step": 135450
    },
    {
      "epoch": 0.6773,
      "grad_norm": 0.5703125,
      "learning_rate": 0.000972964824120603,
      "loss": 2.1027,
      "step": 135460
    },
    {
      "epoch": 0.67735,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009728140703517588,
      "loss": 2.1318,
      "step": 135470
    },
    {
      "epoch": 0.6774,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009726633165829145,
      "loss": 2.0815,
      "step": 135480
    },
    {
      "epoch": 0.67745,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009725125628140703,
      "loss": 2.0721,
      "step": 135490
    },
    {
      "epoch": 0.6775,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009723618090452262,
      "loss": 2.1141,
      "step": 135500
    },
    {
      "epoch": 0.67755,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0009722110552763818,
      "loss": 2.0534,
      "step": 135510
    },
    {
      "epoch": 0.6776,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0009720603015075378,
      "loss": 2.1264,
      "step": 135520
    },
    {
      "epoch": 0.67765,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009719095477386936,
      "loss": 2.1159,
      "step": 135530
    },
    {
      "epoch": 0.6777,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009717587939698493,
      "loss": 2.0859,
      "step": 135540
    },
    {
      "epoch": 0.67775,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0009716080402010051,
      "loss": 2.1159,
      "step": 135550
    },
    {
      "epoch": 0.6778,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009714572864321608,
      "loss": 2.1137,
      "step": 135560
    },
    {
      "epoch": 0.67785,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0009713065326633166,
      "loss": 2.0754,
      "step": 135570
    },
    {
      "epoch": 0.6779,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0009711557788944724,
      "loss": 2.068,
      "step": 135580
    },
    {
      "epoch": 0.67795,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009710050251256281,
      "loss": 2.0512,
      "step": 135590
    },
    {
      "epoch": 0.678,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000970854271356784,
      "loss": 2.0806,
      "step": 135600
    },
    {
      "epoch": 0.67805,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009707035175879398,
      "loss": 2.0829,
      "step": 135610
    },
    {
      "epoch": 0.6781,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009705527638190955,
      "loss": 2.0542,
      "step": 135620
    },
    {
      "epoch": 0.67815,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009704020100502513,
      "loss": 2.072,
      "step": 135630
    },
    {
      "epoch": 0.6782,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000970251256281407,
      "loss": 2.0852,
      "step": 135640
    },
    {
      "epoch": 0.67825,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0009701005025125628,
      "loss": 2.0635,
      "step": 135650
    },
    {
      "epoch": 0.6783,
      "grad_norm": 0.546875,
      "learning_rate": 0.0009699497487437186,
      "loss": 2.1262,
      "step": 135660
    },
    {
      "epoch": 0.67835,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009697989949748743,
      "loss": 2.109,
      "step": 135670
    },
    {
      "epoch": 0.6784,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009696482412060302,
      "loss": 2.0863,
      "step": 135680
    },
    {
      "epoch": 0.67845,
      "grad_norm": 0.70703125,
      "learning_rate": 0.000969497487437186,
      "loss": 2.08,
      "step": 135690
    },
    {
      "epoch": 0.6785,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009693467336683417,
      "loss": 2.0699,
      "step": 135700
    },
    {
      "epoch": 0.67855,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009691959798994975,
      "loss": 2.1015,
      "step": 135710
    },
    {
      "epoch": 0.6786,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009690452261306532,
      "loss": 2.1006,
      "step": 135720
    },
    {
      "epoch": 0.67865,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000968894472361809,
      "loss": 2.0806,
      "step": 135730
    },
    {
      "epoch": 0.6787,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009687437185929649,
      "loss": 2.1067,
      "step": 135740
    },
    {
      "epoch": 0.67875,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0009685929648241206,
      "loss": 2.0917,
      "step": 135750
    },
    {
      "epoch": 0.6788,
      "grad_norm": 0.5625,
      "learning_rate": 0.0009684422110552764,
      "loss": 2.0835,
      "step": 135760
    },
    {
      "epoch": 0.67885,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0009682914572864323,
      "loss": 2.12,
      "step": 135770
    },
    {
      "epoch": 0.6789,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000968140703517588,
      "loss": 2.0782,
      "step": 135780
    },
    {
      "epoch": 0.67895,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009679899497487438,
      "loss": 2.1304,
      "step": 135790
    },
    {
      "epoch": 0.679,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009678391959798995,
      "loss": 2.1057,
      "step": 135800
    },
    {
      "epoch": 0.67905,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009676884422110553,
      "loss": 2.0754,
      "step": 135810
    },
    {
      "epoch": 0.6791,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009675376884422111,
      "loss": 2.1123,
      "step": 135820
    },
    {
      "epoch": 0.67915,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009673869346733668,
      "loss": 2.0997,
      "step": 135830
    },
    {
      "epoch": 0.6792,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009672361809045226,
      "loss": 2.0627,
      "step": 135840
    },
    {
      "epoch": 0.67925,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009670854271356785,
      "loss": 2.0922,
      "step": 135850
    },
    {
      "epoch": 0.6793,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009669346733668342,
      "loss": 2.1025,
      "step": 135860
    },
    {
      "epoch": 0.67935,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00096678391959799,
      "loss": 2.1347,
      "step": 135870
    },
    {
      "epoch": 0.6794,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009666331658291457,
      "loss": 2.0962,
      "step": 135880
    },
    {
      "epoch": 0.67945,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009664824120603015,
      "loss": 2.0803,
      "step": 135890
    },
    {
      "epoch": 0.6795,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009663316582914573,
      "loss": 2.1276,
      "step": 135900
    },
    {
      "epoch": 0.67955,
      "grad_norm": 0.625,
      "learning_rate": 0.000966180904522613,
      "loss": 2.1032,
      "step": 135910
    },
    {
      "epoch": 0.6796,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009660301507537688,
      "loss": 2.1129,
      "step": 135920
    },
    {
      "epoch": 0.67965,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009658793969849248,
      "loss": 2.122,
      "step": 135930
    },
    {
      "epoch": 0.6797,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009657286432160803,
      "loss": 2.1002,
      "step": 135940
    },
    {
      "epoch": 0.67975,
      "grad_norm": 0.5625,
      "learning_rate": 0.0009655778894472363,
      "loss": 2.1162,
      "step": 135950
    },
    {
      "epoch": 0.6798,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000965427135678392,
      "loss": 2.1363,
      "step": 135960
    },
    {
      "epoch": 0.67985,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0009652763819095478,
      "loss": 2.0716,
      "step": 135970
    },
    {
      "epoch": 0.6799,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009651256281407036,
      "loss": 2.085,
      "step": 135980
    },
    {
      "epoch": 0.67995,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009649748743718593,
      "loss": 2.0732,
      "step": 135990
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.546875,
      "learning_rate": 0.0009648241206030151,
      "loss": 2.0596,
      "step": 136000
    },
    {
      "epoch": 0.68,
      "eval_loss": 2.0798075199127197,
      "eval_runtime": 48.8942,
      "eval_samples_per_second": 51.131,
      "eval_steps_per_second": 0.102,
      "step": 136000
    },
    {
      "epoch": 0.68005,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000964673366834171,
      "loss": 2.1238,
      "step": 136010
    },
    {
      "epoch": 0.6801,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009645226130653266,
      "loss": 2.0527,
      "step": 136020
    },
    {
      "epoch": 0.68015,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009643718592964825,
      "loss": 2.0562,
      "step": 136030
    },
    {
      "epoch": 0.6802,
      "grad_norm": 0.546875,
      "learning_rate": 0.0009642211055276382,
      "loss": 2.1122,
      "step": 136040
    },
    {
      "epoch": 0.68025,
      "grad_norm": 0.66015625,
      "learning_rate": 0.000964070351758794,
      "loss": 2.1251,
      "step": 136050
    },
    {
      "epoch": 0.6803,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009639195979899498,
      "loss": 2.0666,
      "step": 136060
    },
    {
      "epoch": 0.68035,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0009637688442211055,
      "loss": 2.1225,
      "step": 136070
    },
    {
      "epoch": 0.6804,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0009636180904522613,
      "loss": 2.0793,
      "step": 136080
    },
    {
      "epoch": 0.68045,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009634673366834172,
      "loss": 2.1183,
      "step": 136090
    },
    {
      "epoch": 0.6805,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009633165829145728,
      "loss": 2.0502,
      "step": 136100
    },
    {
      "epoch": 0.68055,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009631658291457287,
      "loss": 2.0841,
      "step": 136110
    },
    {
      "epoch": 0.6806,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009630150753768843,
      "loss": 2.1467,
      "step": 136120
    },
    {
      "epoch": 0.68065,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009628643216080402,
      "loss": 2.1025,
      "step": 136130
    },
    {
      "epoch": 0.6807,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000962713567839196,
      "loss": 2.1101,
      "step": 136140
    },
    {
      "epoch": 0.68075,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009625628140703517,
      "loss": 2.1144,
      "step": 136150
    },
    {
      "epoch": 0.6808,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009624120603015075,
      "loss": 2.0706,
      "step": 136160
    },
    {
      "epoch": 0.68085,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009622613065326635,
      "loss": 2.0884,
      "step": 136170
    },
    {
      "epoch": 0.6809,
      "grad_norm": 0.59375,
      "learning_rate": 0.000962110552763819,
      "loss": 2.0668,
      "step": 136180
    },
    {
      "epoch": 0.68095,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000961959798994975,
      "loss": 2.072,
      "step": 136190
    },
    {
      "epoch": 0.681,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009618090452261306,
      "loss": 2.0753,
      "step": 136200
    },
    {
      "epoch": 0.68105,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009616582914572865,
      "loss": 2.1093,
      "step": 136210
    },
    {
      "epoch": 0.6811,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009615075376884423,
      "loss": 2.1252,
      "step": 136220
    },
    {
      "epoch": 0.68115,
      "grad_norm": 0.69921875,
      "learning_rate": 0.000961356783919598,
      "loss": 2.0996,
      "step": 136230
    },
    {
      "epoch": 0.6812,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009612060301507538,
      "loss": 2.0547,
      "step": 136240
    },
    {
      "epoch": 0.68125,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0009610552763819097,
      "loss": 2.0869,
      "step": 136250
    },
    {
      "epoch": 0.6813,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009609045226130653,
      "loss": 2.135,
      "step": 136260
    },
    {
      "epoch": 0.68135,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0009607537688442212,
      "loss": 2.081,
      "step": 136270
    },
    {
      "epoch": 0.6814,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009606030150753768,
      "loss": 2.0802,
      "step": 136280
    },
    {
      "epoch": 0.68145,
      "grad_norm": 0.76171875,
      "learning_rate": 0.0009604522613065327,
      "loss": 2.1004,
      "step": 136290
    },
    {
      "epoch": 0.6815,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009603015075376885,
      "loss": 2.084,
      "step": 136300
    },
    {
      "epoch": 0.68155,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009601507537688442,
      "loss": 2.0829,
      "step": 136310
    },
    {
      "epoch": 0.6816,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00096,
      "loss": 2.157,
      "step": 136320
    },
    {
      "epoch": 0.68165,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009598492462311558,
      "loss": 2.0707,
      "step": 136330
    },
    {
      "epoch": 0.6817,
      "grad_norm": 0.625,
      "learning_rate": 0.0009596984924623115,
      "loss": 2.0959,
      "step": 136340
    },
    {
      "epoch": 0.68175,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0009595477386934674,
      "loss": 2.0715,
      "step": 136350
    },
    {
      "epoch": 0.6818,
      "grad_norm": 0.640625,
      "learning_rate": 0.000959396984924623,
      "loss": 2.083,
      "step": 136360
    },
    {
      "epoch": 0.68185,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000959246231155779,
      "loss": 2.0856,
      "step": 136370
    },
    {
      "epoch": 0.6819,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009590954773869348,
      "loss": 2.0672,
      "step": 136380
    },
    {
      "epoch": 0.68195,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009589447236180905,
      "loss": 2.091,
      "step": 136390
    },
    {
      "epoch": 0.682,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009587939698492463,
      "loss": 2.0894,
      "step": 136400
    },
    {
      "epoch": 0.68205,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000958643216080402,
      "loss": 2.0804,
      "step": 136410
    },
    {
      "epoch": 0.6821,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009584924623115578,
      "loss": 2.073,
      "step": 136420
    },
    {
      "epoch": 0.68215,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0009583417085427137,
      "loss": 2.025,
      "step": 136430
    },
    {
      "epoch": 0.6822,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009581909547738693,
      "loss": 2.0751,
      "step": 136440
    },
    {
      "epoch": 0.68225,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0009580402010050252,
      "loss": 2.0293,
      "step": 136450
    },
    {
      "epoch": 0.6823,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000957889447236181,
      "loss": 2.0534,
      "step": 136460
    },
    {
      "epoch": 0.68235,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0009577386934673367,
      "loss": 2.0842,
      "step": 136470
    },
    {
      "epoch": 0.6824,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009575879396984925,
      "loss": 2.0547,
      "step": 136480
    },
    {
      "epoch": 0.68245,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009574371859296482,
      "loss": 2.0555,
      "step": 136490
    },
    {
      "epoch": 0.6825,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000957286432160804,
      "loss": 2.1023,
      "step": 136500
    },
    {
      "epoch": 0.68255,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009571356783919598,
      "loss": 2.0913,
      "step": 136510
    },
    {
      "epoch": 0.6826,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009569849246231155,
      "loss": 2.0936,
      "step": 136520
    },
    {
      "epoch": 0.68265,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009568341708542714,
      "loss": 2.0735,
      "step": 136530
    },
    {
      "epoch": 0.6827,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009566834170854272,
      "loss": 2.1096,
      "step": 136540
    },
    {
      "epoch": 0.68275,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009565326633165829,
      "loss": 2.0641,
      "step": 136550
    },
    {
      "epoch": 0.6828,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009563819095477387,
      "loss": 2.0498,
      "step": 136560
    },
    {
      "epoch": 0.68285,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009562311557788944,
      "loss": 2.0845,
      "step": 136570
    },
    {
      "epoch": 0.6829,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009560804020100502,
      "loss": 2.069,
      "step": 136580
    },
    {
      "epoch": 0.68295,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000955929648241206,
      "loss": 2.0192,
      "step": 136590
    },
    {
      "epoch": 0.683,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009557788944723617,
      "loss": 2.0527,
      "step": 136600
    },
    {
      "epoch": 0.68305,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009556281407035177,
      "loss": 2.1451,
      "step": 136610
    },
    {
      "epoch": 0.6831,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009554773869346735,
      "loss": 2.0524,
      "step": 136620
    },
    {
      "epoch": 0.68315,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009553266331658292,
      "loss": 2.0888,
      "step": 136630
    },
    {
      "epoch": 0.6832,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000955175879396985,
      "loss": 2.0885,
      "step": 136640
    },
    {
      "epoch": 0.68325,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009550251256281407,
      "loss": 2.0499,
      "step": 136650
    },
    {
      "epoch": 0.6833,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009548743718592965,
      "loss": 2.0421,
      "step": 136660
    },
    {
      "epoch": 0.68335,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009547236180904523,
      "loss": 2.1294,
      "step": 136670
    },
    {
      "epoch": 0.6834,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000954572864321608,
      "loss": 2.1312,
      "step": 136680
    },
    {
      "epoch": 0.68345,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009544221105527638,
      "loss": 2.096,
      "step": 136690
    },
    {
      "epoch": 0.6835,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009542713567839197,
      "loss": 2.0598,
      "step": 136700
    },
    {
      "epoch": 0.68355,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009541206030150754,
      "loss": 2.0642,
      "step": 136710
    },
    {
      "epoch": 0.6836,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009539698492462312,
      "loss": 2.0866,
      "step": 136720
    },
    {
      "epoch": 0.68365,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009538190954773869,
      "loss": 2.0592,
      "step": 136730
    },
    {
      "epoch": 0.6837,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0009536683417085427,
      "loss": 2.133,
      "step": 136740
    },
    {
      "epoch": 0.68375,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009535175879396985,
      "loss": 2.0132,
      "step": 136750
    },
    {
      "epoch": 0.6838,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009533668341708542,
      "loss": 2.0578,
      "step": 136760
    },
    {
      "epoch": 0.68385,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00095321608040201,
      "loss": 2.1083,
      "step": 136770
    },
    {
      "epoch": 0.6839,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000953065326633166,
      "loss": 2.015,
      "step": 136780
    },
    {
      "epoch": 0.68395,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009529145728643216,
      "loss": 2.0305,
      "step": 136790
    },
    {
      "epoch": 0.684,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009527638190954775,
      "loss": 2.0909,
      "step": 136800
    },
    {
      "epoch": 0.68405,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009526130653266331,
      "loss": 2.0713,
      "step": 136810
    },
    {
      "epoch": 0.6841,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000952462311557789,
      "loss": 2.0174,
      "step": 136820
    },
    {
      "epoch": 0.68415,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009523115577889448,
      "loss": 2.05,
      "step": 136830
    },
    {
      "epoch": 0.6842,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0009521608040201005,
      "loss": 2.0918,
      "step": 136840
    },
    {
      "epoch": 0.68425,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009520100502512563,
      "loss": 2.0207,
      "step": 136850
    },
    {
      "epoch": 0.6843,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009518592964824122,
      "loss": 2.1069,
      "step": 136860
    },
    {
      "epoch": 0.68435,
      "grad_norm": 0.625,
      "learning_rate": 0.0009517085427135678,
      "loss": 2.0919,
      "step": 136870
    },
    {
      "epoch": 0.6844,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009515577889447237,
      "loss": 2.0965,
      "step": 136880
    },
    {
      "epoch": 0.68445,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009514070351758794,
      "loss": 2.0495,
      "step": 136890
    },
    {
      "epoch": 0.6845,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009512562814070352,
      "loss": 2.0847,
      "step": 136900
    },
    {
      "epoch": 0.68455,
      "grad_norm": 0.640625,
      "learning_rate": 0.000951105527638191,
      "loss": 2.024,
      "step": 136910
    },
    {
      "epoch": 0.6846,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009509547738693467,
      "loss": 2.0208,
      "step": 136920
    },
    {
      "epoch": 0.68465,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0009508040201005025,
      "loss": 2.1068,
      "step": 136930
    },
    {
      "epoch": 0.6847,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009506532663316584,
      "loss": 2.0935,
      "step": 136940
    },
    {
      "epoch": 0.68475,
      "grad_norm": 0.625,
      "learning_rate": 0.000950502512562814,
      "loss": 2.046,
      "step": 136950
    },
    {
      "epoch": 0.6848,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009503517587939699,
      "loss": 2.0963,
      "step": 136960
    },
    {
      "epoch": 0.68485,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0009502010050251256,
      "loss": 2.0354,
      "step": 136970
    },
    {
      "epoch": 0.6849,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009500502512562814,
      "loss": 2.0584,
      "step": 136980
    },
    {
      "epoch": 0.68495,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009498994974874372,
      "loss": 2.0917,
      "step": 136990
    },
    {
      "epoch": 0.685,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0009497487437185929,
      "loss": 2.0628,
      "step": 137000
    },
    {
      "epoch": 0.68505,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009495979899497487,
      "loss": 2.0606,
      "step": 137010
    },
    {
      "epoch": 0.6851,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0009494472361809047,
      "loss": 2.0681,
      "step": 137020
    },
    {
      "epoch": 0.68515,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009492964824120602,
      "loss": 2.0597,
      "step": 137030
    },
    {
      "epoch": 0.6852,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0009491457286432162,
      "loss": 2.0579,
      "step": 137040
    },
    {
      "epoch": 0.68525,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009489949748743718,
      "loss": 2.0708,
      "step": 137050
    },
    {
      "epoch": 0.6853,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009488442211055277,
      "loss": 2.0884,
      "step": 137060
    },
    {
      "epoch": 0.68535,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009486934673366835,
      "loss": 2.0392,
      "step": 137070
    },
    {
      "epoch": 0.6854,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009485427135678392,
      "loss": 2.0951,
      "step": 137080
    },
    {
      "epoch": 0.68545,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000948391959798995,
      "loss": 2.0772,
      "step": 137090
    },
    {
      "epoch": 0.6855,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009482412060301509,
      "loss": 2.0925,
      "step": 137100
    },
    {
      "epoch": 0.68555,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009480904522613065,
      "loss": 2.0667,
      "step": 137110
    },
    {
      "epoch": 0.6856,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009479396984924624,
      "loss": 2.0676,
      "step": 137120
    },
    {
      "epoch": 0.68565,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000947788944723618,
      "loss": 2.0612,
      "step": 137130
    },
    {
      "epoch": 0.6857,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0009476381909547739,
      "loss": 2.0449,
      "step": 137140
    },
    {
      "epoch": 0.68575,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009474874371859297,
      "loss": 2.0672,
      "step": 137150
    },
    {
      "epoch": 0.6858,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009473366834170854,
      "loss": 2.1007,
      "step": 137160
    },
    {
      "epoch": 0.68585,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009471859296482412,
      "loss": 2.03,
      "step": 137170
    },
    {
      "epoch": 0.6859,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009470351758793971,
      "loss": 2.1396,
      "step": 137180
    },
    {
      "epoch": 0.68595,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009468844221105527,
      "loss": 2.0727,
      "step": 137190
    },
    {
      "epoch": 0.686,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009467336683417086,
      "loss": 2.0546,
      "step": 137200
    },
    {
      "epoch": 0.68605,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009465829145728642,
      "loss": 2.1105,
      "step": 137210
    },
    {
      "epoch": 0.6861,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009464321608040201,
      "loss": 2.0797,
      "step": 137220
    },
    {
      "epoch": 0.68615,
      "grad_norm": 0.65234375,
      "learning_rate": 0.000946281407035176,
      "loss": 2.0497,
      "step": 137230
    },
    {
      "epoch": 0.6862,
      "grad_norm": 0.625,
      "learning_rate": 0.0009461306532663317,
      "loss": 2.105,
      "step": 137240
    },
    {
      "epoch": 0.68625,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009459798994974875,
      "loss": 2.0654,
      "step": 137250
    },
    {
      "epoch": 0.6863,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009458291457286433,
      "loss": 2.0718,
      "step": 137260
    },
    {
      "epoch": 0.68635,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000945678391959799,
      "loss": 2.0818,
      "step": 137270
    },
    {
      "epoch": 0.6864,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009455276381909549,
      "loss": 2.0566,
      "step": 137280
    },
    {
      "epoch": 0.68645,
      "grad_norm": 0.671875,
      "learning_rate": 0.0009453768844221105,
      "loss": 2.0938,
      "step": 137290
    },
    {
      "epoch": 0.6865,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009452261306532664,
      "loss": 2.1366,
      "step": 137300
    },
    {
      "epoch": 0.68655,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0009450753768844222,
      "loss": 2.0965,
      "step": 137310
    },
    {
      "epoch": 0.6866,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009449246231155779,
      "loss": 2.0644,
      "step": 137320
    },
    {
      "epoch": 0.68665,
      "grad_norm": 0.671875,
      "learning_rate": 0.0009447738693467337,
      "loss": 2.1299,
      "step": 137330
    },
    {
      "epoch": 0.6867,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009446231155778895,
      "loss": 2.0589,
      "step": 137340
    },
    {
      "epoch": 0.68675,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009444723618090452,
      "loss": 2.0494,
      "step": 137350
    },
    {
      "epoch": 0.6868,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009443216080402011,
      "loss": 2.1158,
      "step": 137360
    },
    {
      "epoch": 0.68685,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0009441708542713567,
      "loss": 2.0643,
      "step": 137370
    },
    {
      "epoch": 0.6869,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0009440201005025126,
      "loss": 2.0645,
      "step": 137380
    },
    {
      "epoch": 0.68695,
      "grad_norm": 0.671875,
      "learning_rate": 0.0009438693467336684,
      "loss": 2.0685,
      "step": 137390
    },
    {
      "epoch": 0.687,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009437185929648241,
      "loss": 2.0851,
      "step": 137400
    },
    {
      "epoch": 0.68705,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0009435678391959799,
      "loss": 2.0459,
      "step": 137410
    },
    {
      "epoch": 0.6871,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0009434170854271357,
      "loss": 2.0995,
      "step": 137420
    },
    {
      "epoch": 0.68715,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009432663316582914,
      "loss": 2.1354,
      "step": 137430
    },
    {
      "epoch": 0.6872,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009431155778894472,
      "loss": 2.0601,
      "step": 137440
    },
    {
      "epoch": 0.68725,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009429648241206029,
      "loss": 2.1352,
      "step": 137450
    },
    {
      "epoch": 0.6873,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0009428140703517589,
      "loss": 2.1026,
      "step": 137460
    },
    {
      "epoch": 0.68735,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009426633165829147,
      "loss": 2.0521,
      "step": 137470
    },
    {
      "epoch": 0.6874,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009425125628140704,
      "loss": 2.1131,
      "step": 137480
    },
    {
      "epoch": 0.68745,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009423618090452262,
      "loss": 2.0764,
      "step": 137490
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000942211055276382,
      "loss": 2.0208,
      "step": 137500
    },
    {
      "epoch": 0.68755,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009420603015075377,
      "loss": 2.0641,
      "step": 137510
    },
    {
      "epoch": 0.6876,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009419095477386935,
      "loss": 2.0506,
      "step": 137520
    },
    {
      "epoch": 0.68765,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009417587939698492,
      "loss": 2.0335,
      "step": 137530
    },
    {
      "epoch": 0.6877,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0009416080402010051,
      "loss": 2.0999,
      "step": 137540
    },
    {
      "epoch": 0.68775,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0009414572864321609,
      "loss": 2.0304,
      "step": 137550
    },
    {
      "epoch": 0.6878,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009413065326633166,
      "loss": 2.0776,
      "step": 137560
    },
    {
      "epoch": 0.68785,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009411557788944724,
      "loss": 2.1119,
      "step": 137570
    },
    {
      "epoch": 0.6879,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0009410050251256281,
      "loss": 2.0713,
      "step": 137580
    },
    {
      "epoch": 0.68795,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009408542713567839,
      "loss": 2.0466,
      "step": 137590
    },
    {
      "epoch": 0.688,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009407035175879397,
      "loss": 2.1251,
      "step": 137600
    },
    {
      "epoch": 0.68805,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009405527638190954,
      "loss": 2.0451,
      "step": 137610
    },
    {
      "epoch": 0.6881,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009404020100502512,
      "loss": 2.0464,
      "step": 137620
    },
    {
      "epoch": 0.68815,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009402512562814071,
      "loss": 2.0712,
      "step": 137630
    },
    {
      "epoch": 0.6882,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009401005025125628,
      "loss": 2.0562,
      "step": 137640
    },
    {
      "epoch": 0.68825,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009399497487437186,
      "loss": 2.034,
      "step": 137650
    },
    {
      "epoch": 0.6883,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009397989949748743,
      "loss": 2.0836,
      "step": 137660
    },
    {
      "epoch": 0.68835,
      "grad_norm": 0.53125,
      "learning_rate": 0.0009396482412060302,
      "loss": 2.0913,
      "step": 137670
    },
    {
      "epoch": 0.6884,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000939497487437186,
      "loss": 2.0801,
      "step": 137680
    },
    {
      "epoch": 0.68845,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009393467336683417,
      "loss": 2.1121,
      "step": 137690
    },
    {
      "epoch": 0.6885,
      "grad_norm": 0.5625,
      "learning_rate": 0.0009391959798994975,
      "loss": 2.1033,
      "step": 137700
    },
    {
      "epoch": 0.68855,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009390452261306534,
      "loss": 2.0127,
      "step": 137710
    },
    {
      "epoch": 0.6886,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009388944723618091,
      "loss": 2.0927,
      "step": 137720
    },
    {
      "epoch": 0.68865,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009387437185929649,
      "loss": 2.1465,
      "step": 137730
    },
    {
      "epoch": 0.6887,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009385929648241206,
      "loss": 2.0266,
      "step": 137740
    },
    {
      "epoch": 0.68875,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009384422110552764,
      "loss": 2.1284,
      "step": 137750
    },
    {
      "epoch": 0.6888,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009382914572864322,
      "loss": 2.0236,
      "step": 137760
    },
    {
      "epoch": 0.68885,
      "grad_norm": 0.625,
      "learning_rate": 0.0009381407035175879,
      "loss": 2.1192,
      "step": 137770
    },
    {
      "epoch": 0.6889,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0009379899497487437,
      "loss": 2.1478,
      "step": 137780
    },
    {
      "epoch": 0.68895,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0009378391959798996,
      "loss": 2.0373,
      "step": 137790
    },
    {
      "epoch": 0.689,
      "grad_norm": 0.671875,
      "learning_rate": 0.0009376884422110552,
      "loss": 2.0422,
      "step": 137800
    },
    {
      "epoch": 0.68905,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009375376884422111,
      "loss": 2.1564,
      "step": 137810
    },
    {
      "epoch": 0.6891,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0009373869346733668,
      "loss": 2.0158,
      "step": 137820
    },
    {
      "epoch": 0.68915,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009372361809045226,
      "loss": 2.1084,
      "step": 137830
    },
    {
      "epoch": 0.6892,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009370854271356784,
      "loss": 2.0757,
      "step": 137840
    },
    {
      "epoch": 0.68925,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0009369346733668341,
      "loss": 2.011,
      "step": 137850
    },
    {
      "epoch": 0.6893,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009367839195979899,
      "loss": 2.0969,
      "step": 137860
    },
    {
      "epoch": 0.68935,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0009366331658291459,
      "loss": 2.0589,
      "step": 137870
    },
    {
      "epoch": 0.6894,
      "grad_norm": 0.625,
      "learning_rate": 0.0009364824120603014,
      "loss": 2.0837,
      "step": 137880
    },
    {
      "epoch": 0.68945,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009363316582914574,
      "loss": 2.0151,
      "step": 137890
    },
    {
      "epoch": 0.6895,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009361809045226131,
      "loss": 2.1159,
      "step": 137900
    },
    {
      "epoch": 0.68955,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009360301507537689,
      "loss": 2.0368,
      "step": 137910
    },
    {
      "epoch": 0.6896,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009358793969849247,
      "loss": 2.0576,
      "step": 137920
    },
    {
      "epoch": 0.68965,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009357286432160804,
      "loss": 2.1338,
      "step": 137930
    },
    {
      "epoch": 0.6897,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009355778894472362,
      "loss": 2.0913,
      "step": 137940
    },
    {
      "epoch": 0.68975,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009354271356783921,
      "loss": 2.1051,
      "step": 137950
    },
    {
      "epoch": 0.6898,
      "grad_norm": 0.5625,
      "learning_rate": 0.0009352763819095477,
      "loss": 2.1189,
      "step": 137960
    },
    {
      "epoch": 0.68985,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009351256281407036,
      "loss": 2.0866,
      "step": 137970
    },
    {
      "epoch": 0.6899,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009349748743718592,
      "loss": 2.0903,
      "step": 137980
    },
    {
      "epoch": 0.68995,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009348241206030151,
      "loss": 2.0698,
      "step": 137990
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009346733668341709,
      "loss": 2.0625,
      "step": 138000
    },
    {
      "epoch": 0.69,
      "eval_loss": 2.082031726837158,
      "eval_runtime": 48.1514,
      "eval_samples_per_second": 51.92,
      "eval_steps_per_second": 0.104,
      "step": 138000
    },
    {
      "epoch": 0.69005,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009345226130653266,
      "loss": 2.0813,
      "step": 138010
    },
    {
      "epoch": 0.6901,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009343718592964824,
      "loss": 2.1167,
      "step": 138020
    },
    {
      "epoch": 0.69015,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0009342211055276383,
      "loss": 2.0447,
      "step": 138030
    },
    {
      "epoch": 0.6902,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009340703517587939,
      "loss": 2.0685,
      "step": 138040
    },
    {
      "epoch": 0.69025,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009339195979899498,
      "loss": 2.0656,
      "step": 138050
    },
    {
      "epoch": 0.6903,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009337688442211054,
      "loss": 2.0834,
      "step": 138060
    },
    {
      "epoch": 0.69035,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009336180904522613,
      "loss": 2.0939,
      "step": 138070
    },
    {
      "epoch": 0.6904,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009334673366834171,
      "loss": 2.0838,
      "step": 138080
    },
    {
      "epoch": 0.69045,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009333165829145728,
      "loss": 2.0575,
      "step": 138090
    },
    {
      "epoch": 0.6905,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009331658291457287,
      "loss": 2.0383,
      "step": 138100
    },
    {
      "epoch": 0.69055,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009330150753768846,
      "loss": 2.0724,
      "step": 138110
    },
    {
      "epoch": 0.6906,
      "grad_norm": 0.6875,
      "learning_rate": 0.0009328643216080402,
      "loss": 2.0647,
      "step": 138120
    },
    {
      "epoch": 0.69065,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009327135678391961,
      "loss": 2.1483,
      "step": 138130
    },
    {
      "epoch": 0.6907,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009325628140703517,
      "loss": 1.9987,
      "step": 138140
    },
    {
      "epoch": 0.69075,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009324120603015076,
      "loss": 2.1075,
      "step": 138150
    },
    {
      "epoch": 0.6908,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009322613065326634,
      "loss": 2.0836,
      "step": 138160
    },
    {
      "epoch": 0.69085,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009321105527638191,
      "loss": 2.0243,
      "step": 138170
    },
    {
      "epoch": 0.6909,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009319597989949749,
      "loss": 2.031,
      "step": 138180
    },
    {
      "epoch": 0.69095,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009318090452261307,
      "loss": 2.1388,
      "step": 138190
    },
    {
      "epoch": 0.691,
      "grad_norm": 0.6875,
      "learning_rate": 0.0009316582914572864,
      "loss": 2.0838,
      "step": 138200
    },
    {
      "epoch": 0.69105,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009315075376884423,
      "loss": 2.1234,
      "step": 138210
    },
    {
      "epoch": 0.6911,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009313567839195979,
      "loss": 2.0651,
      "step": 138220
    },
    {
      "epoch": 0.69115,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009312060301507538,
      "loss": 2.1026,
      "step": 138230
    },
    {
      "epoch": 0.6912,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009310552763819096,
      "loss": 2.0891,
      "step": 138240
    },
    {
      "epoch": 0.69125,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009309045226130653,
      "loss": 2.0527,
      "step": 138250
    },
    {
      "epoch": 0.6913,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009307537688442211,
      "loss": 2.0498,
      "step": 138260
    },
    {
      "epoch": 0.69135,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009306030150753769,
      "loss": 2.0909,
      "step": 138270
    },
    {
      "epoch": 0.6914,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009304522613065326,
      "loss": 2.0847,
      "step": 138280
    },
    {
      "epoch": 0.69145,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009303015075376885,
      "loss": 2.0462,
      "step": 138290
    },
    {
      "epoch": 0.6915,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009301507537688441,
      "loss": 2.0993,
      "step": 138300
    },
    {
      "epoch": 0.69155,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00093,
      "loss": 2.0674,
      "step": 138310
    },
    {
      "epoch": 0.6916,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009298492462311559,
      "loss": 2.0592,
      "step": 138320
    },
    {
      "epoch": 0.69165,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009296984924623116,
      "loss": 2.1224,
      "step": 138330
    },
    {
      "epoch": 0.6917,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0009295477386934674,
      "loss": 2.0676,
      "step": 138340
    },
    {
      "epoch": 0.69175,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009293969849246232,
      "loss": 2.062,
      "step": 138350
    },
    {
      "epoch": 0.6918,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009292462311557789,
      "loss": 2.1111,
      "step": 138360
    },
    {
      "epoch": 0.69185,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009290954773869347,
      "loss": 2.0711,
      "step": 138370
    },
    {
      "epoch": 0.6919,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009289447236180904,
      "loss": 2.1092,
      "step": 138380
    },
    {
      "epoch": 0.69195,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009287939698492463,
      "loss": 2.1058,
      "step": 138390
    },
    {
      "epoch": 0.692,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0009286432160804021,
      "loss": 2.0681,
      "step": 138400
    },
    {
      "epoch": 0.69205,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009284924623115578,
      "loss": 2.1061,
      "step": 138410
    },
    {
      "epoch": 0.6921,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009283417085427136,
      "loss": 2.1212,
      "step": 138420
    },
    {
      "epoch": 0.69215,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009281909547738694,
      "loss": 2.0089,
      "step": 138430
    },
    {
      "epoch": 0.6922,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009280402010050251,
      "loss": 2.1193,
      "step": 138440
    },
    {
      "epoch": 0.69225,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009278894472361809,
      "loss": 2.0767,
      "step": 138450
    },
    {
      "epoch": 0.6923,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009277386934673366,
      "loss": 2.0593,
      "step": 138460
    },
    {
      "epoch": 0.69235,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009275879396984925,
      "loss": 2.0993,
      "step": 138470
    },
    {
      "epoch": 0.6924,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009274371859296483,
      "loss": 2.1121,
      "step": 138480
    },
    {
      "epoch": 0.69245,
      "grad_norm": 0.625,
      "learning_rate": 0.000927286432160804,
      "loss": 2.0447,
      "step": 138490
    },
    {
      "epoch": 0.6925,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009271356783919598,
      "loss": 2.089,
      "step": 138500
    },
    {
      "epoch": 0.69255,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009269849246231156,
      "loss": 2.078,
      "step": 138510
    },
    {
      "epoch": 0.6926,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009268341708542713,
      "loss": 2.0715,
      "step": 138520
    },
    {
      "epoch": 0.69265,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009266834170854272,
      "loss": 2.1335,
      "step": 138530
    },
    {
      "epoch": 0.6927,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009265326633165829,
      "loss": 2.0288,
      "step": 138540
    },
    {
      "epoch": 0.69275,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009263819095477387,
      "loss": 2.0829,
      "step": 138550
    },
    {
      "epoch": 0.6928,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009262311557788946,
      "loss": 2.0817,
      "step": 138560
    },
    {
      "epoch": 0.69285,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009260804020100503,
      "loss": 2.054,
      "step": 138570
    },
    {
      "epoch": 0.6929,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009259296482412061,
      "loss": 2.091,
      "step": 138580
    },
    {
      "epoch": 0.69295,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009257788944723619,
      "loss": 2.1065,
      "step": 138590
    },
    {
      "epoch": 0.693,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0009256281407035176,
      "loss": 2.0535,
      "step": 138600
    },
    {
      "epoch": 0.69305,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009254773869346734,
      "loss": 2.0715,
      "step": 138610
    },
    {
      "epoch": 0.6931,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009253266331658291,
      "loss": 2.053,
      "step": 138620
    },
    {
      "epoch": 0.69315,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009251758793969849,
      "loss": 2.0336,
      "step": 138630
    },
    {
      "epoch": 0.6932,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009250251256281408,
      "loss": 2.0737,
      "step": 138640
    },
    {
      "epoch": 0.69325,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009248743718592965,
      "loss": 2.0472,
      "step": 138650
    },
    {
      "epoch": 0.6933,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009247236180904523,
      "loss": 2.0703,
      "step": 138660
    },
    {
      "epoch": 0.69335,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009245728643216081,
      "loss": 2.1144,
      "step": 138670
    },
    {
      "epoch": 0.6934,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009244221105527638,
      "loss": 2.0956,
      "step": 138680
    },
    {
      "epoch": 0.69345,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009242713567839196,
      "loss": 2.0984,
      "step": 138690
    },
    {
      "epoch": 0.6935,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009241206030150753,
      "loss": 2.0813,
      "step": 138700
    },
    {
      "epoch": 0.69355,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0009239698492462311,
      "loss": 2.1133,
      "step": 138710
    },
    {
      "epoch": 0.6936,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000923819095477387,
      "loss": 2.0422,
      "step": 138720
    },
    {
      "epoch": 0.69365,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009236683417085426,
      "loss": 2.0954,
      "step": 138730
    },
    {
      "epoch": 0.6937,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009235175879396986,
      "loss": 2.0336,
      "step": 138740
    },
    {
      "epoch": 0.69375,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009233668341708543,
      "loss": 2.0943,
      "step": 138750
    },
    {
      "epoch": 0.6938,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009232160804020101,
      "loss": 2.0631,
      "step": 138760
    },
    {
      "epoch": 0.69385,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009230653266331659,
      "loss": 2.0009,
      "step": 138770
    },
    {
      "epoch": 0.6939,
      "grad_norm": 0.625,
      "learning_rate": 0.0009229145728643216,
      "loss": 2.1238,
      "step": 138780
    },
    {
      "epoch": 0.69395,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009227638190954774,
      "loss": 2.1112,
      "step": 138790
    },
    {
      "epoch": 0.694,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009226130653266333,
      "loss": 2.1196,
      "step": 138800
    },
    {
      "epoch": 0.69405,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009224623115577889,
      "loss": 2.1339,
      "step": 138810
    },
    {
      "epoch": 0.6941,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009223115577889448,
      "loss": 2.0956,
      "step": 138820
    },
    {
      "epoch": 0.69415,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009221608040201005,
      "loss": 2.0626,
      "step": 138830
    },
    {
      "epoch": 0.6942,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009220100502512563,
      "loss": 2.122,
      "step": 138840
    },
    {
      "epoch": 0.69425,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009218592964824121,
      "loss": 2.0325,
      "step": 138850
    },
    {
      "epoch": 0.6943,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009217085427135678,
      "loss": 2.0674,
      "step": 138860
    },
    {
      "epoch": 0.69435,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009215577889447236,
      "loss": 2.0908,
      "step": 138870
    },
    {
      "epoch": 0.6944,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009214070351758795,
      "loss": 2.0131,
      "step": 138880
    },
    {
      "epoch": 0.69445,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009212562814070351,
      "loss": 2.1211,
      "step": 138890
    },
    {
      "epoch": 0.6945,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000921105527638191,
      "loss": 2.0597,
      "step": 138900
    },
    {
      "epoch": 0.69455,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009209547738693466,
      "loss": 2.0147,
      "step": 138910
    },
    {
      "epoch": 0.6946,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009208040201005025,
      "loss": 2.1179,
      "step": 138920
    },
    {
      "epoch": 0.69465,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009206532663316583,
      "loss": 2.0516,
      "step": 138930
    },
    {
      "epoch": 0.6947,
      "grad_norm": 0.546875,
      "learning_rate": 0.000920502512562814,
      "loss": 2.0593,
      "step": 138940
    },
    {
      "epoch": 0.69475,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0009203517587939698,
      "loss": 2.145,
      "step": 138950
    },
    {
      "epoch": 0.6948,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009202010050251258,
      "loss": 2.0472,
      "step": 138960
    },
    {
      "epoch": 0.69485,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0009200502512562814,
      "loss": 2.0986,
      "step": 138970
    },
    {
      "epoch": 0.6949,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009198994974874373,
      "loss": 2.1012,
      "step": 138980
    },
    {
      "epoch": 0.69495,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009197487437185929,
      "loss": 2.0787,
      "step": 138990
    },
    {
      "epoch": 0.695,
      "grad_norm": 0.65625,
      "learning_rate": 0.0009195979899497488,
      "loss": 2.0727,
      "step": 139000
    },
    {
      "epoch": 0.69505,
      "grad_norm": 0.765625,
      "learning_rate": 0.0009194472361809046,
      "loss": 2.0567,
      "step": 139010
    },
    {
      "epoch": 0.6951,
      "grad_norm": 0.5625,
      "learning_rate": 0.0009192964824120603,
      "loss": 2.0573,
      "step": 139020
    },
    {
      "epoch": 0.69515,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009191457286432161,
      "loss": 2.1386,
      "step": 139030
    },
    {
      "epoch": 0.6952,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000918994974874372,
      "loss": 2.0687,
      "step": 139040
    },
    {
      "epoch": 0.69525,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009188442211055276,
      "loss": 2.0816,
      "step": 139050
    },
    {
      "epoch": 0.6953,
      "grad_norm": 0.625,
      "learning_rate": 0.0009186934673366835,
      "loss": 2.0652,
      "step": 139060
    },
    {
      "epoch": 0.69535,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009185427135678391,
      "loss": 2.0562,
      "step": 139070
    },
    {
      "epoch": 0.6954,
      "grad_norm": 0.69140625,
      "learning_rate": 0.000918391959798995,
      "loss": 2.1041,
      "step": 139080
    },
    {
      "epoch": 0.69545,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009182412060301508,
      "loss": 2.0624,
      "step": 139090
    },
    {
      "epoch": 0.6955,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009180904522613065,
      "loss": 2.0691,
      "step": 139100
    },
    {
      "epoch": 0.69555,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009179396984924623,
      "loss": 2.1449,
      "step": 139110
    },
    {
      "epoch": 0.6956,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009177889447236181,
      "loss": 2.0405,
      "step": 139120
    },
    {
      "epoch": 0.69565,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0009176381909547738,
      "loss": 2.0614,
      "step": 139130
    },
    {
      "epoch": 0.6957,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009174874371859297,
      "loss": 2.1034,
      "step": 139140
    },
    {
      "epoch": 0.69575,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0009173366834170853,
      "loss": 2.0676,
      "step": 139150
    },
    {
      "epoch": 0.6958,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009171859296482412,
      "loss": 2.0794,
      "step": 139160
    },
    {
      "epoch": 0.69585,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0009170351758793971,
      "loss": 2.0695,
      "step": 139170
    },
    {
      "epoch": 0.6959,
      "grad_norm": 0.625,
      "learning_rate": 0.0009168844221105528,
      "loss": 2.037,
      "step": 139180
    },
    {
      "epoch": 0.69595,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009167336683417086,
      "loss": 2.1168,
      "step": 139190
    },
    {
      "epoch": 0.696,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009165829145728644,
      "loss": 2.091,
      "step": 139200
    },
    {
      "epoch": 0.69605,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009164321608040201,
      "loss": 2.0694,
      "step": 139210
    },
    {
      "epoch": 0.6961,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000916281407035176,
      "loss": 2.1431,
      "step": 139220
    },
    {
      "epoch": 0.69615,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009161306532663316,
      "loss": 2.0604,
      "step": 139230
    },
    {
      "epoch": 0.6962,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009159798994974875,
      "loss": 2.0498,
      "step": 139240
    },
    {
      "epoch": 0.69625,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009158291457286433,
      "loss": 2.135,
      "step": 139250
    },
    {
      "epoch": 0.6963,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000915678391959799,
      "loss": 2.039,
      "step": 139260
    },
    {
      "epoch": 0.69635,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0009155276381909548,
      "loss": 2.0603,
      "step": 139270
    },
    {
      "epoch": 0.6964,
      "grad_norm": 0.625,
      "learning_rate": 0.0009153768844221106,
      "loss": 2.0593,
      "step": 139280
    },
    {
      "epoch": 0.69645,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009152261306532663,
      "loss": 2.0578,
      "step": 139290
    },
    {
      "epoch": 0.6965,
      "grad_norm": 0.6875,
      "learning_rate": 0.0009150753768844221,
      "loss": 2.1097,
      "step": 139300
    },
    {
      "epoch": 0.69655,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009149246231155778,
      "loss": 2.0574,
      "step": 139310
    },
    {
      "epoch": 0.6966,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009147738693467337,
      "loss": 2.0168,
      "step": 139320
    },
    {
      "epoch": 0.69665,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009146231155778895,
      "loss": 2.1077,
      "step": 139330
    },
    {
      "epoch": 0.6967,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0009144723618090452,
      "loss": 2.0479,
      "step": 139340
    },
    {
      "epoch": 0.69675,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000914321608040201,
      "loss": 2.092,
      "step": 139350
    },
    {
      "epoch": 0.6968,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009141708542713568,
      "loss": 2.0875,
      "step": 139360
    },
    {
      "epoch": 0.69685,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009140201005025125,
      "loss": 1.9989,
      "step": 139370
    },
    {
      "epoch": 0.6969,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0009138693467336683,
      "loss": 2.0863,
      "step": 139380
    },
    {
      "epoch": 0.69695,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000913718592964824,
      "loss": 2.0654,
      "step": 139390
    },
    {
      "epoch": 0.697,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00091356783919598,
      "loss": 2.0864,
      "step": 139400
    },
    {
      "epoch": 0.69705,
      "grad_norm": 0.546875,
      "learning_rate": 0.0009134170854271358,
      "loss": 2.0625,
      "step": 139410
    },
    {
      "epoch": 0.6971,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009132663316582915,
      "loss": 2.0492,
      "step": 139420
    },
    {
      "epoch": 0.69715,
      "grad_norm": 0.625,
      "learning_rate": 0.0009131155778894473,
      "loss": 2.0832,
      "step": 139430
    },
    {
      "epoch": 0.6972,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009129648241206031,
      "loss": 2.1247,
      "step": 139440
    },
    {
      "epoch": 0.69725,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009128140703517588,
      "loss": 2.0483,
      "step": 139450
    },
    {
      "epoch": 0.6973,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0009126633165829146,
      "loss": 2.1131,
      "step": 139460
    },
    {
      "epoch": 0.69735,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009125125628140703,
      "loss": 2.0212,
      "step": 139470
    },
    {
      "epoch": 0.6974,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009123618090452261,
      "loss": 2.0345,
      "step": 139480
    },
    {
      "epoch": 0.69745,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000912211055276382,
      "loss": 2.1134,
      "step": 139490
    },
    {
      "epoch": 0.6975,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009120603015075377,
      "loss": 2.0903,
      "step": 139500
    },
    {
      "epoch": 0.69755,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0009119095477386935,
      "loss": 2.1041,
      "step": 139510
    },
    {
      "epoch": 0.6976,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0009117587939698493,
      "loss": 2.0994,
      "step": 139520
    },
    {
      "epoch": 0.69765,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000911608040201005,
      "loss": 2.066,
      "step": 139530
    },
    {
      "epoch": 0.6977,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009114572864321608,
      "loss": 2.1266,
      "step": 139540
    },
    {
      "epoch": 0.69775,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009113065326633165,
      "loss": 2.0876,
      "step": 139550
    },
    {
      "epoch": 0.6978,
      "grad_norm": 0.578125,
      "learning_rate": 0.0009111557788944723,
      "loss": 2.0242,
      "step": 139560
    },
    {
      "epoch": 0.69785,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0009110050251256282,
      "loss": 2.0846,
      "step": 139570
    },
    {
      "epoch": 0.6979,
      "grad_norm": 0.703125,
      "learning_rate": 0.0009108542713567839,
      "loss": 2.0619,
      "step": 139580
    },
    {
      "epoch": 0.69795,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009107035175879398,
      "loss": 2.0551,
      "step": 139590
    },
    {
      "epoch": 0.698,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0009105527638190956,
      "loss": 2.0516,
      "step": 139600
    },
    {
      "epoch": 0.69805,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009104020100502513,
      "loss": 2.0754,
      "step": 139610
    },
    {
      "epoch": 0.6981,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009102512562814071,
      "loss": 2.0969,
      "step": 139620
    },
    {
      "epoch": 0.69815,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0009101005025125628,
      "loss": 2.0849,
      "step": 139630
    },
    {
      "epoch": 0.6982,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0009099497487437186,
      "loss": 2.046,
      "step": 139640
    },
    {
      "epoch": 0.69825,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009097989949748745,
      "loss": 2.0754,
      "step": 139650
    },
    {
      "epoch": 0.6983,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0009096482412060301,
      "loss": 2.0331,
      "step": 139660
    },
    {
      "epoch": 0.69835,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000909497487437186,
      "loss": 2.0482,
      "step": 139670
    },
    {
      "epoch": 0.6984,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009093467336683418,
      "loss": 2.128,
      "step": 139680
    },
    {
      "epoch": 0.69845,
      "grad_norm": 0.640625,
      "learning_rate": 0.0009091959798994975,
      "loss": 2.0629,
      "step": 139690
    },
    {
      "epoch": 0.6985,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009090452261306533,
      "loss": 2.0888,
      "step": 139700
    },
    {
      "epoch": 0.69855,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000908894472361809,
      "loss": 2.1059,
      "step": 139710
    },
    {
      "epoch": 0.6986,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009087437185929648,
      "loss": 2.0585,
      "step": 139720
    },
    {
      "epoch": 0.69865,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009085929648241207,
      "loss": 2.1347,
      "step": 139730
    },
    {
      "epoch": 0.6987,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0009084422110552763,
      "loss": 2.0342,
      "step": 139740
    },
    {
      "epoch": 0.69875,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0009082914572864322,
      "loss": 2.1073,
      "step": 139750
    },
    {
      "epoch": 0.6988,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000908140703517588,
      "loss": 2.1176,
      "step": 139760
    },
    {
      "epoch": 0.69885,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0009079899497487437,
      "loss": 2.0714,
      "step": 139770
    },
    {
      "epoch": 0.6989,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0009078391959798995,
      "loss": 2.0776,
      "step": 139780
    },
    {
      "epoch": 0.69895,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009076884422110552,
      "loss": 2.0701,
      "step": 139790
    },
    {
      "epoch": 0.699,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000907537688442211,
      "loss": 2.0505,
      "step": 139800
    },
    {
      "epoch": 0.69905,
      "grad_norm": 0.69921875,
      "learning_rate": 0.000907386934673367,
      "loss": 2.0801,
      "step": 139810
    },
    {
      "epoch": 0.6991,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0009072361809045225,
      "loss": 2.0477,
      "step": 139820
    },
    {
      "epoch": 0.69915,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009070854271356785,
      "loss": 2.0845,
      "step": 139830
    },
    {
      "epoch": 0.6992,
      "grad_norm": 0.66015625,
      "learning_rate": 0.000906934673366834,
      "loss": 2.0884,
      "step": 139840
    },
    {
      "epoch": 0.69925,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00090678391959799,
      "loss": 2.0106,
      "step": 139850
    },
    {
      "epoch": 0.6993,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009066331658291458,
      "loss": 2.0952,
      "step": 139860
    },
    {
      "epoch": 0.69935,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009064824120603015,
      "loss": 2.0742,
      "step": 139870
    },
    {
      "epoch": 0.6994,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0009063316582914573,
      "loss": 2.0678,
      "step": 139880
    },
    {
      "epoch": 0.69945,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009061809045226132,
      "loss": 2.0901,
      "step": 139890
    },
    {
      "epoch": 0.6995,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0009060301507537688,
      "loss": 2.0604,
      "step": 139900
    },
    {
      "epoch": 0.69955,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0009058793969849247,
      "loss": 2.1028,
      "step": 139910
    },
    {
      "epoch": 0.6996,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0009057286432160803,
      "loss": 2.0629,
      "step": 139920
    },
    {
      "epoch": 0.69965,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009055778894472362,
      "loss": 1.9997,
      "step": 139930
    },
    {
      "epoch": 0.6997,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000905427135678392,
      "loss": 2.1324,
      "step": 139940
    },
    {
      "epoch": 0.69975,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009052763819095477,
      "loss": 2.0835,
      "step": 139950
    },
    {
      "epoch": 0.6998,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009051256281407035,
      "loss": 2.0798,
      "step": 139960
    },
    {
      "epoch": 0.69985,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0009049748743718594,
      "loss": 2.095,
      "step": 139970
    },
    {
      "epoch": 0.6999,
      "grad_norm": 0.65625,
      "learning_rate": 0.000904824120603015,
      "loss": 2.0328,
      "step": 139980
    },
    {
      "epoch": 0.69995,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0009046733668341709,
      "loss": 2.0996,
      "step": 139990
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009045226130653265,
      "loss": 2.045,
      "step": 140000
    },
    {
      "epoch": 0.7,
      "eval_loss": 2.0799357891082764,
      "eval_runtime": 49.3906,
      "eval_samples_per_second": 50.617,
      "eval_steps_per_second": 0.101,
      "step": 140000
    },
    {
      "epoch": 0.70005,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009043718592964824,
      "loss": 2.0563,
      "step": 140010
    },
    {
      "epoch": 0.7001,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0009042211055276383,
      "loss": 2.1054,
      "step": 140020
    },
    {
      "epoch": 0.70015,
      "grad_norm": 0.640625,
      "learning_rate": 0.000904070351758794,
      "loss": 2.1193,
      "step": 140030
    },
    {
      "epoch": 0.7002,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009039195979899498,
      "loss": 2.1442,
      "step": 140040
    },
    {
      "epoch": 0.70025,
      "grad_norm": 0.59375,
      "learning_rate": 0.0009037688442211056,
      "loss": 2.0857,
      "step": 140050
    },
    {
      "epoch": 0.7003,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0009036180904522613,
      "loss": 2.0352,
      "step": 140060
    },
    {
      "epoch": 0.70035,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0009034673366834172,
      "loss": 2.0816,
      "step": 140070
    },
    {
      "epoch": 0.7004,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009033165829145728,
      "loss": 2.0998,
      "step": 140080
    },
    {
      "epoch": 0.70045,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0009031658291457287,
      "loss": 2.0857,
      "step": 140090
    },
    {
      "epoch": 0.7005,
      "grad_norm": 0.625,
      "learning_rate": 0.0009030150753768845,
      "loss": 2.0828,
      "step": 140100
    },
    {
      "epoch": 0.70055,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0009028643216080402,
      "loss": 2.06,
      "step": 140110
    },
    {
      "epoch": 0.7006,
      "grad_norm": 0.59375,
      "learning_rate": 0.000902713567839196,
      "loss": 2.1,
      "step": 140120
    },
    {
      "epoch": 0.70065,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0009025628140703518,
      "loss": 2.1218,
      "step": 140130
    },
    {
      "epoch": 0.7007,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0009024120603015075,
      "loss": 2.0868,
      "step": 140140
    },
    {
      "epoch": 0.70075,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0009022613065326634,
      "loss": 2.0543,
      "step": 140150
    },
    {
      "epoch": 0.7008,
      "grad_norm": 0.6875,
      "learning_rate": 0.000902110552763819,
      "loss": 2.0359,
      "step": 140160
    },
    {
      "epoch": 0.70085,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0009019597989949749,
      "loss": 2.095,
      "step": 140170
    },
    {
      "epoch": 0.7009,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0009018090452261307,
      "loss": 2.0664,
      "step": 140180
    },
    {
      "epoch": 0.70095,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0009016582914572864,
      "loss": 2.0436,
      "step": 140190
    },
    {
      "epoch": 0.701,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0009015075376884422,
      "loss": 2.1536,
      "step": 140200
    },
    {
      "epoch": 0.70105,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000901356783919598,
      "loss": 2.057,
      "step": 140210
    },
    {
      "epoch": 0.7011,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009012060301507537,
      "loss": 2.0889,
      "step": 140220
    },
    {
      "epoch": 0.70115,
      "grad_norm": 0.609375,
      "learning_rate": 0.0009010552763819095,
      "loss": 2.0693,
      "step": 140230
    },
    {
      "epoch": 0.7012,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009009045226130652,
      "loss": 2.0536,
      "step": 140240
    },
    {
      "epoch": 0.70125,
      "grad_norm": 0.5625,
      "learning_rate": 0.0009007537688442212,
      "loss": 2.0937,
      "step": 140250
    },
    {
      "epoch": 0.7013,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000900603015075377,
      "loss": 2.1082,
      "step": 140260
    },
    {
      "epoch": 0.70135,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0009004522613065327,
      "loss": 2.056,
      "step": 140270
    },
    {
      "epoch": 0.7014,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0009003015075376885,
      "loss": 2.1181,
      "step": 140280
    },
    {
      "epoch": 0.70145,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0009001507537688443,
      "loss": 2.0631,
      "step": 140290
    },
    {
      "epoch": 0.7015,
      "grad_norm": 0.6875,
      "learning_rate": 0.0009,
      "loss": 2.072,
      "step": 140300
    },
    {
      "epoch": 0.70155,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008998492462311558,
      "loss": 2.1124,
      "step": 140310
    },
    {
      "epoch": 0.7016,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008996984924623115,
      "loss": 2.0563,
      "step": 140320
    },
    {
      "epoch": 0.70165,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008995477386934674,
      "loss": 2.0748,
      "step": 140330
    },
    {
      "epoch": 0.7017,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008993969849246232,
      "loss": 2.0773,
      "step": 140340
    },
    {
      "epoch": 0.70175,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008992462311557789,
      "loss": 2.0618,
      "step": 140350
    },
    {
      "epoch": 0.7018,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008990954773869347,
      "loss": 2.051,
      "step": 140360
    },
    {
      "epoch": 0.70185,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008989447236180905,
      "loss": 2.0486,
      "step": 140370
    },
    {
      "epoch": 0.7019,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008987939698492462,
      "loss": 2.0929,
      "step": 140380
    },
    {
      "epoch": 0.70195,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000898643216080402,
      "loss": 2.0643,
      "step": 140390
    },
    {
      "epoch": 0.702,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008984924623115577,
      "loss": 2.0831,
      "step": 140400
    },
    {
      "epoch": 0.70205,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008983417085427135,
      "loss": 2.1146,
      "step": 140410
    },
    {
      "epoch": 0.7021,
      "grad_norm": 0.703125,
      "learning_rate": 0.0008981909547738694,
      "loss": 2.0655,
      "step": 140420
    },
    {
      "epoch": 0.70215,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008980402010050251,
      "loss": 2.0914,
      "step": 140430
    },
    {
      "epoch": 0.7022,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008978894472361809,
      "loss": 2.0831,
      "step": 140440
    },
    {
      "epoch": 0.70225,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008977386934673368,
      "loss": 2.0718,
      "step": 140450
    },
    {
      "epoch": 0.7023,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008975879396984925,
      "loss": 2.0932,
      "step": 140460
    },
    {
      "epoch": 0.70235,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008974371859296483,
      "loss": 2.0476,
      "step": 140470
    },
    {
      "epoch": 0.7024,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000897286432160804,
      "loss": 2.0897,
      "step": 140480
    },
    {
      "epoch": 0.70245,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008971356783919598,
      "loss": 2.0838,
      "step": 140490
    },
    {
      "epoch": 0.7025,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008969849246231157,
      "loss": 2.0844,
      "step": 140500
    },
    {
      "epoch": 0.70255,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008968341708542714,
      "loss": 2.035,
      "step": 140510
    },
    {
      "epoch": 0.7026,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008966834170854272,
      "loss": 2.0581,
      "step": 140520
    },
    {
      "epoch": 0.70265,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000896532663316583,
      "loss": 2.0766,
      "step": 140530
    },
    {
      "epoch": 0.7027,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008963819095477387,
      "loss": 2.0982,
      "step": 140540
    },
    {
      "epoch": 0.70275,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008962311557788945,
      "loss": 2.0923,
      "step": 140550
    },
    {
      "epoch": 0.7028,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008960804020100502,
      "loss": 2.068,
      "step": 140560
    },
    {
      "epoch": 0.70285,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000895929648241206,
      "loss": 2.0604,
      "step": 140570
    },
    {
      "epoch": 0.7029,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008957788944723619,
      "loss": 2.0405,
      "step": 140580
    },
    {
      "epoch": 0.70295,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0008956281407035175,
      "loss": 2.0998,
      "step": 140590
    },
    {
      "epoch": 0.703,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008954773869346734,
      "loss": 2.0222,
      "step": 140600
    },
    {
      "epoch": 0.70305,
      "grad_norm": 0.546875,
      "learning_rate": 0.0008953266331658292,
      "loss": 2.0745,
      "step": 140610
    },
    {
      "epoch": 0.7031,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008951758793969849,
      "loss": 2.0595,
      "step": 140620
    },
    {
      "epoch": 0.70315,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008950251256281407,
      "loss": 2.0541,
      "step": 140630
    },
    {
      "epoch": 0.7032,
      "grad_norm": 0.625,
      "learning_rate": 0.0008948743718592964,
      "loss": 2.049,
      "step": 140640
    },
    {
      "epoch": 0.70325,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008947236180904522,
      "loss": 2.0727,
      "step": 140650
    },
    {
      "epoch": 0.7033,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008945728643216082,
      "loss": 2.1238,
      "step": 140660
    },
    {
      "epoch": 0.70335,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008944221105527637,
      "loss": 2.0427,
      "step": 140670
    },
    {
      "epoch": 0.7034,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008942713567839197,
      "loss": 2.0459,
      "step": 140680
    },
    {
      "epoch": 0.70345,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0008941206030150755,
      "loss": 2.0637,
      "step": 140690
    },
    {
      "epoch": 0.7035,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008939698492462312,
      "loss": 2.07,
      "step": 140700
    },
    {
      "epoch": 0.70355,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000893819095477387,
      "loss": 2.0929,
      "step": 140710
    },
    {
      "epoch": 0.7036,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0008936683417085427,
      "loss": 2.0483,
      "step": 140720
    },
    {
      "epoch": 0.70365,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0008935175879396985,
      "loss": 2.0828,
      "step": 140730
    },
    {
      "epoch": 0.7037,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008933668341708544,
      "loss": 2.0856,
      "step": 140740
    },
    {
      "epoch": 0.70375,
      "grad_norm": 0.609375,
      "learning_rate": 0.00089321608040201,
      "loss": 2.1047,
      "step": 140750
    },
    {
      "epoch": 0.7038,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008930653266331659,
      "loss": 2.0743,
      "step": 140760
    },
    {
      "epoch": 0.70385,
      "grad_norm": 0.515625,
      "learning_rate": 0.0008929145728643217,
      "loss": 2.0784,
      "step": 140770
    },
    {
      "epoch": 0.7039,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008927638190954774,
      "loss": 2.0465,
      "step": 140780
    },
    {
      "epoch": 0.70395,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008926130653266332,
      "loss": 2.116,
      "step": 140790
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008924623115577889,
      "loss": 2.1319,
      "step": 140800
    },
    {
      "epoch": 0.70405,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008923115577889447,
      "loss": 2.0459,
      "step": 140810
    },
    {
      "epoch": 0.7041,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008921608040201006,
      "loss": 2.1093,
      "step": 140820
    },
    {
      "epoch": 0.70415,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008920100502512562,
      "loss": 2.033,
      "step": 140830
    },
    {
      "epoch": 0.7042,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008918592964824121,
      "loss": 2.0574,
      "step": 140840
    },
    {
      "epoch": 0.70425,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008917085427135679,
      "loss": 2.0891,
      "step": 140850
    },
    {
      "epoch": 0.7043,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008915577889447236,
      "loss": 2.0998,
      "step": 140860
    },
    {
      "epoch": 0.70435,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008914070351758794,
      "loss": 2.0213,
      "step": 140870
    },
    {
      "epoch": 0.7044,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008912562814070351,
      "loss": 2.0284,
      "step": 140880
    },
    {
      "epoch": 0.70445,
      "grad_norm": 0.65625,
      "learning_rate": 0.000891105527638191,
      "loss": 2.0613,
      "step": 140890
    },
    {
      "epoch": 0.7045,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008909547738693468,
      "loss": 2.0559,
      "step": 140900
    },
    {
      "epoch": 0.70455,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008908040201005025,
      "loss": 2.1139,
      "step": 140910
    },
    {
      "epoch": 0.7046,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008906532663316584,
      "loss": 2.0116,
      "step": 140920
    },
    {
      "epoch": 0.70465,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008905025125628142,
      "loss": 2.0453,
      "step": 140930
    },
    {
      "epoch": 0.7047,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008903517587939699,
      "loss": 2.1323,
      "step": 140940
    },
    {
      "epoch": 0.70475,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008902010050251257,
      "loss": 2.0561,
      "step": 140950
    },
    {
      "epoch": 0.7048,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008900502512562814,
      "loss": 2.0787,
      "step": 140960
    },
    {
      "epoch": 0.70485,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008898994974874372,
      "loss": 2.093,
      "step": 140970
    },
    {
      "epoch": 0.7049,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000889748743718593,
      "loss": 2.0455,
      "step": 140980
    },
    {
      "epoch": 0.70495,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008895979899497487,
      "loss": 2.0998,
      "step": 140990
    },
    {
      "epoch": 0.705,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008894472361809046,
      "loss": 2.0797,
      "step": 141000
    },
    {
      "epoch": 0.70505,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008892964824120602,
      "loss": 2.086,
      "step": 141010
    },
    {
      "epoch": 0.7051,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008891457286432161,
      "loss": 2.1135,
      "step": 141020
    },
    {
      "epoch": 0.70515,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008889949748743719,
      "loss": 2.0633,
      "step": 141030
    },
    {
      "epoch": 0.7052,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008888442211055276,
      "loss": 2.1177,
      "step": 141040
    },
    {
      "epoch": 0.70525,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008886934673366834,
      "loss": 2.042,
      "step": 141050
    },
    {
      "epoch": 0.7053,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008885427135678392,
      "loss": 2.1067,
      "step": 141060
    },
    {
      "epoch": 0.70535,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008883919597989949,
      "loss": 2.0472,
      "step": 141070
    },
    {
      "epoch": 0.7054,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008882412060301508,
      "loss": 2.0964,
      "step": 141080
    },
    {
      "epoch": 0.70545,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008880904522613064,
      "loss": 2.1099,
      "step": 141090
    },
    {
      "epoch": 0.7055,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008879396984924624,
      "loss": 2.0537,
      "step": 141100
    },
    {
      "epoch": 0.70555,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008877889447236182,
      "loss": 2.1283,
      "step": 141110
    },
    {
      "epoch": 0.7056,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008876381909547739,
      "loss": 2.0961,
      "step": 141120
    },
    {
      "epoch": 0.70565,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008874874371859297,
      "loss": 2.0467,
      "step": 141130
    },
    {
      "epoch": 0.7057,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008873366834170855,
      "loss": 2.1174,
      "step": 141140
    },
    {
      "epoch": 0.70575,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008871859296482412,
      "loss": 2.056,
      "step": 141150
    },
    {
      "epoch": 0.7058,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000887035175879397,
      "loss": 2.0975,
      "step": 141160
    },
    {
      "epoch": 0.70585,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008868844221105527,
      "loss": 2.0541,
      "step": 141170
    },
    {
      "epoch": 0.7059,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0008867336683417086,
      "loss": 2.0913,
      "step": 141180
    },
    {
      "epoch": 0.70595,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008865829145728644,
      "loss": 2.1112,
      "step": 141190
    },
    {
      "epoch": 0.706,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008864321608040201,
      "loss": 2.0438,
      "step": 141200
    },
    {
      "epoch": 0.70605,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008862814070351759,
      "loss": 2.0639,
      "step": 141210
    },
    {
      "epoch": 0.7061,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008861306532663317,
      "loss": 2.1294,
      "step": 141220
    },
    {
      "epoch": 0.70615,
      "grad_norm": 0.80859375,
      "learning_rate": 0.0008859798994974874,
      "loss": 2.0855,
      "step": 141230
    },
    {
      "epoch": 0.7062,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008858291457286432,
      "loss": 2.0804,
      "step": 141240
    },
    {
      "epoch": 0.70625,
      "grad_norm": 0.703125,
      "learning_rate": 0.0008856783919597989,
      "loss": 2.0525,
      "step": 141250
    },
    {
      "epoch": 0.7063,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008855276381909548,
      "loss": 2.081,
      "step": 141260
    },
    {
      "epoch": 0.70635,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0008853768844221106,
      "loss": 2.0535,
      "step": 141270
    },
    {
      "epoch": 0.7064,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008852261306532663,
      "loss": 2.0478,
      "step": 141280
    },
    {
      "epoch": 0.70645,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008850753768844221,
      "loss": 2.1048,
      "step": 141290
    },
    {
      "epoch": 0.7065,
      "grad_norm": 0.59375,
      "learning_rate": 0.000884924623115578,
      "loss": 2.0276,
      "step": 141300
    },
    {
      "epoch": 0.70655,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008847738693467336,
      "loss": 2.0966,
      "step": 141310
    },
    {
      "epoch": 0.7066,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008846231155778895,
      "loss": 2.0609,
      "step": 141320
    },
    {
      "epoch": 0.70665,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008844723618090452,
      "loss": 2.0882,
      "step": 141330
    },
    {
      "epoch": 0.7067,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000884321608040201,
      "loss": 2.0827,
      "step": 141340
    },
    {
      "epoch": 0.70675,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008841708542713569,
      "loss": 2.0156,
      "step": 141350
    },
    {
      "epoch": 0.7068,
      "grad_norm": 0.87890625,
      "learning_rate": 0.0008840201005025126,
      "loss": 2.1592,
      "step": 141360
    },
    {
      "epoch": 0.70685,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008838693467336684,
      "loss": 2.0568,
      "step": 141370
    },
    {
      "epoch": 0.7069,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008837185929648242,
      "loss": 2.1209,
      "step": 141380
    },
    {
      "epoch": 0.70695,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008835678391959799,
      "loss": 2.0405,
      "step": 141390
    },
    {
      "epoch": 0.707,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008834170854271357,
      "loss": 2.0443,
      "step": 141400
    },
    {
      "epoch": 0.70705,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008832663316582914,
      "loss": 2.1421,
      "step": 141410
    },
    {
      "epoch": 0.7071,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008831155778894472,
      "loss": 2.0906,
      "step": 141420
    },
    {
      "epoch": 0.70715,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008829648241206031,
      "loss": 2.092,
      "step": 141430
    },
    {
      "epoch": 0.7072,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008828140703517588,
      "loss": 2.0752,
      "step": 141440
    },
    {
      "epoch": 0.70725,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008826633165829146,
      "loss": 2.0285,
      "step": 141450
    },
    {
      "epoch": 0.7073,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0008825125628140704,
      "loss": 2.1217,
      "step": 141460
    },
    {
      "epoch": 0.70735,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008823618090452261,
      "loss": 2.006,
      "step": 141470
    },
    {
      "epoch": 0.7074,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0008822110552763819,
      "loss": 2.0804,
      "step": 141480
    },
    {
      "epoch": 0.70745,
      "grad_norm": 0.546875,
      "learning_rate": 0.0008820603015075376,
      "loss": 2.0492,
      "step": 141490
    },
    {
      "epoch": 0.7075,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008819095477386934,
      "loss": 2.035,
      "step": 141500
    },
    {
      "epoch": 0.70755,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008817587939698493,
      "loss": 2.0846,
      "step": 141510
    },
    {
      "epoch": 0.7076,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008816080402010049,
      "loss": 2.0634,
      "step": 141520
    },
    {
      "epoch": 0.70765,
      "grad_norm": 0.625,
      "learning_rate": 0.0008814572864321609,
      "loss": 2.1087,
      "step": 141530
    },
    {
      "epoch": 0.7077,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008813065326633167,
      "loss": 2.0628,
      "step": 141540
    },
    {
      "epoch": 0.70775,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008811557788944724,
      "loss": 2.0839,
      "step": 141550
    },
    {
      "epoch": 0.7078,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008810050251256282,
      "loss": 2.1221,
      "step": 141560
    },
    {
      "epoch": 0.70785,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008808542713567839,
      "loss": 2.0421,
      "step": 141570
    },
    {
      "epoch": 0.7079,
      "grad_norm": 0.703125,
      "learning_rate": 0.0008807035175879397,
      "loss": 2.1132,
      "step": 141580
    },
    {
      "epoch": 0.70795,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008805527638190956,
      "loss": 2.063,
      "step": 141590
    },
    {
      "epoch": 0.708,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008804020100502512,
      "loss": 2.1263,
      "step": 141600
    },
    {
      "epoch": 0.70805,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008802512562814071,
      "loss": 2.0995,
      "step": 141610
    },
    {
      "epoch": 0.7081,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0008801005025125629,
      "loss": 2.0407,
      "step": 141620
    },
    {
      "epoch": 0.70815,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008799497487437186,
      "loss": 2.1395,
      "step": 141630
    },
    {
      "epoch": 0.7082,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008797989949748744,
      "loss": 2.0421,
      "step": 141640
    },
    {
      "epoch": 0.70825,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008796482412060301,
      "loss": 2.1012,
      "step": 141650
    },
    {
      "epoch": 0.7083,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008794974874371859,
      "loss": 2.0573,
      "step": 141660
    },
    {
      "epoch": 0.70835,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008793467336683418,
      "loss": 2.0852,
      "step": 141670
    },
    {
      "epoch": 0.7084,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008791959798994974,
      "loss": 2.0879,
      "step": 141680
    },
    {
      "epoch": 0.70845,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008790452261306533,
      "loss": 2.0446,
      "step": 141690
    },
    {
      "epoch": 0.7085,
      "grad_norm": 0.6875,
      "learning_rate": 0.0008788944723618091,
      "loss": 2.1136,
      "step": 141700
    },
    {
      "epoch": 0.70855,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008787437185929648,
      "loss": 2.0956,
      "step": 141710
    },
    {
      "epoch": 0.7086,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008785929648241206,
      "loss": 2.0731,
      "step": 141720
    },
    {
      "epoch": 0.70865,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008784422110552763,
      "loss": 2.1076,
      "step": 141730
    },
    {
      "epoch": 0.7087,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008782914572864321,
      "loss": 2.0214,
      "step": 141740
    },
    {
      "epoch": 0.70875,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008781407035175881,
      "loss": 2.111,
      "step": 141750
    },
    {
      "epoch": 0.7088,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008779899497487437,
      "loss": 2.0393,
      "step": 141760
    },
    {
      "epoch": 0.70885,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008778391959798996,
      "loss": 2.0644,
      "step": 141770
    },
    {
      "epoch": 0.7089,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008776884422110554,
      "loss": 2.0692,
      "step": 141780
    },
    {
      "epoch": 0.70895,
      "grad_norm": 0.625,
      "learning_rate": 0.0008775376884422111,
      "loss": 2.0717,
      "step": 141790
    },
    {
      "epoch": 0.709,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008773869346733669,
      "loss": 2.1044,
      "step": 141800
    },
    {
      "epoch": 0.70905,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008772361809045226,
      "loss": 2.0664,
      "step": 141810
    },
    {
      "epoch": 0.7091,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008770854271356784,
      "loss": 2.1013,
      "step": 141820
    },
    {
      "epoch": 0.70915,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008769346733668342,
      "loss": 2.1178,
      "step": 141830
    },
    {
      "epoch": 0.7092,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008767839195979899,
      "loss": 2.0455,
      "step": 141840
    },
    {
      "epoch": 0.70925,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008766331658291458,
      "loss": 2.09,
      "step": 141850
    },
    {
      "epoch": 0.7093,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008764824120603016,
      "loss": 2.0222,
      "step": 141860
    },
    {
      "epoch": 0.70935,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008763316582914573,
      "loss": 2.1073,
      "step": 141870
    },
    {
      "epoch": 0.7094,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008761809045226131,
      "loss": 2.0411,
      "step": 141880
    },
    {
      "epoch": 0.70945,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008760301507537688,
      "loss": 2.0698,
      "step": 141890
    },
    {
      "epoch": 0.7095,
      "grad_norm": 0.6875,
      "learning_rate": 0.0008758793969849246,
      "loss": 2.1039,
      "step": 141900
    },
    {
      "epoch": 0.70955,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008757286432160804,
      "loss": 2.0522,
      "step": 141910
    },
    {
      "epoch": 0.7096,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008755778894472361,
      "loss": 2.0934,
      "step": 141920
    },
    {
      "epoch": 0.70965,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000875427135678392,
      "loss": 2.0471,
      "step": 141930
    },
    {
      "epoch": 0.7097,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008752763819095479,
      "loss": 2.0627,
      "step": 141940
    },
    {
      "epoch": 0.70975,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008751256281407035,
      "loss": 2.1258,
      "step": 141950
    },
    {
      "epoch": 0.7098,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0008749748743718594,
      "loss": 2.0733,
      "step": 141960
    },
    {
      "epoch": 0.70985,
      "grad_norm": 0.625,
      "learning_rate": 0.000874824120603015,
      "loss": 2.0836,
      "step": 141970
    },
    {
      "epoch": 0.7099,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008746733668341709,
      "loss": 2.1076,
      "step": 141980
    },
    {
      "epoch": 0.70995,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008745226130653267,
      "loss": 2.1029,
      "step": 141990
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008743718592964824,
      "loss": 2.0889,
      "step": 142000
    },
    {
      "epoch": 0.71,
      "eval_loss": 2.076643705368042,
      "eval_runtime": 47.7455,
      "eval_samples_per_second": 52.361,
      "eval_steps_per_second": 0.105,
      "step": 142000
    },
    {
      "epoch": 0.71005,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008742211055276383,
      "loss": 2.1157,
      "step": 142010
    },
    {
      "epoch": 0.7101,
      "grad_norm": 0.625,
      "learning_rate": 0.0008740703517587941,
      "loss": 2.1047,
      "step": 142020
    },
    {
      "epoch": 0.71015,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008739195979899498,
      "loss": 2.1176,
      "step": 142030
    },
    {
      "epoch": 0.7102,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008737688442211056,
      "loss": 2.1407,
      "step": 142040
    },
    {
      "epoch": 0.71025,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008736180904522613,
      "loss": 2.0882,
      "step": 142050
    },
    {
      "epoch": 0.7103,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008734673366834171,
      "loss": 2.0309,
      "step": 142060
    },
    {
      "epoch": 0.71035,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008733165829145729,
      "loss": 2.1149,
      "step": 142070
    },
    {
      "epoch": 0.7104,
      "grad_norm": 0.625,
      "learning_rate": 0.0008731658291457286,
      "loss": 2.0422,
      "step": 142080
    },
    {
      "epoch": 0.71045,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0008730150753768844,
      "loss": 2.1158,
      "step": 142090
    },
    {
      "epoch": 0.7105,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008728643216080403,
      "loss": 2.0538,
      "step": 142100
    },
    {
      "epoch": 0.71055,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000872713567839196,
      "loss": 2.0942,
      "step": 142110
    },
    {
      "epoch": 0.7106,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008725628140703518,
      "loss": 2.1305,
      "step": 142120
    },
    {
      "epoch": 0.71065,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008724120603015075,
      "loss": 2.0484,
      "step": 142130
    },
    {
      "epoch": 0.7107,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008722613065326633,
      "loss": 2.1307,
      "step": 142140
    },
    {
      "epoch": 0.71075,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008721105527638191,
      "loss": 2.0638,
      "step": 142150
    },
    {
      "epoch": 0.7108,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0008719597989949748,
      "loss": 2.1092,
      "step": 142160
    },
    {
      "epoch": 0.71085,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008718090452261306,
      "loss": 2.1315,
      "step": 142170
    },
    {
      "epoch": 0.7109,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008716582914572863,
      "loss": 2.0622,
      "step": 142180
    },
    {
      "epoch": 0.71095,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008715075376884423,
      "loss": 2.1237,
      "step": 142190
    },
    {
      "epoch": 0.711,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008713567839195981,
      "loss": 2.0858,
      "step": 142200
    },
    {
      "epoch": 0.71105,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008712060301507538,
      "loss": 2.1039,
      "step": 142210
    },
    {
      "epoch": 0.7111,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008710552763819096,
      "loss": 2.0948,
      "step": 142220
    },
    {
      "epoch": 0.71115,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008709045226130654,
      "loss": 2.0407,
      "step": 142230
    },
    {
      "epoch": 0.7112,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008707537688442211,
      "loss": 2.0887,
      "step": 142240
    },
    {
      "epoch": 0.71125,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0008706030150753769,
      "loss": 2.0383,
      "step": 142250
    },
    {
      "epoch": 0.7113,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0008704522613065326,
      "loss": 2.1034,
      "step": 142260
    },
    {
      "epoch": 0.71135,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008703015075376884,
      "loss": 2.0432,
      "step": 142270
    },
    {
      "epoch": 0.7114,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008701507537688443,
      "loss": 2.0878,
      "step": 142280
    },
    {
      "epoch": 0.71145,
      "grad_norm": 0.5625,
      "learning_rate": 0.00087,
      "loss": 2.0443,
      "step": 142290
    },
    {
      "epoch": 0.7115,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008698492462311558,
      "loss": 2.1016,
      "step": 142300
    },
    {
      "epoch": 0.71155,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008696984924623116,
      "loss": 2.0918,
      "step": 142310
    },
    {
      "epoch": 0.7116,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008695477386934673,
      "loss": 2.0497,
      "step": 142320
    },
    {
      "epoch": 0.71165,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008693969849246231,
      "loss": 2.1105,
      "step": 142330
    },
    {
      "epoch": 0.7117,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008692462311557788,
      "loss": 2.0591,
      "step": 142340
    },
    {
      "epoch": 0.71175,
      "grad_norm": 0.671875,
      "learning_rate": 0.0008690954773869346,
      "loss": 2.072,
      "step": 142350
    },
    {
      "epoch": 0.7118,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008689447236180905,
      "loss": 2.1589,
      "step": 142360
    },
    {
      "epoch": 0.71185,
      "grad_norm": 0.625,
      "learning_rate": 0.0008687939698492462,
      "loss": 2.0453,
      "step": 142370
    },
    {
      "epoch": 0.7119,
      "grad_norm": 0.59375,
      "learning_rate": 0.000868643216080402,
      "loss": 2.1452,
      "step": 142380
    },
    {
      "epoch": 0.71195,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008684924623115579,
      "loss": 2.0739,
      "step": 142390
    },
    {
      "epoch": 0.712,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008683417085427136,
      "loss": 2.0248,
      "step": 142400
    },
    {
      "epoch": 0.71205,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008681909547738694,
      "loss": 2.0796,
      "step": 142410
    },
    {
      "epoch": 0.7121,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008680402010050251,
      "loss": 2.0506,
      "step": 142420
    },
    {
      "epoch": 0.71215,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008678894472361809,
      "loss": 2.0808,
      "step": 142430
    },
    {
      "epoch": 0.7122,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0008677386934673368,
      "loss": 2.0777,
      "step": 142440
    },
    {
      "epoch": 0.71225,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008675879396984924,
      "loss": 2.111,
      "step": 142450
    },
    {
      "epoch": 0.7123,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008674371859296483,
      "loss": 2.0025,
      "step": 142460
    },
    {
      "epoch": 0.71235,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008672864321608041,
      "loss": 2.0416,
      "step": 142470
    },
    {
      "epoch": 0.7124,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008671356783919598,
      "loss": 2.1258,
      "step": 142480
    },
    {
      "epoch": 0.71245,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008669849246231156,
      "loss": 2.0231,
      "step": 142490
    },
    {
      "epoch": 0.7125,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008668341708542713,
      "loss": 2.0723,
      "step": 142500
    },
    {
      "epoch": 0.71255,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008666834170854271,
      "loss": 2.061,
      "step": 142510
    },
    {
      "epoch": 0.7126,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000866532663316583,
      "loss": 2.1026,
      "step": 142520
    },
    {
      "epoch": 0.71265,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008663819095477386,
      "loss": 2.0984,
      "step": 142530
    },
    {
      "epoch": 0.7127,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008662311557788945,
      "loss": 2.0513,
      "step": 142540
    },
    {
      "epoch": 0.71275,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008660804020100503,
      "loss": 2.0794,
      "step": 142550
    },
    {
      "epoch": 0.7128,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000865929648241206,
      "loss": 2.05,
      "step": 142560
    },
    {
      "epoch": 0.71285,
      "grad_norm": 0.6875,
      "learning_rate": 0.0008657788944723618,
      "loss": 2.1329,
      "step": 142570
    },
    {
      "epoch": 0.7129,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0008656281407035175,
      "loss": 2.0561,
      "step": 142580
    },
    {
      "epoch": 0.71295,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0008654773869346733,
      "loss": 2.1047,
      "step": 142590
    },
    {
      "epoch": 0.713,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008653266331658293,
      "loss": 2.0576,
      "step": 142600
    },
    {
      "epoch": 0.71305,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008651758793969848,
      "loss": 2.0775,
      "step": 142610
    },
    {
      "epoch": 0.7131,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008650251256281408,
      "loss": 2.093,
      "step": 142620
    },
    {
      "epoch": 0.71315,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008648743718592966,
      "loss": 2.0437,
      "step": 142630
    },
    {
      "epoch": 0.7132,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008647236180904523,
      "loss": 2.0698,
      "step": 142640
    },
    {
      "epoch": 0.71325,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008645728643216081,
      "loss": 2.0504,
      "step": 142650
    },
    {
      "epoch": 0.7133,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008644221105527638,
      "loss": 2.0876,
      "step": 142660
    },
    {
      "epoch": 0.71335,
      "grad_norm": 0.671875,
      "learning_rate": 0.0008642713567839196,
      "loss": 2.0816,
      "step": 142670
    },
    {
      "epoch": 0.7134,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008641206030150755,
      "loss": 2.049,
      "step": 142680
    },
    {
      "epoch": 0.71345,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008639698492462311,
      "loss": 2.0886,
      "step": 142690
    },
    {
      "epoch": 0.7135,
      "grad_norm": 0.546875,
      "learning_rate": 0.000863819095477387,
      "loss": 2.0565,
      "step": 142700
    },
    {
      "epoch": 0.71355,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008636683417085428,
      "loss": 2.1094,
      "step": 142710
    },
    {
      "epoch": 0.7136,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008635175879396985,
      "loss": 2.0609,
      "step": 142720
    },
    {
      "epoch": 0.71365,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008633668341708543,
      "loss": 2.1136,
      "step": 142730
    },
    {
      "epoch": 0.7137,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00086321608040201,
      "loss": 2.0762,
      "step": 142740
    },
    {
      "epoch": 0.71375,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0008630653266331658,
      "loss": 2.0226,
      "step": 142750
    },
    {
      "epoch": 0.7138,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008629145728643216,
      "loss": 2.0963,
      "step": 142760
    },
    {
      "epoch": 0.71385,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008627638190954773,
      "loss": 2.0568,
      "step": 142770
    },
    {
      "epoch": 0.7139,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008626130653266332,
      "loss": 2.0477,
      "step": 142780
    },
    {
      "epoch": 0.71395,
      "grad_norm": 0.640625,
      "learning_rate": 0.000862462311557789,
      "loss": 2.0876,
      "step": 142790
    },
    {
      "epoch": 0.714,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008623115577889447,
      "loss": 2.1175,
      "step": 142800
    },
    {
      "epoch": 0.71405,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008621608040201006,
      "loss": 2.1046,
      "step": 142810
    },
    {
      "epoch": 0.7141,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008620100502512562,
      "loss": 2.069,
      "step": 142820
    },
    {
      "epoch": 0.71415,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008618592964824121,
      "loss": 2.1376,
      "step": 142830
    },
    {
      "epoch": 0.7142,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008617085427135679,
      "loss": 2.0673,
      "step": 142840
    },
    {
      "epoch": 0.71425,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008615577889447236,
      "loss": 2.0937,
      "step": 142850
    },
    {
      "epoch": 0.7143,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008614070351758795,
      "loss": 2.0985,
      "step": 142860
    },
    {
      "epoch": 0.71435,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008612562814070353,
      "loss": 2.0181,
      "step": 142870
    },
    {
      "epoch": 0.7144,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000861105527638191,
      "loss": 2.0951,
      "step": 142880
    },
    {
      "epoch": 0.71445,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008609547738693468,
      "loss": 2.0399,
      "step": 142890
    },
    {
      "epoch": 0.7145,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008608040201005025,
      "loss": 2.1081,
      "step": 142900
    },
    {
      "epoch": 0.71455,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008606532663316583,
      "loss": 2.1042,
      "step": 142910
    },
    {
      "epoch": 0.7146,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008605025125628141,
      "loss": 2.0827,
      "step": 142920
    },
    {
      "epoch": 0.71465,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008603517587939698,
      "loss": 2.0825,
      "step": 142930
    },
    {
      "epoch": 0.7147,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0008602010050251257,
      "loss": 2.0163,
      "step": 142940
    },
    {
      "epoch": 0.71475,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008600502512562815,
      "loss": 2.0656,
      "step": 142950
    },
    {
      "epoch": 0.7148,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008598994974874372,
      "loss": 2.0858,
      "step": 142960
    },
    {
      "epoch": 0.71485,
      "grad_norm": 0.73828125,
      "learning_rate": 0.000859748743718593,
      "loss": 2.0851,
      "step": 142970
    },
    {
      "epoch": 0.7149,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008595979899497487,
      "loss": 2.0339,
      "step": 142980
    },
    {
      "epoch": 0.71495,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008594472361809045,
      "loss": 2.0968,
      "step": 142990
    },
    {
      "epoch": 0.715,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008592964824120603,
      "loss": 2.0591,
      "step": 143000
    },
    {
      "epoch": 0.71505,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000859145728643216,
      "loss": 2.0503,
      "step": 143010
    },
    {
      "epoch": 0.7151,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008589949748743718,
      "loss": 2.1107,
      "step": 143020
    },
    {
      "epoch": 0.71515,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008588442211055278,
      "loss": 2.0658,
      "step": 143030
    },
    {
      "epoch": 0.7152,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008586934673366835,
      "loss": 2.1075,
      "step": 143040
    },
    {
      "epoch": 0.71525,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008585427135678393,
      "loss": 2.0367,
      "step": 143050
    },
    {
      "epoch": 0.7153,
      "grad_norm": 0.640625,
      "learning_rate": 0.000858391959798995,
      "loss": 2.087,
      "step": 143060
    },
    {
      "epoch": 0.71535,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008582412060301508,
      "loss": 2.1322,
      "step": 143070
    },
    {
      "epoch": 0.7154,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008580904522613066,
      "loss": 2.0632,
      "step": 143080
    },
    {
      "epoch": 0.71545,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008579396984924623,
      "loss": 2.0592,
      "step": 143090
    },
    {
      "epoch": 0.7155,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008577889447236181,
      "loss": 2.0662,
      "step": 143100
    },
    {
      "epoch": 0.71555,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000857638190954774,
      "loss": 2.1261,
      "step": 143110
    },
    {
      "epoch": 0.7156,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008574874371859297,
      "loss": 2.028,
      "step": 143120
    },
    {
      "epoch": 0.71565,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0008573366834170855,
      "loss": 2.0882,
      "step": 143130
    },
    {
      "epoch": 0.7157,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008571859296482412,
      "loss": 2.0846,
      "step": 143140
    },
    {
      "epoch": 0.71575,
      "grad_norm": 0.66015625,
      "learning_rate": 0.000857035175879397,
      "loss": 2.0434,
      "step": 143150
    },
    {
      "epoch": 0.7158,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008568844221105528,
      "loss": 2.0681,
      "step": 143160
    },
    {
      "epoch": 0.71585,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008567336683417085,
      "loss": 2.051,
      "step": 143170
    },
    {
      "epoch": 0.7159,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008565829145728643,
      "loss": 2.1133,
      "step": 143180
    },
    {
      "epoch": 0.71595,
      "grad_norm": 0.625,
      "learning_rate": 0.0008564321608040202,
      "loss": 2.0984,
      "step": 143190
    },
    {
      "epoch": 0.716,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008562814070351758,
      "loss": 2.0526,
      "step": 143200
    },
    {
      "epoch": 0.71605,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008561306532663317,
      "loss": 2.0846,
      "step": 143210
    },
    {
      "epoch": 0.7161,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008559798994974874,
      "loss": 2.0524,
      "step": 143220
    },
    {
      "epoch": 0.71615,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008558291457286432,
      "loss": 2.1256,
      "step": 143230
    },
    {
      "epoch": 0.7162,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000855678391959799,
      "loss": 2.0776,
      "step": 143240
    },
    {
      "epoch": 0.71625,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008555276381909548,
      "loss": 2.1092,
      "step": 143250
    },
    {
      "epoch": 0.7163,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008553768844221106,
      "loss": 2.0556,
      "step": 143260
    },
    {
      "epoch": 0.71635,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008552261306532665,
      "loss": 2.0147,
      "step": 143270
    },
    {
      "epoch": 0.7164,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008550753768844221,
      "loss": 2.0883,
      "step": 143280
    },
    {
      "epoch": 0.71645,
      "grad_norm": 0.59375,
      "learning_rate": 0.000854924623115578,
      "loss": 2.0518,
      "step": 143290
    },
    {
      "epoch": 0.7165,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008547738693467337,
      "loss": 2.0821,
      "step": 143300
    },
    {
      "epoch": 0.71655,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008546231155778895,
      "loss": 2.0215,
      "step": 143310
    },
    {
      "epoch": 0.7166,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008544723618090453,
      "loss": 2.081,
      "step": 143320
    },
    {
      "epoch": 0.71665,
      "grad_norm": 0.546875,
      "learning_rate": 0.000854321608040201,
      "loss": 2.0368,
      "step": 143330
    },
    {
      "epoch": 0.7167,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008541708542713568,
      "loss": 2.0622,
      "step": 143340
    },
    {
      "epoch": 0.71675,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008540201005025125,
      "loss": 2.1018,
      "step": 143350
    },
    {
      "epoch": 0.7168,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008538693467336683,
      "loss": 2.0228,
      "step": 143360
    },
    {
      "epoch": 0.71685,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008537185929648242,
      "loss": 2.1279,
      "step": 143370
    },
    {
      "epoch": 0.7169,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008535678391959798,
      "loss": 2.0836,
      "step": 143380
    },
    {
      "epoch": 0.71695,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008534170854271357,
      "loss": 2.0629,
      "step": 143390
    },
    {
      "epoch": 0.717,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008532663316582915,
      "loss": 2.0623,
      "step": 143400
    },
    {
      "epoch": 0.71705,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008531155778894472,
      "loss": 2.0572,
      "step": 143410
    },
    {
      "epoch": 0.7171,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000852964824120603,
      "loss": 2.0588,
      "step": 143420
    },
    {
      "epoch": 0.71715,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008528140703517587,
      "loss": 2.0561,
      "step": 143430
    },
    {
      "epoch": 0.7172,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008526633165829145,
      "loss": 2.0754,
      "step": 143440
    },
    {
      "epoch": 0.71725,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008525125628140705,
      "loss": 2.0585,
      "step": 143450
    },
    {
      "epoch": 0.7173,
      "grad_norm": 0.546875,
      "learning_rate": 0.000852361809045226,
      "loss": 2.1112,
      "step": 143460
    },
    {
      "epoch": 0.71735,
      "grad_norm": 0.57421875,
      "learning_rate": 0.000852211055276382,
      "loss": 2.0414,
      "step": 143470
    },
    {
      "epoch": 0.7174,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008520603015075378,
      "loss": 2.1127,
      "step": 143480
    },
    {
      "epoch": 0.71745,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008519095477386935,
      "loss": 2.0934,
      "step": 143490
    },
    {
      "epoch": 0.7175,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008517587939698493,
      "loss": 2.0409,
      "step": 143500
    },
    {
      "epoch": 0.71755,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000851608040201005,
      "loss": 2.0899,
      "step": 143510
    },
    {
      "epoch": 0.7176,
      "grad_norm": 0.546875,
      "learning_rate": 0.0008514572864321608,
      "loss": 2.0321,
      "step": 143520
    },
    {
      "epoch": 0.71765,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0008513065326633167,
      "loss": 2.1003,
      "step": 143530
    },
    {
      "epoch": 0.7177,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008511557788944723,
      "loss": 2.0299,
      "step": 143540
    },
    {
      "epoch": 0.71775,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008510050251256282,
      "loss": 2.0892,
      "step": 143550
    },
    {
      "epoch": 0.7178,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000850854271356784,
      "loss": 2.0719,
      "step": 143560
    },
    {
      "epoch": 0.71785,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0008507035175879397,
      "loss": 2.0901,
      "step": 143570
    },
    {
      "epoch": 0.7179,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008505527638190955,
      "loss": 2.0599,
      "step": 143580
    },
    {
      "epoch": 0.71795,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0008504020100502512,
      "loss": 2.032,
      "step": 143590
    },
    {
      "epoch": 0.718,
      "grad_norm": 0.7265625,
      "learning_rate": 0.000850251256281407,
      "loss": 2.0856,
      "step": 143600
    },
    {
      "epoch": 0.71805,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008501005025125629,
      "loss": 2.0526,
      "step": 143610
    },
    {
      "epoch": 0.7181,
      "grad_norm": 0.625,
      "learning_rate": 0.0008499497487437185,
      "loss": 2.1383,
      "step": 143620
    },
    {
      "epoch": 0.71815,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008497989949748744,
      "loss": 2.0515,
      "step": 143630
    },
    {
      "epoch": 0.7182,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008496482412060302,
      "loss": 2.0703,
      "step": 143640
    },
    {
      "epoch": 0.71825,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008494974874371859,
      "loss": 2.1246,
      "step": 143650
    },
    {
      "epoch": 0.7183,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008493467336683417,
      "loss": 2.0403,
      "step": 143660
    },
    {
      "epoch": 0.71835,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008491959798994974,
      "loss": 2.1018,
      "step": 143670
    },
    {
      "epoch": 0.7184,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0008490452261306533,
      "loss": 2.0454,
      "step": 143680
    },
    {
      "epoch": 0.71845,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008488944723618091,
      "loss": 2.0802,
      "step": 143690
    },
    {
      "epoch": 0.7185,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008487437185929648,
      "loss": 2.0893,
      "step": 143700
    },
    {
      "epoch": 0.71855,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008485929648241207,
      "loss": 2.1017,
      "step": 143710
    },
    {
      "epoch": 0.7186,
      "grad_norm": 0.671875,
      "learning_rate": 0.0008484422110552765,
      "loss": 2.1027,
      "step": 143720
    },
    {
      "epoch": 0.71865,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008482914572864322,
      "loss": 2.0994,
      "step": 143730
    },
    {
      "epoch": 0.7187,
      "grad_norm": 0.68359375,
      "learning_rate": 0.000848140703517588,
      "loss": 2.1132,
      "step": 143740
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.625,
      "learning_rate": 0.0008479899497487437,
      "loss": 2.1238,
      "step": 143750
    },
    {
      "epoch": 0.7188,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008478391959798995,
      "loss": 2.1079,
      "step": 143760
    },
    {
      "epoch": 0.71885,
      "grad_norm": 0.53125,
      "learning_rate": 0.0008476884422110553,
      "loss": 2.1096,
      "step": 143770
    },
    {
      "epoch": 0.7189,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000847537688442211,
      "loss": 2.1091,
      "step": 143780
    },
    {
      "epoch": 0.71895,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008473869346733669,
      "loss": 2.0769,
      "step": 143790
    },
    {
      "epoch": 0.719,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008472361809045227,
      "loss": 2.0415,
      "step": 143800
    },
    {
      "epoch": 0.71905,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008470854271356784,
      "loss": 2.1308,
      "step": 143810
    },
    {
      "epoch": 0.7191,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0008469346733668342,
      "loss": 2.022,
      "step": 143820
    },
    {
      "epoch": 0.71915,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008467839195979899,
      "loss": 2.1038,
      "step": 143830
    },
    {
      "epoch": 0.7192,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0008466331658291457,
      "loss": 2.0988,
      "step": 143840
    },
    {
      "epoch": 0.71925,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008464824120603015,
      "loss": 2.0791,
      "step": 143850
    },
    {
      "epoch": 0.7193,
      "grad_norm": 0.625,
      "learning_rate": 0.0008463316582914572,
      "loss": 2.0981,
      "step": 143860
    },
    {
      "epoch": 0.71935,
      "grad_norm": 0.65625,
      "learning_rate": 0.000846180904522613,
      "loss": 2.0674,
      "step": 143870
    },
    {
      "epoch": 0.7194,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000846030150753769,
      "loss": 2.0998,
      "step": 143880
    },
    {
      "epoch": 0.71945,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0008458793969849247,
      "loss": 2.0421,
      "step": 143890
    },
    {
      "epoch": 0.7195,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008457286432160805,
      "loss": 2.1348,
      "step": 143900
    },
    {
      "epoch": 0.71955,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008455778894472362,
      "loss": 2.0236,
      "step": 143910
    },
    {
      "epoch": 0.7196,
      "grad_norm": 0.625,
      "learning_rate": 0.000845427135678392,
      "loss": 2.1034,
      "step": 143920
    },
    {
      "epoch": 0.71965,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008452763819095478,
      "loss": 2.0857,
      "step": 143930
    },
    {
      "epoch": 0.7197,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008451256281407035,
      "loss": 2.1118,
      "step": 143940
    },
    {
      "epoch": 0.71975,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008449748743718593,
      "loss": 2.0973,
      "step": 143950
    },
    {
      "epoch": 0.7198,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008448241206030152,
      "loss": 2.0412,
      "step": 143960
    },
    {
      "epoch": 0.71985,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008446733668341709,
      "loss": 2.0651,
      "step": 143970
    },
    {
      "epoch": 0.7199,
      "grad_norm": 0.6875,
      "learning_rate": 0.0008445226130653267,
      "loss": 2.0652,
      "step": 143980
    },
    {
      "epoch": 0.71995,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0008443718592964824,
      "loss": 2.1189,
      "step": 143990
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008442211055276382,
      "loss": 2.0398,
      "step": 144000
    },
    {
      "epoch": 0.72,
      "eval_loss": 2.067704677581787,
      "eval_runtime": 45.7547,
      "eval_samples_per_second": 54.639,
      "eval_steps_per_second": 0.109,
      "step": 144000
    },
    {
      "epoch": 0.72005,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000844070351758794,
      "loss": 2.1115,
      "step": 144010
    },
    {
      "epoch": 0.7201,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0008439195979899497,
      "loss": 2.0744,
      "step": 144020
    },
    {
      "epoch": 0.72015,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008437688442211055,
      "loss": 2.1009,
      "step": 144030
    },
    {
      "epoch": 0.7202,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008436180904522614,
      "loss": 2.0651,
      "step": 144040
    },
    {
      "epoch": 0.72025,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008434673366834171,
      "loss": 2.0589,
      "step": 144050
    },
    {
      "epoch": 0.7203,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008433165829145729,
      "loss": 2.0754,
      "step": 144060
    },
    {
      "epoch": 0.72035,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008431658291457286,
      "loss": 2.0236,
      "step": 144070
    },
    {
      "epoch": 0.7204,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008430150753768844,
      "loss": 2.0827,
      "step": 144080
    },
    {
      "epoch": 0.72045,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0008428643216080402,
      "loss": 2.0777,
      "step": 144090
    },
    {
      "epoch": 0.7205,
      "grad_norm": 0.671875,
      "learning_rate": 0.0008427135678391959,
      "loss": 2.1054,
      "step": 144100
    },
    {
      "epoch": 0.72055,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008425628140703518,
      "loss": 2.1005,
      "step": 144110
    },
    {
      "epoch": 0.7206,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008424120603015077,
      "loss": 2.0423,
      "step": 144120
    },
    {
      "epoch": 0.72065,
      "grad_norm": 0.625,
      "learning_rate": 0.0008422613065326633,
      "loss": 2.057,
      "step": 144130
    },
    {
      "epoch": 0.7207,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008421105527638192,
      "loss": 2.0044,
      "step": 144140
    },
    {
      "epoch": 0.72075,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008419597989949749,
      "loss": 2.0856,
      "step": 144150
    },
    {
      "epoch": 0.7208,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008418090452261307,
      "loss": 2.057,
      "step": 144160
    },
    {
      "epoch": 0.72085,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008416582914572865,
      "loss": 2.1323,
      "step": 144170
    },
    {
      "epoch": 0.7209,
      "grad_norm": 0.703125,
      "learning_rate": 0.0008415075376884422,
      "loss": 2.0589,
      "step": 144180
    },
    {
      "epoch": 0.72095,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000841356783919598,
      "loss": 2.0929,
      "step": 144190
    },
    {
      "epoch": 0.721,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008412060301507539,
      "loss": 2.1083,
      "step": 144200
    },
    {
      "epoch": 0.72105,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008410552763819095,
      "loss": 2.1116,
      "step": 144210
    },
    {
      "epoch": 0.7211,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008409045226130654,
      "loss": 2.1182,
      "step": 144220
    },
    {
      "epoch": 0.72115,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008407537688442211,
      "loss": 2.0697,
      "step": 144230
    },
    {
      "epoch": 0.7212,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0008406030150753769,
      "loss": 2.1071,
      "step": 144240
    },
    {
      "epoch": 0.72125,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008404522613065327,
      "loss": 2.0681,
      "step": 144250
    },
    {
      "epoch": 0.7213,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008403015075376884,
      "loss": 2.0584,
      "step": 144260
    },
    {
      "epoch": 0.72135,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008401507537688442,
      "loss": 2.0878,
      "step": 144270
    },
    {
      "epoch": 0.7214,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008400000000000001,
      "loss": 2.1406,
      "step": 144280
    },
    {
      "epoch": 0.72145,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008398492462311557,
      "loss": 2.1083,
      "step": 144290
    },
    {
      "epoch": 0.7215,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0008396984924623116,
      "loss": 2.1175,
      "step": 144300
    },
    {
      "epoch": 0.72155,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008395477386934672,
      "loss": 2.0786,
      "step": 144310
    },
    {
      "epoch": 0.7216,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008393969849246232,
      "loss": 2.0514,
      "step": 144320
    },
    {
      "epoch": 0.72165,
      "grad_norm": 0.59375,
      "learning_rate": 0.000839246231155779,
      "loss": 2.0852,
      "step": 144330
    },
    {
      "epoch": 0.7217,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008390954773869347,
      "loss": 2.0903,
      "step": 144340
    },
    {
      "epoch": 0.72175,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008389447236180905,
      "loss": 2.0987,
      "step": 144350
    },
    {
      "epoch": 0.7218,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008387939698492464,
      "loss": 2.0292,
      "step": 144360
    },
    {
      "epoch": 0.72185,
      "grad_norm": 0.59375,
      "learning_rate": 0.000838643216080402,
      "loss": 2.0974,
      "step": 144370
    },
    {
      "epoch": 0.7219,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008384924623115579,
      "loss": 2.0443,
      "step": 144380
    },
    {
      "epoch": 0.72195,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008383417085427135,
      "loss": 2.0961,
      "step": 144390
    },
    {
      "epoch": 0.722,
      "grad_norm": 0.625,
      "learning_rate": 0.0008381909547738694,
      "loss": 2.0702,
      "step": 144400
    },
    {
      "epoch": 0.72205,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008380402010050252,
      "loss": 2.0444,
      "step": 144410
    },
    {
      "epoch": 0.7221,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0008378894472361809,
      "loss": 2.1239,
      "step": 144420
    },
    {
      "epoch": 0.72215,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008377386934673367,
      "loss": 2.0604,
      "step": 144430
    },
    {
      "epoch": 0.7222,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008375879396984925,
      "loss": 2.1317,
      "step": 144440
    },
    {
      "epoch": 0.72225,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008374371859296482,
      "loss": 2.1011,
      "step": 144450
    },
    {
      "epoch": 0.7223,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008372864321608041,
      "loss": 2.1073,
      "step": 144460
    },
    {
      "epoch": 0.72235,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008371356783919597,
      "loss": 2.0736,
      "step": 144470
    },
    {
      "epoch": 0.7224,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008369849246231156,
      "loss": 2.0764,
      "step": 144480
    },
    {
      "epoch": 0.72245,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008368341708542714,
      "loss": 2.09,
      "step": 144490
    },
    {
      "epoch": 0.7225,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008366834170854271,
      "loss": 2.0465,
      "step": 144500
    },
    {
      "epoch": 0.72255,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008365326633165829,
      "loss": 2.0924,
      "step": 144510
    },
    {
      "epoch": 0.7226,
      "grad_norm": 0.625,
      "learning_rate": 0.0008363819095477386,
      "loss": 2.0414,
      "step": 144520
    },
    {
      "epoch": 0.72265,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008362311557788944,
      "loss": 2.088,
      "step": 144530
    },
    {
      "epoch": 0.7227,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008360804020100504,
      "loss": 2.0311,
      "step": 144540
    },
    {
      "epoch": 0.72275,
      "grad_norm": 0.578125,
      "learning_rate": 0.000835929648241206,
      "loss": 2.1247,
      "step": 144550
    },
    {
      "epoch": 0.7228,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008357788944723619,
      "loss": 2.0379,
      "step": 144560
    },
    {
      "epoch": 0.72285,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008356281407035177,
      "loss": 2.1176,
      "step": 144570
    },
    {
      "epoch": 0.7229,
      "grad_norm": 0.671875,
      "learning_rate": 0.0008354773869346734,
      "loss": 2.1041,
      "step": 144580
    },
    {
      "epoch": 0.72295,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008353266331658292,
      "loss": 2.0588,
      "step": 144590
    },
    {
      "epoch": 0.723,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008351758793969849,
      "loss": 2.0738,
      "step": 144600
    },
    {
      "epoch": 0.72305,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008350251256281407,
      "loss": 2.0754,
      "step": 144610
    },
    {
      "epoch": 0.7231,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008348743718592965,
      "loss": 2.08,
      "step": 144620
    },
    {
      "epoch": 0.72315,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008347236180904522,
      "loss": 2.0384,
      "step": 144630
    },
    {
      "epoch": 0.7232,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008345728643216081,
      "loss": 2.1317,
      "step": 144640
    },
    {
      "epoch": 0.72325,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008344221105527639,
      "loss": 2.0679,
      "step": 144650
    },
    {
      "epoch": 0.7233,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008342713567839196,
      "loss": 2.0855,
      "step": 144660
    },
    {
      "epoch": 0.72335,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008341206030150754,
      "loss": 2.1301,
      "step": 144670
    },
    {
      "epoch": 0.7234,
      "grad_norm": 0.625,
      "learning_rate": 0.0008339698492462311,
      "loss": 2.066,
      "step": 144680
    },
    {
      "epoch": 0.72345,
      "grad_norm": 0.546875,
      "learning_rate": 0.0008338190954773869,
      "loss": 2.0805,
      "step": 144690
    },
    {
      "epoch": 0.7235,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008336683417085427,
      "loss": 2.1194,
      "step": 144700
    },
    {
      "epoch": 0.72355,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008335175879396984,
      "loss": 2.1266,
      "step": 144710
    },
    {
      "epoch": 0.7236,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008333668341708543,
      "loss": 2.0095,
      "step": 144720
    },
    {
      "epoch": 0.72365,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008332160804020101,
      "loss": 2.1335,
      "step": 144730
    },
    {
      "epoch": 0.7237,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008330653266331658,
      "loss": 2.0162,
      "step": 144740
    },
    {
      "epoch": 0.72375,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008329145728643217,
      "loss": 2.0546,
      "step": 144750
    },
    {
      "epoch": 0.7238,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008327638190954774,
      "loss": 2.1006,
      "step": 144760
    },
    {
      "epoch": 0.72385,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0008326130653266332,
      "loss": 2.1393,
      "step": 144770
    },
    {
      "epoch": 0.7239,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000832462311557789,
      "loss": 2.0604,
      "step": 144780
    },
    {
      "epoch": 0.72395,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008323115577889447,
      "loss": 2.0643,
      "step": 144790
    },
    {
      "epoch": 0.724,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008321608040201005,
      "loss": 2.0927,
      "step": 144800
    },
    {
      "epoch": 0.72405,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008320100502512564,
      "loss": 2.1013,
      "step": 144810
    },
    {
      "epoch": 0.7241,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0008318592964824121,
      "loss": 2.0752,
      "step": 144820
    },
    {
      "epoch": 0.72415,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008317085427135679,
      "loss": 2.0511,
      "step": 144830
    },
    {
      "epoch": 0.7242,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008315577889447236,
      "loss": 2.0857,
      "step": 144840
    },
    {
      "epoch": 0.72425,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008314070351758794,
      "loss": 2.0585,
      "step": 144850
    },
    {
      "epoch": 0.7243,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008312562814070352,
      "loss": 2.0928,
      "step": 144860
    },
    {
      "epoch": 0.72435,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008311055276381909,
      "loss": 2.0219,
      "step": 144870
    },
    {
      "epoch": 0.7244,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008309547738693467,
      "loss": 2.0551,
      "step": 144880
    },
    {
      "epoch": 0.72445,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008308040201005026,
      "loss": 2.1024,
      "step": 144890
    },
    {
      "epoch": 0.7245,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008306532663316583,
      "loss": 2.1007,
      "step": 144900
    },
    {
      "epoch": 0.72455,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008305025125628141,
      "loss": 2.0304,
      "step": 144910
    },
    {
      "epoch": 0.7246,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008303517587939698,
      "loss": 2.1102,
      "step": 144920
    },
    {
      "epoch": 0.72465,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008302010050251256,
      "loss": 2.0941,
      "step": 144930
    },
    {
      "epoch": 0.7247,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008300502512562814,
      "loss": 2.0563,
      "step": 144940
    },
    {
      "epoch": 0.72475,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0008298994974874371,
      "loss": 2.1191,
      "step": 144950
    },
    {
      "epoch": 0.7248,
      "grad_norm": 0.53515625,
      "learning_rate": 0.000829748743718593,
      "loss": 2.0287,
      "step": 144960
    },
    {
      "epoch": 0.72485,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008295979899497489,
      "loss": 2.0837,
      "step": 144970
    },
    {
      "epoch": 0.7249,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008294472361809046,
      "loss": 2.0564,
      "step": 144980
    },
    {
      "epoch": 0.72495,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008292964824120604,
      "loss": 2.0964,
      "step": 144990
    },
    {
      "epoch": 0.725,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008291457286432161,
      "loss": 2.0405,
      "step": 145000
    },
    {
      "epoch": 0.72505,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008289949748743719,
      "loss": 2.1061,
      "step": 145010
    },
    {
      "epoch": 0.7251,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008288442211055277,
      "loss": 2.0575,
      "step": 145020
    },
    {
      "epoch": 0.72515,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008286934673366834,
      "loss": 2.0921,
      "step": 145030
    },
    {
      "epoch": 0.7252,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008285427135678392,
      "loss": 2.0392,
      "step": 145040
    },
    {
      "epoch": 0.72525,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008283919597989951,
      "loss": 2.066,
      "step": 145050
    },
    {
      "epoch": 0.7253,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008282412060301507,
      "loss": 2.0657,
      "step": 145060
    },
    {
      "epoch": 0.72535,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008280904522613066,
      "loss": 2.0808,
      "step": 145070
    },
    {
      "epoch": 0.7254,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008279396984924623,
      "loss": 2.094,
      "step": 145080
    },
    {
      "epoch": 0.72545,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008277889447236181,
      "loss": 2.0276,
      "step": 145090
    },
    {
      "epoch": 0.7255,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008276381909547739,
      "loss": 2.1064,
      "step": 145100
    },
    {
      "epoch": 0.72555,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0008274874371859296,
      "loss": 2.0639,
      "step": 145110
    },
    {
      "epoch": 0.7256,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008273366834170854,
      "loss": 2.0648,
      "step": 145120
    },
    {
      "epoch": 0.72565,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008271859296482413,
      "loss": 2.0929,
      "step": 145130
    },
    {
      "epoch": 0.7257,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008270351758793969,
      "loss": 2.0702,
      "step": 145140
    },
    {
      "epoch": 0.72575,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008268844221105528,
      "loss": 2.0434,
      "step": 145150
    },
    {
      "epoch": 0.7258,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008267336683417085,
      "loss": 2.1059,
      "step": 145160
    },
    {
      "epoch": 0.72585,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008265829145728643,
      "loss": 2.0451,
      "step": 145170
    },
    {
      "epoch": 0.7259,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008264321608040202,
      "loss": 2.0708,
      "step": 145180
    },
    {
      "epoch": 0.72595,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008262814070351759,
      "loss": 2.0997,
      "step": 145190
    },
    {
      "epoch": 0.726,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008261306532663317,
      "loss": 2.0555,
      "step": 145200
    },
    {
      "epoch": 0.72605,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008259798994974876,
      "loss": 2.0875,
      "step": 145210
    },
    {
      "epoch": 0.7261,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008258291457286432,
      "loss": 2.0085,
      "step": 145220
    },
    {
      "epoch": 0.72615,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008256783919597991,
      "loss": 2.1354,
      "step": 145230
    },
    {
      "epoch": 0.7262,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008255276381909547,
      "loss": 2.1105,
      "step": 145240
    },
    {
      "epoch": 0.72625,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008253768844221106,
      "loss": 2.0729,
      "step": 145250
    },
    {
      "epoch": 0.7263,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008252261306532664,
      "loss": 2.058,
      "step": 145260
    },
    {
      "epoch": 0.72635,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008250753768844221,
      "loss": 2.0555,
      "step": 145270
    },
    {
      "epoch": 0.7264,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008249246231155779,
      "loss": 2.1095,
      "step": 145280
    },
    {
      "epoch": 0.72645,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008247738693467338,
      "loss": 2.1301,
      "step": 145290
    },
    {
      "epoch": 0.7265,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008246231155778894,
      "loss": 2.0711,
      "step": 145300
    },
    {
      "epoch": 0.72655,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008244723618090453,
      "loss": 2.1116,
      "step": 145310
    },
    {
      "epoch": 0.7266,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008243216080402009,
      "loss": 2.049,
      "step": 145320
    },
    {
      "epoch": 0.72665,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008241708542713568,
      "loss": 2.0451,
      "step": 145330
    },
    {
      "epoch": 0.7267,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008240201005025126,
      "loss": 2.0794,
      "step": 145340
    },
    {
      "epoch": 0.72675,
      "grad_norm": 0.625,
      "learning_rate": 0.0008238693467336683,
      "loss": 2.031,
      "step": 145350
    },
    {
      "epoch": 0.7268,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008237185929648241,
      "loss": 2.0908,
      "step": 145360
    },
    {
      "epoch": 0.72685,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008235678391959799,
      "loss": 2.1092,
      "step": 145370
    },
    {
      "epoch": 0.7269,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008234170854271356,
      "loss": 2.0909,
      "step": 145380
    },
    {
      "epoch": 0.72695,
      "grad_norm": 0.71875,
      "learning_rate": 0.0008232663316582916,
      "loss": 2.0864,
      "step": 145390
    },
    {
      "epoch": 0.727,
      "grad_norm": 0.625,
      "learning_rate": 0.0008231155778894471,
      "loss": 2.0869,
      "step": 145400
    },
    {
      "epoch": 0.72705,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0008229648241206031,
      "loss": 2.0623,
      "step": 145410
    },
    {
      "epoch": 0.7271,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008228140703517589,
      "loss": 2.0767,
      "step": 145420
    },
    {
      "epoch": 0.72715,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008226633165829146,
      "loss": 2.1029,
      "step": 145430
    },
    {
      "epoch": 0.7272,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008225125628140704,
      "loss": 2.0851,
      "step": 145440
    },
    {
      "epoch": 0.72725,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008223618090452262,
      "loss": 2.0885,
      "step": 145450
    },
    {
      "epoch": 0.7273,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0008222110552763819,
      "loss": 2.0409,
      "step": 145460
    },
    {
      "epoch": 0.72735,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008220603015075378,
      "loss": 2.1313,
      "step": 145470
    },
    {
      "epoch": 0.7274,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0008219095477386934,
      "loss": 2.0455,
      "step": 145480
    },
    {
      "epoch": 0.72745,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008217587939698493,
      "loss": 2.0766,
      "step": 145490
    },
    {
      "epoch": 0.7275,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008216080402010051,
      "loss": 2.0785,
      "step": 145500
    },
    {
      "epoch": 0.72755,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008214572864321608,
      "loss": 2.0941,
      "step": 145510
    },
    {
      "epoch": 0.7276,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0008213065326633166,
      "loss": 2.0553,
      "step": 145520
    },
    {
      "epoch": 0.72765,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008211557788944724,
      "loss": 2.1033,
      "step": 145530
    },
    {
      "epoch": 0.7277,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008210050251256281,
      "loss": 2.0553,
      "step": 145540
    },
    {
      "epoch": 0.72775,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008208542713567839,
      "loss": 2.1138,
      "step": 145550
    },
    {
      "epoch": 0.7278,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008207035175879396,
      "loss": 2.0518,
      "step": 145560
    },
    {
      "epoch": 0.72785,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008205527638190955,
      "loss": 2.0875,
      "step": 145570
    },
    {
      "epoch": 0.7279,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008204020100502513,
      "loss": 2.1033,
      "step": 145580
    },
    {
      "epoch": 0.72795,
      "grad_norm": 0.671875,
      "learning_rate": 0.000820251256281407,
      "loss": 2.058,
      "step": 145590
    },
    {
      "epoch": 0.728,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008201005025125629,
      "loss": 2.121,
      "step": 145600
    },
    {
      "epoch": 0.72805,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008199497487437187,
      "loss": 2.0484,
      "step": 145610
    },
    {
      "epoch": 0.7281,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008197989949748744,
      "loss": 2.1062,
      "step": 145620
    },
    {
      "epoch": 0.72815,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008196482412060302,
      "loss": 2.0332,
      "step": 145630
    },
    {
      "epoch": 0.7282,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008194974874371859,
      "loss": 2.0796,
      "step": 145640
    },
    {
      "epoch": 0.72825,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008193467336683418,
      "loss": 2.0146,
      "step": 145650
    },
    {
      "epoch": 0.7283,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008191959798994976,
      "loss": 2.0499,
      "step": 145660
    },
    {
      "epoch": 0.72835,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008190452261306533,
      "loss": 2.0773,
      "step": 145670
    },
    {
      "epoch": 0.7284,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008188944723618091,
      "loss": 2.0857,
      "step": 145680
    },
    {
      "epoch": 0.72845,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0008187437185929648,
      "loss": 2.0571,
      "step": 145690
    },
    {
      "epoch": 0.7285,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008185929648241206,
      "loss": 2.0819,
      "step": 145700
    },
    {
      "epoch": 0.72855,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008184422110552764,
      "loss": 2.0611,
      "step": 145710
    },
    {
      "epoch": 0.7286,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008182914572864321,
      "loss": 2.0804,
      "step": 145720
    },
    {
      "epoch": 0.72865,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0008181407035175879,
      "loss": 2.1088,
      "step": 145730
    },
    {
      "epoch": 0.7287,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008179899497487438,
      "loss": 2.0666,
      "step": 145740
    },
    {
      "epoch": 0.72875,
      "grad_norm": 0.546875,
      "learning_rate": 0.0008178391959798995,
      "loss": 2.1143,
      "step": 145750
    },
    {
      "epoch": 0.7288,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008176884422110553,
      "loss": 2.0689,
      "step": 145760
    },
    {
      "epoch": 0.72885,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000817537688442211,
      "loss": 2.0474,
      "step": 145770
    },
    {
      "epoch": 0.7289,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008173869346733668,
      "loss": 2.0587,
      "step": 145780
    },
    {
      "epoch": 0.72895,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008172361809045226,
      "loss": 2.0929,
      "step": 145790
    },
    {
      "epoch": 0.729,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008170854271356783,
      "loss": 2.0444,
      "step": 145800
    },
    {
      "epoch": 0.72905,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008169346733668341,
      "loss": 2.1432,
      "step": 145810
    },
    {
      "epoch": 0.7291,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008167839195979901,
      "loss": 2.0397,
      "step": 145820
    },
    {
      "epoch": 0.72915,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008166331658291458,
      "loss": 2.1152,
      "step": 145830
    },
    {
      "epoch": 0.7292,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008164824120603016,
      "loss": 2.0622,
      "step": 145840
    },
    {
      "epoch": 0.72925,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008163316582914573,
      "loss": 2.1519,
      "step": 145850
    },
    {
      "epoch": 0.7293,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008161809045226131,
      "loss": 2.0567,
      "step": 145860
    },
    {
      "epoch": 0.72935,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008160301507537689,
      "loss": 2.0869,
      "step": 145870
    },
    {
      "epoch": 0.7294,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0008158793969849246,
      "loss": 2.082,
      "step": 145880
    },
    {
      "epoch": 0.72945,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008157286432160804,
      "loss": 2.1122,
      "step": 145890
    },
    {
      "epoch": 0.7295,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008155778894472363,
      "loss": 2.1105,
      "step": 145900
    },
    {
      "epoch": 0.72955,
      "grad_norm": 0.625,
      "learning_rate": 0.000815427135678392,
      "loss": 2.0843,
      "step": 145910
    },
    {
      "epoch": 0.7296,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008152763819095478,
      "loss": 2.092,
      "step": 145920
    },
    {
      "epoch": 0.72965,
      "grad_norm": 0.625,
      "learning_rate": 0.0008151256281407035,
      "loss": 2.0488,
      "step": 145930
    },
    {
      "epoch": 0.7297,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008149748743718593,
      "loss": 2.109,
      "step": 145940
    },
    {
      "epoch": 0.72975,
      "grad_norm": 0.625,
      "learning_rate": 0.0008148241206030151,
      "loss": 2.0889,
      "step": 145950
    },
    {
      "epoch": 0.7298,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008146733668341708,
      "loss": 2.0851,
      "step": 145960
    },
    {
      "epoch": 0.72985,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008145226130653266,
      "loss": 2.0737,
      "step": 145970
    },
    {
      "epoch": 0.7299,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008143718592964825,
      "loss": 2.0909,
      "step": 145980
    },
    {
      "epoch": 0.72995,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008142211055276381,
      "loss": 2.0333,
      "step": 145990
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000814070351758794,
      "loss": 2.0872,
      "step": 146000
    },
    {
      "epoch": 0.73,
      "eval_loss": 2.078491449356079,
      "eval_runtime": 47.1072,
      "eval_samples_per_second": 53.07,
      "eval_steps_per_second": 0.106,
      "step": 146000
    },
    {
      "epoch": 0.73005,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008139195979899497,
      "loss": 2.0583,
      "step": 146010
    },
    {
      "epoch": 0.7301,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008137688442211055,
      "loss": 2.1189,
      "step": 146020
    },
    {
      "epoch": 0.73015,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008136180904522614,
      "loss": 2.1168,
      "step": 146030
    },
    {
      "epoch": 0.7302,
      "grad_norm": 0.57421875,
      "learning_rate": 0.000813467336683417,
      "loss": 2.1368,
      "step": 146040
    },
    {
      "epoch": 0.73025,
      "grad_norm": 0.625,
      "learning_rate": 0.0008133165829145729,
      "loss": 2.0509,
      "step": 146050
    },
    {
      "epoch": 0.7303,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008131658291457288,
      "loss": 2.0448,
      "step": 146060
    },
    {
      "epoch": 0.73035,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008130150753768844,
      "loss": 2.097,
      "step": 146070
    },
    {
      "epoch": 0.7304,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008128643216080403,
      "loss": 2.0598,
      "step": 146080
    },
    {
      "epoch": 0.73045,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000812713567839196,
      "loss": 2.0541,
      "step": 146090
    },
    {
      "epoch": 0.7305,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008125628140703518,
      "loss": 2.1148,
      "step": 146100
    },
    {
      "epoch": 0.73055,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008124120603015076,
      "loss": 2.0929,
      "step": 146110
    },
    {
      "epoch": 0.7306,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008122613065326633,
      "loss": 2.0892,
      "step": 146120
    },
    {
      "epoch": 0.73065,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008121105527638191,
      "loss": 2.0946,
      "step": 146130
    },
    {
      "epoch": 0.7307,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000811959798994975,
      "loss": 2.0807,
      "step": 146140
    },
    {
      "epoch": 0.73075,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008118090452261306,
      "loss": 2.1378,
      "step": 146150
    },
    {
      "epoch": 0.7308,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008116582914572865,
      "loss": 2.0664,
      "step": 146160
    },
    {
      "epoch": 0.73085,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008115075376884421,
      "loss": 2.0633,
      "step": 146170
    },
    {
      "epoch": 0.7309,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000811356783919598,
      "loss": 2.0824,
      "step": 146180
    },
    {
      "epoch": 0.73095,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0008112060301507538,
      "loss": 2.0866,
      "step": 146190
    },
    {
      "epoch": 0.731,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008110552763819095,
      "loss": 2.0884,
      "step": 146200
    },
    {
      "epoch": 0.73105,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008109045226130653,
      "loss": 2.0745,
      "step": 146210
    },
    {
      "epoch": 0.7311,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008107537688442212,
      "loss": 2.1192,
      "step": 146220
    },
    {
      "epoch": 0.73115,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008106030150753768,
      "loss": 2.0275,
      "step": 146230
    },
    {
      "epoch": 0.7312,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008104522613065328,
      "loss": 2.0823,
      "step": 146240
    },
    {
      "epoch": 0.73125,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008103015075376883,
      "loss": 2.1054,
      "step": 146250
    },
    {
      "epoch": 0.7313,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008101507537688443,
      "loss": 2.0567,
      "step": 146260
    },
    {
      "epoch": 0.73135,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0008100000000000001,
      "loss": 2.0326,
      "step": 146270
    },
    {
      "epoch": 0.7314,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008098492462311558,
      "loss": 2.1096,
      "step": 146280
    },
    {
      "epoch": 0.73145,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008096984924623116,
      "loss": 2.0732,
      "step": 146290
    },
    {
      "epoch": 0.7315,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008095477386934674,
      "loss": 2.1517,
      "step": 146300
    },
    {
      "epoch": 0.73155,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008093969849246231,
      "loss": 2.087,
      "step": 146310
    },
    {
      "epoch": 0.7316,
      "grad_norm": 0.6640625,
      "learning_rate": 0.000809246231155779,
      "loss": 2.1019,
      "step": 146320
    },
    {
      "epoch": 0.73165,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008090954773869346,
      "loss": 2.1075,
      "step": 146330
    },
    {
      "epoch": 0.7317,
      "grad_norm": 0.6875,
      "learning_rate": 0.0008089447236180905,
      "loss": 2.1294,
      "step": 146340
    },
    {
      "epoch": 0.73175,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008087939698492463,
      "loss": 2.0591,
      "step": 146350
    },
    {
      "epoch": 0.7318,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000808643216080402,
      "loss": 2.1027,
      "step": 146360
    },
    {
      "epoch": 0.73185,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008084924623115578,
      "loss": 2.0629,
      "step": 146370
    },
    {
      "epoch": 0.7319,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008083417085427136,
      "loss": 2.1155,
      "step": 146380
    },
    {
      "epoch": 0.73195,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008081909547738693,
      "loss": 2.0655,
      "step": 146390
    },
    {
      "epoch": 0.732,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0008080402010050252,
      "loss": 2.0542,
      "step": 146400
    },
    {
      "epoch": 0.73205,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008078894472361808,
      "loss": 2.0749,
      "step": 146410
    },
    {
      "epoch": 0.7321,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008077386934673367,
      "loss": 2.0838,
      "step": 146420
    },
    {
      "epoch": 0.73215,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008075879396984925,
      "loss": 2.0797,
      "step": 146430
    },
    {
      "epoch": 0.7322,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0008074371859296482,
      "loss": 2.0838,
      "step": 146440
    },
    {
      "epoch": 0.73225,
      "grad_norm": 0.609375,
      "learning_rate": 0.000807286432160804,
      "loss": 2.1279,
      "step": 146450
    },
    {
      "epoch": 0.7323,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0008071356783919599,
      "loss": 2.0889,
      "step": 146460
    },
    {
      "epoch": 0.73235,
      "grad_norm": 0.578125,
      "learning_rate": 0.0008069849246231156,
      "loss": 2.1078,
      "step": 146470
    },
    {
      "epoch": 0.7324,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008068341708542714,
      "loss": 2.0915,
      "step": 146480
    },
    {
      "epoch": 0.73245,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0008066834170854271,
      "loss": 2.0696,
      "step": 146490
    },
    {
      "epoch": 0.7325,
      "grad_norm": 0.703125,
      "learning_rate": 0.000806532663316583,
      "loss": 2.0613,
      "step": 146500
    },
    {
      "epoch": 0.73255,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0008063819095477388,
      "loss": 2.1087,
      "step": 146510
    },
    {
      "epoch": 0.7326,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008062311557788945,
      "loss": 2.0803,
      "step": 146520
    },
    {
      "epoch": 0.73265,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0008060804020100503,
      "loss": 2.1101,
      "step": 146530
    },
    {
      "epoch": 0.7327,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008059296482412061,
      "loss": 2.0411,
      "step": 146540
    },
    {
      "epoch": 0.73275,
      "grad_norm": 0.65625,
      "learning_rate": 0.0008057788944723618,
      "loss": 2.1223,
      "step": 146550
    },
    {
      "epoch": 0.7328,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0008056281407035176,
      "loss": 2.0439,
      "step": 146560
    },
    {
      "epoch": 0.73285,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0008054773869346733,
      "loss": 2.1015,
      "step": 146570
    },
    {
      "epoch": 0.7329,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008053266331658292,
      "loss": 2.0753,
      "step": 146580
    },
    {
      "epoch": 0.73295,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000805175879396985,
      "loss": 2.0712,
      "step": 146590
    },
    {
      "epoch": 0.733,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008050251256281407,
      "loss": 2.0829,
      "step": 146600
    },
    {
      "epoch": 0.73305,
      "grad_norm": 0.609375,
      "learning_rate": 0.0008048743718592965,
      "loss": 2.0436,
      "step": 146610
    },
    {
      "epoch": 0.7331,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0008047236180904523,
      "loss": 2.0961,
      "step": 146620
    },
    {
      "epoch": 0.73315,
      "grad_norm": 0.625,
      "learning_rate": 0.000804572864321608,
      "loss": 2.0529,
      "step": 146630
    },
    {
      "epoch": 0.7332,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008044221105527638,
      "loss": 2.0583,
      "step": 146640
    },
    {
      "epoch": 0.73325,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0008042713567839195,
      "loss": 2.0645,
      "step": 146650
    },
    {
      "epoch": 0.7333,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0008041206030150753,
      "loss": 2.1076,
      "step": 146660
    },
    {
      "epoch": 0.73335,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0008039698492462313,
      "loss": 2.0496,
      "step": 146670
    },
    {
      "epoch": 0.7334,
      "grad_norm": 0.57421875,
      "learning_rate": 0.000803819095477387,
      "loss": 2.1323,
      "step": 146680
    },
    {
      "epoch": 0.73345,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008036683417085428,
      "loss": 2.0903,
      "step": 146690
    },
    {
      "epoch": 0.7335,
      "grad_norm": 0.625,
      "learning_rate": 0.0008035175879396986,
      "loss": 2.1123,
      "step": 146700
    },
    {
      "epoch": 0.73355,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0008033668341708543,
      "loss": 2.0519,
      "step": 146710
    },
    {
      "epoch": 0.7336,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008032160804020101,
      "loss": 2.1117,
      "step": 146720
    },
    {
      "epoch": 0.73365,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0008030653266331658,
      "loss": 2.0578,
      "step": 146730
    },
    {
      "epoch": 0.7337,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0008029145728643216,
      "loss": 2.1114,
      "step": 146740
    },
    {
      "epoch": 0.73375,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008027638190954775,
      "loss": 2.072,
      "step": 146750
    },
    {
      "epoch": 0.7338,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008026130653266332,
      "loss": 2.1194,
      "step": 146760
    },
    {
      "epoch": 0.73385,
      "grad_norm": 0.609375,
      "learning_rate": 0.000802462311557789,
      "loss": 2.0809,
      "step": 146770
    },
    {
      "epoch": 0.7339,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0008023115577889447,
      "loss": 2.0966,
      "step": 146780
    },
    {
      "epoch": 0.73395,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0008021608040201005,
      "loss": 2.059,
      "step": 146790
    },
    {
      "epoch": 0.734,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0008020100502512563,
      "loss": 2.1067,
      "step": 146800
    },
    {
      "epoch": 0.73405,
      "grad_norm": 0.8359375,
      "learning_rate": 0.000801859296482412,
      "loss": 2.0707,
      "step": 146810
    },
    {
      "epoch": 0.7341,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008017085427135678,
      "loss": 2.1506,
      "step": 146820
    },
    {
      "epoch": 0.73415,
      "grad_norm": 0.59375,
      "learning_rate": 0.0008015577889447237,
      "loss": 2.0417,
      "step": 146830
    },
    {
      "epoch": 0.7342,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0008014070351758793,
      "loss": 2.1392,
      "step": 146840
    },
    {
      "epoch": 0.73425,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0008012562814070352,
      "loss": 2.0928,
      "step": 146850
    },
    {
      "epoch": 0.7343,
      "grad_norm": 0.640625,
      "learning_rate": 0.0008011055276381909,
      "loss": 2.0536,
      "step": 146860
    },
    {
      "epoch": 0.73435,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0008009547738693467,
      "loss": 2.1053,
      "step": 146870
    },
    {
      "epoch": 0.7344,
      "grad_norm": 0.5625,
      "learning_rate": 0.0008008040201005025,
      "loss": 2.0835,
      "step": 146880
    },
    {
      "epoch": 0.73445,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0008006532663316582,
      "loss": 2.1047,
      "step": 146890
    },
    {
      "epoch": 0.7345,
      "grad_norm": 0.6953125,
      "learning_rate": 0.000800502512562814,
      "loss": 2.0439,
      "step": 146900
    },
    {
      "epoch": 0.73455,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00080035175879397,
      "loss": 2.1068,
      "step": 146910
    },
    {
      "epoch": 0.7346,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0008002010050251256,
      "loss": 2.031,
      "step": 146920
    },
    {
      "epoch": 0.73465,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0008000502512562815,
      "loss": 2.1058,
      "step": 146930
    },
    {
      "epoch": 0.7347,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007998994974874372,
      "loss": 2.0503,
      "step": 146940
    },
    {
      "epoch": 0.73475,
      "grad_norm": 0.59375,
      "learning_rate": 0.000799748743718593,
      "loss": 2.0842,
      "step": 146950
    },
    {
      "epoch": 0.7348,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007995979899497488,
      "loss": 2.0562,
      "step": 146960
    },
    {
      "epoch": 0.73485,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007994472361809045,
      "loss": 2.0999,
      "step": 146970
    },
    {
      "epoch": 0.7349,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007992964824120603,
      "loss": 2.0575,
      "step": 146980
    },
    {
      "epoch": 0.73495,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007991457286432162,
      "loss": 2.1196,
      "step": 146990
    },
    {
      "epoch": 0.735,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007989949748743718,
      "loss": 2.1335,
      "step": 147000
    },
    {
      "epoch": 0.73505,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0007988442211055277,
      "loss": 2.1187,
      "step": 147010
    },
    {
      "epoch": 0.7351,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007986934673366834,
      "loss": 2.1058,
      "step": 147020
    },
    {
      "epoch": 0.73515,
      "grad_norm": 0.625,
      "learning_rate": 0.0007985427135678392,
      "loss": 2.111,
      "step": 147030
    },
    {
      "epoch": 0.7352,
      "grad_norm": 0.84765625,
      "learning_rate": 0.000798391959798995,
      "loss": 2.0543,
      "step": 147040
    },
    {
      "epoch": 0.73525,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007982412060301507,
      "loss": 2.1097,
      "step": 147050
    },
    {
      "epoch": 0.7353,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007980904522613065,
      "loss": 2.0912,
      "step": 147060
    },
    {
      "epoch": 0.73535,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007979396984924624,
      "loss": 2.1045,
      "step": 147070
    },
    {
      "epoch": 0.7354,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000797788944723618,
      "loss": 2.103,
      "step": 147080
    },
    {
      "epoch": 0.73545,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000797638190954774,
      "loss": 2.0852,
      "step": 147090
    },
    {
      "epoch": 0.7355,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007974874371859295,
      "loss": 2.0763,
      "step": 147100
    },
    {
      "epoch": 0.73555,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007973366834170855,
      "loss": 2.0641,
      "step": 147110
    },
    {
      "epoch": 0.7356,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007971859296482413,
      "loss": 2.0506,
      "step": 147120
    },
    {
      "epoch": 0.73565,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000797035175879397,
      "loss": 2.0347,
      "step": 147130
    },
    {
      "epoch": 0.7357,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007968844221105528,
      "loss": 2.0457,
      "step": 147140
    },
    {
      "epoch": 0.73575,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007967336683417087,
      "loss": 2.0256,
      "step": 147150
    },
    {
      "epoch": 0.7358,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007965829145728643,
      "loss": 2.0876,
      "step": 147160
    },
    {
      "epoch": 0.73585,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007964321608040202,
      "loss": 2.0451,
      "step": 147170
    },
    {
      "epoch": 0.7359,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007962814070351758,
      "loss": 2.0835,
      "step": 147180
    },
    {
      "epoch": 0.73595,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007961306532663317,
      "loss": 2.0528,
      "step": 147190
    },
    {
      "epoch": 0.736,
      "grad_norm": 0.625,
      "learning_rate": 0.0007959798994974875,
      "loss": 2.0992,
      "step": 147200
    },
    {
      "epoch": 0.73605,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007958291457286432,
      "loss": 2.0766,
      "step": 147210
    },
    {
      "epoch": 0.7361,
      "grad_norm": 0.640625,
      "learning_rate": 0.000795678391959799,
      "loss": 2.0703,
      "step": 147220
    },
    {
      "epoch": 0.73615,
      "grad_norm": 0.625,
      "learning_rate": 0.0007955276381909548,
      "loss": 2.1269,
      "step": 147230
    },
    {
      "epoch": 0.7362,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007953768844221105,
      "loss": 2.1065,
      "step": 147240
    },
    {
      "epoch": 0.73625,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007952261306532664,
      "loss": 2.0407,
      "step": 147250
    },
    {
      "epoch": 0.7363,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000795075376884422,
      "loss": 2.0635,
      "step": 147260
    },
    {
      "epoch": 0.73635,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007949246231155779,
      "loss": 2.0549,
      "step": 147270
    },
    {
      "epoch": 0.7364,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007947738693467337,
      "loss": 2.11,
      "step": 147280
    },
    {
      "epoch": 0.73645,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007946231155778894,
      "loss": 2.0726,
      "step": 147290
    },
    {
      "epoch": 0.7365,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007944723618090452,
      "loss": 2.0943,
      "step": 147300
    },
    {
      "epoch": 0.73655,
      "grad_norm": 0.5625,
      "learning_rate": 0.000794321608040201,
      "loss": 2.0284,
      "step": 147310
    },
    {
      "epoch": 0.7366,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007941708542713567,
      "loss": 2.0898,
      "step": 147320
    },
    {
      "epoch": 0.73665,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007940201005025127,
      "loss": 2.1294,
      "step": 147330
    },
    {
      "epoch": 0.7367,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007938693467336683,
      "loss": 2.1365,
      "step": 147340
    },
    {
      "epoch": 0.73675,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007937185929648242,
      "loss": 2.08,
      "step": 147350
    },
    {
      "epoch": 0.7368,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00079356783919598,
      "loss": 2.1188,
      "step": 147360
    },
    {
      "epoch": 0.73685,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007934170854271357,
      "loss": 2.0491,
      "step": 147370
    },
    {
      "epoch": 0.7369,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007932663316582915,
      "loss": 2.159,
      "step": 147380
    },
    {
      "epoch": 0.73695,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007931155778894473,
      "loss": 2.0758,
      "step": 147390
    },
    {
      "epoch": 0.737,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000792964824120603,
      "loss": 2.1453,
      "step": 147400
    },
    {
      "epoch": 0.73705,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007928140703517588,
      "loss": 2.0828,
      "step": 147410
    },
    {
      "epoch": 0.7371,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0007926633165829145,
      "loss": 2.0448,
      "step": 147420
    },
    {
      "epoch": 0.73715,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007925125628140704,
      "loss": 2.0723,
      "step": 147430
    },
    {
      "epoch": 0.7372,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007923618090452262,
      "loss": 2.0656,
      "step": 147440
    },
    {
      "epoch": 0.73725,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007922110552763819,
      "loss": 2.085,
      "step": 147450
    },
    {
      "epoch": 0.7373,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007920603015075377,
      "loss": 2.1229,
      "step": 147460
    },
    {
      "epoch": 0.73735,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007919095477386935,
      "loss": 2.0581,
      "step": 147470
    },
    {
      "epoch": 0.7374,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007917587939698492,
      "loss": 2.0696,
      "step": 147480
    },
    {
      "epoch": 0.73745,
      "grad_norm": 0.5625,
      "learning_rate": 0.000791608040201005,
      "loss": 2.0469,
      "step": 147490
    },
    {
      "epoch": 0.7375,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007914572864321607,
      "loss": 2.0878,
      "step": 147500
    },
    {
      "epoch": 0.73755,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007913065326633166,
      "loss": 2.0984,
      "step": 147510
    },
    {
      "epoch": 0.7376,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007911557788944724,
      "loss": 2.0956,
      "step": 147520
    },
    {
      "epoch": 0.73765,
      "grad_norm": 0.53125,
      "learning_rate": 0.0007910050251256281,
      "loss": 2.0979,
      "step": 147530
    },
    {
      "epoch": 0.7377,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000790854271356784,
      "loss": 2.0707,
      "step": 147540
    },
    {
      "epoch": 0.73775,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007907035175879398,
      "loss": 2.0632,
      "step": 147550
    },
    {
      "epoch": 0.7378,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007905527638190955,
      "loss": 2.041,
      "step": 147560
    },
    {
      "epoch": 0.73785,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007904020100502513,
      "loss": 2.1365,
      "step": 147570
    },
    {
      "epoch": 0.7379,
      "grad_norm": 0.609375,
      "learning_rate": 0.000790251256281407,
      "loss": 2.0716,
      "step": 147580
    },
    {
      "epoch": 0.73795,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007901005025125628,
      "loss": 2.0677,
      "step": 147590
    },
    {
      "epoch": 0.738,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007899497487437187,
      "loss": 2.0422,
      "step": 147600
    },
    {
      "epoch": 0.73805,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007897989949748744,
      "loss": 2.1314,
      "step": 147610
    },
    {
      "epoch": 0.7381,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007896482412060302,
      "loss": 2.0652,
      "step": 147620
    },
    {
      "epoch": 0.73815,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000789497487437186,
      "loss": 2.1244,
      "step": 147630
    },
    {
      "epoch": 0.7382,
      "grad_norm": 0.8125,
      "learning_rate": 0.0007893467336683417,
      "loss": 2.0791,
      "step": 147640
    },
    {
      "epoch": 0.73825,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007891959798994975,
      "loss": 2.1442,
      "step": 147650
    },
    {
      "epoch": 0.7383,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007890452261306532,
      "loss": 2.0362,
      "step": 147660
    },
    {
      "epoch": 0.73835,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000788894472361809,
      "loss": 2.0786,
      "step": 147670
    },
    {
      "epoch": 0.7384,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007887437185929649,
      "loss": 2.0735,
      "step": 147680
    },
    {
      "epoch": 0.73845,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007885929648241206,
      "loss": 2.1198,
      "step": 147690
    },
    {
      "epoch": 0.7385,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007884422110552764,
      "loss": 2.0259,
      "step": 147700
    },
    {
      "epoch": 0.73855,
      "grad_norm": 0.671875,
      "learning_rate": 0.0007882914572864322,
      "loss": 2.1508,
      "step": 147710
    },
    {
      "epoch": 0.7386,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007881407035175879,
      "loss": 2.0315,
      "step": 147720
    },
    {
      "epoch": 0.73865,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007879899497487437,
      "loss": 2.1191,
      "step": 147730
    },
    {
      "epoch": 0.7387,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007878391959798994,
      "loss": 2.0431,
      "step": 147740
    },
    {
      "epoch": 0.73875,
      "grad_norm": 0.625,
      "learning_rate": 0.0007876884422110552,
      "loss": 2.156,
      "step": 147750
    },
    {
      "epoch": 0.7388,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007875376884422112,
      "loss": 2.0237,
      "step": 147760
    },
    {
      "epoch": 0.73885,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007873869346733668,
      "loss": 2.0438,
      "step": 147770
    },
    {
      "epoch": 0.7389,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007872361809045227,
      "loss": 2.0756,
      "step": 147780
    },
    {
      "epoch": 0.73895,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007870854271356785,
      "loss": 2.1096,
      "step": 147790
    },
    {
      "epoch": 0.739,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007869346733668342,
      "loss": 2.0901,
      "step": 147800
    },
    {
      "epoch": 0.73905,
      "grad_norm": 0.578125,
      "learning_rate": 0.00078678391959799,
      "loss": 2.0998,
      "step": 147810
    },
    {
      "epoch": 0.7391,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007866331658291457,
      "loss": 2.0028,
      "step": 147820
    },
    {
      "epoch": 0.73915,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007864824120603015,
      "loss": 2.1222,
      "step": 147830
    },
    {
      "epoch": 0.7392,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007863316582914574,
      "loss": 1.9933,
      "step": 147840
    },
    {
      "epoch": 0.73925,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000786180904522613,
      "loss": 2.106,
      "step": 147850
    },
    {
      "epoch": 0.7393,
      "grad_norm": 0.625,
      "learning_rate": 0.0007860301507537689,
      "loss": 2.0658,
      "step": 147860
    },
    {
      "epoch": 0.73935,
      "grad_norm": 0.625,
      "learning_rate": 0.0007858793969849247,
      "loss": 2.1141,
      "step": 147870
    },
    {
      "epoch": 0.7394,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007857286432160804,
      "loss": 2.0341,
      "step": 147880
    },
    {
      "epoch": 0.73945,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007855778894472362,
      "loss": 2.1189,
      "step": 147890
    },
    {
      "epoch": 0.7395,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007854271356783919,
      "loss": 2.0685,
      "step": 147900
    },
    {
      "epoch": 0.73955,
      "grad_norm": 0.625,
      "learning_rate": 0.0007852763819095477,
      "loss": 2.0693,
      "step": 147910
    },
    {
      "epoch": 0.7396,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0007851256281407036,
      "loss": 2.0446,
      "step": 147920
    },
    {
      "epoch": 0.73965,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007849748743718592,
      "loss": 2.1265,
      "step": 147930
    },
    {
      "epoch": 0.7397,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007848241206030151,
      "loss": 2.0594,
      "step": 147940
    },
    {
      "epoch": 0.73975,
      "grad_norm": 0.625,
      "learning_rate": 0.0007846733668341708,
      "loss": 2.0915,
      "step": 147950
    },
    {
      "epoch": 0.7398,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007845226130653266,
      "loss": 2.1372,
      "step": 147960
    },
    {
      "epoch": 0.73985,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007843718592964825,
      "loss": 2.1126,
      "step": 147970
    },
    {
      "epoch": 0.7399,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007842211055276382,
      "loss": 2.1236,
      "step": 147980
    },
    {
      "epoch": 0.73995,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000784070351758794,
      "loss": 2.1273,
      "step": 147990
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007839195979899499,
      "loss": 2.0276,
      "step": 148000
    },
    {
      "epoch": 0.74,
      "eval_loss": 2.0799479484558105,
      "eval_runtime": 46.3982,
      "eval_samples_per_second": 53.881,
      "eval_steps_per_second": 0.108,
      "step": 148000
    },
    {
      "epoch": 0.74005,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0007837688442211055,
      "loss": 2.0992,
      "step": 148010
    },
    {
      "epoch": 0.7401,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007836180904522614,
      "loss": 2.1053,
      "step": 148020
    },
    {
      "epoch": 0.74015,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000783467336683417,
      "loss": 2.0894,
      "step": 148030
    },
    {
      "epoch": 0.7402,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007833165829145729,
      "loss": 2.0394,
      "step": 148040
    },
    {
      "epoch": 0.74025,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007831658291457287,
      "loss": 2.1118,
      "step": 148050
    },
    {
      "epoch": 0.7403,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007830150753768844,
      "loss": 2.025,
      "step": 148060
    },
    {
      "epoch": 0.74035,
      "grad_norm": 0.625,
      "learning_rate": 0.0007828643216080402,
      "loss": 2.0996,
      "step": 148070
    },
    {
      "epoch": 0.7404,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007827135678391961,
      "loss": 2.0659,
      "step": 148080
    },
    {
      "epoch": 0.74045,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007825628140703517,
      "loss": 2.1193,
      "step": 148090
    },
    {
      "epoch": 0.7405,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0007824120603015076,
      "loss": 2.0651,
      "step": 148100
    },
    {
      "epoch": 0.74055,
      "grad_norm": 0.625,
      "learning_rate": 0.0007822613065326632,
      "loss": 2.0709,
      "step": 148110
    },
    {
      "epoch": 0.7406,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007821105527638191,
      "loss": 2.0867,
      "step": 148120
    },
    {
      "epoch": 0.74065,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007819597989949749,
      "loss": 2.0955,
      "step": 148130
    },
    {
      "epoch": 0.7407,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007818090452261306,
      "loss": 2.08,
      "step": 148140
    },
    {
      "epoch": 0.74075,
      "grad_norm": 0.671875,
      "learning_rate": 0.0007816582914572864,
      "loss": 2.0755,
      "step": 148150
    },
    {
      "epoch": 0.7408,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007815075376884422,
      "loss": 2.0582,
      "step": 148160
    },
    {
      "epoch": 0.74085,
      "grad_norm": 0.625,
      "learning_rate": 0.0007813567839195979,
      "loss": 2.0846,
      "step": 148170
    },
    {
      "epoch": 0.7409,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007812060301507539,
      "loss": 2.0766,
      "step": 148180
    },
    {
      "epoch": 0.74095,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007810552763819094,
      "loss": 2.0748,
      "step": 148190
    },
    {
      "epoch": 0.741,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007809045226130654,
      "loss": 2.0672,
      "step": 148200
    },
    {
      "epoch": 0.74105,
      "grad_norm": 0.625,
      "learning_rate": 0.0007807537688442212,
      "loss": 2.0687,
      "step": 148210
    },
    {
      "epoch": 0.7411,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007806030150753769,
      "loss": 2.0221,
      "step": 148220
    },
    {
      "epoch": 0.74115,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007804522613065327,
      "loss": 2.0628,
      "step": 148230
    },
    {
      "epoch": 0.7412,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007803015075376885,
      "loss": 2.0815,
      "step": 148240
    },
    {
      "epoch": 0.74125,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007801507537688442,
      "loss": 2.1001,
      "step": 148250
    },
    {
      "epoch": 0.7413,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007800000000000001,
      "loss": 2.0746,
      "step": 148260
    },
    {
      "epoch": 0.74135,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007798492462311557,
      "loss": 2.0761,
      "step": 148270
    },
    {
      "epoch": 0.7414,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0007796984924623116,
      "loss": 2.0696,
      "step": 148280
    },
    {
      "epoch": 0.74145,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007795477386934674,
      "loss": 2.0431,
      "step": 148290
    },
    {
      "epoch": 0.7415,
      "grad_norm": 0.546875,
      "learning_rate": 0.0007793969849246231,
      "loss": 2.0704,
      "step": 148300
    },
    {
      "epoch": 0.74155,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007792462311557789,
      "loss": 2.1287,
      "step": 148310
    },
    {
      "epoch": 0.7416,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007790954773869347,
      "loss": 2.0998,
      "step": 148320
    },
    {
      "epoch": 0.74165,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0007789447236180904,
      "loss": 2.0975,
      "step": 148330
    },
    {
      "epoch": 0.7417,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007787939698492462,
      "loss": 2.0438,
      "step": 148340
    },
    {
      "epoch": 0.74175,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0007786432160804019,
      "loss": 2.1297,
      "step": 148350
    },
    {
      "epoch": 0.7418,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007784924623115578,
      "loss": 2.0825,
      "step": 148360
    },
    {
      "epoch": 0.74185,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007783417085427136,
      "loss": 2.0513,
      "step": 148370
    },
    {
      "epoch": 0.7419,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007781909547738693,
      "loss": 2.0442,
      "step": 148380
    },
    {
      "epoch": 0.74195,
      "grad_norm": 0.671875,
      "learning_rate": 0.0007780402010050251,
      "loss": 2.0559,
      "step": 148390
    },
    {
      "epoch": 0.742,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000777889447236181,
      "loss": 2.1213,
      "step": 148400
    },
    {
      "epoch": 0.74205,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007777386934673367,
      "loss": 2.0579,
      "step": 148410
    },
    {
      "epoch": 0.7421,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007775879396984925,
      "loss": 2.0562,
      "step": 148420
    },
    {
      "epoch": 0.74215,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007774371859296482,
      "loss": 2.0741,
      "step": 148430
    },
    {
      "epoch": 0.7422,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007772864321608041,
      "loss": 2.089,
      "step": 148440
    },
    {
      "epoch": 0.74225,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007771356783919599,
      "loss": 2.071,
      "step": 148450
    },
    {
      "epoch": 0.7423,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007769849246231156,
      "loss": 2.0845,
      "step": 148460
    },
    {
      "epoch": 0.74235,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007768341708542714,
      "loss": 2.054,
      "step": 148470
    },
    {
      "epoch": 0.7424,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007766834170854272,
      "loss": 2.0932,
      "step": 148480
    },
    {
      "epoch": 0.74245,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0007765326633165829,
      "loss": 2.0779,
      "step": 148490
    },
    {
      "epoch": 0.7425,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007763819095477387,
      "loss": 2.0358,
      "step": 148500
    },
    {
      "epoch": 0.74255,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007762311557788944,
      "loss": 2.0768,
      "step": 148510
    },
    {
      "epoch": 0.7426,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007760804020100502,
      "loss": 2.0472,
      "step": 148520
    },
    {
      "epoch": 0.74265,
      "grad_norm": 0.625,
      "learning_rate": 0.0007759296482412061,
      "loss": 2.0711,
      "step": 148530
    },
    {
      "epoch": 0.7427,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007757788944723618,
      "loss": 2.1067,
      "step": 148540
    },
    {
      "epoch": 0.74275,
      "grad_norm": 0.625,
      "learning_rate": 0.0007756281407035176,
      "loss": 2.0957,
      "step": 148550
    },
    {
      "epoch": 0.7428,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0007754773869346734,
      "loss": 2.1392,
      "step": 148560
    },
    {
      "epoch": 0.74285,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007753266331658291,
      "loss": 2.12,
      "step": 148570
    },
    {
      "epoch": 0.7429,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007751758793969849,
      "loss": 2.0381,
      "step": 148580
    },
    {
      "epoch": 0.74295,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007750251256281406,
      "loss": 2.0909,
      "step": 148590
    },
    {
      "epoch": 0.743,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007748743718592964,
      "loss": 2.1415,
      "step": 148600
    },
    {
      "epoch": 0.74305,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007747236180904524,
      "loss": 2.1199,
      "step": 148610
    },
    {
      "epoch": 0.7431,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007745728643216081,
      "loss": 2.098,
      "step": 148620
    },
    {
      "epoch": 0.74315,
      "grad_norm": 0.625,
      "learning_rate": 0.0007744221105527639,
      "loss": 2.1423,
      "step": 148630
    },
    {
      "epoch": 0.7432,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007742713567839197,
      "loss": 2.0504,
      "step": 148640
    },
    {
      "epoch": 0.74325,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0007741206030150754,
      "loss": 2.0854,
      "step": 148650
    },
    {
      "epoch": 0.7433,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007739698492462312,
      "loss": 2.0759,
      "step": 148660
    },
    {
      "epoch": 0.74335,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007738190954773869,
      "loss": 2.106,
      "step": 148670
    },
    {
      "epoch": 0.7434,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007736683417085427,
      "loss": 2.0723,
      "step": 148680
    },
    {
      "epoch": 0.74345,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007735175879396986,
      "loss": 2.0923,
      "step": 148690
    },
    {
      "epoch": 0.7435,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0007733668341708542,
      "loss": 2.042,
      "step": 148700
    },
    {
      "epoch": 0.74355,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0007732160804020101,
      "loss": 2.1334,
      "step": 148710
    },
    {
      "epoch": 0.7436,
      "grad_norm": 0.546875,
      "learning_rate": 0.0007730653266331659,
      "loss": 2.0161,
      "step": 148720
    },
    {
      "epoch": 0.74365,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007729145728643216,
      "loss": 2.116,
      "step": 148730
    },
    {
      "epoch": 0.7437,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0007727638190954774,
      "loss": 2.0494,
      "step": 148740
    },
    {
      "epoch": 0.74375,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007726130653266331,
      "loss": 2.1097,
      "step": 148750
    },
    {
      "epoch": 0.7438,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007724623115577889,
      "loss": 2.0459,
      "step": 148760
    },
    {
      "epoch": 0.74385,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007723115577889448,
      "loss": 2.0738,
      "step": 148770
    },
    {
      "epoch": 0.7439,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007721608040201004,
      "loss": 2.0494,
      "step": 148780
    },
    {
      "epoch": 0.74395,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007720100502512563,
      "loss": 2.076,
      "step": 148790
    },
    {
      "epoch": 0.744,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007718592964824121,
      "loss": 2.1079,
      "step": 148800
    },
    {
      "epoch": 0.74405,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007717085427135678,
      "loss": 2.0781,
      "step": 148810
    },
    {
      "epoch": 0.7441,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007715577889447237,
      "loss": 2.1089,
      "step": 148820
    },
    {
      "epoch": 0.74415,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007714070351758793,
      "loss": 2.0958,
      "step": 148830
    },
    {
      "epoch": 0.7442,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0007712562814070352,
      "loss": 2.0717,
      "step": 148840
    },
    {
      "epoch": 0.74425,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007711055276381911,
      "loss": 2.0828,
      "step": 148850
    },
    {
      "epoch": 0.7443,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007709547738693467,
      "loss": 2.0727,
      "step": 148860
    },
    {
      "epoch": 0.74435,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007708040201005026,
      "loss": 2.0844,
      "step": 148870
    },
    {
      "epoch": 0.7444,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007706532663316584,
      "loss": 2.0816,
      "step": 148880
    },
    {
      "epoch": 0.74445,
      "grad_norm": 0.625,
      "learning_rate": 0.0007705025125628141,
      "loss": 2.1103,
      "step": 148890
    },
    {
      "epoch": 0.7445,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007703517587939699,
      "loss": 2.0613,
      "step": 148900
    },
    {
      "epoch": 0.74455,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007702010050251256,
      "loss": 2.073,
      "step": 148910
    },
    {
      "epoch": 0.7446,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007700502512562814,
      "loss": 2.1058,
      "step": 148920
    },
    {
      "epoch": 0.74465,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007698994974874373,
      "loss": 2.155,
      "step": 148930
    },
    {
      "epoch": 0.7447,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007697487437185929,
      "loss": 2.0623,
      "step": 148940
    },
    {
      "epoch": 0.74475,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007695979899497488,
      "loss": 2.1436,
      "step": 148950
    },
    {
      "epoch": 0.7448,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007694472361809046,
      "loss": 2.0663,
      "step": 148960
    },
    {
      "epoch": 0.74485,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007692964824120603,
      "loss": 2.1125,
      "step": 148970
    },
    {
      "epoch": 0.7449,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007691457286432161,
      "loss": 2.0888,
      "step": 148980
    },
    {
      "epoch": 0.74495,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007689949748743718,
      "loss": 2.1284,
      "step": 148990
    },
    {
      "epoch": 0.745,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007688442211055276,
      "loss": 2.0922,
      "step": 149000
    },
    {
      "epoch": 0.74505,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007686934673366835,
      "loss": 2.1009,
      "step": 149010
    },
    {
      "epoch": 0.7451,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007685427135678391,
      "loss": 2.0846,
      "step": 149020
    },
    {
      "epoch": 0.74515,
      "grad_norm": 0.609375,
      "learning_rate": 0.000768391959798995,
      "loss": 2.0858,
      "step": 149030
    },
    {
      "epoch": 0.7452,
      "grad_norm": 0.625,
      "learning_rate": 0.0007682412060301509,
      "loss": 2.0832,
      "step": 149040
    },
    {
      "epoch": 0.74525,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007680904522613066,
      "loss": 2.1368,
      "step": 149050
    },
    {
      "epoch": 0.7453,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007679396984924624,
      "loss": 2.0729,
      "step": 149060
    },
    {
      "epoch": 0.74535,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0007677889447236181,
      "loss": 2.1271,
      "step": 149070
    },
    {
      "epoch": 0.7454,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007676381909547739,
      "loss": 2.0658,
      "step": 149080
    },
    {
      "epoch": 0.74545,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007674874371859297,
      "loss": 2.0745,
      "step": 149090
    },
    {
      "epoch": 0.7455,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007673366834170854,
      "loss": 2.0475,
      "step": 149100
    },
    {
      "epoch": 0.74555,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007671859296482413,
      "loss": 2.1147,
      "step": 149110
    },
    {
      "epoch": 0.7456,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007670351758793969,
      "loss": 2.0448,
      "step": 149120
    },
    {
      "epoch": 0.74565,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007668844221105528,
      "loss": 2.0839,
      "step": 149130
    },
    {
      "epoch": 0.7457,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0007667336683417086,
      "loss": 2.0677,
      "step": 149140
    },
    {
      "epoch": 0.74575,
      "grad_norm": 0.546875,
      "learning_rate": 0.0007665829145728643,
      "loss": 2.1086,
      "step": 149150
    },
    {
      "epoch": 0.7458,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007664321608040201,
      "loss": 2.0887,
      "step": 149160
    },
    {
      "epoch": 0.74585,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007662814070351759,
      "loss": 2.0999,
      "step": 149170
    },
    {
      "epoch": 0.7459,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0007661306532663316,
      "loss": 2.1037,
      "step": 149180
    },
    {
      "epoch": 0.74595,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007659798994974875,
      "loss": 2.1449,
      "step": 149190
    },
    {
      "epoch": 0.746,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0007658291457286431,
      "loss": 2.0922,
      "step": 149200
    },
    {
      "epoch": 0.74605,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000765678391959799,
      "loss": 2.1181,
      "step": 149210
    },
    {
      "epoch": 0.7461,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007655276381909548,
      "loss": 2.0535,
      "step": 149220
    },
    {
      "epoch": 0.74615,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007653768844221105,
      "loss": 2.1017,
      "step": 149230
    },
    {
      "epoch": 0.7462,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007652261306532663,
      "loss": 2.0794,
      "step": 149240
    },
    {
      "epoch": 0.74625,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0007650753768844222,
      "loss": 2.1347,
      "step": 149250
    },
    {
      "epoch": 0.7463,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007649246231155778,
      "loss": 2.0664,
      "step": 149260
    },
    {
      "epoch": 0.74635,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007647738693467337,
      "loss": 2.1266,
      "step": 149270
    },
    {
      "epoch": 0.7464,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0007646231155778894,
      "loss": 2.1215,
      "step": 149280
    },
    {
      "epoch": 0.74645,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007644723618090453,
      "loss": 2.0869,
      "step": 149290
    },
    {
      "epoch": 0.7465,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007643216080402011,
      "loss": 2.0795,
      "step": 149300
    },
    {
      "epoch": 0.74655,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0007641708542713568,
      "loss": 2.0817,
      "step": 149310
    },
    {
      "epoch": 0.7466,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007640201005025126,
      "loss": 2.0827,
      "step": 149320
    },
    {
      "epoch": 0.74665,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007638693467336684,
      "loss": 2.054,
      "step": 149330
    },
    {
      "epoch": 0.7467,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007637185929648241,
      "loss": 2.136,
      "step": 149340
    },
    {
      "epoch": 0.74675,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007635678391959799,
      "loss": 2.0755,
      "step": 149350
    },
    {
      "epoch": 0.7468,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007634170854271356,
      "loss": 2.0975,
      "step": 149360
    },
    {
      "epoch": 0.74685,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007632663316582915,
      "loss": 2.0667,
      "step": 149370
    },
    {
      "epoch": 0.7469,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0007631155778894473,
      "loss": 2.1273,
      "step": 149380
    },
    {
      "epoch": 0.74695,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000762964824120603,
      "loss": 2.0871,
      "step": 149390
    },
    {
      "epoch": 0.747,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007628140703517588,
      "loss": 2.1259,
      "step": 149400
    },
    {
      "epoch": 0.74705,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0007626633165829146,
      "loss": 2.0646,
      "step": 149410
    },
    {
      "epoch": 0.7471,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007625125628140703,
      "loss": 2.0722,
      "step": 149420
    },
    {
      "epoch": 0.74715,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0007623618090452261,
      "loss": 2.0857,
      "step": 149430
    },
    {
      "epoch": 0.7472,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007622110552763818,
      "loss": 2.128,
      "step": 149440
    },
    {
      "epoch": 0.74725,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007620603015075376,
      "loss": 2.0475,
      "step": 149450
    },
    {
      "epoch": 0.7473,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007619095477386936,
      "loss": 2.0974,
      "step": 149460
    },
    {
      "epoch": 0.74735,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007617587939698493,
      "loss": 2.1065,
      "step": 149470
    },
    {
      "epoch": 0.7474,
      "grad_norm": 0.625,
      "learning_rate": 0.0007616080402010051,
      "loss": 2.1093,
      "step": 149480
    },
    {
      "epoch": 0.74745,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007614572864321609,
      "loss": 2.062,
      "step": 149490
    },
    {
      "epoch": 0.7475,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007613065326633166,
      "loss": 2.087,
      "step": 149500
    },
    {
      "epoch": 0.74755,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007611557788944724,
      "loss": 2.0361,
      "step": 149510
    },
    {
      "epoch": 0.7476,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007610050251256281,
      "loss": 2.101,
      "step": 149520
    },
    {
      "epoch": 0.74765,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007608542713567839,
      "loss": 2.0367,
      "step": 149530
    },
    {
      "epoch": 0.7477,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007607035175879398,
      "loss": 2.0952,
      "step": 149540
    },
    {
      "epoch": 0.74775,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007605527638190955,
      "loss": 2.0696,
      "step": 149550
    },
    {
      "epoch": 0.7478,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007604020100502513,
      "loss": 2.1035,
      "step": 149560
    },
    {
      "epoch": 0.74785,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007602512562814071,
      "loss": 2.0889,
      "step": 149570
    },
    {
      "epoch": 0.7479,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007601005025125628,
      "loss": 2.125,
      "step": 149580
    },
    {
      "epoch": 0.74795,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007599497487437186,
      "loss": 2.0705,
      "step": 149590
    },
    {
      "epoch": 0.748,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007597989949748743,
      "loss": 2.0869,
      "step": 149600
    },
    {
      "epoch": 0.74805,
      "grad_norm": 0.671875,
      "learning_rate": 0.0007596482412060301,
      "loss": 2.0855,
      "step": 149610
    },
    {
      "epoch": 0.7481,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000759497487437186,
      "loss": 2.0745,
      "step": 149620
    },
    {
      "epoch": 0.74815,
      "grad_norm": 0.671875,
      "learning_rate": 0.0007593467336683416,
      "loss": 2.0403,
      "step": 149630
    },
    {
      "epoch": 0.7482,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007591959798994975,
      "loss": 2.1063,
      "step": 149640
    },
    {
      "epoch": 0.74825,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007590452261306533,
      "loss": 2.0929,
      "step": 149650
    },
    {
      "epoch": 0.7483,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000758894472361809,
      "loss": 2.053,
      "step": 149660
    },
    {
      "epoch": 0.74835,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007587437185929648,
      "loss": 2.0714,
      "step": 149670
    },
    {
      "epoch": 0.7484,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007585929648241205,
      "loss": 2.0895,
      "step": 149680
    },
    {
      "epoch": 0.74845,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0007584422110552764,
      "loss": 2.1244,
      "step": 149690
    },
    {
      "epoch": 0.7485,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007582914572864323,
      "loss": 2.0977,
      "step": 149700
    },
    {
      "epoch": 0.74855,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007581407035175879,
      "loss": 2.0821,
      "step": 149710
    },
    {
      "epoch": 0.7486,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007579899497487438,
      "loss": 2.0538,
      "step": 149720
    },
    {
      "epoch": 0.74865,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007578391959798996,
      "loss": 2.0867,
      "step": 149730
    },
    {
      "epoch": 0.7487,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007576884422110553,
      "loss": 2.0744,
      "step": 149740
    },
    {
      "epoch": 0.74875,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007575376884422111,
      "loss": 2.0859,
      "step": 149750
    },
    {
      "epoch": 0.7488,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007573869346733668,
      "loss": 2.0725,
      "step": 149760
    },
    {
      "epoch": 0.74885,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007572361809045226,
      "loss": 2.1248,
      "step": 149770
    },
    {
      "epoch": 0.7489,
      "grad_norm": 0.671875,
      "learning_rate": 0.0007570854271356785,
      "loss": 2.0662,
      "step": 149780
    },
    {
      "epoch": 0.74895,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007569346733668341,
      "loss": 2.113,
      "step": 149790
    },
    {
      "epoch": 0.749,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00075678391959799,
      "loss": 2.0415,
      "step": 149800
    },
    {
      "epoch": 0.74905,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007566331658291458,
      "loss": 2.0994,
      "step": 149810
    },
    {
      "epoch": 0.7491,
      "grad_norm": 0.546875,
      "learning_rate": 0.0007564824120603015,
      "loss": 2.044,
      "step": 149820
    },
    {
      "epoch": 0.74915,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0007563316582914573,
      "loss": 2.072,
      "step": 149830
    },
    {
      "epoch": 0.7492,
      "grad_norm": 0.640625,
      "learning_rate": 0.000756180904522613,
      "loss": 2.0763,
      "step": 149840
    },
    {
      "epoch": 0.74925,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007560301507537688,
      "loss": 2.061,
      "step": 149850
    },
    {
      "epoch": 0.7493,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0007558793969849247,
      "loss": 2.0663,
      "step": 149860
    },
    {
      "epoch": 0.74935,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007557286432160803,
      "loss": 2.1568,
      "step": 149870
    },
    {
      "epoch": 0.7494,
      "grad_norm": 0.703125,
      "learning_rate": 0.0007555778894472362,
      "loss": 2.0889,
      "step": 149880
    },
    {
      "epoch": 0.74945,
      "grad_norm": 0.57421875,
      "learning_rate": 0.000755427135678392,
      "loss": 2.0655,
      "step": 149890
    },
    {
      "epoch": 0.7495,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007552763819095478,
      "loss": 2.0749,
      "step": 149900
    },
    {
      "epoch": 0.74955,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007551256281407036,
      "loss": 2.1108,
      "step": 149910
    },
    {
      "epoch": 0.7496,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0007549748743718593,
      "loss": 2.0682,
      "step": 149920
    },
    {
      "epoch": 0.74965,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007548241206030151,
      "loss": 2.0578,
      "step": 149930
    },
    {
      "epoch": 0.7497,
      "grad_norm": 0.640625,
      "learning_rate": 0.000754673366834171,
      "loss": 2.0711,
      "step": 149940
    },
    {
      "epoch": 0.74975,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007545226130653266,
      "loss": 2.1004,
      "step": 149950
    },
    {
      "epoch": 0.7498,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007543718592964825,
      "loss": 2.0239,
      "step": 149960
    },
    {
      "epoch": 0.74985,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007542211055276383,
      "loss": 2.1048,
      "step": 149970
    },
    {
      "epoch": 0.7499,
      "grad_norm": 0.7109375,
      "learning_rate": 0.000754070351758794,
      "loss": 2.0329,
      "step": 149980
    },
    {
      "epoch": 0.74995,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007539195979899498,
      "loss": 2.0674,
      "step": 149990
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007537688442211055,
      "loss": 2.0809,
      "step": 150000
    },
    {
      "epoch": 0.75,
      "eval_loss": 2.077378273010254,
      "eval_runtime": 46.6582,
      "eval_samples_per_second": 53.581,
      "eval_steps_per_second": 0.107,
      "step": 150000
    },
    {
      "epoch": 0.75005,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0007536180904522613,
      "loss": 2.102,
      "step": 150010
    },
    {
      "epoch": 0.7501,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007534673366834171,
      "loss": 2.0414,
      "step": 150020
    },
    {
      "epoch": 0.75015,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007533165829145728,
      "loss": 2.08,
      "step": 150030
    },
    {
      "epoch": 0.7502,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0007531658291457287,
      "loss": 2.0772,
      "step": 150040
    },
    {
      "epoch": 0.75025,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007530150753768845,
      "loss": 2.0649,
      "step": 150050
    },
    {
      "epoch": 0.7503,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007528643216080402,
      "loss": 2.0757,
      "step": 150060
    },
    {
      "epoch": 0.75035,
      "grad_norm": 0.578125,
      "learning_rate": 0.000752713567839196,
      "loss": 2.0566,
      "step": 150070
    },
    {
      "epoch": 0.7504,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007525628140703517,
      "loss": 2.0661,
      "step": 150080
    },
    {
      "epoch": 0.75045,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007524120603015075,
      "loss": 2.0511,
      "step": 150090
    },
    {
      "epoch": 0.7505,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007522613065326633,
      "loss": 2.0545,
      "step": 150100
    },
    {
      "epoch": 0.75055,
      "grad_norm": 0.625,
      "learning_rate": 0.000752110552763819,
      "loss": 2.0299,
      "step": 150110
    },
    {
      "epoch": 0.7506,
      "grad_norm": 0.59375,
      "learning_rate": 0.000751959798994975,
      "loss": 2.0793,
      "step": 150120
    },
    {
      "epoch": 0.75065,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007518090452261308,
      "loss": 2.0678,
      "step": 150130
    },
    {
      "epoch": 0.7507,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007516582914572865,
      "loss": 2.1056,
      "step": 150140
    },
    {
      "epoch": 0.75075,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007515075376884423,
      "loss": 2.0979,
      "step": 150150
    },
    {
      "epoch": 0.7508,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000751356783919598,
      "loss": 2.1175,
      "step": 150160
    },
    {
      "epoch": 0.75085,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007512060301507538,
      "loss": 2.0257,
      "step": 150170
    },
    {
      "epoch": 0.7509,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007510552763819096,
      "loss": 2.0833,
      "step": 150180
    },
    {
      "epoch": 0.75095,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007509045226130653,
      "loss": 2.0359,
      "step": 150190
    },
    {
      "epoch": 0.751,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007507537688442211,
      "loss": 2.0549,
      "step": 150200
    },
    {
      "epoch": 0.75105,
      "grad_norm": 0.5625,
      "learning_rate": 0.000750603015075377,
      "loss": 2.0855,
      "step": 150210
    },
    {
      "epoch": 0.7511,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007504522613065327,
      "loss": 2.0761,
      "step": 150220
    },
    {
      "epoch": 0.75115,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007503015075376885,
      "loss": 2.0745,
      "step": 150230
    },
    {
      "epoch": 0.7512,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007501507537688442,
      "loss": 2.1066,
      "step": 150240
    },
    {
      "epoch": 0.75125,
      "grad_norm": 0.546875,
      "learning_rate": 0.00075,
      "loss": 2.0651,
      "step": 150250
    },
    {
      "epoch": 0.7513,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007498492462311558,
      "loss": 2.0941,
      "step": 150260
    },
    {
      "epoch": 0.75135,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007496984924623115,
      "loss": 2.0652,
      "step": 150270
    },
    {
      "epoch": 0.7514,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007495477386934673,
      "loss": 2.1187,
      "step": 150280
    },
    {
      "epoch": 0.75145,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007493969849246231,
      "loss": 2.1046,
      "step": 150290
    },
    {
      "epoch": 0.7515,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007492462311557789,
      "loss": 2.0945,
      "step": 150300
    },
    {
      "epoch": 0.75155,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007490954773869346,
      "loss": 2.1068,
      "step": 150310
    },
    {
      "epoch": 0.7516,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007489447236180904,
      "loss": 2.1422,
      "step": 150320
    },
    {
      "epoch": 0.75165,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007487939698492463,
      "loss": 2.1224,
      "step": 150330
    },
    {
      "epoch": 0.7517,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007486432160804021,
      "loss": 2.0765,
      "step": 150340
    },
    {
      "epoch": 0.75175,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007484924623115578,
      "loss": 2.0901,
      "step": 150350
    },
    {
      "epoch": 0.7518,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007483417085427136,
      "loss": 2.0739,
      "step": 150360
    },
    {
      "epoch": 0.75185,
      "grad_norm": 0.625,
      "learning_rate": 0.0007481909547738694,
      "loss": 2.1036,
      "step": 150370
    },
    {
      "epoch": 0.7519,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007480402010050251,
      "loss": 2.0471,
      "step": 150380
    },
    {
      "epoch": 0.75195,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007478894472361809,
      "loss": 2.1228,
      "step": 150390
    },
    {
      "epoch": 0.752,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007477386934673367,
      "loss": 2.0112,
      "step": 150400
    },
    {
      "epoch": 0.75205,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0007475879396984925,
      "loss": 2.0784,
      "step": 150410
    },
    {
      "epoch": 0.7521,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007474371859296482,
      "loss": 2.0619,
      "step": 150420
    },
    {
      "epoch": 0.75215,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000747286432160804,
      "loss": 2.0906,
      "step": 150430
    },
    {
      "epoch": 0.7522,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007471356783919598,
      "loss": 2.0583,
      "step": 150440
    },
    {
      "epoch": 0.75225,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0007469849246231156,
      "loss": 2.0589,
      "step": 150450
    },
    {
      "epoch": 0.7523,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007468341708542713,
      "loss": 2.0261,
      "step": 150460
    },
    {
      "epoch": 0.75235,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007466834170854271,
      "loss": 2.0655,
      "step": 150470
    },
    {
      "epoch": 0.7524,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007465326633165829,
      "loss": 2.1046,
      "step": 150480
    },
    {
      "epoch": 0.75245,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007463819095477387,
      "loss": 2.1171,
      "step": 150490
    },
    {
      "epoch": 0.7525,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007462311557788944,
      "loss": 2.0808,
      "step": 150500
    },
    {
      "epoch": 0.75255,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007460804020100502,
      "loss": 2.1199,
      "step": 150510
    },
    {
      "epoch": 0.7526,
      "grad_norm": 0.6875,
      "learning_rate": 0.000745929648241206,
      "loss": 2.1431,
      "step": 150520
    },
    {
      "epoch": 0.75265,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007457788944723618,
      "loss": 2.1707,
      "step": 150530
    },
    {
      "epoch": 0.7527,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007456281407035175,
      "loss": 2.0466,
      "step": 150540
    },
    {
      "epoch": 0.75275,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007454773869346734,
      "loss": 2.0835,
      "step": 150550
    },
    {
      "epoch": 0.7528,
      "grad_norm": 0.703125,
      "learning_rate": 0.0007453266331658292,
      "loss": 2.0507,
      "step": 150560
    },
    {
      "epoch": 0.75285,
      "grad_norm": 0.625,
      "learning_rate": 0.000745175879396985,
      "loss": 2.0742,
      "step": 150570
    },
    {
      "epoch": 0.7529,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007450251256281407,
      "loss": 2.0602,
      "step": 150580
    },
    {
      "epoch": 0.75295,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007448743718592965,
      "loss": 2.0919,
      "step": 150590
    },
    {
      "epoch": 0.753,
      "grad_norm": 0.625,
      "learning_rate": 0.0007447236180904523,
      "loss": 2.0795,
      "step": 150600
    },
    {
      "epoch": 0.75305,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007445728643216081,
      "loss": 2.077,
      "step": 150610
    },
    {
      "epoch": 0.7531,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007444221105527638,
      "loss": 2.0932,
      "step": 150620
    },
    {
      "epoch": 0.75315,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007442713567839196,
      "loss": 2.032,
      "step": 150630
    },
    {
      "epoch": 0.7532,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007441206030150754,
      "loss": 2.0932,
      "step": 150640
    },
    {
      "epoch": 0.75325,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007439698492462312,
      "loss": 2.0675,
      "step": 150650
    },
    {
      "epoch": 0.7533,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0007438190954773869,
      "loss": 2.1067,
      "step": 150660
    },
    {
      "epoch": 0.75335,
      "grad_norm": 0.6875,
      "learning_rate": 0.0007436683417085427,
      "loss": 2.0947,
      "step": 150670
    },
    {
      "epoch": 0.7534,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007435175879396985,
      "loss": 2.1333,
      "step": 150680
    },
    {
      "epoch": 0.75345,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007433668341708543,
      "loss": 2.0459,
      "step": 150690
    },
    {
      "epoch": 0.7535,
      "grad_norm": 0.59375,
      "learning_rate": 0.00074321608040201,
      "loss": 2.0651,
      "step": 150700
    },
    {
      "epoch": 0.75355,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007430653266331658,
      "loss": 2.0596,
      "step": 150710
    },
    {
      "epoch": 0.7536,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007429145728643216,
      "loss": 2.1053,
      "step": 150720
    },
    {
      "epoch": 0.75365,
      "grad_norm": 0.6875,
      "learning_rate": 0.0007427638190954774,
      "loss": 2.0422,
      "step": 150730
    },
    {
      "epoch": 0.7537,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007426130653266331,
      "loss": 2.1059,
      "step": 150740
    },
    {
      "epoch": 0.75375,
      "grad_norm": 0.5703125,
      "learning_rate": 0.000742462311557789,
      "loss": 2.0458,
      "step": 150750
    },
    {
      "epoch": 0.7538,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007423115577889448,
      "loss": 2.0658,
      "step": 150760
    },
    {
      "epoch": 0.75385,
      "grad_norm": 0.546875,
      "learning_rate": 0.0007421608040201006,
      "loss": 2.0298,
      "step": 150770
    },
    {
      "epoch": 0.7539,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007420100502512563,
      "loss": 2.1074,
      "step": 150780
    },
    {
      "epoch": 0.75395,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007418592964824121,
      "loss": 2.0316,
      "step": 150790
    },
    {
      "epoch": 0.754,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007417085427135679,
      "loss": 2.098,
      "step": 150800
    },
    {
      "epoch": 0.75405,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007415577889447237,
      "loss": 2.1167,
      "step": 150810
    },
    {
      "epoch": 0.7541,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0007414070351758794,
      "loss": 2.0676,
      "step": 150820
    },
    {
      "epoch": 0.75415,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007412562814070352,
      "loss": 2.1096,
      "step": 150830
    },
    {
      "epoch": 0.7542,
      "grad_norm": 0.5703125,
      "learning_rate": 0.000741105527638191,
      "loss": 2.0619,
      "step": 150840
    },
    {
      "epoch": 0.75425,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007409547738693468,
      "loss": 2.1004,
      "step": 150850
    },
    {
      "epoch": 0.7543,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007408040201005025,
      "loss": 2.0799,
      "step": 150860
    },
    {
      "epoch": 0.75435,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007406532663316583,
      "loss": 2.0923,
      "step": 150870
    },
    {
      "epoch": 0.7544,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007405025125628141,
      "loss": 2.0579,
      "step": 150880
    },
    {
      "epoch": 0.75445,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007403517587939699,
      "loss": 2.0838,
      "step": 150890
    },
    {
      "epoch": 0.7545,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007402010050251256,
      "loss": 2.0726,
      "step": 150900
    },
    {
      "epoch": 0.75455,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007400502512562814,
      "loss": 2.1017,
      "step": 150910
    },
    {
      "epoch": 0.7546,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007398994974874372,
      "loss": 2.0882,
      "step": 150920
    },
    {
      "epoch": 0.75465,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000739748743718593,
      "loss": 2.1618,
      "step": 150930
    },
    {
      "epoch": 0.7547,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007395979899497487,
      "loss": 2.0526,
      "step": 150940
    },
    {
      "epoch": 0.75475,
      "grad_norm": 0.6875,
      "learning_rate": 0.0007394472361809045,
      "loss": 2.1125,
      "step": 150950
    },
    {
      "epoch": 0.7548,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007392964824120603,
      "loss": 2.0861,
      "step": 150960
    },
    {
      "epoch": 0.75485,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007391457286432162,
      "loss": 2.0822,
      "step": 150970
    },
    {
      "epoch": 0.7549,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007389949748743719,
      "loss": 2.0915,
      "step": 150980
    },
    {
      "epoch": 0.75495,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007388442211055277,
      "loss": 2.0813,
      "step": 150990
    },
    {
      "epoch": 0.755,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007386934673366835,
      "loss": 2.0878,
      "step": 151000
    },
    {
      "epoch": 0.75505,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0007385427135678393,
      "loss": 2.0458,
      "step": 151010
    },
    {
      "epoch": 0.7551,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000738391959798995,
      "loss": 2.0858,
      "step": 151020
    },
    {
      "epoch": 0.75515,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007382412060301508,
      "loss": 2.049,
      "step": 151030
    },
    {
      "epoch": 0.7552,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007380904522613066,
      "loss": 2.0844,
      "step": 151040
    },
    {
      "epoch": 0.75525,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007379396984924624,
      "loss": 2.0261,
      "step": 151050
    },
    {
      "epoch": 0.7553,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007377889447236181,
      "loss": 2.0748,
      "step": 151060
    },
    {
      "epoch": 0.75535,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007376381909547739,
      "loss": 2.0498,
      "step": 151070
    },
    {
      "epoch": 0.7554,
      "grad_norm": 0.546875,
      "learning_rate": 0.0007374874371859297,
      "loss": 2.0667,
      "step": 151080
    },
    {
      "epoch": 0.75545,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007373366834170854,
      "loss": 2.0838,
      "step": 151090
    },
    {
      "epoch": 0.7555,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007371859296482412,
      "loss": 2.1085,
      "step": 151100
    },
    {
      "epoch": 0.75555,
      "grad_norm": 0.5703125,
      "learning_rate": 0.000737035175879397,
      "loss": 2.1009,
      "step": 151110
    },
    {
      "epoch": 0.7556,
      "grad_norm": 0.703125,
      "learning_rate": 0.0007368844221105528,
      "loss": 2.0839,
      "step": 151120
    },
    {
      "epoch": 0.75565,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007367336683417085,
      "loss": 2.054,
      "step": 151130
    },
    {
      "epoch": 0.7557,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007365829145728643,
      "loss": 2.0979,
      "step": 151140
    },
    {
      "epoch": 0.75575,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007364321608040201,
      "loss": 2.0639,
      "step": 151150
    },
    {
      "epoch": 0.7558,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007362814070351759,
      "loss": 2.0998,
      "step": 151160
    },
    {
      "epoch": 0.75585,
      "grad_norm": 0.625,
      "learning_rate": 0.0007361306532663316,
      "loss": 2.0534,
      "step": 151170
    },
    {
      "epoch": 0.7559,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007359798994974874,
      "loss": 2.0956,
      "step": 151180
    },
    {
      "epoch": 0.75595,
      "grad_norm": 0.6875,
      "learning_rate": 0.0007358291457286433,
      "loss": 2.1035,
      "step": 151190
    },
    {
      "epoch": 0.756,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007356783919597991,
      "loss": 2.0909,
      "step": 151200
    },
    {
      "epoch": 0.75605,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007355276381909548,
      "loss": 2.1203,
      "step": 151210
    },
    {
      "epoch": 0.7561,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007353768844221106,
      "loss": 2.0845,
      "step": 151220
    },
    {
      "epoch": 0.75615,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007352261306532664,
      "loss": 2.1585,
      "step": 151230
    },
    {
      "epoch": 0.7562,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007350753768844222,
      "loss": 2.1169,
      "step": 151240
    },
    {
      "epoch": 0.75625,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007349246231155779,
      "loss": 2.1086,
      "step": 151250
    },
    {
      "epoch": 0.7563,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007347738693467337,
      "loss": 2.0842,
      "step": 151260
    },
    {
      "epoch": 0.75635,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007346231155778895,
      "loss": 2.0993,
      "step": 151270
    },
    {
      "epoch": 0.7564,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007344723618090453,
      "loss": 2.0233,
      "step": 151280
    },
    {
      "epoch": 0.75645,
      "grad_norm": 0.609375,
      "learning_rate": 0.000734321608040201,
      "loss": 2.1022,
      "step": 151290
    },
    {
      "epoch": 0.7565,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007341708542713568,
      "loss": 2.0547,
      "step": 151300
    },
    {
      "epoch": 0.75655,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007340201005025125,
      "loss": 2.1098,
      "step": 151310
    },
    {
      "epoch": 0.7566,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007338693467336684,
      "loss": 2.0151,
      "step": 151320
    },
    {
      "epoch": 0.75665,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007337185929648241,
      "loss": 2.125,
      "step": 151330
    },
    {
      "epoch": 0.7567,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007335678391959799,
      "loss": 2.0953,
      "step": 151340
    },
    {
      "epoch": 0.75675,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007334170854271356,
      "loss": 2.1066,
      "step": 151350
    },
    {
      "epoch": 0.7568,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007332663316582915,
      "loss": 2.0467,
      "step": 151360
    },
    {
      "epoch": 0.75685,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007331155778894472,
      "loss": 2.1065,
      "step": 151370
    },
    {
      "epoch": 0.7569,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000732964824120603,
      "loss": 2.097,
      "step": 151380
    },
    {
      "epoch": 0.75695,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007328140703517587,
      "loss": 2.1083,
      "step": 151390
    },
    {
      "epoch": 0.757,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007326633165829147,
      "loss": 2.0752,
      "step": 151400
    },
    {
      "epoch": 0.75705,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007325125628140704,
      "loss": 2.1165,
      "step": 151410
    },
    {
      "epoch": 0.7571,
      "grad_norm": 0.71875,
      "learning_rate": 0.0007323618090452262,
      "loss": 2.1814,
      "step": 151420
    },
    {
      "epoch": 0.75715,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0007322110552763819,
      "loss": 2.0343,
      "step": 151430
    },
    {
      "epoch": 0.7572,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007320603015075377,
      "loss": 2.1094,
      "step": 151440
    },
    {
      "epoch": 0.75725,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007319095477386935,
      "loss": 2.0531,
      "step": 151450
    },
    {
      "epoch": 0.7573,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0007317587939698493,
      "loss": 2.0655,
      "step": 151460
    },
    {
      "epoch": 0.75735,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000731608040201005,
      "loss": 2.0932,
      "step": 151470
    },
    {
      "epoch": 0.7574,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007314572864321608,
      "loss": 2.1162,
      "step": 151480
    },
    {
      "epoch": 0.75745,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007313065326633166,
      "loss": 2.0475,
      "step": 151490
    },
    {
      "epoch": 0.7575,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007311557788944724,
      "loss": 2.1126,
      "step": 151500
    },
    {
      "epoch": 0.75755,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007310050251256281,
      "loss": 2.0823,
      "step": 151510
    },
    {
      "epoch": 0.7576,
      "grad_norm": 0.625,
      "learning_rate": 0.0007308542713567839,
      "loss": 2.0654,
      "step": 151520
    },
    {
      "epoch": 0.75765,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0007307035175879397,
      "loss": 2.0337,
      "step": 151530
    },
    {
      "epoch": 0.7577,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007305527638190955,
      "loss": 2.0592,
      "step": 151540
    },
    {
      "epoch": 0.75775,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007304020100502512,
      "loss": 2.1198,
      "step": 151550
    },
    {
      "epoch": 0.7578,
      "grad_norm": 0.54296875,
      "learning_rate": 0.000730251256281407,
      "loss": 2.0576,
      "step": 151560
    },
    {
      "epoch": 0.75785,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007301005025125628,
      "loss": 2.1064,
      "step": 151570
    },
    {
      "epoch": 0.7579,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007299497487437186,
      "loss": 2.0742,
      "step": 151580
    },
    {
      "epoch": 0.75795,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007297989949748743,
      "loss": 2.1103,
      "step": 151590
    },
    {
      "epoch": 0.758,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007296482412060301,
      "loss": 2.0816,
      "step": 151600
    },
    {
      "epoch": 0.75805,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000729497487437186,
      "loss": 2.1142,
      "step": 151610
    },
    {
      "epoch": 0.7581,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007293467336683418,
      "loss": 2.1129,
      "step": 151620
    },
    {
      "epoch": 0.75815,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007291959798994975,
      "loss": 2.1038,
      "step": 151630
    },
    {
      "epoch": 0.7582,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007290452261306533,
      "loss": 2.0928,
      "step": 151640
    },
    {
      "epoch": 0.75825,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007288944723618091,
      "loss": 2.0304,
      "step": 151650
    },
    {
      "epoch": 0.7583,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007287437185929649,
      "loss": 2.0705,
      "step": 151660
    },
    {
      "epoch": 0.75835,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007285929648241206,
      "loss": 2.107,
      "step": 151670
    },
    {
      "epoch": 0.7584,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007284422110552764,
      "loss": 2.0777,
      "step": 151680
    },
    {
      "epoch": 0.75845,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007282914572864322,
      "loss": 2.0518,
      "step": 151690
    },
    {
      "epoch": 0.7585,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000728140703517588,
      "loss": 2.1363,
      "step": 151700
    },
    {
      "epoch": 0.75855,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007279899497487437,
      "loss": 2.0155,
      "step": 151710
    },
    {
      "epoch": 0.7586,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007278391959798995,
      "loss": 2.0941,
      "step": 151720
    },
    {
      "epoch": 0.75865,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007276884422110553,
      "loss": 2.103,
      "step": 151730
    },
    {
      "epoch": 0.7587,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007275376884422111,
      "loss": 2.1259,
      "step": 151740
    },
    {
      "epoch": 0.75875,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007273869346733668,
      "loss": 2.0448,
      "step": 151750
    },
    {
      "epoch": 0.7588,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007272361809045226,
      "loss": 2.113,
      "step": 151760
    },
    {
      "epoch": 0.75885,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007270854271356784,
      "loss": 2.0468,
      "step": 151770
    },
    {
      "epoch": 0.7589,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0007269346733668342,
      "loss": 2.0997,
      "step": 151780
    },
    {
      "epoch": 0.75895,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007267839195979899,
      "loss": 2.0793,
      "step": 151790
    },
    {
      "epoch": 0.759,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007266331658291457,
      "loss": 2.0661,
      "step": 151800
    },
    {
      "epoch": 0.75905,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007264824120603015,
      "loss": 2.0605,
      "step": 151810
    },
    {
      "epoch": 0.7591,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007263316582914574,
      "loss": 2.089,
      "step": 151820
    },
    {
      "epoch": 0.75915,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000726180904522613,
      "loss": 2.0941,
      "step": 151830
    },
    {
      "epoch": 0.7592,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007260301507537689,
      "loss": 2.0324,
      "step": 151840
    },
    {
      "epoch": 0.75925,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007258793969849247,
      "loss": 2.0834,
      "step": 151850
    },
    {
      "epoch": 0.7593,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007257286432160805,
      "loss": 2.0644,
      "step": 151860
    },
    {
      "epoch": 0.75935,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007255778894472362,
      "loss": 2.075,
      "step": 151870
    },
    {
      "epoch": 0.7594,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000725427135678392,
      "loss": 2.0699,
      "step": 151880
    },
    {
      "epoch": 0.75945,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007252763819095478,
      "loss": 2.1126,
      "step": 151890
    },
    {
      "epoch": 0.7595,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0007251256281407036,
      "loss": 2.0743,
      "step": 151900
    },
    {
      "epoch": 0.75955,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007249748743718593,
      "loss": 2.0606,
      "step": 151910
    },
    {
      "epoch": 0.7596,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007248241206030151,
      "loss": 2.0899,
      "step": 151920
    },
    {
      "epoch": 0.75965,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007246733668341709,
      "loss": 2.0481,
      "step": 151930
    },
    {
      "epoch": 0.7597,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007245226130653267,
      "loss": 2.0907,
      "step": 151940
    },
    {
      "epoch": 0.75975,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007243718592964824,
      "loss": 2.06,
      "step": 151950
    },
    {
      "epoch": 0.7598,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007242211055276382,
      "loss": 2.0737,
      "step": 151960
    },
    {
      "epoch": 0.75985,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000724070351758794,
      "loss": 2.0767,
      "step": 151970
    },
    {
      "epoch": 0.7599,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007239195979899498,
      "loss": 2.0848,
      "step": 151980
    },
    {
      "epoch": 0.75995,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007237688442211055,
      "loss": 2.0827,
      "step": 151990
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007236180904522613,
      "loss": 2.08,
      "step": 152000
    },
    {
      "epoch": 0.76,
      "eval_loss": 2.0795907974243164,
      "eval_runtime": 49.0185,
      "eval_samples_per_second": 51.001,
      "eval_steps_per_second": 0.102,
      "step": 152000
    },
    {
      "epoch": 0.76005,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007234673366834171,
      "loss": 2.0477,
      "step": 152010
    },
    {
      "epoch": 0.7601,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007233165829145728,
      "loss": 2.0853,
      "step": 152020
    },
    {
      "epoch": 0.76015,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007231658291457286,
      "loss": 2.0775,
      "step": 152030
    },
    {
      "epoch": 0.7602,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007230150753768845,
      "loss": 2.0626,
      "step": 152040
    },
    {
      "epoch": 0.76025,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007228643216080403,
      "loss": 2.0758,
      "step": 152050
    },
    {
      "epoch": 0.7603,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000722713567839196,
      "loss": 2.0844,
      "step": 152060
    },
    {
      "epoch": 0.76035,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007225628140703518,
      "loss": 2.1132,
      "step": 152070
    },
    {
      "epoch": 0.7604,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007224120603015076,
      "loss": 2.0786,
      "step": 152080
    },
    {
      "epoch": 0.76045,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007222613065326634,
      "loss": 2.0462,
      "step": 152090
    },
    {
      "epoch": 0.7605,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007221105527638191,
      "loss": 2.0704,
      "step": 152100
    },
    {
      "epoch": 0.76055,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007219597989949749,
      "loss": 2.069,
      "step": 152110
    },
    {
      "epoch": 0.7606,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007218090452261307,
      "loss": 2.0587,
      "step": 152120
    },
    {
      "epoch": 0.76065,
      "grad_norm": 0.6875,
      "learning_rate": 0.0007216582914572865,
      "loss": 2.0883,
      "step": 152130
    },
    {
      "epoch": 0.7607,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007215075376884422,
      "loss": 2.0702,
      "step": 152140
    },
    {
      "epoch": 0.76075,
      "grad_norm": 0.7109375,
      "learning_rate": 0.000721356783919598,
      "loss": 2.0742,
      "step": 152150
    },
    {
      "epoch": 0.7608,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007212060301507538,
      "loss": 2.0955,
      "step": 152160
    },
    {
      "epoch": 0.76085,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007210552763819096,
      "loss": 2.0672,
      "step": 152170
    },
    {
      "epoch": 0.7609,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0007209045226130653,
      "loss": 2.0444,
      "step": 152180
    },
    {
      "epoch": 0.76095,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0007207537688442211,
      "loss": 2.0935,
      "step": 152190
    },
    {
      "epoch": 0.761,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0007206030150753768,
      "loss": 2.095,
      "step": 152200
    },
    {
      "epoch": 0.76105,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007204522613065327,
      "loss": 2.0725,
      "step": 152210
    },
    {
      "epoch": 0.7611,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0007203015075376884,
      "loss": 2.1139,
      "step": 152220
    },
    {
      "epoch": 0.76115,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007201507537688442,
      "loss": 2.0641,
      "step": 152230
    },
    {
      "epoch": 0.7612,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007199999999999999,
      "loss": 2.1275,
      "step": 152240
    },
    {
      "epoch": 0.76125,
      "grad_norm": 0.75,
      "learning_rate": 0.0007198492462311559,
      "loss": 2.0269,
      "step": 152250
    },
    {
      "epoch": 0.7613,
      "grad_norm": 0.625,
      "learning_rate": 0.0007196984924623116,
      "loss": 2.0565,
      "step": 152260
    },
    {
      "epoch": 0.76135,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007195477386934674,
      "loss": 2.0685,
      "step": 152270
    },
    {
      "epoch": 0.7614,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007193969849246231,
      "loss": 2.1109,
      "step": 152280
    },
    {
      "epoch": 0.76145,
      "grad_norm": 0.546875,
      "learning_rate": 0.000719246231155779,
      "loss": 2.0837,
      "step": 152290
    },
    {
      "epoch": 0.7615,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007190954773869347,
      "loss": 2.0522,
      "step": 152300
    },
    {
      "epoch": 0.76155,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007189447236180905,
      "loss": 2.0707,
      "step": 152310
    },
    {
      "epoch": 0.7616,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007187939698492462,
      "loss": 2.0922,
      "step": 152320
    },
    {
      "epoch": 0.76165,
      "grad_norm": 0.53125,
      "learning_rate": 0.0007186432160804021,
      "loss": 2.0912,
      "step": 152330
    },
    {
      "epoch": 0.7617,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0007184924623115578,
      "loss": 2.0374,
      "step": 152340
    },
    {
      "epoch": 0.76175,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007183417085427136,
      "loss": 2.1046,
      "step": 152350
    },
    {
      "epoch": 0.7618,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007181909547738693,
      "loss": 2.0468,
      "step": 152360
    },
    {
      "epoch": 0.76185,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007180402010050252,
      "loss": 2.0679,
      "step": 152370
    },
    {
      "epoch": 0.7619,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007178894472361809,
      "loss": 2.113,
      "step": 152380
    },
    {
      "epoch": 0.76195,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007177386934673367,
      "loss": 2.111,
      "step": 152390
    },
    {
      "epoch": 0.762,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007175879396984924,
      "loss": 2.0832,
      "step": 152400
    },
    {
      "epoch": 0.76205,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007174371859296483,
      "loss": 2.0778,
      "step": 152410
    },
    {
      "epoch": 0.7621,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000717286432160804,
      "loss": 2.0833,
      "step": 152420
    },
    {
      "epoch": 0.76215,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007171356783919598,
      "loss": 2.0875,
      "step": 152430
    },
    {
      "epoch": 0.7622,
      "grad_norm": 0.625,
      "learning_rate": 0.0007169849246231155,
      "loss": 2.0919,
      "step": 152440
    },
    {
      "epoch": 0.76225,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007168341708542714,
      "loss": 2.0689,
      "step": 152450
    },
    {
      "epoch": 0.7623,
      "grad_norm": 0.625,
      "learning_rate": 0.0007166834170854271,
      "loss": 2.1016,
      "step": 152460
    },
    {
      "epoch": 0.76235,
      "grad_norm": 0.66796875,
      "learning_rate": 0.000716532663316583,
      "loss": 2.0456,
      "step": 152470
    },
    {
      "epoch": 0.7624,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007163819095477387,
      "loss": 2.0595,
      "step": 152480
    },
    {
      "epoch": 0.76245,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007162311557788946,
      "loss": 2.084,
      "step": 152490
    },
    {
      "epoch": 0.7625,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007160804020100503,
      "loss": 2.0803,
      "step": 152500
    },
    {
      "epoch": 0.76255,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007159296482412061,
      "loss": 2.1101,
      "step": 152510
    },
    {
      "epoch": 0.7626,
      "grad_norm": 0.625,
      "learning_rate": 0.0007157788944723618,
      "loss": 2.0785,
      "step": 152520
    },
    {
      "epoch": 0.76265,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007156281407035177,
      "loss": 2.0752,
      "step": 152530
    },
    {
      "epoch": 0.7627,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0007154773869346734,
      "loss": 2.0973,
      "step": 152540
    },
    {
      "epoch": 0.76275,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007153266331658292,
      "loss": 2.1595,
      "step": 152550
    },
    {
      "epoch": 0.7628,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007151758793969849,
      "loss": 2.0753,
      "step": 152560
    },
    {
      "epoch": 0.76285,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0007150251256281407,
      "loss": 2.0397,
      "step": 152570
    },
    {
      "epoch": 0.7629,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007148743718592965,
      "loss": 2.1168,
      "step": 152580
    },
    {
      "epoch": 0.76295,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007147236180904523,
      "loss": 2.0909,
      "step": 152590
    },
    {
      "epoch": 0.763,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000714572864321608,
      "loss": 2.1091,
      "step": 152600
    },
    {
      "epoch": 0.76305,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0007144221105527638,
      "loss": 2.0695,
      "step": 152610
    },
    {
      "epoch": 0.7631,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007142713567839196,
      "loss": 2.105,
      "step": 152620
    },
    {
      "epoch": 0.76315,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007141206030150754,
      "loss": 2.0676,
      "step": 152630
    },
    {
      "epoch": 0.7632,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007139698492462311,
      "loss": 2.115,
      "step": 152640
    },
    {
      "epoch": 0.76325,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007138190954773869,
      "loss": 2.0393,
      "step": 152650
    },
    {
      "epoch": 0.7633,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007136683417085427,
      "loss": 2.1154,
      "step": 152660
    },
    {
      "epoch": 0.76335,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0007135175879396985,
      "loss": 2.0593,
      "step": 152670
    },
    {
      "epoch": 0.7634,
      "grad_norm": 0.625,
      "learning_rate": 0.0007133668341708542,
      "loss": 2.1093,
      "step": 152680
    },
    {
      "epoch": 0.76345,
      "grad_norm": 0.578125,
      "learning_rate": 0.00071321608040201,
      "loss": 2.0415,
      "step": 152690
    },
    {
      "epoch": 0.7635,
      "grad_norm": 0.6875,
      "learning_rate": 0.0007130653266331659,
      "loss": 2.1138,
      "step": 152700
    },
    {
      "epoch": 0.76355,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007129145728643217,
      "loss": 2.1105,
      "step": 152710
    },
    {
      "epoch": 0.7636,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007127638190954774,
      "loss": 2.0633,
      "step": 152720
    },
    {
      "epoch": 0.76365,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007126130653266332,
      "loss": 2.0977,
      "step": 152730
    },
    {
      "epoch": 0.7637,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000712462311557789,
      "loss": 2.059,
      "step": 152740
    },
    {
      "epoch": 0.76375,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007123115577889448,
      "loss": 2.0614,
      "step": 152750
    },
    {
      "epoch": 0.7638,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0007121608040201005,
      "loss": 2.0354,
      "step": 152760
    },
    {
      "epoch": 0.76385,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007120100502512563,
      "loss": 2.1044,
      "step": 152770
    },
    {
      "epoch": 0.7639,
      "grad_norm": 0.625,
      "learning_rate": 0.0007118592964824121,
      "loss": 2.05,
      "step": 152780
    },
    {
      "epoch": 0.76395,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007117085427135679,
      "loss": 2.0946,
      "step": 152790
    },
    {
      "epoch": 0.764,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007115577889447236,
      "loss": 2.0717,
      "step": 152800
    },
    {
      "epoch": 0.76405,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007114070351758794,
      "loss": 2.1318,
      "step": 152810
    },
    {
      "epoch": 0.7641,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007112562814070352,
      "loss": 2.1056,
      "step": 152820
    },
    {
      "epoch": 0.76415,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000711105527638191,
      "loss": 2.0995,
      "step": 152830
    },
    {
      "epoch": 0.7642,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007109547738693467,
      "loss": 2.1023,
      "step": 152840
    },
    {
      "epoch": 0.76425,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007108040201005025,
      "loss": 2.0671,
      "step": 152850
    },
    {
      "epoch": 0.7643,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007106532663316583,
      "loss": 2.1184,
      "step": 152860
    },
    {
      "epoch": 0.76435,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007105025125628141,
      "loss": 2.1014,
      "step": 152870
    },
    {
      "epoch": 0.7644,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007103517587939698,
      "loss": 2.0852,
      "step": 152880
    },
    {
      "epoch": 0.76445,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007102010050251256,
      "loss": 2.0621,
      "step": 152890
    },
    {
      "epoch": 0.7645,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007100502512562815,
      "loss": 2.0932,
      "step": 152900
    },
    {
      "epoch": 0.76455,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007098994974874373,
      "loss": 2.0461,
      "step": 152910
    },
    {
      "epoch": 0.7646,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000709748743718593,
      "loss": 2.0578,
      "step": 152920
    },
    {
      "epoch": 0.76465,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007095979899497488,
      "loss": 2.0662,
      "step": 152930
    },
    {
      "epoch": 0.7647,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0007094472361809046,
      "loss": 2.0693,
      "step": 152940
    },
    {
      "epoch": 0.76475,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007092964824120603,
      "loss": 2.1234,
      "step": 152950
    },
    {
      "epoch": 0.7648,
      "grad_norm": 0.65625,
      "learning_rate": 0.0007091457286432161,
      "loss": 2.0942,
      "step": 152960
    },
    {
      "epoch": 0.76485,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007089949748743719,
      "loss": 2.1314,
      "step": 152970
    },
    {
      "epoch": 0.7649,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0007088442211055277,
      "loss": 2.11,
      "step": 152980
    },
    {
      "epoch": 0.76495,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007086934673366834,
      "loss": 2.0934,
      "step": 152990
    },
    {
      "epoch": 0.765,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0007085427135678392,
      "loss": 2.0829,
      "step": 153000
    },
    {
      "epoch": 0.76505,
      "grad_norm": 0.55078125,
      "learning_rate": 0.000708391959798995,
      "loss": 2.0825,
      "step": 153010
    },
    {
      "epoch": 0.7651,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007082412060301508,
      "loss": 2.0477,
      "step": 153020
    },
    {
      "epoch": 0.76515,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007080904522613065,
      "loss": 2.1071,
      "step": 153030
    },
    {
      "epoch": 0.7652,
      "grad_norm": 0.671875,
      "learning_rate": 0.0007079396984924623,
      "loss": 2.0948,
      "step": 153040
    },
    {
      "epoch": 0.76525,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0007077889447236181,
      "loss": 2.1093,
      "step": 153050
    },
    {
      "epoch": 0.7653,
      "grad_norm": 0.640625,
      "learning_rate": 0.0007076381909547739,
      "loss": 2.0959,
      "step": 153060
    },
    {
      "epoch": 0.76535,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0007074874371859296,
      "loss": 2.0753,
      "step": 153070
    },
    {
      "epoch": 0.7654,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007073366834170854,
      "loss": 2.1416,
      "step": 153080
    },
    {
      "epoch": 0.76545,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007071859296482412,
      "loss": 2.0696,
      "step": 153090
    },
    {
      "epoch": 0.7655,
      "grad_norm": 0.57421875,
      "learning_rate": 0.000707035175879397,
      "loss": 2.0771,
      "step": 153100
    },
    {
      "epoch": 0.76555,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007068844221105527,
      "loss": 2.0894,
      "step": 153110
    },
    {
      "epoch": 0.7656,
      "grad_norm": 0.625,
      "learning_rate": 0.0007067336683417086,
      "loss": 2.0384,
      "step": 153120
    },
    {
      "epoch": 0.76565,
      "grad_norm": 0.671875,
      "learning_rate": 0.0007065829145728643,
      "loss": 2.1129,
      "step": 153130
    },
    {
      "epoch": 0.7657,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007064321608040202,
      "loss": 2.0259,
      "step": 153140
    },
    {
      "epoch": 0.76575,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0007062814070351759,
      "loss": 2.1155,
      "step": 153150
    },
    {
      "epoch": 0.7658,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007061306532663317,
      "loss": 2.0598,
      "step": 153160
    },
    {
      "epoch": 0.76585,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0007059798994974874,
      "loss": 2.0779,
      "step": 153170
    },
    {
      "epoch": 0.7659,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007058291457286433,
      "loss": 2.0723,
      "step": 153180
    },
    {
      "epoch": 0.76595,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000705678391959799,
      "loss": 2.0973,
      "step": 153190
    },
    {
      "epoch": 0.766,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007055276381909548,
      "loss": 2.0872,
      "step": 153200
    },
    {
      "epoch": 0.76605,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007053768844221105,
      "loss": 2.0547,
      "step": 153210
    },
    {
      "epoch": 0.7661,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007052261306532664,
      "loss": 2.087,
      "step": 153220
    },
    {
      "epoch": 0.76615,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007050753768844221,
      "loss": 2.0164,
      "step": 153230
    },
    {
      "epoch": 0.7662,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007049246231155779,
      "loss": 2.1055,
      "step": 153240
    },
    {
      "epoch": 0.76625,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007047738693467336,
      "loss": 2.0254,
      "step": 153250
    },
    {
      "epoch": 0.7663,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0007046231155778895,
      "loss": 2.1395,
      "step": 153260
    },
    {
      "epoch": 0.76635,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0007044723618090452,
      "loss": 2.0966,
      "step": 153270
    },
    {
      "epoch": 0.7664,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000704321608040201,
      "loss": 2.0904,
      "step": 153280
    },
    {
      "epoch": 0.76645,
      "grad_norm": 0.578125,
      "learning_rate": 0.0007041708542713567,
      "loss": 2.0933,
      "step": 153290
    },
    {
      "epoch": 0.7665,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007040201005025126,
      "loss": 2.0522,
      "step": 153300
    },
    {
      "epoch": 0.76655,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0007038693467336683,
      "loss": 2.1486,
      "step": 153310
    },
    {
      "epoch": 0.7666,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0007037185929648241,
      "loss": 2.035,
      "step": 153320
    },
    {
      "epoch": 0.76665,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0007035678391959798,
      "loss": 2.0841,
      "step": 153330
    },
    {
      "epoch": 0.7667,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0007034170854271358,
      "loss": 2.0631,
      "step": 153340
    },
    {
      "epoch": 0.76675,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007032663316582915,
      "loss": 2.0659,
      "step": 153350
    },
    {
      "epoch": 0.7668,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0007031155778894473,
      "loss": 2.073,
      "step": 153360
    },
    {
      "epoch": 0.76685,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000702964824120603,
      "loss": 2.0958,
      "step": 153370
    },
    {
      "epoch": 0.7669,
      "grad_norm": 0.703125,
      "learning_rate": 0.0007028140703517589,
      "loss": 2.1017,
      "step": 153380
    },
    {
      "epoch": 0.76695,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0007026633165829146,
      "loss": 2.0798,
      "step": 153390
    },
    {
      "epoch": 0.767,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0007025125628140704,
      "loss": 2.0998,
      "step": 153400
    },
    {
      "epoch": 0.76705,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007023618090452261,
      "loss": 2.0573,
      "step": 153410
    },
    {
      "epoch": 0.7671,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000702211055276382,
      "loss": 2.094,
      "step": 153420
    },
    {
      "epoch": 0.76715,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0007020603015075377,
      "loss": 2.0917,
      "step": 153430
    },
    {
      "epoch": 0.7672,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0007019095477386935,
      "loss": 2.1255,
      "step": 153440
    },
    {
      "epoch": 0.76725,
      "grad_norm": 0.6875,
      "learning_rate": 0.0007017587939698492,
      "loss": 2.0997,
      "step": 153450
    },
    {
      "epoch": 0.7673,
      "grad_norm": 0.609375,
      "learning_rate": 0.0007016080402010051,
      "loss": 2.0944,
      "step": 153460
    },
    {
      "epoch": 0.76735,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0007014572864321608,
      "loss": 2.0273,
      "step": 153470
    },
    {
      "epoch": 0.7674,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0007013065326633166,
      "loss": 2.1194,
      "step": 153480
    },
    {
      "epoch": 0.76745,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0007011557788944723,
      "loss": 2.1409,
      "step": 153490
    },
    {
      "epoch": 0.7675,
      "grad_norm": 0.5625,
      "learning_rate": 0.0007010050251256282,
      "loss": 2.0538,
      "step": 153500
    },
    {
      "epoch": 0.76755,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0007008542713567839,
      "loss": 2.1134,
      "step": 153510
    },
    {
      "epoch": 0.7676,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0007007035175879397,
      "loss": 2.0907,
      "step": 153520
    },
    {
      "epoch": 0.76765,
      "grad_norm": 0.59375,
      "learning_rate": 0.0007005527638190954,
      "loss": 2.06,
      "step": 153530
    },
    {
      "epoch": 0.7677,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0007004020100502514,
      "loss": 2.0295,
      "step": 153540
    },
    {
      "epoch": 0.76775,
      "grad_norm": 0.5390625,
      "learning_rate": 0.000700251256281407,
      "loss": 2.0367,
      "step": 153550
    },
    {
      "epoch": 0.7678,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0007001005025125629,
      "loss": 2.0963,
      "step": 153560
    },
    {
      "epoch": 0.76785,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006999497487437186,
      "loss": 2.0698,
      "step": 153570
    },
    {
      "epoch": 0.7679,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006997989949748745,
      "loss": 2.1068,
      "step": 153580
    },
    {
      "epoch": 0.76795,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006996482412060302,
      "loss": 2.0814,
      "step": 153590
    },
    {
      "epoch": 0.768,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000699497487437186,
      "loss": 2.0873,
      "step": 153600
    },
    {
      "epoch": 0.76805,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006993467336683417,
      "loss": 2.0459,
      "step": 153610
    },
    {
      "epoch": 0.7681,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006991959798994976,
      "loss": 2.1352,
      "step": 153620
    },
    {
      "epoch": 0.76815,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006990452261306533,
      "loss": 2.1153,
      "step": 153630
    },
    {
      "epoch": 0.7682,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006988944723618091,
      "loss": 2.1109,
      "step": 153640
    },
    {
      "epoch": 0.76825,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006987437185929648,
      "loss": 2.1066,
      "step": 153650
    },
    {
      "epoch": 0.7683,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006985929648241207,
      "loss": 2.0355,
      "step": 153660
    },
    {
      "epoch": 0.76835,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006984422110552764,
      "loss": 2.1595,
      "step": 153670
    },
    {
      "epoch": 0.7684,
      "grad_norm": 0.5625,
      "learning_rate": 0.0006982914572864322,
      "loss": 2.0464,
      "step": 153680
    },
    {
      "epoch": 0.76845,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006981407035175879,
      "loss": 2.1274,
      "step": 153690
    },
    {
      "epoch": 0.7685,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0006979899497487437,
      "loss": 2.065,
      "step": 153700
    },
    {
      "epoch": 0.76855,
      "grad_norm": 0.625,
      "learning_rate": 0.0006978391959798995,
      "loss": 2.0772,
      "step": 153710
    },
    {
      "epoch": 0.7686,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006976884422110553,
      "loss": 2.0705,
      "step": 153720
    },
    {
      "epoch": 0.76865,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000697537688442211,
      "loss": 2.0865,
      "step": 153730
    },
    {
      "epoch": 0.7687,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0006973869346733668,
      "loss": 2.1285,
      "step": 153740
    },
    {
      "epoch": 0.76875,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0006972361809045226,
      "loss": 2.0241,
      "step": 153750
    },
    {
      "epoch": 0.7688,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006970854271356785,
      "loss": 2.1001,
      "step": 153760
    },
    {
      "epoch": 0.76885,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0006969346733668342,
      "loss": 2.0672,
      "step": 153770
    },
    {
      "epoch": 0.7689,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00069678391959799,
      "loss": 2.0894,
      "step": 153780
    },
    {
      "epoch": 0.76895,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006966331658291458,
      "loss": 2.0787,
      "step": 153790
    },
    {
      "epoch": 0.769,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006964824120603016,
      "loss": 2.0498,
      "step": 153800
    },
    {
      "epoch": 0.76905,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006963316582914573,
      "loss": 2.0478,
      "step": 153810
    },
    {
      "epoch": 0.7691,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006961809045226131,
      "loss": 2.0588,
      "step": 153820
    },
    {
      "epoch": 0.76915,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006960301507537689,
      "loss": 2.0937,
      "step": 153830
    },
    {
      "epoch": 0.7692,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006958793969849247,
      "loss": 2.0554,
      "step": 153840
    },
    {
      "epoch": 0.76925,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006957286432160804,
      "loss": 2.0856,
      "step": 153850
    },
    {
      "epoch": 0.7693,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006955778894472362,
      "loss": 2.0705,
      "step": 153860
    },
    {
      "epoch": 0.76935,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000695427135678392,
      "loss": 2.1074,
      "step": 153870
    },
    {
      "epoch": 0.7694,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006952763819095477,
      "loss": 2.0518,
      "step": 153880
    },
    {
      "epoch": 0.76945,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006951256281407035,
      "loss": 2.0525,
      "step": 153890
    },
    {
      "epoch": 0.7695,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0006949748743718593,
      "loss": 2.1182,
      "step": 153900
    },
    {
      "epoch": 0.76955,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006948241206030151,
      "loss": 2.0835,
      "step": 153910
    },
    {
      "epoch": 0.7696,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006946733668341708,
      "loss": 2.0913,
      "step": 153920
    },
    {
      "epoch": 0.76965,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006945226130653266,
      "loss": 2.0724,
      "step": 153930
    },
    {
      "epoch": 0.7697,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006943718592964824,
      "loss": 2.1071,
      "step": 153940
    },
    {
      "epoch": 0.76975,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006942211055276382,
      "loss": 2.115,
      "step": 153950
    },
    {
      "epoch": 0.7698,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0006940703517587939,
      "loss": 2.0697,
      "step": 153960
    },
    {
      "epoch": 0.76985,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006939195979899497,
      "loss": 2.1341,
      "step": 153970
    },
    {
      "epoch": 0.7699,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006937688442211056,
      "loss": 2.0609,
      "step": 153980
    },
    {
      "epoch": 0.76995,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006936180904522614,
      "loss": 2.1211,
      "step": 153990
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006934673366834171,
      "loss": 2.0229,
      "step": 154000
    },
    {
      "epoch": 0.77,
      "eval_loss": 2.0770864486694336,
      "eval_runtime": 46.0653,
      "eval_samples_per_second": 54.271,
      "eval_steps_per_second": 0.109,
      "step": 154000
    },
    {
      "epoch": 0.77005,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006933165829145729,
      "loss": 2.0704,
      "step": 154010
    },
    {
      "epoch": 0.7701,
      "grad_norm": 0.625,
      "learning_rate": 0.0006931658291457287,
      "loss": 2.0436,
      "step": 154020
    },
    {
      "epoch": 0.77015,
      "grad_norm": 0.625,
      "learning_rate": 0.0006930150753768845,
      "loss": 2.1085,
      "step": 154030
    },
    {
      "epoch": 0.7702,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0006928643216080402,
      "loss": 2.1033,
      "step": 154040
    },
    {
      "epoch": 0.77025,
      "grad_norm": 0.66796875,
      "learning_rate": 0.000692713567839196,
      "loss": 2.0967,
      "step": 154050
    },
    {
      "epoch": 0.7703,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006925628140703517,
      "loss": 2.0849,
      "step": 154060
    },
    {
      "epoch": 0.77035,
      "grad_norm": 0.6875,
      "learning_rate": 0.0006924120603015076,
      "loss": 2.0929,
      "step": 154070
    },
    {
      "epoch": 0.7704,
      "grad_norm": 0.5625,
      "learning_rate": 0.0006922613065326633,
      "loss": 2.0799,
      "step": 154080
    },
    {
      "epoch": 0.77045,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006921105527638191,
      "loss": 2.0632,
      "step": 154090
    },
    {
      "epoch": 0.7705,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006919597989949748,
      "loss": 2.0755,
      "step": 154100
    },
    {
      "epoch": 0.77055,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006918090452261307,
      "loss": 2.0652,
      "step": 154110
    },
    {
      "epoch": 0.7706,
      "grad_norm": 0.625,
      "learning_rate": 0.0006916582914572864,
      "loss": 2.0913,
      "step": 154120
    },
    {
      "epoch": 0.77065,
      "grad_norm": 0.703125,
      "learning_rate": 0.0006915075376884422,
      "loss": 2.0557,
      "step": 154130
    },
    {
      "epoch": 0.7707,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006913567839195979,
      "loss": 2.0602,
      "step": 154140
    },
    {
      "epoch": 0.77075,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006912060301507538,
      "loss": 2.0895,
      "step": 154150
    },
    {
      "epoch": 0.7708,
      "grad_norm": 0.625,
      "learning_rate": 0.0006910552763819095,
      "loss": 2.0573,
      "step": 154160
    },
    {
      "epoch": 0.77085,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006909045226130653,
      "loss": 2.0805,
      "step": 154170
    },
    {
      "epoch": 0.7709,
      "grad_norm": 0.65234375,
      "learning_rate": 0.000690753768844221,
      "loss": 2.0734,
      "step": 154180
    },
    {
      "epoch": 0.77095,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000690603015075377,
      "loss": 2.1372,
      "step": 154190
    },
    {
      "epoch": 0.771,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006904522613065327,
      "loss": 2.0883,
      "step": 154200
    },
    {
      "epoch": 0.77105,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006903015075376885,
      "loss": 2.1154,
      "step": 154210
    },
    {
      "epoch": 0.7711,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006901507537688442,
      "loss": 2.1394,
      "step": 154220
    },
    {
      "epoch": 0.77115,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0006900000000000001,
      "loss": 2.1009,
      "step": 154230
    },
    {
      "epoch": 0.7712,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006898492462311558,
      "loss": 2.1261,
      "step": 154240
    },
    {
      "epoch": 0.77125,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006896984924623116,
      "loss": 2.073,
      "step": 154250
    },
    {
      "epoch": 0.7713,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006895477386934673,
      "loss": 2.0809,
      "step": 154260
    },
    {
      "epoch": 0.77135,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006893969849246232,
      "loss": 2.0569,
      "step": 154270
    },
    {
      "epoch": 0.7714,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006892462311557789,
      "loss": 2.1021,
      "step": 154280
    },
    {
      "epoch": 0.77145,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0006890954773869347,
      "loss": 2.0735,
      "step": 154290
    },
    {
      "epoch": 0.7715,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006889447236180904,
      "loss": 2.0434,
      "step": 154300
    },
    {
      "epoch": 0.77155,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006887939698492463,
      "loss": 2.0814,
      "step": 154310
    },
    {
      "epoch": 0.7716,
      "grad_norm": 0.734375,
      "learning_rate": 0.000688643216080402,
      "loss": 2.0179,
      "step": 154320
    },
    {
      "epoch": 0.77165,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006884924623115578,
      "loss": 2.093,
      "step": 154330
    },
    {
      "epoch": 0.7717,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006883417085427135,
      "loss": 2.0315,
      "step": 154340
    },
    {
      "epoch": 0.77175,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006881909547738694,
      "loss": 2.0597,
      "step": 154350
    },
    {
      "epoch": 0.7718,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006880402010050251,
      "loss": 2.0987,
      "step": 154360
    },
    {
      "epoch": 0.77185,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006878894472361809,
      "loss": 2.0525,
      "step": 154370
    },
    {
      "epoch": 0.7719,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006877386934673366,
      "loss": 2.0649,
      "step": 154380
    },
    {
      "epoch": 0.77195,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0006875879396984926,
      "loss": 2.0744,
      "step": 154390
    },
    {
      "epoch": 0.772,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0006874371859296482,
      "loss": 2.1219,
      "step": 154400
    },
    {
      "epoch": 0.77205,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006872864321608041,
      "loss": 2.072,
      "step": 154410
    },
    {
      "epoch": 0.7721,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006871356783919598,
      "loss": 2.1097,
      "step": 154420
    },
    {
      "epoch": 0.77215,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006869849246231157,
      "loss": 2.0371,
      "step": 154430
    },
    {
      "epoch": 0.7722,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006868341708542714,
      "loss": 2.1048,
      "step": 154440
    },
    {
      "epoch": 0.77225,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006866834170854272,
      "loss": 2.1163,
      "step": 154450
    },
    {
      "epoch": 0.7723,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006865326633165829,
      "loss": 2.0161,
      "step": 154460
    },
    {
      "epoch": 0.77235,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006863819095477388,
      "loss": 2.117,
      "step": 154470
    },
    {
      "epoch": 0.7724,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006862311557788945,
      "loss": 2.0466,
      "step": 154480
    },
    {
      "epoch": 0.77245,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006860804020100503,
      "loss": 2.1018,
      "step": 154490
    },
    {
      "epoch": 0.7725,
      "grad_norm": 0.796875,
      "learning_rate": 0.000685929648241206,
      "loss": 2.1151,
      "step": 154500
    },
    {
      "epoch": 0.77255,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006857788944723619,
      "loss": 2.0574,
      "step": 154510
    },
    {
      "epoch": 0.7726,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006856281407035176,
      "loss": 2.114,
      "step": 154520
    },
    {
      "epoch": 0.77265,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0006854773869346734,
      "loss": 2.0472,
      "step": 154530
    },
    {
      "epoch": 0.7727,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006853266331658291,
      "loss": 2.0623,
      "step": 154540
    },
    {
      "epoch": 0.77275,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000685175879396985,
      "loss": 2.0672,
      "step": 154550
    },
    {
      "epoch": 0.7728,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006850251256281407,
      "loss": 2.1371,
      "step": 154560
    },
    {
      "epoch": 0.77285,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006848743718592965,
      "loss": 2.0685,
      "step": 154570
    },
    {
      "epoch": 0.7729,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006847236180904522,
      "loss": 2.0939,
      "step": 154580
    },
    {
      "epoch": 0.77295,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000684572864321608,
      "loss": 2.0622,
      "step": 154590
    },
    {
      "epoch": 0.773,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006844221105527638,
      "loss": 1.9873,
      "step": 154600
    },
    {
      "epoch": 0.77305,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006842713567839197,
      "loss": 2.0929,
      "step": 154610
    },
    {
      "epoch": 0.7731,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006841206030150753,
      "loss": 2.0793,
      "step": 154620
    },
    {
      "epoch": 0.77315,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0006839698492462312,
      "loss": 2.1032,
      "step": 154630
    },
    {
      "epoch": 0.7732,
      "grad_norm": 0.6640625,
      "learning_rate": 0.000683819095477387,
      "loss": 2.0743,
      "step": 154640
    },
    {
      "epoch": 0.77325,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006836683417085428,
      "loss": 2.0643,
      "step": 154650
    },
    {
      "epoch": 0.7733,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006835175879396985,
      "loss": 2.0712,
      "step": 154660
    },
    {
      "epoch": 0.77335,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006833668341708543,
      "loss": 2.0225,
      "step": 154670
    },
    {
      "epoch": 0.7734,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006832160804020101,
      "loss": 2.0979,
      "step": 154680
    },
    {
      "epoch": 0.77345,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0006830653266331659,
      "loss": 2.068,
      "step": 154690
    },
    {
      "epoch": 0.7735,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0006829145728643216,
      "loss": 2.0592,
      "step": 154700
    },
    {
      "epoch": 0.77355,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006827638190954774,
      "loss": 2.0998,
      "step": 154710
    },
    {
      "epoch": 0.7736,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006826130653266332,
      "loss": 2.0324,
      "step": 154720
    },
    {
      "epoch": 0.77365,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000682462311557789,
      "loss": 2.0906,
      "step": 154730
    },
    {
      "epoch": 0.7737,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006823115577889447,
      "loss": 2.0851,
      "step": 154740
    },
    {
      "epoch": 0.77375,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006821608040201005,
      "loss": 2.1035,
      "step": 154750
    },
    {
      "epoch": 0.7738,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006820100502512563,
      "loss": 2.0296,
      "step": 154760
    },
    {
      "epoch": 0.77385,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006818592964824121,
      "loss": 2.0618,
      "step": 154770
    },
    {
      "epoch": 0.7739,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0006817085427135678,
      "loss": 2.0577,
      "step": 154780
    },
    {
      "epoch": 0.77395,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006815577889447236,
      "loss": 2.0848,
      "step": 154790
    },
    {
      "epoch": 0.774,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0006814070351758794,
      "loss": 2.1528,
      "step": 154800
    },
    {
      "epoch": 0.77405,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006812562814070351,
      "loss": 2.0667,
      "step": 154810
    },
    {
      "epoch": 0.7741,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0006811055276381909,
      "loss": 2.0947,
      "step": 154820
    },
    {
      "epoch": 0.77415,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006809547738693468,
      "loss": 2.107,
      "step": 154830
    },
    {
      "epoch": 0.7742,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0006808040201005026,
      "loss": 2.1243,
      "step": 154840
    },
    {
      "epoch": 0.77425,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006806532663316583,
      "loss": 2.117,
      "step": 154850
    },
    {
      "epoch": 0.7743,
      "grad_norm": 0.5625,
      "learning_rate": 0.0006805025125628141,
      "loss": 2.0703,
      "step": 154860
    },
    {
      "epoch": 0.77435,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006803517587939699,
      "loss": 2.0476,
      "step": 154870
    },
    {
      "epoch": 0.7744,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006802010050251257,
      "loss": 2.043,
      "step": 154880
    },
    {
      "epoch": 0.77445,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006800502512562814,
      "loss": 2.0768,
      "step": 154890
    },
    {
      "epoch": 0.7745,
      "grad_norm": 0.6875,
      "learning_rate": 0.0006798994974874372,
      "loss": 2.0708,
      "step": 154900
    },
    {
      "epoch": 0.77455,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000679748743718593,
      "loss": 2.0648,
      "step": 154910
    },
    {
      "epoch": 0.7746,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006795979899497488,
      "loss": 2.1026,
      "step": 154920
    },
    {
      "epoch": 0.77465,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006794472361809045,
      "loss": 2.0895,
      "step": 154930
    },
    {
      "epoch": 0.7747,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0006792964824120603,
      "loss": 2.143,
      "step": 154940
    },
    {
      "epoch": 0.77475,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006791457286432161,
      "loss": 2.0414,
      "step": 154950
    },
    {
      "epoch": 0.7748,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006789949748743719,
      "loss": 2.1114,
      "step": 154960
    },
    {
      "epoch": 0.77485,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006788442211055276,
      "loss": 2.0163,
      "step": 154970
    },
    {
      "epoch": 0.7749,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006786934673366834,
      "loss": 2.1157,
      "step": 154980
    },
    {
      "epoch": 0.77495,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006785427135678391,
      "loss": 2.0838,
      "step": 154990
    },
    {
      "epoch": 0.775,
      "grad_norm": 0.5546875,
      "learning_rate": 0.000678391959798995,
      "loss": 2.0792,
      "step": 155000
    },
    {
      "epoch": 0.77505,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006782412060301507,
      "loss": 2.0871,
      "step": 155010
    },
    {
      "epoch": 0.7751,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006780904522613065,
      "loss": 2.0806,
      "step": 155020
    },
    {
      "epoch": 0.77515,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006779396984924622,
      "loss": 2.1158,
      "step": 155030
    },
    {
      "epoch": 0.7752,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006777889447236182,
      "loss": 2.0717,
      "step": 155040
    },
    {
      "epoch": 0.77525,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006776381909547738,
      "loss": 2.1161,
      "step": 155050
    },
    {
      "epoch": 0.7753,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006774874371859297,
      "loss": 2.0456,
      "step": 155060
    },
    {
      "epoch": 0.77535,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006773366834170854,
      "loss": 2.063,
      "step": 155070
    },
    {
      "epoch": 0.7754,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006771859296482413,
      "loss": 2.0466,
      "step": 155080
    },
    {
      "epoch": 0.77545,
      "grad_norm": 0.703125,
      "learning_rate": 0.000677035175879397,
      "loss": 2.1142,
      "step": 155090
    },
    {
      "epoch": 0.7755,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006768844221105528,
      "loss": 2.0707,
      "step": 155100
    },
    {
      "epoch": 0.77555,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006767336683417085,
      "loss": 2.0618,
      "step": 155110
    },
    {
      "epoch": 0.7756,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006765829145728644,
      "loss": 2.119,
      "step": 155120
    },
    {
      "epoch": 0.77565,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0006764321608040201,
      "loss": 2.1315,
      "step": 155130
    },
    {
      "epoch": 0.7757,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006762814070351759,
      "loss": 2.0686,
      "step": 155140
    },
    {
      "epoch": 0.77575,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006761306532663316,
      "loss": 2.0786,
      "step": 155150
    },
    {
      "epoch": 0.7758,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006759798994974875,
      "loss": 2.0803,
      "step": 155160
    },
    {
      "epoch": 0.77585,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0006758291457286432,
      "loss": 2.1015,
      "step": 155170
    },
    {
      "epoch": 0.7759,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000675678391959799,
      "loss": 2.0642,
      "step": 155180
    },
    {
      "epoch": 0.77595,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006755276381909547,
      "loss": 2.1115,
      "step": 155190
    },
    {
      "epoch": 0.776,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006753768844221106,
      "loss": 2.0717,
      "step": 155200
    },
    {
      "epoch": 0.77605,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006752261306532663,
      "loss": 2.0846,
      "step": 155210
    },
    {
      "epoch": 0.7761,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006750753768844221,
      "loss": 2.0991,
      "step": 155220
    },
    {
      "epoch": 0.77615,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006749246231155778,
      "loss": 2.0694,
      "step": 155230
    },
    {
      "epoch": 0.7762,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006747738693467337,
      "loss": 2.1218,
      "step": 155240
    },
    {
      "epoch": 0.77625,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006746231155778894,
      "loss": 2.0317,
      "step": 155250
    },
    {
      "epoch": 0.7763,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006744723618090453,
      "loss": 2.0679,
      "step": 155260
    },
    {
      "epoch": 0.77635,
      "grad_norm": 0.66796875,
      "learning_rate": 0.000674321608040201,
      "loss": 2.1042,
      "step": 155270
    },
    {
      "epoch": 0.7764,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006741708542713569,
      "loss": 2.0603,
      "step": 155280
    },
    {
      "epoch": 0.77645,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006740201005025126,
      "loss": 2.1235,
      "step": 155290
    },
    {
      "epoch": 0.7765,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006738693467336684,
      "loss": 2.09,
      "step": 155300
    },
    {
      "epoch": 0.77655,
      "grad_norm": 0.625,
      "learning_rate": 0.0006737185929648241,
      "loss": 2.0903,
      "step": 155310
    },
    {
      "epoch": 0.7766,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00067356783919598,
      "loss": 2.0701,
      "step": 155320
    },
    {
      "epoch": 0.77665,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0006734170854271357,
      "loss": 2.1366,
      "step": 155330
    },
    {
      "epoch": 0.7767,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006732663316582915,
      "loss": 2.0882,
      "step": 155340
    },
    {
      "epoch": 0.77675,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006731155778894472,
      "loss": 2.04,
      "step": 155350
    },
    {
      "epoch": 0.7768,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006729648241206031,
      "loss": 2.0734,
      "step": 155360
    },
    {
      "epoch": 0.77685,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006728140703517588,
      "loss": 2.0583,
      "step": 155370
    },
    {
      "epoch": 0.7769,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0006726633165829146,
      "loss": 2.0676,
      "step": 155380
    },
    {
      "epoch": 0.77695,
      "grad_norm": 0.8125,
      "learning_rate": 0.0006725125628140703,
      "loss": 2.0885,
      "step": 155390
    },
    {
      "epoch": 0.777,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006723618090452262,
      "loss": 2.1211,
      "step": 155400
    },
    {
      "epoch": 0.77705,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006722110552763819,
      "loss": 2.1087,
      "step": 155410
    },
    {
      "epoch": 0.7771,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0006720603015075377,
      "loss": 2.0737,
      "step": 155420
    },
    {
      "epoch": 0.77715,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006719095477386934,
      "loss": 2.1017,
      "step": 155430
    },
    {
      "epoch": 0.7772,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006717587939698493,
      "loss": 2.0308,
      "step": 155440
    },
    {
      "epoch": 0.77725,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000671608040201005,
      "loss": 2.1394,
      "step": 155450
    },
    {
      "epoch": 0.7773,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0006714572864321608,
      "loss": 2.1037,
      "step": 155460
    },
    {
      "epoch": 0.77735,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006713065326633165,
      "loss": 2.0309,
      "step": 155470
    },
    {
      "epoch": 0.7774,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0006711557788944725,
      "loss": 2.0757,
      "step": 155480
    },
    {
      "epoch": 0.77745,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006710050251256282,
      "loss": 2.0446,
      "step": 155490
    },
    {
      "epoch": 0.7775,
      "grad_norm": 0.5625,
      "learning_rate": 0.000670854271356784,
      "loss": 2.1047,
      "step": 155500
    },
    {
      "epoch": 0.77755,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006707035175879397,
      "loss": 2.0904,
      "step": 155510
    },
    {
      "epoch": 0.7776,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006705527638190955,
      "loss": 2.0766,
      "step": 155520
    },
    {
      "epoch": 0.77765,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006704020100502513,
      "loss": 2.0959,
      "step": 155530
    },
    {
      "epoch": 0.7777,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006702512562814071,
      "loss": 2.077,
      "step": 155540
    },
    {
      "epoch": 0.77775,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006701005025125628,
      "loss": 2.0824,
      "step": 155550
    },
    {
      "epoch": 0.7778,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006699497487437186,
      "loss": 2.0232,
      "step": 155560
    },
    {
      "epoch": 0.77785,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006697989949748744,
      "loss": 2.1152,
      "step": 155570
    },
    {
      "epoch": 0.7779,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0006696482412060302,
      "loss": 2.0679,
      "step": 155580
    },
    {
      "epoch": 0.77795,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006694974874371859,
      "loss": 2.1086,
      "step": 155590
    },
    {
      "epoch": 0.778,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006693467336683417,
      "loss": 2.1003,
      "step": 155600
    },
    {
      "epoch": 0.77805,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006691959798994975,
      "loss": 2.0152,
      "step": 155610
    },
    {
      "epoch": 0.7781,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006690452261306533,
      "loss": 2.0459,
      "step": 155620
    },
    {
      "epoch": 0.77815,
      "grad_norm": 0.59375,
      "learning_rate": 0.000668894472361809,
      "loss": 2.0926,
      "step": 155630
    },
    {
      "epoch": 0.7782,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006687437185929648,
      "loss": 2.074,
      "step": 155640
    },
    {
      "epoch": 0.77825,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006685929648241206,
      "loss": 2.0943,
      "step": 155650
    },
    {
      "epoch": 0.7783,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006684422110552764,
      "loss": 2.0681,
      "step": 155660
    },
    {
      "epoch": 0.77835,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006682914572864321,
      "loss": 2.0988,
      "step": 155670
    },
    {
      "epoch": 0.7784,
      "grad_norm": 0.7890625,
      "learning_rate": 0.0006681407035175879,
      "loss": 2.0367,
      "step": 155680
    },
    {
      "epoch": 0.77845,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006679899497487438,
      "loss": 2.0621,
      "step": 155690
    },
    {
      "epoch": 0.7785,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006678391959798996,
      "loss": 2.0738,
      "step": 155700
    },
    {
      "epoch": 0.77855,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006676884422110553,
      "loss": 2.047,
      "step": 155710
    },
    {
      "epoch": 0.7786,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0006675376884422111,
      "loss": 2.0826,
      "step": 155720
    },
    {
      "epoch": 0.77865,
      "grad_norm": 0.625,
      "learning_rate": 0.0006673869346733669,
      "loss": 2.1134,
      "step": 155730
    },
    {
      "epoch": 0.7787,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006672361809045226,
      "loss": 2.0778,
      "step": 155740
    },
    {
      "epoch": 0.77875,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006670854271356784,
      "loss": 2.0388,
      "step": 155750
    },
    {
      "epoch": 0.7788,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006669346733668342,
      "loss": 2.1096,
      "step": 155760
    },
    {
      "epoch": 0.77885,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00066678391959799,
      "loss": 2.0322,
      "step": 155770
    },
    {
      "epoch": 0.7789,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006666331658291457,
      "loss": 2.0968,
      "step": 155780
    },
    {
      "epoch": 0.77895,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006664824120603015,
      "loss": 2.0739,
      "step": 155790
    },
    {
      "epoch": 0.779,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0006663316582914573,
      "loss": 2.0649,
      "step": 155800
    },
    {
      "epoch": 0.77905,
      "grad_norm": 0.703125,
      "learning_rate": 0.0006661809045226131,
      "loss": 2.0892,
      "step": 155810
    },
    {
      "epoch": 0.7791,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006660301507537688,
      "loss": 2.0645,
      "step": 155820
    },
    {
      "epoch": 0.77915,
      "grad_norm": 0.5625,
      "learning_rate": 0.0006658793969849246,
      "loss": 2.136,
      "step": 155830
    },
    {
      "epoch": 0.7792,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006657286432160804,
      "loss": 2.0612,
      "step": 155840
    },
    {
      "epoch": 0.77925,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006655778894472362,
      "loss": 2.0697,
      "step": 155850
    },
    {
      "epoch": 0.7793,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006654271356783919,
      "loss": 2.0793,
      "step": 155860
    },
    {
      "epoch": 0.77935,
      "grad_norm": 0.75,
      "learning_rate": 0.0006652763819095477,
      "loss": 2.0616,
      "step": 155870
    },
    {
      "epoch": 0.7794,
      "grad_norm": 0.625,
      "learning_rate": 0.0006651256281407035,
      "loss": 2.1044,
      "step": 155880
    },
    {
      "epoch": 0.77945,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006649748743718593,
      "loss": 2.0132,
      "step": 155890
    },
    {
      "epoch": 0.7795,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000664824120603015,
      "loss": 2.1108,
      "step": 155900
    },
    {
      "epoch": 0.77955,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006646733668341709,
      "loss": 2.075,
      "step": 155910
    },
    {
      "epoch": 0.7796,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006645226130653267,
      "loss": 2.0794,
      "step": 155920
    },
    {
      "epoch": 0.77965,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006643718592964825,
      "loss": 2.1243,
      "step": 155930
    },
    {
      "epoch": 0.7797,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006642211055276382,
      "loss": 2.0499,
      "step": 155940
    },
    {
      "epoch": 0.77975,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000664070351758794,
      "loss": 2.1097,
      "step": 155950
    },
    {
      "epoch": 0.7798,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006639195979899498,
      "loss": 2.0663,
      "step": 155960
    },
    {
      "epoch": 0.77985,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006637688442211056,
      "loss": 2.0972,
      "step": 155970
    },
    {
      "epoch": 0.7799,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006636180904522613,
      "loss": 2.1147,
      "step": 155980
    },
    {
      "epoch": 0.77995,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006634673366834171,
      "loss": 2.0753,
      "step": 155990
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006633165829145729,
      "loss": 2.0614,
      "step": 156000
    },
    {
      "epoch": 0.78,
      "eval_loss": 2.074502468109131,
      "eval_runtime": 47.0999,
      "eval_samples_per_second": 53.079,
      "eval_steps_per_second": 0.106,
      "step": 156000
    },
    {
      "epoch": 0.78005,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006631658291457287,
      "loss": 2.0703,
      "step": 156010
    },
    {
      "epoch": 0.7801,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0006630150753768844,
      "loss": 2.0681,
      "step": 156020
    },
    {
      "epoch": 0.78015,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0006628643216080402,
      "loss": 2.0134,
      "step": 156030
    },
    {
      "epoch": 0.7802,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006627135678391959,
      "loss": 2.1211,
      "step": 156040
    },
    {
      "epoch": 0.78025,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006625628140703518,
      "loss": 2.1354,
      "step": 156050
    },
    {
      "epoch": 0.7803,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006624120603015075,
      "loss": 2.088,
      "step": 156060
    },
    {
      "epoch": 0.78035,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006622613065326633,
      "loss": 2.0802,
      "step": 156070
    },
    {
      "epoch": 0.7804,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000662110552763819,
      "loss": 2.0678,
      "step": 156080
    },
    {
      "epoch": 0.78045,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006619597989949749,
      "loss": 2.0762,
      "step": 156090
    },
    {
      "epoch": 0.7805,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006618090452261306,
      "loss": 2.1407,
      "step": 156100
    },
    {
      "epoch": 0.78055,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006616582914572864,
      "loss": 2.0559,
      "step": 156110
    },
    {
      "epoch": 0.7806,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006615075376884421,
      "loss": 2.1244,
      "step": 156120
    },
    {
      "epoch": 0.78065,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0006613567839195981,
      "loss": 2.0424,
      "step": 156130
    },
    {
      "epoch": 0.7807,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006612060301507538,
      "loss": 2.118,
      "step": 156140
    },
    {
      "epoch": 0.78075,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0006610552763819096,
      "loss": 2.0853,
      "step": 156150
    },
    {
      "epoch": 0.7808,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006609045226130653,
      "loss": 2.0975,
      "step": 156160
    },
    {
      "epoch": 0.78085,
      "grad_norm": 0.6875,
      "learning_rate": 0.0006607537688442212,
      "loss": 2.0983,
      "step": 156170
    },
    {
      "epoch": 0.7809,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006606030150753769,
      "loss": 2.0683,
      "step": 156180
    },
    {
      "epoch": 0.78095,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006604522613065327,
      "loss": 2.0942,
      "step": 156190
    },
    {
      "epoch": 0.781,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006603015075376884,
      "loss": 2.1044,
      "step": 156200
    },
    {
      "epoch": 0.78105,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0006601507537688443,
      "loss": 2.0438,
      "step": 156210
    },
    {
      "epoch": 0.7811,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00066,
      "loss": 2.0908,
      "step": 156220
    },
    {
      "epoch": 0.78115,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006598492462311558,
      "loss": 2.0787,
      "step": 156230
    },
    {
      "epoch": 0.7812,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006596984924623115,
      "loss": 2.1006,
      "step": 156240
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0006595477386934674,
      "loss": 2.0786,
      "step": 156250
    },
    {
      "epoch": 0.7813,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006593969849246231,
      "loss": 2.0886,
      "step": 156260
    },
    {
      "epoch": 0.78135,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006592462311557789,
      "loss": 2.1225,
      "step": 156270
    },
    {
      "epoch": 0.7814,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006590954773869346,
      "loss": 2.0389,
      "step": 156280
    },
    {
      "epoch": 0.78145,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0006589447236180905,
      "loss": 2.1176,
      "step": 156290
    },
    {
      "epoch": 0.7815,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006587939698492462,
      "loss": 2.0422,
      "step": 156300
    },
    {
      "epoch": 0.78155,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000658643216080402,
      "loss": 2.0919,
      "step": 156310
    },
    {
      "epoch": 0.7816,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006584924623115577,
      "loss": 2.0778,
      "step": 156320
    },
    {
      "epoch": 0.78165,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006583417085427137,
      "loss": 2.1057,
      "step": 156330
    },
    {
      "epoch": 0.7817,
      "grad_norm": 0.6875,
      "learning_rate": 0.0006581909547738694,
      "loss": 2.1012,
      "step": 156340
    },
    {
      "epoch": 0.78175,
      "grad_norm": 0.5625,
      "learning_rate": 0.0006580402010050252,
      "loss": 2.0103,
      "step": 156350
    },
    {
      "epoch": 0.7818,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006578894472361809,
      "loss": 2.1517,
      "step": 156360
    },
    {
      "epoch": 0.78185,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006577386934673368,
      "loss": 2.0282,
      "step": 156370
    },
    {
      "epoch": 0.7819,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006575879396984925,
      "loss": 2.1261,
      "step": 156380
    },
    {
      "epoch": 0.78195,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006574371859296483,
      "loss": 2.0866,
      "step": 156390
    },
    {
      "epoch": 0.782,
      "grad_norm": 0.640625,
      "learning_rate": 0.000657286432160804,
      "loss": 2.0746,
      "step": 156400
    },
    {
      "epoch": 0.78205,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006571356783919599,
      "loss": 2.0998,
      "step": 156410
    },
    {
      "epoch": 0.7821,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006569849246231156,
      "loss": 2.0834,
      "step": 156420
    },
    {
      "epoch": 0.78215,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006568341708542714,
      "loss": 2.1353,
      "step": 156430
    },
    {
      "epoch": 0.7822,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006566834170854271,
      "loss": 2.0707,
      "step": 156440
    },
    {
      "epoch": 0.78225,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0006565326633165829,
      "loss": 2.0844,
      "step": 156450
    },
    {
      "epoch": 0.7823,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006563819095477387,
      "loss": 2.1585,
      "step": 156460
    },
    {
      "epoch": 0.78235,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006562311557788945,
      "loss": 2.091,
      "step": 156470
    },
    {
      "epoch": 0.7824,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006560804020100502,
      "loss": 2.1141,
      "step": 156480
    },
    {
      "epoch": 0.78245,
      "grad_norm": 0.57421875,
      "learning_rate": 0.000655929648241206,
      "loss": 2.0826,
      "step": 156490
    },
    {
      "epoch": 0.7825,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006557788944723618,
      "loss": 2.0839,
      "step": 156500
    },
    {
      "epoch": 0.78255,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006556281407035176,
      "loss": 2.1656,
      "step": 156510
    },
    {
      "epoch": 0.7826,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006554773869346733,
      "loss": 2.0816,
      "step": 156520
    },
    {
      "epoch": 0.78265,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006553266331658291,
      "loss": 2.1334,
      "step": 156530
    },
    {
      "epoch": 0.7827,
      "grad_norm": 0.609375,
      "learning_rate": 0.000655175879396985,
      "loss": 2.0865,
      "step": 156540
    },
    {
      "epoch": 0.78275,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006550251256281408,
      "loss": 2.0986,
      "step": 156550
    },
    {
      "epoch": 0.7828,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006548743718592965,
      "loss": 2.1182,
      "step": 156560
    },
    {
      "epoch": 0.78285,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0006547236180904523,
      "loss": 2.0753,
      "step": 156570
    },
    {
      "epoch": 0.7829,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0006545728643216081,
      "loss": 2.0871,
      "step": 156580
    },
    {
      "epoch": 0.78295,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006544221105527639,
      "loss": 2.067,
      "step": 156590
    },
    {
      "epoch": 0.783,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006542713567839196,
      "loss": 2.1145,
      "step": 156600
    },
    {
      "epoch": 0.78305,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006541206030150754,
      "loss": 2.1126,
      "step": 156610
    },
    {
      "epoch": 0.7831,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006539698492462312,
      "loss": 2.0946,
      "step": 156620
    },
    {
      "epoch": 0.78315,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000653819095477387,
      "loss": 2.0826,
      "step": 156630
    },
    {
      "epoch": 0.7832,
      "grad_norm": 0.625,
      "learning_rate": 0.0006536683417085427,
      "loss": 2.0652,
      "step": 156640
    },
    {
      "epoch": 0.78325,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006535175879396985,
      "loss": 2.1124,
      "step": 156650
    },
    {
      "epoch": 0.7833,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006533668341708543,
      "loss": 2.0524,
      "step": 156660
    },
    {
      "epoch": 0.78335,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00065321608040201,
      "loss": 2.053,
      "step": 156670
    },
    {
      "epoch": 0.7834,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006530653266331658,
      "loss": 2.1358,
      "step": 156680
    },
    {
      "epoch": 0.78345,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006529145728643216,
      "loss": 2.0837,
      "step": 156690
    },
    {
      "epoch": 0.7835,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006527638190954774,
      "loss": 2.1176,
      "step": 156700
    },
    {
      "epoch": 0.78355,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006526130653266331,
      "loss": 2.106,
      "step": 156710
    },
    {
      "epoch": 0.7836,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0006524623115577889,
      "loss": 2.0831,
      "step": 156720
    },
    {
      "epoch": 0.78365,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006523115577889447,
      "loss": 2.1,
      "step": 156730
    },
    {
      "epoch": 0.7837,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006521608040201005,
      "loss": 2.0424,
      "step": 156740
    },
    {
      "epoch": 0.78375,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006520100502512562,
      "loss": 2.0904,
      "step": 156750
    },
    {
      "epoch": 0.7838,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000651859296482412,
      "loss": 2.094,
      "step": 156760
    },
    {
      "epoch": 0.78385,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006517085427135679,
      "loss": 2.0995,
      "step": 156770
    },
    {
      "epoch": 0.7839,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006515577889447237,
      "loss": 2.1104,
      "step": 156780
    },
    {
      "epoch": 0.78395,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006514070351758794,
      "loss": 2.0654,
      "step": 156790
    },
    {
      "epoch": 0.784,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006512562814070352,
      "loss": 2.0721,
      "step": 156800
    },
    {
      "epoch": 0.78405,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000651105527638191,
      "loss": 2.0618,
      "step": 156810
    },
    {
      "epoch": 0.7841,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006509547738693468,
      "loss": 2.1101,
      "step": 156820
    },
    {
      "epoch": 0.78415,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0006508040201005025,
      "loss": 2.0917,
      "step": 156830
    },
    {
      "epoch": 0.7842,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006506532663316583,
      "loss": 2.0967,
      "step": 156840
    },
    {
      "epoch": 0.78425,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006505025125628141,
      "loss": 2.1322,
      "step": 156850
    },
    {
      "epoch": 0.7843,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006503517587939699,
      "loss": 2.1251,
      "step": 156860
    },
    {
      "epoch": 0.78435,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006502010050251256,
      "loss": 2.0999,
      "step": 156870
    },
    {
      "epoch": 0.7844,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0006500502512562814,
      "loss": 2.1203,
      "step": 156880
    },
    {
      "epoch": 0.78445,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006498994974874372,
      "loss": 2.0793,
      "step": 156890
    },
    {
      "epoch": 0.7845,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000649748743718593,
      "loss": 2.0906,
      "step": 156900
    },
    {
      "epoch": 0.78455,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006495979899497487,
      "loss": 2.0803,
      "step": 156910
    },
    {
      "epoch": 0.7846,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0006494472361809045,
      "loss": 2.1349,
      "step": 156920
    },
    {
      "epoch": 0.78465,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006492964824120603,
      "loss": 2.0907,
      "step": 156930
    },
    {
      "epoch": 0.7847,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006491457286432161,
      "loss": 2.0893,
      "step": 156940
    },
    {
      "epoch": 0.78475,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006489949748743718,
      "loss": 2.0649,
      "step": 156950
    },
    {
      "epoch": 0.7848,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0006488442211055276,
      "loss": 2.0635,
      "step": 156960
    },
    {
      "epoch": 0.78485,
      "grad_norm": 0.546875,
      "learning_rate": 0.0006486934673366834,
      "loss": 2.0937,
      "step": 156970
    },
    {
      "epoch": 0.7849,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006485427135678393,
      "loss": 2.0987,
      "step": 156980
    },
    {
      "epoch": 0.78495,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000648391959798995,
      "loss": 2.0312,
      "step": 156990
    },
    {
      "epoch": 0.785,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006482412060301508,
      "loss": 2.1166,
      "step": 157000
    },
    {
      "epoch": 0.78505,
      "grad_norm": 0.625,
      "learning_rate": 0.0006480904522613066,
      "loss": 2.064,
      "step": 157010
    },
    {
      "epoch": 0.7851,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006479396984924624,
      "loss": 2.1491,
      "step": 157020
    },
    {
      "epoch": 0.78515,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006477889447236181,
      "loss": 2.1009,
      "step": 157030
    },
    {
      "epoch": 0.7852,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006476381909547739,
      "loss": 2.0459,
      "step": 157040
    },
    {
      "epoch": 0.78525,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006474874371859297,
      "loss": 2.1364,
      "step": 157050
    },
    {
      "epoch": 0.7853,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006473366834170855,
      "loss": 2.0752,
      "step": 157060
    },
    {
      "epoch": 0.78535,
      "grad_norm": 0.75390625,
      "learning_rate": 0.0006471859296482412,
      "loss": 2.1,
      "step": 157070
    },
    {
      "epoch": 0.7854,
      "grad_norm": 0.6796875,
      "learning_rate": 0.000647035175879397,
      "loss": 2.0747,
      "step": 157080
    },
    {
      "epoch": 0.78545,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006468844221105528,
      "loss": 2.0702,
      "step": 157090
    },
    {
      "epoch": 0.7855,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006467336683417086,
      "loss": 2.0847,
      "step": 157100
    },
    {
      "epoch": 0.78555,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006465829145728643,
      "loss": 2.1012,
      "step": 157110
    },
    {
      "epoch": 0.7856,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006464321608040201,
      "loss": 2.1423,
      "step": 157120
    },
    {
      "epoch": 0.78565,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006462814070351759,
      "loss": 2.0895,
      "step": 157130
    },
    {
      "epoch": 0.7857,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006461306532663317,
      "loss": 2.0716,
      "step": 157140
    },
    {
      "epoch": 0.78575,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006459798994974874,
      "loss": 2.09,
      "step": 157150
    },
    {
      "epoch": 0.7858,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006458291457286432,
      "loss": 2.0388,
      "step": 157160
    },
    {
      "epoch": 0.78585,
      "grad_norm": 0.71875,
      "learning_rate": 0.000645678391959799,
      "loss": 2.0571,
      "step": 157170
    },
    {
      "epoch": 0.7859,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0006455276381909548,
      "loss": 2.0681,
      "step": 157180
    },
    {
      "epoch": 0.78595,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006453768844221105,
      "loss": 2.1305,
      "step": 157190
    },
    {
      "epoch": 0.786,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006452261306532664,
      "loss": 2.0715,
      "step": 157200
    },
    {
      "epoch": 0.78605,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000645075376884422,
      "loss": 2.0664,
      "step": 157210
    },
    {
      "epoch": 0.7861,
      "grad_norm": 0.640625,
      "learning_rate": 0.000644924623115578,
      "loss": 2.1249,
      "step": 157220
    },
    {
      "epoch": 0.78615,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006447738693467337,
      "loss": 2.0567,
      "step": 157230
    },
    {
      "epoch": 0.7862,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006446231155778895,
      "loss": 2.1596,
      "step": 157240
    },
    {
      "epoch": 0.78625,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0006444723618090452,
      "loss": 2.0652,
      "step": 157250
    },
    {
      "epoch": 0.7863,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006443216080402011,
      "loss": 2.0355,
      "step": 157260
    },
    {
      "epoch": 0.78635,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0006441708542713568,
      "loss": 2.1211,
      "step": 157270
    },
    {
      "epoch": 0.7864,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006440201005025126,
      "loss": 2.0215,
      "step": 157280
    },
    {
      "epoch": 0.78645,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006438693467336683,
      "loss": 2.089,
      "step": 157290
    },
    {
      "epoch": 0.7865,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006437185929648242,
      "loss": 2.0661,
      "step": 157300
    },
    {
      "epoch": 0.78655,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006435678391959799,
      "loss": 2.0872,
      "step": 157310
    },
    {
      "epoch": 0.7866,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006434170854271357,
      "loss": 2.1117,
      "step": 157320
    },
    {
      "epoch": 0.78665,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006432663316582914,
      "loss": 2.0521,
      "step": 157330
    },
    {
      "epoch": 0.7867,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006431155778894473,
      "loss": 2.0923,
      "step": 157340
    },
    {
      "epoch": 0.78675,
      "grad_norm": 0.703125,
      "learning_rate": 0.000642964824120603,
      "loss": 2.056,
      "step": 157350
    },
    {
      "epoch": 0.7868,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0006428140703517588,
      "loss": 2.0668,
      "step": 157360
    },
    {
      "epoch": 0.78685,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006426633165829145,
      "loss": 2.1057,
      "step": 157370
    },
    {
      "epoch": 0.7869,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006425125628140703,
      "loss": 2.0821,
      "step": 157380
    },
    {
      "epoch": 0.78695,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006423618090452261,
      "loss": 2.1131,
      "step": 157390
    },
    {
      "epoch": 0.787,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000642211055276382,
      "loss": 1.9989,
      "step": 157400
    },
    {
      "epoch": 0.78705,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0006420603015075376,
      "loss": 2.1042,
      "step": 157410
    },
    {
      "epoch": 0.7871,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006419095477386935,
      "loss": 2.0796,
      "step": 157420
    },
    {
      "epoch": 0.78715,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006417587939698493,
      "loss": 2.0374,
      "step": 157430
    },
    {
      "epoch": 0.7872,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006416080402010051,
      "loss": 2.1052,
      "step": 157440
    },
    {
      "epoch": 0.78725,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006414572864321608,
      "loss": 2.0993,
      "step": 157450
    },
    {
      "epoch": 0.7873,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0006413065326633166,
      "loss": 2.0534,
      "step": 157460
    },
    {
      "epoch": 0.78735,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006411557788944724,
      "loss": 2.1195,
      "step": 157470
    },
    {
      "epoch": 0.7874,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006410050251256282,
      "loss": 2.082,
      "step": 157480
    },
    {
      "epoch": 0.78745,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006408542713567839,
      "loss": 2.1382,
      "step": 157490
    },
    {
      "epoch": 0.7875,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006407035175879397,
      "loss": 2.0595,
      "step": 157500
    },
    {
      "epoch": 0.78755,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006405527638190955,
      "loss": 2.0945,
      "step": 157510
    },
    {
      "epoch": 0.7876,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006404020100502513,
      "loss": 2.088,
      "step": 157520
    },
    {
      "epoch": 0.78765,
      "grad_norm": 0.578125,
      "learning_rate": 0.000640251256281407,
      "loss": 2.0315,
      "step": 157530
    },
    {
      "epoch": 0.7877,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006401005025125628,
      "loss": 2.0564,
      "step": 157540
    },
    {
      "epoch": 0.78775,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0006399497487437186,
      "loss": 2.0552,
      "step": 157550
    },
    {
      "epoch": 0.7878,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006397989949748743,
      "loss": 2.0226,
      "step": 157560
    },
    {
      "epoch": 0.78785,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006396482412060301,
      "loss": 2.0977,
      "step": 157570
    },
    {
      "epoch": 0.7879,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006394974874371859,
      "loss": 2.0142,
      "step": 157580
    },
    {
      "epoch": 0.78795,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006393467336683417,
      "loss": 2.1076,
      "step": 157590
    },
    {
      "epoch": 0.788,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006391959798994974,
      "loss": 2.0975,
      "step": 157600
    },
    {
      "epoch": 0.78805,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0006390452261306532,
      "loss": 2.0088,
      "step": 157610
    },
    {
      "epoch": 0.7881,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000638894472361809,
      "loss": 2.0779,
      "step": 157620
    },
    {
      "epoch": 0.78815,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006387437185929649,
      "loss": 2.0795,
      "step": 157630
    },
    {
      "epoch": 0.7882,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006385929648241206,
      "loss": 2.0425,
      "step": 157640
    },
    {
      "epoch": 0.78825,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006384422110552764,
      "loss": 2.1068,
      "step": 157650
    },
    {
      "epoch": 0.7883,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006382914572864322,
      "loss": 2.0364,
      "step": 157660
    },
    {
      "epoch": 0.78835,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000638140703517588,
      "loss": 2.0396,
      "step": 157670
    },
    {
      "epoch": 0.7884,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006379899497487437,
      "loss": 2.078,
      "step": 157680
    },
    {
      "epoch": 0.78845,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006378391959798995,
      "loss": 2.1141,
      "step": 157690
    },
    {
      "epoch": 0.7885,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006376884422110553,
      "loss": 2.0293,
      "step": 157700
    },
    {
      "epoch": 0.78855,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006375376884422111,
      "loss": 2.0872,
      "step": 157710
    },
    {
      "epoch": 0.7886,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006373869346733668,
      "loss": 2.0836,
      "step": 157720
    },
    {
      "epoch": 0.78865,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0006372361809045226,
      "loss": 2.0306,
      "step": 157730
    },
    {
      "epoch": 0.7887,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006370854271356784,
      "loss": 2.0696,
      "step": 157740
    },
    {
      "epoch": 0.78875,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006369346733668342,
      "loss": 2.059,
      "step": 157750
    },
    {
      "epoch": 0.7888,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006367839195979899,
      "loss": 2.0168,
      "step": 157760
    },
    {
      "epoch": 0.78885,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006366331658291457,
      "loss": 2.0486,
      "step": 157770
    },
    {
      "epoch": 0.7889,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006364824120603015,
      "loss": 2.0953,
      "step": 157780
    },
    {
      "epoch": 0.78895,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0006363316582914573,
      "loss": 2.0542,
      "step": 157790
    },
    {
      "epoch": 0.789,
      "grad_norm": 0.55078125,
      "learning_rate": 0.000636180904522613,
      "loss": 2.0808,
      "step": 157800
    },
    {
      "epoch": 0.78905,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006360301507537688,
      "loss": 2.0113,
      "step": 157810
    },
    {
      "epoch": 0.7891,
      "grad_norm": 0.625,
      "learning_rate": 0.0006358793969849246,
      "loss": 2.0677,
      "step": 157820
    },
    {
      "epoch": 0.78915,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006357286432160805,
      "loss": 2.0847,
      "step": 157830
    },
    {
      "epoch": 0.7892,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0006355778894472361,
      "loss": 2.0255,
      "step": 157840
    },
    {
      "epoch": 0.78925,
      "grad_norm": 0.65625,
      "learning_rate": 0.000635427135678392,
      "loss": 2.1004,
      "step": 157850
    },
    {
      "epoch": 0.7893,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006352763819095478,
      "loss": 2.0496,
      "step": 157860
    },
    {
      "epoch": 0.78935,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006351256281407036,
      "loss": 2.0337,
      "step": 157870
    },
    {
      "epoch": 0.7894,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006349748743718593,
      "loss": 2.1085,
      "step": 157880
    },
    {
      "epoch": 0.78945,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006348241206030151,
      "loss": 2.0502,
      "step": 157890
    },
    {
      "epoch": 0.7895,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006346733668341709,
      "loss": 2.1093,
      "step": 157900
    },
    {
      "epoch": 0.78955,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006345226130653267,
      "loss": 2.071,
      "step": 157910
    },
    {
      "epoch": 0.7896,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006343718592964824,
      "loss": 2.0252,
      "step": 157920
    },
    {
      "epoch": 0.78965,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006342211055276382,
      "loss": 2.099,
      "step": 157930
    },
    {
      "epoch": 0.7897,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000634070351758794,
      "loss": 2.1651,
      "step": 157940
    },
    {
      "epoch": 0.78975,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006339195979899498,
      "loss": 2.0688,
      "step": 157950
    },
    {
      "epoch": 0.7898,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006337688442211055,
      "loss": 2.0884,
      "step": 157960
    },
    {
      "epoch": 0.78985,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006336180904522613,
      "loss": 2.1121,
      "step": 157970
    },
    {
      "epoch": 0.7899,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006334673366834171,
      "loss": 2.0488,
      "step": 157980
    },
    {
      "epoch": 0.78995,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006333165829145729,
      "loss": 2.158,
      "step": 157990
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006331658291457286,
      "loss": 2.0032,
      "step": 158000
    },
    {
      "epoch": 0.79,
      "eval_loss": 2.0765786170959473,
      "eval_runtime": 45.7557,
      "eval_samples_per_second": 54.638,
      "eval_steps_per_second": 0.109,
      "step": 158000
    },
    {
      "epoch": 0.79005,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006330150753768844,
      "loss": 2.0656,
      "step": 158010
    },
    {
      "epoch": 0.7901,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006328643216080402,
      "loss": 2.0629,
      "step": 158020
    },
    {
      "epoch": 0.79015,
      "grad_norm": 0.7109375,
      "learning_rate": 0.000632713567839196,
      "loss": 2.0224,
      "step": 158030
    },
    {
      "epoch": 0.7902,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006325628140703517,
      "loss": 2.0553,
      "step": 158040
    },
    {
      "epoch": 0.79025,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006324120603015076,
      "loss": 2.1494,
      "step": 158050
    },
    {
      "epoch": 0.7903,
      "grad_norm": 0.703125,
      "learning_rate": 0.0006322613065326634,
      "loss": 2.0159,
      "step": 158060
    },
    {
      "epoch": 0.79035,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006321105527638192,
      "loss": 2.1201,
      "step": 158070
    },
    {
      "epoch": 0.7904,
      "grad_norm": 0.515625,
      "learning_rate": 0.0006319597989949749,
      "loss": 2.0735,
      "step": 158080
    },
    {
      "epoch": 0.79045,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006318090452261307,
      "loss": 2.0758,
      "step": 158090
    },
    {
      "epoch": 0.7905,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0006316582914572865,
      "loss": 2.0741,
      "step": 158100
    },
    {
      "epoch": 0.79055,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006315075376884423,
      "loss": 2.0644,
      "step": 158110
    },
    {
      "epoch": 0.7906,
      "grad_norm": 0.6640625,
      "learning_rate": 0.000631356783919598,
      "loss": 2.0998,
      "step": 158120
    },
    {
      "epoch": 0.79065,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0006312060301507538,
      "loss": 2.0875,
      "step": 158130
    },
    {
      "epoch": 0.7907,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006310552763819096,
      "loss": 1.999,
      "step": 158140
    },
    {
      "epoch": 0.79075,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006309045226130654,
      "loss": 2.1462,
      "step": 158150
    },
    {
      "epoch": 0.7908,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006307537688442211,
      "loss": 2.0648,
      "step": 158160
    },
    {
      "epoch": 0.79085,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006306030150753769,
      "loss": 2.0549,
      "step": 158170
    },
    {
      "epoch": 0.7909,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006304522613065327,
      "loss": 2.1086,
      "step": 158180
    },
    {
      "epoch": 0.79095,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006303015075376885,
      "loss": 2.0548,
      "step": 158190
    },
    {
      "epoch": 0.791,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006301507537688442,
      "loss": 2.0761,
      "step": 158200
    },
    {
      "epoch": 0.79105,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00063,
      "loss": 2.0614,
      "step": 158210
    },
    {
      "epoch": 0.7911,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006298492462311558,
      "loss": 2.0045,
      "step": 158220
    },
    {
      "epoch": 0.79115,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006296984924623116,
      "loss": 2.0616,
      "step": 158230
    },
    {
      "epoch": 0.7912,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006295477386934673,
      "loss": 2.1059,
      "step": 158240
    },
    {
      "epoch": 0.79125,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006293969849246231,
      "loss": 2.0463,
      "step": 158250
    },
    {
      "epoch": 0.7913,
      "grad_norm": 0.66015625,
      "learning_rate": 0.000629246231155779,
      "loss": 2.1064,
      "step": 158260
    },
    {
      "epoch": 0.79135,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006290954773869348,
      "loss": 2.0204,
      "step": 158270
    },
    {
      "epoch": 0.7914,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006289447236180905,
      "loss": 2.0491,
      "step": 158280
    },
    {
      "epoch": 0.79145,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006287939698492463,
      "loss": 2.0272,
      "step": 158290
    },
    {
      "epoch": 0.7915,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006286432160804021,
      "loss": 2.0725,
      "step": 158300
    },
    {
      "epoch": 0.79155,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006284924623115578,
      "loss": 2.1246,
      "step": 158310
    },
    {
      "epoch": 0.7916,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006283417085427136,
      "loss": 2.0867,
      "step": 158320
    },
    {
      "epoch": 0.79165,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006281909547738694,
      "loss": 2.0824,
      "step": 158330
    },
    {
      "epoch": 0.7917,
      "grad_norm": 0.625,
      "learning_rate": 0.0006280402010050252,
      "loss": 2.1239,
      "step": 158340
    },
    {
      "epoch": 0.79175,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006278894472361809,
      "loss": 2.084,
      "step": 158350
    },
    {
      "epoch": 0.7918,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006277386934673367,
      "loss": 2.0829,
      "step": 158360
    },
    {
      "epoch": 0.79185,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006275879396984925,
      "loss": 2.0937,
      "step": 158370
    },
    {
      "epoch": 0.7919,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006274371859296482,
      "loss": 2.0322,
      "step": 158380
    },
    {
      "epoch": 0.79195,
      "grad_norm": 0.68359375,
      "learning_rate": 0.000627286432160804,
      "loss": 2.075,
      "step": 158390
    },
    {
      "epoch": 0.792,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006271356783919598,
      "loss": 2.0606,
      "step": 158400
    },
    {
      "epoch": 0.79205,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006269849246231156,
      "loss": 2.0526,
      "step": 158410
    },
    {
      "epoch": 0.7921,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006268341708542713,
      "loss": 2.1055,
      "step": 158420
    },
    {
      "epoch": 0.79215,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006266834170854271,
      "loss": 2.0434,
      "step": 158430
    },
    {
      "epoch": 0.7922,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006265326633165829,
      "loss": 2.0334,
      "step": 158440
    },
    {
      "epoch": 0.79225,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006263819095477387,
      "loss": 2.1038,
      "step": 158450
    },
    {
      "epoch": 0.7923,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006262311557788944,
      "loss": 2.042,
      "step": 158460
    },
    {
      "epoch": 0.79235,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006260804020100502,
      "loss": 2.0797,
      "step": 158470
    },
    {
      "epoch": 0.7924,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000625929648241206,
      "loss": 2.0282,
      "step": 158480
    },
    {
      "epoch": 0.79245,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006257788944723618,
      "loss": 2.0457,
      "step": 158490
    },
    {
      "epoch": 0.7925,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006256281407035176,
      "loss": 2.1566,
      "step": 158500
    },
    {
      "epoch": 0.79255,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006254773869346734,
      "loss": 2.0751,
      "step": 158510
    },
    {
      "epoch": 0.7926,
      "grad_norm": 0.625,
      "learning_rate": 0.0006253266331658292,
      "loss": 2.082,
      "step": 158520
    },
    {
      "epoch": 0.79265,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0006251758793969849,
      "loss": 2.0906,
      "step": 158530
    },
    {
      "epoch": 0.7927,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006250251256281407,
      "loss": 2.0379,
      "step": 158540
    },
    {
      "epoch": 0.79275,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006248743718592965,
      "loss": 2.0863,
      "step": 158550
    },
    {
      "epoch": 0.7928,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006247236180904523,
      "loss": 2.0326,
      "step": 158560
    },
    {
      "epoch": 0.79285,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000624572864321608,
      "loss": 2.0488,
      "step": 158570
    },
    {
      "epoch": 0.7929,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006244221105527638,
      "loss": 2.0787,
      "step": 158580
    },
    {
      "epoch": 0.79295,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006242713567839196,
      "loss": 2.0483,
      "step": 158590
    },
    {
      "epoch": 0.793,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006241206030150754,
      "loss": 2.0445,
      "step": 158600
    },
    {
      "epoch": 0.79305,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0006239698492462311,
      "loss": 2.0816,
      "step": 158610
    },
    {
      "epoch": 0.7931,
      "grad_norm": 0.625,
      "learning_rate": 0.0006238190954773869,
      "loss": 2.0015,
      "step": 158620
    },
    {
      "epoch": 0.79315,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006236683417085427,
      "loss": 2.0626,
      "step": 158630
    },
    {
      "epoch": 0.7932,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006235175879396985,
      "loss": 2.093,
      "step": 158640
    },
    {
      "epoch": 0.79325,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006233668341708542,
      "loss": 2.0191,
      "step": 158650
    },
    {
      "epoch": 0.7933,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00062321608040201,
      "loss": 2.046,
      "step": 158660
    },
    {
      "epoch": 0.79335,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006230653266331658,
      "loss": 2.0401,
      "step": 158670
    },
    {
      "epoch": 0.7934,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006229145728643216,
      "loss": 2.1135,
      "step": 158680
    },
    {
      "epoch": 0.79345,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006227638190954773,
      "loss": 2.0802,
      "step": 158690
    },
    {
      "epoch": 0.7935,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006226130653266332,
      "loss": 2.0799,
      "step": 158700
    },
    {
      "epoch": 0.79355,
      "grad_norm": 0.625,
      "learning_rate": 0.000622462311557789,
      "loss": 2.0902,
      "step": 158710
    },
    {
      "epoch": 0.7936,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006223115577889448,
      "loss": 2.0249,
      "step": 158720
    },
    {
      "epoch": 0.79365,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006221608040201005,
      "loss": 2.0471,
      "step": 158730
    },
    {
      "epoch": 0.7937,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006220100502512563,
      "loss": 2.0604,
      "step": 158740
    },
    {
      "epoch": 0.79375,
      "grad_norm": 0.625,
      "learning_rate": 0.0006218592964824121,
      "loss": 2.0046,
      "step": 158750
    },
    {
      "epoch": 0.7938,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006217085427135679,
      "loss": 2.1233,
      "step": 158760
    },
    {
      "epoch": 0.79385,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006215577889447236,
      "loss": 2.0224,
      "step": 158770
    },
    {
      "epoch": 0.7939,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0006214070351758794,
      "loss": 2.0804,
      "step": 158780
    },
    {
      "epoch": 0.79395,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006212562814070352,
      "loss": 2.1066,
      "step": 158790
    },
    {
      "epoch": 0.794,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000621105527638191,
      "loss": 2.0703,
      "step": 158800
    },
    {
      "epoch": 0.79405,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006209547738693467,
      "loss": 2.0831,
      "step": 158810
    },
    {
      "epoch": 0.7941,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0006208040201005025,
      "loss": 2.0677,
      "step": 158820
    },
    {
      "epoch": 0.79415,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006206532663316583,
      "loss": 1.9756,
      "step": 158830
    },
    {
      "epoch": 0.7942,
      "grad_norm": 0.78125,
      "learning_rate": 0.0006205025125628141,
      "loss": 2.1042,
      "step": 158840
    },
    {
      "epoch": 0.79425,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006203517587939698,
      "loss": 2.0482,
      "step": 158850
    },
    {
      "epoch": 0.7943,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0006202010050251256,
      "loss": 2.1032,
      "step": 158860
    },
    {
      "epoch": 0.79435,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006200502512562814,
      "loss": 2.0783,
      "step": 158870
    },
    {
      "epoch": 0.7944,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0006198994974874372,
      "loss": 2.0288,
      "step": 158880
    },
    {
      "epoch": 0.79445,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006197487437185929,
      "loss": 2.123,
      "step": 158890
    },
    {
      "epoch": 0.7945,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006195979899497487,
      "loss": 2.0512,
      "step": 158900
    },
    {
      "epoch": 0.79455,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006194472361809046,
      "loss": 2.0849,
      "step": 158910
    },
    {
      "epoch": 0.7946,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006192964824120604,
      "loss": 2.0565,
      "step": 158920
    },
    {
      "epoch": 0.79465,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006191457286432161,
      "loss": 2.0338,
      "step": 158930
    },
    {
      "epoch": 0.7947,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006189949748743719,
      "loss": 2.1099,
      "step": 158940
    },
    {
      "epoch": 0.79475,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006188442211055277,
      "loss": 2.0648,
      "step": 158950
    },
    {
      "epoch": 0.7948,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006186934673366835,
      "loss": 2.0821,
      "step": 158960
    },
    {
      "epoch": 0.79485,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006185427135678392,
      "loss": 2.1047,
      "step": 158970
    },
    {
      "epoch": 0.7949,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000618391959798995,
      "loss": 1.9862,
      "step": 158980
    },
    {
      "epoch": 0.79495,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006182412060301508,
      "loss": 2.1128,
      "step": 158990
    },
    {
      "epoch": 0.795,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006180904522613066,
      "loss": 2.1059,
      "step": 159000
    },
    {
      "epoch": 0.79505,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006179396984924623,
      "loss": 2.0935,
      "step": 159010
    },
    {
      "epoch": 0.7951,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006177889447236181,
      "loss": 2.0952,
      "step": 159020
    },
    {
      "epoch": 0.79515,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006176381909547739,
      "loss": 2.0387,
      "step": 159030
    },
    {
      "epoch": 0.7952,
      "grad_norm": 0.6875,
      "learning_rate": 0.0006174874371859297,
      "loss": 2.0789,
      "step": 159040
    },
    {
      "epoch": 0.79525,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006173366834170854,
      "loss": 2.0644,
      "step": 159050
    },
    {
      "epoch": 0.7953,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006171859296482412,
      "loss": 2.0438,
      "step": 159060
    },
    {
      "epoch": 0.79535,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000617035175879397,
      "loss": 2.0696,
      "step": 159070
    },
    {
      "epoch": 0.7954,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006168844221105528,
      "loss": 2.0675,
      "step": 159080
    },
    {
      "epoch": 0.79545,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0006167336683417085,
      "loss": 2.0892,
      "step": 159090
    },
    {
      "epoch": 0.7955,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006165829145728643,
      "loss": 2.0982,
      "step": 159100
    },
    {
      "epoch": 0.79555,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006164321608040201,
      "loss": 2.03,
      "step": 159110
    },
    {
      "epoch": 0.7956,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000616281407035176,
      "loss": 2.058,
      "step": 159120
    },
    {
      "epoch": 0.79565,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0006161306532663317,
      "loss": 2.0347,
      "step": 159130
    },
    {
      "epoch": 0.7957,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006159798994974875,
      "loss": 2.058,
      "step": 159140
    },
    {
      "epoch": 0.79575,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006158291457286433,
      "loss": 2.0932,
      "step": 159150
    },
    {
      "epoch": 0.7958,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0006156783919597991,
      "loss": 2.0438,
      "step": 159160
    },
    {
      "epoch": 0.79585,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006155276381909548,
      "loss": 2.0972,
      "step": 159170
    },
    {
      "epoch": 0.7959,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006153768844221106,
      "loss": 2.0433,
      "step": 159180
    },
    {
      "epoch": 0.79595,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006152261306532664,
      "loss": 2.1052,
      "step": 159190
    },
    {
      "epoch": 0.796,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006150753768844222,
      "loss": 2.1246,
      "step": 159200
    },
    {
      "epoch": 0.79605,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006149246231155779,
      "loss": 2.0449,
      "step": 159210
    },
    {
      "epoch": 0.7961,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0006147738693467337,
      "loss": 2.0865,
      "step": 159220
    },
    {
      "epoch": 0.79615,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006146231155778895,
      "loss": 2.0582,
      "step": 159230
    },
    {
      "epoch": 0.7962,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0006144723618090452,
      "loss": 2.1455,
      "step": 159240
    },
    {
      "epoch": 0.79625,
      "grad_norm": 0.59375,
      "learning_rate": 0.000614321608040201,
      "loss": 2.0912,
      "step": 159250
    },
    {
      "epoch": 0.7963,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006141708542713568,
      "loss": 2.0469,
      "step": 159260
    },
    {
      "epoch": 0.79635,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006140201005025126,
      "loss": 2.1026,
      "step": 159270
    },
    {
      "epoch": 0.7964,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006138693467336683,
      "loss": 2.0169,
      "step": 159280
    },
    {
      "epoch": 0.79645,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0006137185929648241,
      "loss": 2.0606,
      "step": 159290
    },
    {
      "epoch": 0.7965,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006135678391959799,
      "loss": 2.1205,
      "step": 159300
    },
    {
      "epoch": 0.79655,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006134170854271357,
      "loss": 1.9989,
      "step": 159310
    },
    {
      "epoch": 0.7966,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006132663316582914,
      "loss": 2.1058,
      "step": 159320
    },
    {
      "epoch": 0.79665,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0006131155778894472,
      "loss": 2.0024,
      "step": 159330
    },
    {
      "epoch": 0.7967,
      "grad_norm": 0.609375,
      "learning_rate": 0.000612964824120603,
      "loss": 2.0949,
      "step": 159340
    },
    {
      "epoch": 0.79675,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0006128140703517589,
      "loss": 2.0958,
      "step": 159350
    },
    {
      "epoch": 0.7968,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0006126633165829146,
      "loss": 2.0294,
      "step": 159360
    },
    {
      "epoch": 0.79685,
      "grad_norm": 0.625,
      "learning_rate": 0.0006125125628140704,
      "loss": 2.0877,
      "step": 159370
    },
    {
      "epoch": 0.7969,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006123618090452262,
      "loss": 2.0557,
      "step": 159380
    },
    {
      "epoch": 0.79695,
      "grad_norm": 0.66015625,
      "learning_rate": 0.000612211055276382,
      "loss": 2.0632,
      "step": 159390
    },
    {
      "epoch": 0.797,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006120603015075377,
      "loss": 2.0886,
      "step": 159400
    },
    {
      "epoch": 0.79705,
      "grad_norm": 0.703125,
      "learning_rate": 0.0006119095477386935,
      "loss": 2.1085,
      "step": 159410
    },
    {
      "epoch": 0.7971,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006117587939698492,
      "loss": 2.0595,
      "step": 159420
    },
    {
      "epoch": 0.79715,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006116080402010051,
      "loss": 2.0077,
      "step": 159430
    },
    {
      "epoch": 0.7972,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006114572864321608,
      "loss": 2.0491,
      "step": 159440
    },
    {
      "epoch": 0.79725,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006113065326633166,
      "loss": 2.0982,
      "step": 159450
    },
    {
      "epoch": 0.7973,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006111557788944723,
      "loss": 2.0454,
      "step": 159460
    },
    {
      "epoch": 0.79735,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006110050251256282,
      "loss": 2.0476,
      "step": 159470
    },
    {
      "epoch": 0.7974,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006108542713567839,
      "loss": 2.0517,
      "step": 159480
    },
    {
      "epoch": 0.79745,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006107035175879397,
      "loss": 2.1217,
      "step": 159490
    },
    {
      "epoch": 0.7975,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006105527638190954,
      "loss": 2.0805,
      "step": 159500
    },
    {
      "epoch": 0.79755,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006104020100502512,
      "loss": 2.0338,
      "step": 159510
    },
    {
      "epoch": 0.7976,
      "grad_norm": 0.5625,
      "learning_rate": 0.000610251256281407,
      "loss": 2.0514,
      "step": 159520
    },
    {
      "epoch": 0.79765,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0006101005025125628,
      "loss": 2.033,
      "step": 159530
    },
    {
      "epoch": 0.7977,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006099497487437185,
      "loss": 2.043,
      "step": 159540
    },
    {
      "epoch": 0.79775,
      "grad_norm": 0.546875,
      "learning_rate": 0.0006097989949748743,
      "loss": 2.0647,
      "step": 159550
    },
    {
      "epoch": 0.7978,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0006096482412060302,
      "loss": 2.0241,
      "step": 159560
    },
    {
      "epoch": 0.79785,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000609497487437186,
      "loss": 2.1197,
      "step": 159570
    },
    {
      "epoch": 0.7979,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006093467336683417,
      "loss": 2.0664,
      "step": 159580
    },
    {
      "epoch": 0.79795,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006091959798994975,
      "loss": 2.0828,
      "step": 159590
    },
    {
      "epoch": 0.798,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006090452261306533,
      "loss": 2.0898,
      "step": 159600
    },
    {
      "epoch": 0.79805,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006088944723618091,
      "loss": 2.0158,
      "step": 159610
    },
    {
      "epoch": 0.7981,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006087437185929648,
      "loss": 2.0952,
      "step": 159620
    },
    {
      "epoch": 0.79815,
      "grad_norm": 0.671875,
      "learning_rate": 0.0006085929648241206,
      "loss": 2.0534,
      "step": 159630
    },
    {
      "epoch": 0.7982,
      "grad_norm": 0.640625,
      "learning_rate": 0.0006084422110552764,
      "loss": 2.0886,
      "step": 159640
    },
    {
      "epoch": 0.79825,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006082914572864322,
      "loss": 2.071,
      "step": 159650
    },
    {
      "epoch": 0.7983,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006081407035175879,
      "loss": 1.9991,
      "step": 159660
    },
    {
      "epoch": 0.79835,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0006079899497487437,
      "loss": 2.0737,
      "step": 159670
    },
    {
      "epoch": 0.7984,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006078391959798995,
      "loss": 2.0376,
      "step": 159680
    },
    {
      "epoch": 0.79845,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0006076884422110553,
      "loss": 2.1102,
      "step": 159690
    },
    {
      "epoch": 0.7985,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000607537688442211,
      "loss": 2.0922,
      "step": 159700
    },
    {
      "epoch": 0.79855,
      "grad_norm": 0.6875,
      "learning_rate": 0.0006073869346733668,
      "loss": 2.0721,
      "step": 159710
    },
    {
      "epoch": 0.7986,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006072361809045226,
      "loss": 2.1083,
      "step": 159720
    },
    {
      "epoch": 0.79865,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0006070854271356784,
      "loss": 2.0466,
      "step": 159730
    },
    {
      "epoch": 0.7987,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006069346733668341,
      "loss": 2.0726,
      "step": 159740
    },
    {
      "epoch": 0.79875,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0006067839195979899,
      "loss": 2.0841,
      "step": 159750
    },
    {
      "epoch": 0.7988,
      "grad_norm": 0.625,
      "learning_rate": 0.0006066331658291457,
      "loss": 2.0659,
      "step": 159760
    },
    {
      "epoch": 0.79885,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006064824120603016,
      "loss": 2.0941,
      "step": 159770
    },
    {
      "epoch": 0.7989,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006063316582914573,
      "loss": 2.0269,
      "step": 159780
    },
    {
      "epoch": 0.79895,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006061809045226131,
      "loss": 2.1082,
      "step": 159790
    },
    {
      "epoch": 0.799,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0006060301507537689,
      "loss": 2.0345,
      "step": 159800
    },
    {
      "epoch": 0.79905,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0006058793969849247,
      "loss": 1.9835,
      "step": 159810
    },
    {
      "epoch": 0.7991,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006057286432160804,
      "loss": 2.1261,
      "step": 159820
    },
    {
      "epoch": 0.79915,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006055778894472362,
      "loss": 2.0214,
      "step": 159830
    },
    {
      "epoch": 0.7992,
      "grad_norm": 0.5703125,
      "learning_rate": 0.000605427135678392,
      "loss": 2.1123,
      "step": 159840
    },
    {
      "epoch": 0.79925,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006052763819095478,
      "loss": 2.1093,
      "step": 159850
    },
    {
      "epoch": 0.7993,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006051256281407035,
      "loss": 2.0509,
      "step": 159860
    },
    {
      "epoch": 0.79935,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006049748743718593,
      "loss": 2.0659,
      "step": 159870
    },
    {
      "epoch": 0.7994,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0006048241206030151,
      "loss": 2.0659,
      "step": 159880
    },
    {
      "epoch": 0.79945,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006046733668341709,
      "loss": 2.1102,
      "step": 159890
    },
    {
      "epoch": 0.7995,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006045226130653266,
      "loss": 2.0328,
      "step": 159900
    },
    {
      "epoch": 0.79955,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006043718592964824,
      "loss": 2.0713,
      "step": 159910
    },
    {
      "epoch": 0.7996,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006042211055276382,
      "loss": 2.0877,
      "step": 159920
    },
    {
      "epoch": 0.79965,
      "grad_norm": 0.66015625,
      "learning_rate": 0.000604070351758794,
      "loss": 2.0244,
      "step": 159930
    },
    {
      "epoch": 0.7997,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006039195979899497,
      "loss": 2.1514,
      "step": 159940
    },
    {
      "epoch": 0.79975,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006037688442211055,
      "loss": 2.0113,
      "step": 159950
    },
    {
      "epoch": 0.7998,
      "grad_norm": 0.625,
      "learning_rate": 0.0006036180904522613,
      "loss": 2.0989,
      "step": 159960
    },
    {
      "epoch": 0.79985,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006034673366834171,
      "loss": 2.0805,
      "step": 159970
    },
    {
      "epoch": 0.7999,
      "grad_norm": 0.59375,
      "learning_rate": 0.0006033165829145728,
      "loss": 2.1117,
      "step": 159980
    },
    {
      "epoch": 0.79995,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0006031658291457287,
      "loss": 2.0791,
      "step": 159990
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006030150753768845,
      "loss": 2.0349,
      "step": 160000
    },
    {
      "epoch": 0.8,
      "eval_loss": 2.0766003131866455,
      "eval_runtime": 47.8919,
      "eval_samples_per_second": 52.201,
      "eval_steps_per_second": 0.104,
      "step": 160000
    },
    {
      "epoch": 0.80005,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006028643216080403,
      "loss": 2.0956,
      "step": 160010
    },
    {
      "epoch": 0.8001,
      "grad_norm": 0.71484375,
      "learning_rate": 0.000602713567839196,
      "loss": 2.0604,
      "step": 160020
    },
    {
      "epoch": 0.80015,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0006025628140703518,
      "loss": 2.0486,
      "step": 160030
    },
    {
      "epoch": 0.8002,
      "grad_norm": 0.609375,
      "learning_rate": 0.0006024120603015076,
      "loss": 2.0737,
      "step": 160040
    },
    {
      "epoch": 0.80025,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0006022613065326634,
      "loss": 2.0523,
      "step": 160050
    },
    {
      "epoch": 0.8003,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0006021105527638191,
      "loss": 2.1048,
      "step": 160060
    },
    {
      "epoch": 0.80035,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0006019597989949749,
      "loss": 2.0522,
      "step": 160070
    },
    {
      "epoch": 0.8004,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006018090452261307,
      "loss": 2.0715,
      "step": 160080
    },
    {
      "epoch": 0.80045,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006016582914572865,
      "loss": 2.0787,
      "step": 160090
    },
    {
      "epoch": 0.8005,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0006015075376884422,
      "loss": 2.065,
      "step": 160100
    },
    {
      "epoch": 0.80055,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000601356783919598,
      "loss": 2.1656,
      "step": 160110
    },
    {
      "epoch": 0.8006,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0006012060301507538,
      "loss": 2.0569,
      "step": 160120
    },
    {
      "epoch": 0.80065,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0006010552763819096,
      "loss": 2.0723,
      "step": 160130
    },
    {
      "epoch": 0.8007,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006009045226130653,
      "loss": 2.0498,
      "step": 160140
    },
    {
      "epoch": 0.80075,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0006007537688442211,
      "loss": 2.0431,
      "step": 160150
    },
    {
      "epoch": 0.8008,
      "grad_norm": 0.65625,
      "learning_rate": 0.0006006030150753769,
      "loss": 2.0982,
      "step": 160160
    },
    {
      "epoch": 0.80085,
      "grad_norm": 0.578125,
      "learning_rate": 0.0006004522613065326,
      "loss": 2.0332,
      "step": 160170
    },
    {
      "epoch": 0.8009,
      "grad_norm": 0.625,
      "learning_rate": 0.0006003015075376884,
      "loss": 2.1162,
      "step": 160180
    },
    {
      "epoch": 0.80095,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0006001507537688442,
      "loss": 2.0621,
      "step": 160190
    },
    {
      "epoch": 0.801,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0006000000000000001,
      "loss": 2.0607,
      "step": 160200
    },
    {
      "epoch": 0.80105,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005998492462311558,
      "loss": 2.069,
      "step": 160210
    },
    {
      "epoch": 0.8011,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005996984924623116,
      "loss": 2.0851,
      "step": 160220
    },
    {
      "epoch": 0.80115,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005995477386934674,
      "loss": 2.072,
      "step": 160230
    },
    {
      "epoch": 0.8012,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005993969849246232,
      "loss": 2.0534,
      "step": 160240
    },
    {
      "epoch": 0.80125,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005992462311557789,
      "loss": 2.0968,
      "step": 160250
    },
    {
      "epoch": 0.8013,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005990954773869347,
      "loss": 2.1134,
      "step": 160260
    },
    {
      "epoch": 0.80135,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0005989447236180905,
      "loss": 2.0647,
      "step": 160270
    },
    {
      "epoch": 0.8014,
      "grad_norm": 0.703125,
      "learning_rate": 0.0005987939698492463,
      "loss": 2.1314,
      "step": 160280
    },
    {
      "epoch": 0.80145,
      "grad_norm": 0.5625,
      "learning_rate": 0.000598643216080402,
      "loss": 2.008,
      "step": 160290
    },
    {
      "epoch": 0.8015,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0005984924623115578,
      "loss": 2.102,
      "step": 160300
    },
    {
      "epoch": 0.80155,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005983417085427136,
      "loss": 2.0777,
      "step": 160310
    },
    {
      "epoch": 0.8016,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005981909547738694,
      "loss": 2.0735,
      "step": 160320
    },
    {
      "epoch": 0.80165,
      "grad_norm": 0.671875,
      "learning_rate": 0.0005980402010050251,
      "loss": 2.0678,
      "step": 160330
    },
    {
      "epoch": 0.8017,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005978894472361809,
      "loss": 2.0695,
      "step": 160340
    },
    {
      "epoch": 0.80175,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005977386934673366,
      "loss": 2.0896,
      "step": 160350
    },
    {
      "epoch": 0.8018,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005975879396984925,
      "loss": 2.0352,
      "step": 160360
    },
    {
      "epoch": 0.80185,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005974371859296482,
      "loss": 2.0803,
      "step": 160370
    },
    {
      "epoch": 0.8019,
      "grad_norm": 0.609375,
      "learning_rate": 0.000597286432160804,
      "loss": 2.1393,
      "step": 160380
    },
    {
      "epoch": 0.80195,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005971356783919597,
      "loss": 2.0105,
      "step": 160390
    },
    {
      "epoch": 0.802,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0005969849246231157,
      "loss": 2.0837,
      "step": 160400
    },
    {
      "epoch": 0.80205,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0005968341708542713,
      "loss": 2.0065,
      "step": 160410
    },
    {
      "epoch": 0.8021,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005966834170854272,
      "loss": 2.0982,
      "step": 160420
    },
    {
      "epoch": 0.80215,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005965326633165829,
      "loss": 2.0695,
      "step": 160430
    },
    {
      "epoch": 0.8022,
      "grad_norm": 0.671875,
      "learning_rate": 0.0005963819095477388,
      "loss": 2.0479,
      "step": 160440
    },
    {
      "epoch": 0.80225,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005962311557788945,
      "loss": 2.1378,
      "step": 160450
    },
    {
      "epoch": 0.8023,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005960804020100503,
      "loss": 2.1033,
      "step": 160460
    },
    {
      "epoch": 0.80235,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000595929648241206,
      "loss": 2.0247,
      "step": 160470
    },
    {
      "epoch": 0.8024,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0005957788944723619,
      "loss": 2.0384,
      "step": 160480
    },
    {
      "epoch": 0.80245,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005956281407035176,
      "loss": 2.0687,
      "step": 160490
    },
    {
      "epoch": 0.8025,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005954773869346734,
      "loss": 2.0832,
      "step": 160500
    },
    {
      "epoch": 0.80255,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005953266331658291,
      "loss": 1.9552,
      "step": 160510
    },
    {
      "epoch": 0.8026,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000595175879396985,
      "loss": 2.0528,
      "step": 160520
    },
    {
      "epoch": 0.80265,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005950251256281407,
      "loss": 2.0546,
      "step": 160530
    },
    {
      "epoch": 0.8027,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005948743718592965,
      "loss": 2.1231,
      "step": 160540
    },
    {
      "epoch": 0.80275,
      "grad_norm": 0.671875,
      "learning_rate": 0.0005947236180904522,
      "loss": 2.1258,
      "step": 160550
    },
    {
      "epoch": 0.8028,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005945728643216081,
      "loss": 2.0624,
      "step": 160560
    },
    {
      "epoch": 0.80285,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005944221105527638,
      "loss": 2.0889,
      "step": 160570
    },
    {
      "epoch": 0.8029,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0005942713567839196,
      "loss": 2.0736,
      "step": 160580
    },
    {
      "epoch": 0.80295,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005941206030150753,
      "loss": 2.0988,
      "step": 160590
    },
    {
      "epoch": 0.803,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005939698492462312,
      "loss": 2.0632,
      "step": 160600
    },
    {
      "epoch": 0.80305,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005938190954773869,
      "loss": 2.0099,
      "step": 160610
    },
    {
      "epoch": 0.8031,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005936683417085428,
      "loss": 2.0777,
      "step": 160620
    },
    {
      "epoch": 0.80315,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005935175879396984,
      "loss": 2.063,
      "step": 160630
    },
    {
      "epoch": 0.8032,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005933668341708544,
      "loss": 2.0681,
      "step": 160640
    },
    {
      "epoch": 0.80325,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005932160804020101,
      "loss": 2.0775,
      "step": 160650
    },
    {
      "epoch": 0.8033,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005930653266331659,
      "loss": 2.0891,
      "step": 160660
    },
    {
      "epoch": 0.80335,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005929145728643216,
      "loss": 2.0518,
      "step": 160670
    },
    {
      "epoch": 0.8034,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005927638190954774,
      "loss": 2.0717,
      "step": 160680
    },
    {
      "epoch": 0.80345,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005926130653266332,
      "loss": 2.1187,
      "step": 160690
    },
    {
      "epoch": 0.8035,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000592462311557789,
      "loss": 2.0329,
      "step": 160700
    },
    {
      "epoch": 0.80355,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005923115577889447,
      "loss": 2.0608,
      "step": 160710
    },
    {
      "epoch": 0.8036,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005921608040201005,
      "loss": 2.079,
      "step": 160720
    },
    {
      "epoch": 0.80365,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005920100502512563,
      "loss": 2.0973,
      "step": 160730
    },
    {
      "epoch": 0.8037,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005918592964824121,
      "loss": 2.0984,
      "step": 160740
    },
    {
      "epoch": 0.80375,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0005917085427135678,
      "loss": 2.0351,
      "step": 160750
    },
    {
      "epoch": 0.8038,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005915577889447236,
      "loss": 2.068,
      "step": 160760
    },
    {
      "epoch": 0.80385,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005914070351758794,
      "loss": 1.9973,
      "step": 160770
    },
    {
      "epoch": 0.8039,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0005912562814070352,
      "loss": 2.0975,
      "step": 160780
    },
    {
      "epoch": 0.80395,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005911055276381909,
      "loss": 2.0115,
      "step": 160790
    },
    {
      "epoch": 0.804,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005909547738693467,
      "loss": 2.0501,
      "step": 160800
    },
    {
      "epoch": 0.80405,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0005908040201005025,
      "loss": 2.1226,
      "step": 160810
    },
    {
      "epoch": 0.8041,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005906532663316583,
      "loss": 2.04,
      "step": 160820
    },
    {
      "epoch": 0.80415,
      "grad_norm": 0.68359375,
      "learning_rate": 0.000590502512562814,
      "loss": 2.1473,
      "step": 160830
    },
    {
      "epoch": 0.8042,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005903517587939698,
      "loss": 2.0719,
      "step": 160840
    },
    {
      "epoch": 0.80425,
      "grad_norm": 0.546875,
      "learning_rate": 0.0005902010050251257,
      "loss": 2.0703,
      "step": 160850
    },
    {
      "epoch": 0.8043,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005900502512562815,
      "loss": 2.0675,
      "step": 160860
    },
    {
      "epoch": 0.80435,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005898994974874372,
      "loss": 2.0562,
      "step": 160870
    },
    {
      "epoch": 0.8044,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000589748743718593,
      "loss": 2.0879,
      "step": 160880
    },
    {
      "epoch": 0.80445,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005895979899497488,
      "loss": 2.0765,
      "step": 160890
    },
    {
      "epoch": 0.8045,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005894472361809046,
      "loss": 2.1247,
      "step": 160900
    },
    {
      "epoch": 0.80455,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005892964824120603,
      "loss": 2.0709,
      "step": 160910
    },
    {
      "epoch": 0.8046,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005891457286432161,
      "loss": 2.1486,
      "step": 160920
    },
    {
      "epoch": 0.80465,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005889949748743719,
      "loss": 2.1405,
      "step": 160930
    },
    {
      "epoch": 0.8047,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005888442211055277,
      "loss": 2.0214,
      "step": 160940
    },
    {
      "epoch": 0.80475,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005886934673366834,
      "loss": 2.0667,
      "step": 160950
    },
    {
      "epoch": 0.8048,
      "grad_norm": 0.625,
      "learning_rate": 0.0005885427135678392,
      "loss": 2.0683,
      "step": 160960
    },
    {
      "epoch": 0.80485,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000588391959798995,
      "loss": 2.1189,
      "step": 160970
    },
    {
      "epoch": 0.8049,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005882412060301508,
      "loss": 2.054,
      "step": 160980
    },
    {
      "epoch": 0.80495,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005880904522613065,
      "loss": 2.0477,
      "step": 160990
    },
    {
      "epoch": 0.805,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005879396984924623,
      "loss": 2.076,
      "step": 161000
    },
    {
      "epoch": 0.80505,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0005877889447236181,
      "loss": 2.0567,
      "step": 161010
    },
    {
      "epoch": 0.8051,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0005876381909547739,
      "loss": 2.1029,
      "step": 161020
    },
    {
      "epoch": 0.80515,
      "grad_norm": 0.625,
      "learning_rate": 0.0005874874371859296,
      "loss": 2.1105,
      "step": 161030
    },
    {
      "epoch": 0.8052,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005873366834170854,
      "loss": 2.1194,
      "step": 161040
    },
    {
      "epoch": 0.80525,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005871859296482413,
      "loss": 2.0569,
      "step": 161050
    },
    {
      "epoch": 0.8053,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005870351758793971,
      "loss": 2.0889,
      "step": 161060
    },
    {
      "epoch": 0.80535,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005868844221105528,
      "loss": 2.1207,
      "step": 161070
    },
    {
      "epoch": 0.8054,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005867336683417086,
      "loss": 2.0263,
      "step": 161080
    },
    {
      "epoch": 0.80545,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005865829145728644,
      "loss": 2.0791,
      "step": 161090
    },
    {
      "epoch": 0.8055,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005864321608040201,
      "loss": 2.0218,
      "step": 161100
    },
    {
      "epoch": 0.80555,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005862814070351759,
      "loss": 2.0973,
      "step": 161110
    },
    {
      "epoch": 0.8056,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0005861306532663317,
      "loss": 2.0799,
      "step": 161120
    },
    {
      "epoch": 0.80565,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005859798994974875,
      "loss": 2.0081,
      "step": 161130
    },
    {
      "epoch": 0.8057,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005858291457286432,
      "loss": 2.0673,
      "step": 161140
    },
    {
      "epoch": 0.80575,
      "grad_norm": 0.66796875,
      "learning_rate": 0.000585678391959799,
      "loss": 2.0657,
      "step": 161150
    },
    {
      "epoch": 0.8058,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0005855276381909548,
      "loss": 2.0834,
      "step": 161160
    },
    {
      "epoch": 0.80585,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005853768844221106,
      "loss": 2.0285,
      "step": 161170
    },
    {
      "epoch": 0.8059,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005852261306532663,
      "loss": 2.0822,
      "step": 161180
    },
    {
      "epoch": 0.80595,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005850753768844221,
      "loss": 2.0912,
      "step": 161190
    },
    {
      "epoch": 0.806,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005849246231155779,
      "loss": 2.0463,
      "step": 161200
    },
    {
      "epoch": 0.80605,
      "grad_norm": 0.625,
      "learning_rate": 0.0005847738693467337,
      "loss": 2.073,
      "step": 161210
    },
    {
      "epoch": 0.8061,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005846231155778894,
      "loss": 2.0082,
      "step": 161220
    },
    {
      "epoch": 0.80615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005844723618090452,
      "loss": 2.0968,
      "step": 161230
    },
    {
      "epoch": 0.8062,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000584321608040201,
      "loss": 2.0914,
      "step": 161240
    },
    {
      "epoch": 0.80625,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005841708542713568,
      "loss": 2.119,
      "step": 161250
    },
    {
      "epoch": 0.8063,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005840201005025125,
      "loss": 2.1576,
      "step": 161260
    },
    {
      "epoch": 0.80635,
      "grad_norm": 0.75,
      "learning_rate": 0.0005838693467336684,
      "loss": 2.0485,
      "step": 161270
    },
    {
      "epoch": 0.8064,
      "grad_norm": 0.68359375,
      "learning_rate": 0.000583718592964824,
      "loss": 2.0959,
      "step": 161280
    },
    {
      "epoch": 0.80645,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00058356783919598,
      "loss": 2.0485,
      "step": 161290
    },
    {
      "epoch": 0.8065,
      "grad_norm": 0.671875,
      "learning_rate": 0.0005834170854271357,
      "loss": 2.1007,
      "step": 161300
    },
    {
      "epoch": 0.80655,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005832663316582915,
      "loss": 2.0885,
      "step": 161310
    },
    {
      "epoch": 0.8066,
      "grad_norm": 0.671875,
      "learning_rate": 0.0005831155778894472,
      "loss": 2.0975,
      "step": 161320
    },
    {
      "epoch": 0.80665,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005829648241206031,
      "loss": 2.0757,
      "step": 161330
    },
    {
      "epoch": 0.8067,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005828140703517588,
      "loss": 2.0319,
      "step": 161340
    },
    {
      "epoch": 0.80675,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005826633165829146,
      "loss": 2.0313,
      "step": 161350
    },
    {
      "epoch": 0.8068,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005825125628140703,
      "loss": 2.0661,
      "step": 161360
    },
    {
      "epoch": 0.80685,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005823618090452262,
      "loss": 2.0589,
      "step": 161370
    },
    {
      "epoch": 0.8069,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005822110552763819,
      "loss": 2.0397,
      "step": 161380
    },
    {
      "epoch": 0.80695,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005820603015075377,
      "loss": 2.0218,
      "step": 161390
    },
    {
      "epoch": 0.807,
      "grad_norm": 0.671875,
      "learning_rate": 0.0005819095477386934,
      "loss": 2.0727,
      "step": 161400
    },
    {
      "epoch": 0.80705,
      "grad_norm": 0.625,
      "learning_rate": 0.0005817587939698493,
      "loss": 2.0631,
      "step": 161410
    },
    {
      "epoch": 0.8071,
      "grad_norm": 0.671875,
      "learning_rate": 0.000581608040201005,
      "loss": 2.0813,
      "step": 161420
    },
    {
      "epoch": 0.80715,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0005814572864321608,
      "loss": 2.0773,
      "step": 161430
    },
    {
      "epoch": 0.8072,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005813065326633165,
      "loss": 2.1024,
      "step": 161440
    },
    {
      "epoch": 0.80725,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005811557788944724,
      "loss": 2.1011,
      "step": 161450
    },
    {
      "epoch": 0.8073,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005810050251256281,
      "loss": 2.1044,
      "step": 161460
    },
    {
      "epoch": 0.80735,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005808542713567839,
      "loss": 2.0937,
      "step": 161470
    },
    {
      "epoch": 0.8074,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005807035175879396,
      "loss": 2.0135,
      "step": 161480
    },
    {
      "epoch": 0.80745,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005805527638190956,
      "loss": 2.1281,
      "step": 161490
    },
    {
      "epoch": 0.8075,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005804020100502513,
      "loss": 2.047,
      "step": 161500
    },
    {
      "epoch": 0.80755,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005802512562814071,
      "loss": 2.0803,
      "step": 161510
    },
    {
      "epoch": 0.8076,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005801005025125628,
      "loss": 2.0834,
      "step": 161520
    },
    {
      "epoch": 0.80765,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0005799497487437187,
      "loss": 2.0525,
      "step": 161530
    },
    {
      "epoch": 0.8077,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005797989949748744,
      "loss": 2.0674,
      "step": 161540
    },
    {
      "epoch": 0.80775,
      "grad_norm": 0.625,
      "learning_rate": 0.0005796482412060302,
      "loss": 2.0803,
      "step": 161550
    },
    {
      "epoch": 0.8078,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0005794974874371859,
      "loss": 2.1501,
      "step": 161560
    },
    {
      "epoch": 0.80785,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005793467336683418,
      "loss": 2.0293,
      "step": 161570
    },
    {
      "epoch": 0.8079,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005791959798994975,
      "loss": 2.0895,
      "step": 161580
    },
    {
      "epoch": 0.80795,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005790452261306533,
      "loss": 2.0667,
      "step": 161590
    },
    {
      "epoch": 0.808,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000578894472361809,
      "loss": 2.05,
      "step": 161600
    },
    {
      "epoch": 0.80805,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005787437185929649,
      "loss": 2.1177,
      "step": 161610
    },
    {
      "epoch": 0.8081,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005785929648241206,
      "loss": 2.0406,
      "step": 161620
    },
    {
      "epoch": 0.80815,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005784422110552764,
      "loss": 2.0767,
      "step": 161630
    },
    {
      "epoch": 0.8082,
      "grad_norm": 0.7734375,
      "learning_rate": 0.0005782914572864321,
      "loss": 2.0295,
      "step": 161640
    },
    {
      "epoch": 0.80825,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000578140703517588,
      "loss": 2.1182,
      "step": 161650
    },
    {
      "epoch": 0.8083,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005779899497487437,
      "loss": 2.0125,
      "step": 161660
    },
    {
      "epoch": 0.80835,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005778391959798995,
      "loss": 2.0778,
      "step": 161670
    },
    {
      "epoch": 0.8084,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005776884422110552,
      "loss": 2.0997,
      "step": 161680
    },
    {
      "epoch": 0.80845,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005775376884422112,
      "loss": 2.0559,
      "step": 161690
    },
    {
      "epoch": 0.8085,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005773869346733669,
      "loss": 2.0998,
      "step": 161700
    },
    {
      "epoch": 0.80855,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005772361809045227,
      "loss": 2.0191,
      "step": 161710
    },
    {
      "epoch": 0.8086,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005770854271356784,
      "loss": 2.1105,
      "step": 161720
    },
    {
      "epoch": 0.80865,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005769346733668343,
      "loss": 2.1041,
      "step": 161730
    },
    {
      "epoch": 0.8087,
      "grad_norm": 0.640625,
      "learning_rate": 0.00057678391959799,
      "loss": 2.0169,
      "step": 161740
    },
    {
      "epoch": 0.80875,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005766331658291458,
      "loss": 2.1131,
      "step": 161750
    },
    {
      "epoch": 0.8088,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005764824120603015,
      "loss": 2.0288,
      "step": 161760
    },
    {
      "epoch": 0.80885,
      "grad_norm": 0.671875,
      "learning_rate": 0.0005763316582914574,
      "loss": 2.0718,
      "step": 161770
    },
    {
      "epoch": 0.8089,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0005761809045226131,
      "loss": 2.07,
      "step": 161780
    },
    {
      "epoch": 0.80895,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005760301507537689,
      "loss": 2.0604,
      "step": 161790
    },
    {
      "epoch": 0.809,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005758793969849246,
      "loss": 2.078,
      "step": 161800
    },
    {
      "epoch": 0.80905,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0005757286432160804,
      "loss": 2.0297,
      "step": 161810
    },
    {
      "epoch": 0.8091,
      "grad_norm": 0.625,
      "learning_rate": 0.0005755778894472362,
      "loss": 2.1144,
      "step": 161820
    },
    {
      "epoch": 0.80915,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000575427135678392,
      "loss": 2.039,
      "step": 161830
    },
    {
      "epoch": 0.8092,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0005752763819095477,
      "loss": 2.1083,
      "step": 161840
    },
    {
      "epoch": 0.80925,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0005751256281407035,
      "loss": 2.0307,
      "step": 161850
    },
    {
      "epoch": 0.8093,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005749748743718593,
      "loss": 2.1211,
      "step": 161860
    },
    {
      "epoch": 0.80935,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005748241206030151,
      "loss": 2.0684,
      "step": 161870
    },
    {
      "epoch": 0.8094,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005746733668341708,
      "loss": 2.1188,
      "step": 161880
    },
    {
      "epoch": 0.80945,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005745226130653266,
      "loss": 2.0734,
      "step": 161890
    },
    {
      "epoch": 0.8095,
      "grad_norm": 0.76953125,
      "learning_rate": 0.0005743718592964824,
      "loss": 2.0289,
      "step": 161900
    },
    {
      "epoch": 0.80955,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005742211055276383,
      "loss": 2.0431,
      "step": 161910
    },
    {
      "epoch": 0.8096,
      "grad_norm": 0.640625,
      "learning_rate": 0.000574070351758794,
      "loss": 2.0801,
      "step": 161920
    },
    {
      "epoch": 0.80965,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0005739195979899498,
      "loss": 2.1047,
      "step": 161930
    },
    {
      "epoch": 0.8097,
      "grad_norm": 0.5625,
      "learning_rate": 0.0005737688442211056,
      "loss": 2.0527,
      "step": 161940
    },
    {
      "epoch": 0.80975,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005736180904522614,
      "loss": 2.0688,
      "step": 161950
    },
    {
      "epoch": 0.8098,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005734673366834171,
      "loss": 2.073,
      "step": 161960
    },
    {
      "epoch": 0.80985,
      "grad_norm": 0.625,
      "learning_rate": 0.0005733165829145729,
      "loss": 2.0149,
      "step": 161970
    },
    {
      "epoch": 0.8099,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005731658291457287,
      "loss": 2.1016,
      "step": 161980
    },
    {
      "epoch": 0.80995,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005730150753768845,
      "loss": 2.0091,
      "step": 161990
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005728643216080402,
      "loss": 2.1198,
      "step": 162000
    },
    {
      "epoch": 0.81,
      "eval_loss": 2.077684164047241,
      "eval_runtime": 46.7188,
      "eval_samples_per_second": 53.512,
      "eval_steps_per_second": 0.107,
      "step": 162000
    },
    {
      "epoch": 0.81005,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000572713567839196,
      "loss": 2.0168,
      "step": 162010
    },
    {
      "epoch": 0.8101,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005725628140703518,
      "loss": 2.068,
      "step": 162020
    },
    {
      "epoch": 0.81015,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005724120603015075,
      "loss": 2.0167,
      "step": 162030
    },
    {
      "epoch": 0.8102,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005722613065326633,
      "loss": 2.0447,
      "step": 162040
    },
    {
      "epoch": 0.81025,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005721105527638191,
      "loss": 2.0789,
      "step": 162050
    },
    {
      "epoch": 0.8103,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005719597989949749,
      "loss": 2.0503,
      "step": 162060
    },
    {
      "epoch": 0.81035,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005718090452261306,
      "loss": 2.0719,
      "step": 162070
    },
    {
      "epoch": 0.8104,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005716582914572864,
      "loss": 2.0552,
      "step": 162080
    },
    {
      "epoch": 0.81045,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005715075376884422,
      "loss": 2.0583,
      "step": 162090
    },
    {
      "epoch": 0.8105,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000571356783919598,
      "loss": 2.0806,
      "step": 162100
    },
    {
      "epoch": 0.81055,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005712060301507537,
      "loss": 2.1102,
      "step": 162110
    },
    {
      "epoch": 0.8106,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005710552763819095,
      "loss": 2.0667,
      "step": 162120
    },
    {
      "epoch": 0.81065,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005709045226130654,
      "loss": 1.9967,
      "step": 162130
    },
    {
      "epoch": 0.8107,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005707537688442212,
      "loss": 2.1352,
      "step": 162140
    },
    {
      "epoch": 0.81075,
      "grad_norm": 0.625,
      "learning_rate": 0.0005706030150753769,
      "loss": 2.0434,
      "step": 162150
    },
    {
      "epoch": 0.8108,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005704522613065327,
      "loss": 2.1477,
      "step": 162160
    },
    {
      "epoch": 0.81085,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005703015075376885,
      "loss": 2.0193,
      "step": 162170
    },
    {
      "epoch": 0.8109,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005701507537688443,
      "loss": 2.0679,
      "step": 162180
    },
    {
      "epoch": 0.81095,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00057,
      "loss": 2.075,
      "step": 162190
    },
    {
      "epoch": 0.811,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005698492462311558,
      "loss": 2.0795,
      "step": 162200
    },
    {
      "epoch": 0.81105,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005696984924623115,
      "loss": 2.0882,
      "step": 162210
    },
    {
      "epoch": 0.8111,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0005695477386934674,
      "loss": 2.0499,
      "step": 162220
    },
    {
      "epoch": 0.81115,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005693969849246231,
      "loss": 2.1015,
      "step": 162230
    },
    {
      "epoch": 0.8112,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005692462311557789,
      "loss": 2.0628,
      "step": 162240
    },
    {
      "epoch": 0.81125,
      "grad_norm": 0.671875,
      "learning_rate": 0.0005690954773869346,
      "loss": 2.1133,
      "step": 162250
    },
    {
      "epoch": 0.8113,
      "grad_norm": 0.625,
      "learning_rate": 0.0005689447236180905,
      "loss": 2.1039,
      "step": 162260
    },
    {
      "epoch": 0.81135,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005687939698492462,
      "loss": 2.0492,
      "step": 162270
    },
    {
      "epoch": 0.8114,
      "grad_norm": 0.609375,
      "learning_rate": 0.000568643216080402,
      "loss": 2.1346,
      "step": 162280
    },
    {
      "epoch": 0.81145,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005684924623115577,
      "loss": 2.0251,
      "step": 162290
    },
    {
      "epoch": 0.8115,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005683417085427136,
      "loss": 2.1071,
      "step": 162300
    },
    {
      "epoch": 0.81155,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005681909547738693,
      "loss": 2.0485,
      "step": 162310
    },
    {
      "epoch": 0.8116,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0005680402010050251,
      "loss": 2.0842,
      "step": 162320
    },
    {
      "epoch": 0.81165,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005678894472361808,
      "loss": 2.0934,
      "step": 162330
    },
    {
      "epoch": 0.8117,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005677386934673368,
      "loss": 2.0562,
      "step": 162340
    },
    {
      "epoch": 0.81175,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005675879396984925,
      "loss": 2.0702,
      "step": 162350
    },
    {
      "epoch": 0.8118,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0005674371859296483,
      "loss": 2.0201,
      "step": 162360
    },
    {
      "epoch": 0.81185,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000567286432160804,
      "loss": 2.108,
      "step": 162370
    },
    {
      "epoch": 0.8119,
      "grad_norm": 0.625,
      "learning_rate": 0.0005671356783919599,
      "loss": 2.0645,
      "step": 162380
    },
    {
      "epoch": 0.81195,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005669849246231156,
      "loss": 2.1278,
      "step": 162390
    },
    {
      "epoch": 0.812,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005668341708542714,
      "loss": 2.0852,
      "step": 162400
    },
    {
      "epoch": 0.81205,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0005666834170854271,
      "loss": 2.0761,
      "step": 162410
    },
    {
      "epoch": 0.8121,
      "grad_norm": 0.578125,
      "learning_rate": 0.000566532663316583,
      "loss": 2.0193,
      "step": 162420
    },
    {
      "epoch": 0.81215,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0005663819095477387,
      "loss": 2.0784,
      "step": 162430
    },
    {
      "epoch": 0.8122,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0005662311557788945,
      "loss": 2.0728,
      "step": 162440
    },
    {
      "epoch": 0.81225,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005660804020100502,
      "loss": 2.0337,
      "step": 162450
    },
    {
      "epoch": 0.8123,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005659296482412061,
      "loss": 2.0756,
      "step": 162460
    },
    {
      "epoch": 0.81235,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005657788944723618,
      "loss": 2.0487,
      "step": 162470
    },
    {
      "epoch": 0.8124,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005656281407035176,
      "loss": 2.0919,
      "step": 162480
    },
    {
      "epoch": 0.81245,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005654773869346733,
      "loss": 2.0542,
      "step": 162490
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005653266331658292,
      "loss": 2.1048,
      "step": 162500
    },
    {
      "epoch": 0.81255,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005651758793969849,
      "loss": 2.0863,
      "step": 162510
    },
    {
      "epoch": 0.8126,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005650251256281407,
      "loss": 2.0854,
      "step": 162520
    },
    {
      "epoch": 0.81265,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005648743718592964,
      "loss": 2.0666,
      "step": 162530
    },
    {
      "epoch": 0.8127,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005647236180904523,
      "loss": 2.0166,
      "step": 162540
    },
    {
      "epoch": 0.81275,
      "grad_norm": 0.6640625,
      "learning_rate": 0.000564572864321608,
      "loss": 2.1242,
      "step": 162550
    },
    {
      "epoch": 0.8128,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0005644221105527639,
      "loss": 2.0361,
      "step": 162560
    },
    {
      "epoch": 0.81285,
      "grad_norm": 0.625,
      "learning_rate": 0.0005642713567839196,
      "loss": 2.1113,
      "step": 162570
    },
    {
      "epoch": 0.8129,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005641206030150755,
      "loss": 2.0358,
      "step": 162580
    },
    {
      "epoch": 0.81295,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005639698492462312,
      "loss": 2.1445,
      "step": 162590
    },
    {
      "epoch": 0.813,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000563819095477387,
      "loss": 2.0406,
      "step": 162600
    },
    {
      "epoch": 0.81305,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005636683417085427,
      "loss": 2.0444,
      "step": 162610
    },
    {
      "epoch": 0.8131,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005635175879396986,
      "loss": 2.1135,
      "step": 162620
    },
    {
      "epoch": 0.81315,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005633668341708543,
      "loss": 2.0408,
      "step": 162630
    },
    {
      "epoch": 0.8132,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005632160804020101,
      "loss": 2.0912,
      "step": 162640
    },
    {
      "epoch": 0.81325,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005630653266331658,
      "loss": 2.0091,
      "step": 162650
    },
    {
      "epoch": 0.8133,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005629145728643217,
      "loss": 2.1202,
      "step": 162660
    },
    {
      "epoch": 0.81335,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005627638190954774,
      "loss": 2.0237,
      "step": 162670
    },
    {
      "epoch": 0.8134,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005626130653266332,
      "loss": 2.0505,
      "step": 162680
    },
    {
      "epoch": 0.81345,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005624623115577889,
      "loss": 2.1077,
      "step": 162690
    },
    {
      "epoch": 0.8135,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005623115577889448,
      "loss": 2.0546,
      "step": 162700
    },
    {
      "epoch": 0.81355,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005621608040201005,
      "loss": 2.0761,
      "step": 162710
    },
    {
      "epoch": 0.8136,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005620100502512563,
      "loss": 2.0796,
      "step": 162720
    },
    {
      "epoch": 0.81365,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000561859296482412,
      "loss": 2.0769,
      "step": 162730
    },
    {
      "epoch": 0.8137,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005617085427135678,
      "loss": 2.0261,
      "step": 162740
    },
    {
      "epoch": 0.81375,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005615577889447236,
      "loss": 2.0807,
      "step": 162750
    },
    {
      "epoch": 0.8138,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0005614070351758794,
      "loss": 2.0339,
      "step": 162760
    },
    {
      "epoch": 0.81385,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005612562814070351,
      "loss": 2.1254,
      "step": 162770
    },
    {
      "epoch": 0.8139,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000561105527638191,
      "loss": 2.077,
      "step": 162780
    },
    {
      "epoch": 0.81395,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0005609547738693468,
      "loss": 2.0665,
      "step": 162790
    },
    {
      "epoch": 0.814,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005608040201005026,
      "loss": 2.0676,
      "step": 162800
    },
    {
      "epoch": 0.81405,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005606532663316583,
      "loss": 2.0744,
      "step": 162810
    },
    {
      "epoch": 0.8141,
      "grad_norm": 0.703125,
      "learning_rate": 0.0005605025125628141,
      "loss": 2.0964,
      "step": 162820
    },
    {
      "epoch": 0.81415,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0005603517587939699,
      "loss": 2.0286,
      "step": 162830
    },
    {
      "epoch": 0.8142,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005602010050251257,
      "loss": 2.1343,
      "step": 162840
    },
    {
      "epoch": 0.81425,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005600502512562814,
      "loss": 2.0673,
      "step": 162850
    },
    {
      "epoch": 0.8143,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005598994974874372,
      "loss": 2.122,
      "step": 162860
    },
    {
      "epoch": 0.81435,
      "grad_norm": 0.53515625,
      "learning_rate": 0.000559748743718593,
      "loss": 2.0565,
      "step": 162870
    },
    {
      "epoch": 0.8144,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005595979899497488,
      "loss": 2.0824,
      "step": 162880
    },
    {
      "epoch": 0.81445,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005594472361809045,
      "loss": 2.0592,
      "step": 162890
    },
    {
      "epoch": 0.8145,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005592964824120603,
      "loss": 2.0487,
      "step": 162900
    },
    {
      "epoch": 0.81455,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005591457286432161,
      "loss": 2.0913,
      "step": 162910
    },
    {
      "epoch": 0.8146,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005589949748743718,
      "loss": 2.0749,
      "step": 162920
    },
    {
      "epoch": 0.81465,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0005588442211055276,
      "loss": 2.1036,
      "step": 162930
    },
    {
      "epoch": 0.8147,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005586934673366834,
      "loss": 2.0864,
      "step": 162940
    },
    {
      "epoch": 0.81475,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005585427135678392,
      "loss": 2.1047,
      "step": 162950
    },
    {
      "epoch": 0.8148,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005583919597989949,
      "loss": 2.0693,
      "step": 162960
    },
    {
      "epoch": 0.81485,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005582412060301507,
      "loss": 2.0946,
      "step": 162970
    },
    {
      "epoch": 0.8149,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005580904522613065,
      "loss": 2.0677,
      "step": 162980
    },
    {
      "epoch": 0.81495,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005579396984924624,
      "loss": 2.0556,
      "step": 162990
    },
    {
      "epoch": 0.815,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000557788944723618,
      "loss": 2.0993,
      "step": 163000
    },
    {
      "epoch": 0.81505,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005576381909547739,
      "loss": 2.0319,
      "step": 163010
    },
    {
      "epoch": 0.8151,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0005574874371859297,
      "loss": 2.1306,
      "step": 163020
    },
    {
      "epoch": 0.81515,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005573366834170855,
      "loss": 2.0737,
      "step": 163030
    },
    {
      "epoch": 0.8152,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005571859296482412,
      "loss": 2.1202,
      "step": 163040
    },
    {
      "epoch": 0.81525,
      "grad_norm": 0.625,
      "learning_rate": 0.000557035175879397,
      "loss": 2.0963,
      "step": 163050
    },
    {
      "epoch": 0.8153,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005568844221105528,
      "loss": 2.106,
      "step": 163060
    },
    {
      "epoch": 0.81535,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005567336683417086,
      "loss": 2.0785,
      "step": 163070
    },
    {
      "epoch": 0.8154,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005565829145728643,
      "loss": 2.0722,
      "step": 163080
    },
    {
      "epoch": 0.81545,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005564321608040201,
      "loss": 2.1652,
      "step": 163090
    },
    {
      "epoch": 0.8155,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005562814070351759,
      "loss": 2.0911,
      "step": 163100
    },
    {
      "epoch": 0.81555,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005561306532663317,
      "loss": 2.1164,
      "step": 163110
    },
    {
      "epoch": 0.8156,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005559798994974874,
      "loss": 2.0469,
      "step": 163120
    },
    {
      "epoch": 0.81565,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005558291457286432,
      "loss": 2.1018,
      "step": 163130
    },
    {
      "epoch": 0.8157,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005556783919597989,
      "loss": 2.0552,
      "step": 163140
    },
    {
      "epoch": 0.81575,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005555276381909548,
      "loss": 2.0713,
      "step": 163150
    },
    {
      "epoch": 0.8158,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005553768844221105,
      "loss": 2.0745,
      "step": 163160
    },
    {
      "epoch": 0.81585,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005552261306532663,
      "loss": 2.1045,
      "step": 163170
    },
    {
      "epoch": 0.8159,
      "grad_norm": 0.609375,
      "learning_rate": 0.000555075376884422,
      "loss": 2.0875,
      "step": 163180
    },
    {
      "epoch": 0.81595,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000554924623115578,
      "loss": 2.1219,
      "step": 163190
    },
    {
      "epoch": 0.816,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005547738693467336,
      "loss": 2.0334,
      "step": 163200
    },
    {
      "epoch": 0.81605,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0005546231155778895,
      "loss": 2.0508,
      "step": 163210
    },
    {
      "epoch": 0.8161,
      "grad_norm": 0.53125,
      "learning_rate": 0.0005544723618090452,
      "loss": 2.0308,
      "step": 163220
    },
    {
      "epoch": 0.81615,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005543216080402011,
      "loss": 2.0471,
      "step": 163230
    },
    {
      "epoch": 0.8162,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0005541708542713568,
      "loss": 2.0838,
      "step": 163240
    },
    {
      "epoch": 0.81625,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005540201005025126,
      "loss": 2.0466,
      "step": 163250
    },
    {
      "epoch": 0.8163,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005538693467336683,
      "loss": 2.1471,
      "step": 163260
    },
    {
      "epoch": 0.81635,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005537185929648242,
      "loss": 2.0227,
      "step": 163270
    },
    {
      "epoch": 0.8164,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005535678391959799,
      "loss": 2.0958,
      "step": 163280
    },
    {
      "epoch": 0.81645,
      "grad_norm": 0.625,
      "learning_rate": 0.0005534170854271357,
      "loss": 2.08,
      "step": 163290
    },
    {
      "epoch": 0.8165,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005532663316582914,
      "loss": 2.1136,
      "step": 163300
    },
    {
      "epoch": 0.81655,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005531155778894473,
      "loss": 2.0808,
      "step": 163310
    },
    {
      "epoch": 0.8166,
      "grad_norm": 0.74609375,
      "learning_rate": 0.000552964824120603,
      "loss": 2.051,
      "step": 163320
    },
    {
      "epoch": 0.81665,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005528140703517588,
      "loss": 2.1215,
      "step": 163330
    },
    {
      "epoch": 0.8167,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005526633165829145,
      "loss": 2.027,
      "step": 163340
    },
    {
      "epoch": 0.81675,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005525125628140704,
      "loss": 2.0502,
      "step": 163350
    },
    {
      "epoch": 0.8168,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005523618090452261,
      "loss": 2.0352,
      "step": 163360
    },
    {
      "epoch": 0.81685,
      "grad_norm": 0.5625,
      "learning_rate": 0.0005522110552763819,
      "loss": 2.0917,
      "step": 163370
    },
    {
      "epoch": 0.8169,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005520603015075376,
      "loss": 2.039,
      "step": 163380
    },
    {
      "epoch": 0.81695,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005519095477386935,
      "loss": 2.0858,
      "step": 163390
    },
    {
      "epoch": 0.817,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005517587939698492,
      "loss": 2.0346,
      "step": 163400
    },
    {
      "epoch": 0.81705,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000551608040201005,
      "loss": 2.1152,
      "step": 163410
    },
    {
      "epoch": 0.8171,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005514572864321607,
      "loss": 2.0762,
      "step": 163420
    },
    {
      "epoch": 0.81715,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005513065326633167,
      "loss": 2.0931,
      "step": 163430
    },
    {
      "epoch": 0.8172,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005511557788944724,
      "loss": 2.048,
      "step": 163440
    },
    {
      "epoch": 0.81725,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0005510050251256282,
      "loss": 2.0896,
      "step": 163450
    },
    {
      "epoch": 0.8173,
      "grad_norm": 0.625,
      "learning_rate": 0.0005508542713567839,
      "loss": 2.0985,
      "step": 163460
    },
    {
      "epoch": 0.81735,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005507035175879398,
      "loss": 2.0758,
      "step": 163470
    },
    {
      "epoch": 0.8174,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005505527638190955,
      "loss": 2.1184,
      "step": 163480
    },
    {
      "epoch": 0.81745,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005504020100502513,
      "loss": 2.038,
      "step": 163490
    },
    {
      "epoch": 0.8175,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000550251256281407,
      "loss": 2.1206,
      "step": 163500
    },
    {
      "epoch": 0.81755,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005501005025125629,
      "loss": 2.0717,
      "step": 163510
    },
    {
      "epoch": 0.8176,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005499497487437186,
      "loss": 2.096,
      "step": 163520
    },
    {
      "epoch": 0.81765,
      "grad_norm": 0.71875,
      "learning_rate": 0.0005497989949748744,
      "loss": 2.0358,
      "step": 163530
    },
    {
      "epoch": 0.8177,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005496482412060301,
      "loss": 2.0933,
      "step": 163540
    },
    {
      "epoch": 0.81775,
      "grad_norm": 0.65234375,
      "learning_rate": 0.000549497487437186,
      "loss": 2.1167,
      "step": 163550
    },
    {
      "epoch": 0.8178,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005493467336683417,
      "loss": 2.0701,
      "step": 163560
    },
    {
      "epoch": 0.81785,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005491959798994975,
      "loss": 2.0476,
      "step": 163570
    },
    {
      "epoch": 0.8179,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005490452261306532,
      "loss": 2.0832,
      "step": 163580
    },
    {
      "epoch": 0.81795,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005488944723618091,
      "loss": 2.1034,
      "step": 163590
    },
    {
      "epoch": 0.818,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005487437185929648,
      "loss": 2.0401,
      "step": 163600
    },
    {
      "epoch": 0.81805,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0005485929648241206,
      "loss": 2.0957,
      "step": 163610
    },
    {
      "epoch": 0.8181,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005484422110552763,
      "loss": 2.0562,
      "step": 163620
    },
    {
      "epoch": 0.81815,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0005482914572864323,
      "loss": 2.0895,
      "step": 163630
    },
    {
      "epoch": 0.8182,
      "grad_norm": 0.66796875,
      "learning_rate": 0.000548140703517588,
      "loss": 2.0333,
      "step": 163640
    },
    {
      "epoch": 0.81825,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005479899497487438,
      "loss": 2.1601,
      "step": 163650
    },
    {
      "epoch": 0.8183,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0005478391959798995,
      "loss": 2.0403,
      "step": 163660
    },
    {
      "epoch": 0.81835,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005476884422110553,
      "loss": 2.0927,
      "step": 163670
    },
    {
      "epoch": 0.8184,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005475376884422111,
      "loss": 2.0711,
      "step": 163680
    },
    {
      "epoch": 0.81845,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005473869346733669,
      "loss": 2.0676,
      "step": 163690
    },
    {
      "epoch": 0.8185,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0005472361809045226,
      "loss": 2.0587,
      "step": 163700
    },
    {
      "epoch": 0.81855,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005470854271356784,
      "loss": 2.0135,
      "step": 163710
    },
    {
      "epoch": 0.8186,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0005469346733668342,
      "loss": 2.1148,
      "step": 163720
    },
    {
      "epoch": 0.81865,
      "grad_norm": 0.703125,
      "learning_rate": 0.00054678391959799,
      "loss": 2.0768,
      "step": 163730
    },
    {
      "epoch": 0.8187,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005466331658291457,
      "loss": 2.0917,
      "step": 163740
    },
    {
      "epoch": 0.81875,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005464824120603015,
      "loss": 2.0101,
      "step": 163750
    },
    {
      "epoch": 0.8188,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005463316582914573,
      "loss": 2.0721,
      "step": 163760
    },
    {
      "epoch": 0.81885,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005461809045226131,
      "loss": 2.0405,
      "step": 163770
    },
    {
      "epoch": 0.8189,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0005460301507537688,
      "loss": 2.1186,
      "step": 163780
    },
    {
      "epoch": 0.81895,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005458793969849246,
      "loss": 2.0713,
      "step": 163790
    },
    {
      "epoch": 0.819,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0005457286432160804,
      "loss": 2.0814,
      "step": 163800
    },
    {
      "epoch": 0.81905,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005455778894472362,
      "loss": 2.0235,
      "step": 163810
    },
    {
      "epoch": 0.8191,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005454271356783919,
      "loss": 2.0554,
      "step": 163820
    },
    {
      "epoch": 0.81915,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005452763819095477,
      "loss": 2.0589,
      "step": 163830
    },
    {
      "epoch": 0.8192,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005451256281407036,
      "loss": 2.0978,
      "step": 163840
    },
    {
      "epoch": 0.81925,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005449748743718592,
      "loss": 2.0675,
      "step": 163850
    },
    {
      "epoch": 0.8193,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005448241206030151,
      "loss": 2.0481,
      "step": 163860
    },
    {
      "epoch": 0.81935,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005446733668341709,
      "loss": 2.1259,
      "step": 163870
    },
    {
      "epoch": 0.8194,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005445226130653267,
      "loss": 2.06,
      "step": 163880
    },
    {
      "epoch": 0.81945,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005443718592964824,
      "loss": 2.1017,
      "step": 163890
    },
    {
      "epoch": 0.8195,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005442211055276382,
      "loss": 2.0319,
      "step": 163900
    },
    {
      "epoch": 0.81955,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000544070351758794,
      "loss": 2.1019,
      "step": 163910
    },
    {
      "epoch": 0.8196,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005439195979899498,
      "loss": 2.0586,
      "step": 163920
    },
    {
      "epoch": 0.81965,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005437688442211055,
      "loss": 2.0883,
      "step": 163930
    },
    {
      "epoch": 0.8197,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005436180904522613,
      "loss": 2.0611,
      "step": 163940
    },
    {
      "epoch": 0.81975,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005434673366834171,
      "loss": 2.0844,
      "step": 163950
    },
    {
      "epoch": 0.8198,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005433165829145729,
      "loss": 2.0445,
      "step": 163960
    },
    {
      "epoch": 0.81985,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005431658291457286,
      "loss": 2.1136,
      "step": 163970
    },
    {
      "epoch": 0.8199,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0005430150753768844,
      "loss": 2.0728,
      "step": 163980
    },
    {
      "epoch": 0.81995,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0005428643216080402,
      "loss": 2.0681,
      "step": 163990
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.68359375,
      "learning_rate": 0.000542713567839196,
      "loss": 2.081,
      "step": 164000
    },
    {
      "epoch": 0.82,
      "eval_loss": 2.0797083377838135,
      "eval_runtime": 49.8433,
      "eval_samples_per_second": 50.157,
      "eval_steps_per_second": 0.1,
      "step": 164000
    },
    {
      "epoch": 0.82005,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005425628140703517,
      "loss": 2.066,
      "step": 164010
    },
    {
      "epoch": 0.8201,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005424120603015075,
      "loss": 2.1127,
      "step": 164020
    },
    {
      "epoch": 0.82015,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005422613065326633,
      "loss": 2.0184,
      "step": 164030
    },
    {
      "epoch": 0.8202,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005421105527638191,
      "loss": 2.048,
      "step": 164040
    },
    {
      "epoch": 0.82025,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005419597989949748,
      "loss": 2.0465,
      "step": 164050
    },
    {
      "epoch": 0.8203,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005418090452261307,
      "loss": 2.1083,
      "step": 164060
    },
    {
      "epoch": 0.82035,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005416582914572865,
      "loss": 2.041,
      "step": 164070
    },
    {
      "epoch": 0.8204,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0005415075376884423,
      "loss": 2.0817,
      "step": 164080
    },
    {
      "epoch": 0.82045,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000541356783919598,
      "loss": 2.0509,
      "step": 164090
    },
    {
      "epoch": 0.8205,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005412060301507538,
      "loss": 2.0417,
      "step": 164100
    },
    {
      "epoch": 0.82055,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005410552763819096,
      "loss": 2.0471,
      "step": 164110
    },
    {
      "epoch": 0.8206,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005409045226130654,
      "loss": 2.0734,
      "step": 164120
    },
    {
      "epoch": 0.82065,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005407537688442211,
      "loss": 2.0344,
      "step": 164130
    },
    {
      "epoch": 0.8207,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005406030150753769,
      "loss": 2.0571,
      "step": 164140
    },
    {
      "epoch": 0.82075,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0005404522613065326,
      "loss": 2.0724,
      "step": 164150
    },
    {
      "epoch": 0.8208,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005403015075376885,
      "loss": 2.0521,
      "step": 164160
    },
    {
      "epoch": 0.82085,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005401507537688442,
      "loss": 2.0771,
      "step": 164170
    },
    {
      "epoch": 0.8209,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00054,
      "loss": 2.1092,
      "step": 164180
    },
    {
      "epoch": 0.82095,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005398492462311557,
      "loss": 2.1706,
      "step": 164190
    },
    {
      "epoch": 0.821,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005396984924623116,
      "loss": 1.9881,
      "step": 164200
    },
    {
      "epoch": 0.82105,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005395477386934673,
      "loss": 2.1085,
      "step": 164210
    },
    {
      "epoch": 0.8211,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005393969849246231,
      "loss": 2.0659,
      "step": 164220
    },
    {
      "epoch": 0.82115,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005392462311557788,
      "loss": 2.1101,
      "step": 164230
    },
    {
      "epoch": 0.8212,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005390954773869347,
      "loss": 2.072,
      "step": 164240
    },
    {
      "epoch": 0.82125,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005389447236180904,
      "loss": 2.0617,
      "step": 164250
    },
    {
      "epoch": 0.8213,
      "grad_norm": 0.5625,
      "learning_rate": 0.0005387939698492462,
      "loss": 2.0693,
      "step": 164260
    },
    {
      "epoch": 0.82135,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005386432160804019,
      "loss": 2.12,
      "step": 164270
    },
    {
      "epoch": 0.8214,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005384924623115579,
      "loss": 2.0921,
      "step": 164280
    },
    {
      "epoch": 0.82145,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005383417085427136,
      "loss": 2.0316,
      "step": 164290
    },
    {
      "epoch": 0.8215,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0005381909547738694,
      "loss": 2.0906,
      "step": 164300
    },
    {
      "epoch": 0.82155,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005380402010050251,
      "loss": 2.0596,
      "step": 164310
    },
    {
      "epoch": 0.8216,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000537889447236181,
      "loss": 2.0776,
      "step": 164320
    },
    {
      "epoch": 0.82165,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005377386934673367,
      "loss": 2.0603,
      "step": 164330
    },
    {
      "epoch": 0.8217,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005375879396984925,
      "loss": 2.0844,
      "step": 164340
    },
    {
      "epoch": 0.82175,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0005374371859296482,
      "loss": 2.0719,
      "step": 164350
    },
    {
      "epoch": 0.8218,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005372864321608041,
      "loss": 2.0851,
      "step": 164360
    },
    {
      "epoch": 0.82185,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005371356783919598,
      "loss": 2.0533,
      "step": 164370
    },
    {
      "epoch": 0.8219,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005369849246231156,
      "loss": 2.1033,
      "step": 164380
    },
    {
      "epoch": 0.82195,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0005368341708542713,
      "loss": 2.0562,
      "step": 164390
    },
    {
      "epoch": 0.822,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005366834170854272,
      "loss": 2.0489,
      "step": 164400
    },
    {
      "epoch": 0.82205,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0005365326633165829,
      "loss": 2.0436,
      "step": 164410
    },
    {
      "epoch": 0.8221,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005363819095477387,
      "loss": 2.0875,
      "step": 164420
    },
    {
      "epoch": 0.82215,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005362311557788944,
      "loss": 2.0408,
      "step": 164430
    },
    {
      "epoch": 0.8222,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0005360804020100503,
      "loss": 2.0975,
      "step": 164440
    },
    {
      "epoch": 0.82225,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000535929648241206,
      "loss": 2.0671,
      "step": 164450
    },
    {
      "epoch": 0.8223,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005357788944723618,
      "loss": 2.1027,
      "step": 164460
    },
    {
      "epoch": 0.82235,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005356281407035175,
      "loss": 2.0652,
      "step": 164470
    },
    {
      "epoch": 0.8224,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005354773869346735,
      "loss": 2.1058,
      "step": 164480
    },
    {
      "epoch": 0.82245,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005353266331658292,
      "loss": 2.0996,
      "step": 164490
    },
    {
      "epoch": 0.8225,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000535175879396985,
      "loss": 2.0089,
      "step": 164500
    },
    {
      "epoch": 0.82255,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005350251256281407,
      "loss": 2.086,
      "step": 164510
    },
    {
      "epoch": 0.8226,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005348743718592966,
      "loss": 2.021,
      "step": 164520
    },
    {
      "epoch": 0.82265,
      "grad_norm": 0.546875,
      "learning_rate": 0.0005347236180904523,
      "loss": 2.1233,
      "step": 164530
    },
    {
      "epoch": 0.8227,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0005345728643216081,
      "loss": 2.0609,
      "step": 164540
    },
    {
      "epoch": 0.82275,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0005344221105527638,
      "loss": 2.0514,
      "step": 164550
    },
    {
      "epoch": 0.8228,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0005342713567839197,
      "loss": 1.9852,
      "step": 164560
    },
    {
      "epoch": 0.82285,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005341206030150754,
      "loss": 2.089,
      "step": 164570
    },
    {
      "epoch": 0.8229,
      "grad_norm": 0.53125,
      "learning_rate": 0.0005339698492462312,
      "loss": 2.0886,
      "step": 164580
    },
    {
      "epoch": 0.82295,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005338190954773869,
      "loss": 2.048,
      "step": 164590
    },
    {
      "epoch": 0.823,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005336683417085427,
      "loss": 2.0574,
      "step": 164600
    },
    {
      "epoch": 0.82305,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005335175879396985,
      "loss": 2.1086,
      "step": 164610
    },
    {
      "epoch": 0.8231,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005333668341708543,
      "loss": 2.0938,
      "step": 164620
    },
    {
      "epoch": 0.82315,
      "grad_norm": 0.640625,
      "learning_rate": 0.00053321608040201,
      "loss": 2.0422,
      "step": 164630
    },
    {
      "epoch": 0.8232,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0005330653266331658,
      "loss": 2.1275,
      "step": 164640
    },
    {
      "epoch": 0.82325,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005329145728643216,
      "loss": 2.0267,
      "step": 164650
    },
    {
      "epoch": 0.8233,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005327638190954774,
      "loss": 2.0894,
      "step": 164660
    },
    {
      "epoch": 0.82335,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0005326130653266331,
      "loss": 2.0544,
      "step": 164670
    },
    {
      "epoch": 0.8234,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005324623115577889,
      "loss": 2.1062,
      "step": 164680
    },
    {
      "epoch": 0.82345,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005323115577889447,
      "loss": 2.0524,
      "step": 164690
    },
    {
      "epoch": 0.8235,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005321608040201006,
      "loss": 2.1268,
      "step": 164700
    },
    {
      "epoch": 0.82355,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0005320100502512563,
      "loss": 2.0513,
      "step": 164710
    },
    {
      "epoch": 0.8236,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005318592964824121,
      "loss": 2.0758,
      "step": 164720
    },
    {
      "epoch": 0.82365,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005317085427135679,
      "loss": 1.9961,
      "step": 164730
    },
    {
      "epoch": 0.8237,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005315577889447237,
      "loss": 2.0955,
      "step": 164740
    },
    {
      "epoch": 0.82375,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005314070351758794,
      "loss": 2.0289,
      "step": 164750
    },
    {
      "epoch": 0.8238,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005312562814070352,
      "loss": 2.0876,
      "step": 164760
    },
    {
      "epoch": 0.82385,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000531105527638191,
      "loss": 2.0153,
      "step": 164770
    },
    {
      "epoch": 0.8239,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005309547738693467,
      "loss": 2.0906,
      "step": 164780
    },
    {
      "epoch": 0.82395,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005308040201005025,
      "loss": 2.0485,
      "step": 164790
    },
    {
      "epoch": 0.824,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0005306532663316583,
      "loss": 2.0974,
      "step": 164800
    },
    {
      "epoch": 0.82405,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005305025125628141,
      "loss": 2.044,
      "step": 164810
    },
    {
      "epoch": 0.8241,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005303517587939698,
      "loss": 2.0805,
      "step": 164820
    },
    {
      "epoch": 0.82415,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005302010050251256,
      "loss": 2.0928,
      "step": 164830
    },
    {
      "epoch": 0.8242,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005300502512562814,
      "loss": 2.0432,
      "step": 164840
    },
    {
      "epoch": 0.82425,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005298994974874372,
      "loss": 2.1071,
      "step": 164850
    },
    {
      "epoch": 0.8243,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005297487437185929,
      "loss": 2.0305,
      "step": 164860
    },
    {
      "epoch": 0.82435,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005295979899497487,
      "loss": 2.0562,
      "step": 164870
    },
    {
      "epoch": 0.8244,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0005294472361809045,
      "loss": 2.0211,
      "step": 164880
    },
    {
      "epoch": 0.82445,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005292964824120603,
      "loss": 2.0798,
      "step": 164890
    },
    {
      "epoch": 0.8245,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000529145728643216,
      "loss": 2.0333,
      "step": 164900
    },
    {
      "epoch": 0.82455,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005289949748743718,
      "loss": 2.0873,
      "step": 164910
    },
    {
      "epoch": 0.8246,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005288442211055277,
      "loss": 2.043,
      "step": 164920
    },
    {
      "epoch": 0.82465,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005286934673366835,
      "loss": 2.1458,
      "step": 164930
    },
    {
      "epoch": 0.8247,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005285427135678392,
      "loss": 2.0294,
      "step": 164940
    },
    {
      "epoch": 0.82475,
      "grad_norm": 0.609375,
      "learning_rate": 0.000528391959798995,
      "loss": 2.1087,
      "step": 164950
    },
    {
      "epoch": 0.8248,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005282412060301508,
      "loss": 2.0698,
      "step": 164960
    },
    {
      "epoch": 0.82485,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005280904522613066,
      "loss": 2.0638,
      "step": 164970
    },
    {
      "epoch": 0.8249,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005279396984924623,
      "loss": 2.0427,
      "step": 164980
    },
    {
      "epoch": 0.82495,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005277889447236181,
      "loss": 2.0466,
      "step": 164990
    },
    {
      "epoch": 0.825,
      "grad_norm": 0.87109375,
      "learning_rate": 0.0005276381909547739,
      "loss": 2.1114,
      "step": 165000
    },
    {
      "epoch": 0.82505,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005274874371859297,
      "loss": 2.0959,
      "step": 165010
    },
    {
      "epoch": 0.8251,
      "grad_norm": 0.546875,
      "learning_rate": 0.0005273366834170854,
      "loss": 2.0501,
      "step": 165020
    },
    {
      "epoch": 0.82515,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005271859296482412,
      "loss": 2.1015,
      "step": 165030
    },
    {
      "epoch": 0.8252,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000527035175879397,
      "loss": 2.112,
      "step": 165040
    },
    {
      "epoch": 0.82525,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005268844221105528,
      "loss": 2.0222,
      "step": 165050
    },
    {
      "epoch": 0.8253,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005267336683417085,
      "loss": 2.137,
      "step": 165060
    },
    {
      "epoch": 0.82535,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005265829145728643,
      "loss": 2.0653,
      "step": 165070
    },
    {
      "epoch": 0.8254,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005264321608040201,
      "loss": 2.0929,
      "step": 165080
    },
    {
      "epoch": 0.82545,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0005262814070351759,
      "loss": 2.0573,
      "step": 165090
    },
    {
      "epoch": 0.8255,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005261306532663316,
      "loss": 2.0569,
      "step": 165100
    },
    {
      "epoch": 0.82555,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005259798994974874,
      "loss": 2.0763,
      "step": 165110
    },
    {
      "epoch": 0.8256,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005258291457286432,
      "loss": 2.0773,
      "step": 165120
    },
    {
      "epoch": 0.82565,
      "grad_norm": 0.59375,
      "learning_rate": 0.000525678391959799,
      "loss": 2.0604,
      "step": 165130
    },
    {
      "epoch": 0.8257,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005255276381909548,
      "loss": 2.0777,
      "step": 165140
    },
    {
      "epoch": 0.82575,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005253768844221106,
      "loss": 2.0635,
      "step": 165150
    },
    {
      "epoch": 0.8258,
      "grad_norm": 0.5625,
      "learning_rate": 0.0005252261306532664,
      "loss": 2.0919,
      "step": 165160
    },
    {
      "epoch": 0.82585,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005250753768844222,
      "loss": 2.1015,
      "step": 165170
    },
    {
      "epoch": 0.8259,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0005249246231155779,
      "loss": 2.0594,
      "step": 165180
    },
    {
      "epoch": 0.82595,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005247738693467337,
      "loss": 2.0248,
      "step": 165190
    },
    {
      "epoch": 0.826,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005246231155778895,
      "loss": 2.1412,
      "step": 165200
    },
    {
      "epoch": 0.82605,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0005244723618090453,
      "loss": 2.0601,
      "step": 165210
    },
    {
      "epoch": 0.8261,
      "grad_norm": 0.59375,
      "learning_rate": 0.000524321608040201,
      "loss": 2.0764,
      "step": 165220
    },
    {
      "epoch": 0.82615,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005241708542713568,
      "loss": 2.0683,
      "step": 165230
    },
    {
      "epoch": 0.8262,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005240201005025126,
      "loss": 2.0975,
      "step": 165240
    },
    {
      "epoch": 0.82625,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0005238693467336684,
      "loss": 2.0807,
      "step": 165250
    },
    {
      "epoch": 0.8263,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0005237185929648241,
      "loss": 2.042,
      "step": 165260
    },
    {
      "epoch": 0.82635,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005235678391959799,
      "loss": 2.0828,
      "step": 165270
    },
    {
      "epoch": 0.8264,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005234170854271357,
      "loss": 2.0536,
      "step": 165280
    },
    {
      "epoch": 0.82645,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005232663316582915,
      "loss": 2.1201,
      "step": 165290
    },
    {
      "epoch": 0.8265,
      "grad_norm": 0.625,
      "learning_rate": 0.0005231155778894472,
      "loss": 2.062,
      "step": 165300
    },
    {
      "epoch": 0.82655,
      "grad_norm": 0.59375,
      "learning_rate": 0.000522964824120603,
      "loss": 2.1064,
      "step": 165310
    },
    {
      "epoch": 0.8266,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0005228140703517587,
      "loss": 2.0126,
      "step": 165320
    },
    {
      "epoch": 0.82665,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005226633165829146,
      "loss": 2.1159,
      "step": 165330
    },
    {
      "epoch": 0.8267,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005225125628140703,
      "loss": 2.0807,
      "step": 165340
    },
    {
      "epoch": 0.82675,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005223618090452262,
      "loss": 2.1076,
      "step": 165350
    },
    {
      "epoch": 0.8268,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005222110552763819,
      "loss": 2.0308,
      "step": 165360
    },
    {
      "epoch": 0.82685,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005220603015075378,
      "loss": 2.1622,
      "step": 165370
    },
    {
      "epoch": 0.8269,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005219095477386935,
      "loss": 2.046,
      "step": 165380
    },
    {
      "epoch": 0.82695,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005217587939698493,
      "loss": 2.1061,
      "step": 165390
    },
    {
      "epoch": 0.827,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000521608040201005,
      "loss": 2.0645,
      "step": 165400
    },
    {
      "epoch": 0.82705,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0005214572864321609,
      "loss": 2.1233,
      "step": 165410
    },
    {
      "epoch": 0.8271,
      "grad_norm": 0.625,
      "learning_rate": 0.0005213065326633166,
      "loss": 2.0755,
      "step": 165420
    },
    {
      "epoch": 0.82715,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005211557788944724,
      "loss": 2.1148,
      "step": 165430
    },
    {
      "epoch": 0.8272,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005210050251256281,
      "loss": 2.0781,
      "step": 165440
    },
    {
      "epoch": 0.82725,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000520854271356784,
      "loss": 2.1284,
      "step": 165450
    },
    {
      "epoch": 0.8273,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005207035175879397,
      "loss": 2.0477,
      "step": 165460
    },
    {
      "epoch": 0.82735,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005205527638190955,
      "loss": 2.0466,
      "step": 165470
    },
    {
      "epoch": 0.8274,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005204020100502512,
      "loss": 2.0963,
      "step": 165480
    },
    {
      "epoch": 0.82745,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005202512562814071,
      "loss": 2.0679,
      "step": 165490
    },
    {
      "epoch": 0.8275,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0005201005025125628,
      "loss": 2.0825,
      "step": 165500
    },
    {
      "epoch": 0.82755,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005199497487437186,
      "loss": 2.075,
      "step": 165510
    },
    {
      "epoch": 0.8276,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005197989949748743,
      "loss": 2.1562,
      "step": 165520
    },
    {
      "epoch": 0.82765,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0005196482412060301,
      "loss": 2.0976,
      "step": 165530
    },
    {
      "epoch": 0.8277,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005194974874371859,
      "loss": 2.1013,
      "step": 165540
    },
    {
      "epoch": 0.82775,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0005193467336683417,
      "loss": 2.0153,
      "step": 165550
    },
    {
      "epoch": 0.8278,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005191959798994974,
      "loss": 2.131,
      "step": 165560
    },
    {
      "epoch": 0.82785,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005190452261306533,
      "loss": 2.0666,
      "step": 165570
    },
    {
      "epoch": 0.8279,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005188944723618091,
      "loss": 2.1136,
      "step": 165580
    },
    {
      "epoch": 0.82795,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005187437185929649,
      "loss": 2.0772,
      "step": 165590
    },
    {
      "epoch": 0.828,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005185929648241206,
      "loss": 2.1369,
      "step": 165600
    },
    {
      "epoch": 0.82805,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0005184422110552764,
      "loss": 2.0387,
      "step": 165610
    },
    {
      "epoch": 0.8281,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005182914572864322,
      "loss": 2.0824,
      "step": 165620
    },
    {
      "epoch": 0.82815,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000518140703517588,
      "loss": 2.0924,
      "step": 165630
    },
    {
      "epoch": 0.8282,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005179899497487437,
      "loss": 2.1051,
      "step": 165640
    },
    {
      "epoch": 0.82825,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005178391959798995,
      "loss": 2.112,
      "step": 165650
    },
    {
      "epoch": 0.8283,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005176884422110553,
      "loss": 2.0724,
      "step": 165660
    },
    {
      "epoch": 0.82835,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005175376884422111,
      "loss": 2.0928,
      "step": 165670
    },
    {
      "epoch": 0.8284,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0005173869346733668,
      "loss": 2.1528,
      "step": 165680
    },
    {
      "epoch": 0.82845,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0005172361809045226,
      "loss": 2.0218,
      "step": 165690
    },
    {
      "epoch": 0.8285,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005170854271356784,
      "loss": 2.0927,
      "step": 165700
    },
    {
      "epoch": 0.82855,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0005169346733668341,
      "loss": 2.0716,
      "step": 165710
    },
    {
      "epoch": 0.8286,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005167839195979899,
      "loss": 2.1101,
      "step": 165720
    },
    {
      "epoch": 0.82865,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005166331658291457,
      "loss": 2.0266,
      "step": 165730
    },
    {
      "epoch": 0.8287,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005164824120603015,
      "loss": 2.0799,
      "step": 165740
    },
    {
      "epoch": 0.82875,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005163316582914572,
      "loss": 2.042,
      "step": 165750
    },
    {
      "epoch": 0.8288,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000516180904522613,
      "loss": 2.075,
      "step": 165760
    },
    {
      "epoch": 0.82885,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005160301507537688,
      "loss": 2.1101,
      "step": 165770
    },
    {
      "epoch": 0.8289,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005158793969849247,
      "loss": 2.1114,
      "step": 165780
    },
    {
      "epoch": 0.82895,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005157286432160804,
      "loss": 2.0723,
      "step": 165790
    },
    {
      "epoch": 0.829,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005155778894472362,
      "loss": 2.1273,
      "step": 165800
    },
    {
      "epoch": 0.82905,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000515427135678392,
      "loss": 2.0674,
      "step": 165810
    },
    {
      "epoch": 0.8291,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0005152763819095478,
      "loss": 2.0543,
      "step": 165820
    },
    {
      "epoch": 0.82915,
      "grad_norm": 0.625,
      "learning_rate": 0.0005151256281407035,
      "loss": 2.1052,
      "step": 165830
    },
    {
      "epoch": 0.8292,
      "grad_norm": 0.625,
      "learning_rate": 0.0005149748743718593,
      "loss": 2.0159,
      "step": 165840
    },
    {
      "epoch": 0.82925,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005148241206030151,
      "loss": 2.1103,
      "step": 165850
    },
    {
      "epoch": 0.8293,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005146733668341709,
      "loss": 2.0509,
      "step": 165860
    },
    {
      "epoch": 0.82935,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0005145226130653266,
      "loss": 2.1307,
      "step": 165870
    },
    {
      "epoch": 0.8294,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005143718592964824,
      "loss": 2.0602,
      "step": 165880
    },
    {
      "epoch": 0.82945,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0005142211055276382,
      "loss": 2.0596,
      "step": 165890
    },
    {
      "epoch": 0.8295,
      "grad_norm": 0.73828125,
      "learning_rate": 0.000514070351758794,
      "loss": 2.0234,
      "step": 165900
    },
    {
      "epoch": 0.82955,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005139195979899497,
      "loss": 2.1066,
      "step": 165910
    },
    {
      "epoch": 0.8296,
      "grad_norm": 0.625,
      "learning_rate": 0.0005137688442211055,
      "loss": 2.0387,
      "step": 165920
    },
    {
      "epoch": 0.82965,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005136180904522613,
      "loss": 2.1562,
      "step": 165930
    },
    {
      "epoch": 0.8297,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005134673366834171,
      "loss": 2.022,
      "step": 165940
    },
    {
      "epoch": 0.82975,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0005133165829145728,
      "loss": 2.0814,
      "step": 165950
    },
    {
      "epoch": 0.8298,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005131658291457286,
      "loss": 2.0248,
      "step": 165960
    },
    {
      "epoch": 0.82985,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0005130150753768844,
      "loss": 2.0911,
      "step": 165970
    },
    {
      "epoch": 0.8299,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0005128643216080402,
      "loss": 2.0654,
      "step": 165980
    },
    {
      "epoch": 0.82995,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000512713567839196,
      "loss": 2.0974,
      "step": 165990
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005125628140703518,
      "loss": 2.043,
      "step": 166000
    },
    {
      "epoch": 0.83,
      "eval_loss": 2.0813305377960205,
      "eval_runtime": 47.4314,
      "eval_samples_per_second": 52.708,
      "eval_steps_per_second": 0.105,
      "step": 166000
    },
    {
      "epoch": 0.83005,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005124120603015076,
      "loss": 2.0841,
      "step": 166010
    },
    {
      "epoch": 0.8301,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005122613065326634,
      "loss": 2.1298,
      "step": 166020
    },
    {
      "epoch": 0.83015,
      "grad_norm": 0.734375,
      "learning_rate": 0.0005121105527638191,
      "loss": 2.0686,
      "step": 166030
    },
    {
      "epoch": 0.8302,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005119597989949749,
      "loss": 2.0054,
      "step": 166040
    },
    {
      "epoch": 0.83025,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005118090452261307,
      "loss": 2.1152,
      "step": 166050
    },
    {
      "epoch": 0.8303,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005116582914572865,
      "loss": 2.0624,
      "step": 166060
    },
    {
      "epoch": 0.83035,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0005115075376884422,
      "loss": 2.1096,
      "step": 166070
    },
    {
      "epoch": 0.8304,
      "grad_norm": 0.609375,
      "learning_rate": 0.000511356783919598,
      "loss": 2.08,
      "step": 166080
    },
    {
      "epoch": 0.83045,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005112060301507538,
      "loss": 2.1253,
      "step": 166090
    },
    {
      "epoch": 0.8305,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005110552763819096,
      "loss": 2.0744,
      "step": 166100
    },
    {
      "epoch": 0.83055,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0005109045226130653,
      "loss": 2.0622,
      "step": 166110
    },
    {
      "epoch": 0.8306,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005107537688442211,
      "loss": 2.0982,
      "step": 166120
    },
    {
      "epoch": 0.83065,
      "grad_norm": 0.625,
      "learning_rate": 0.0005106030150753769,
      "loss": 2.0973,
      "step": 166130
    },
    {
      "epoch": 0.8307,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005104522613065327,
      "loss": 2.0695,
      "step": 166140
    },
    {
      "epoch": 0.83075,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0005103015075376884,
      "loss": 2.0823,
      "step": 166150
    },
    {
      "epoch": 0.8308,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005101507537688442,
      "loss": 2.0578,
      "step": 166160
    },
    {
      "epoch": 0.83085,
      "grad_norm": 0.65625,
      "learning_rate": 0.00051,
      "loss": 2.0868,
      "step": 166170
    },
    {
      "epoch": 0.8309,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0005098492462311558,
      "loss": 2.0081,
      "step": 166180
    },
    {
      "epoch": 0.83095,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005096984924623115,
      "loss": 2.098,
      "step": 166190
    },
    {
      "epoch": 0.831,
      "grad_norm": 0.625,
      "learning_rate": 0.0005095477386934673,
      "loss": 2.092,
      "step": 166200
    },
    {
      "epoch": 0.83105,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005093969849246232,
      "loss": 2.1147,
      "step": 166210
    },
    {
      "epoch": 0.8311,
      "grad_norm": 0.625,
      "learning_rate": 0.000509246231155779,
      "loss": 2.0893,
      "step": 166220
    },
    {
      "epoch": 0.83115,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005090954773869347,
      "loss": 2.0855,
      "step": 166230
    },
    {
      "epoch": 0.8312,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005089447236180905,
      "loss": 2.0515,
      "step": 166240
    },
    {
      "epoch": 0.83125,
      "grad_norm": 0.578125,
      "learning_rate": 0.0005087939698492463,
      "loss": 2.0947,
      "step": 166250
    },
    {
      "epoch": 0.8313,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0005086432160804021,
      "loss": 2.0962,
      "step": 166260
    },
    {
      "epoch": 0.83135,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005084924623115578,
      "loss": 2.0765,
      "step": 166270
    },
    {
      "epoch": 0.8314,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005083417085427136,
      "loss": 2.0751,
      "step": 166280
    },
    {
      "epoch": 0.83145,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005081909547738694,
      "loss": 1.9979,
      "step": 166290
    },
    {
      "epoch": 0.8315,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005080402010050252,
      "loss": 2.1064,
      "step": 166300
    },
    {
      "epoch": 0.83155,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005078894472361809,
      "loss": 2.0663,
      "step": 166310
    },
    {
      "epoch": 0.8316,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005077386934673367,
      "loss": 2.0789,
      "step": 166320
    },
    {
      "epoch": 0.83165,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0005075879396984925,
      "loss": 2.0458,
      "step": 166330
    },
    {
      "epoch": 0.8317,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0005074371859296483,
      "loss": 2.0989,
      "step": 166340
    },
    {
      "epoch": 0.83175,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000507286432160804,
      "loss": 2.0652,
      "step": 166350
    },
    {
      "epoch": 0.8318,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005071356783919598,
      "loss": 2.0399,
      "step": 166360
    },
    {
      "epoch": 0.83185,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005069849246231156,
      "loss": 2.0533,
      "step": 166370
    },
    {
      "epoch": 0.8319,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0005068341708542714,
      "loss": 2.0322,
      "step": 166380
    },
    {
      "epoch": 0.83195,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005066834170854271,
      "loss": 2.0605,
      "step": 166390
    },
    {
      "epoch": 0.832,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005065326633165829,
      "loss": 2.0856,
      "step": 166400
    },
    {
      "epoch": 0.83205,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005063819095477388,
      "loss": 1.9984,
      "step": 166410
    },
    {
      "epoch": 0.8321,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0005062311557788946,
      "loss": 2.098,
      "step": 166420
    },
    {
      "epoch": 0.83215,
      "grad_norm": 0.625,
      "learning_rate": 0.0005060804020100503,
      "loss": 2.0336,
      "step": 166430
    },
    {
      "epoch": 0.8322,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005059296482412061,
      "loss": 2.0895,
      "step": 166440
    },
    {
      "epoch": 0.83225,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005057788944723618,
      "loss": 2.0463,
      "step": 166450
    },
    {
      "epoch": 0.8323,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0005056281407035176,
      "loss": 2.1071,
      "step": 166460
    },
    {
      "epoch": 0.83235,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0005054773869346734,
      "loss": 2.0395,
      "step": 166470
    },
    {
      "epoch": 0.8324,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0005053266331658292,
      "loss": 2.0656,
      "step": 166480
    },
    {
      "epoch": 0.83245,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005051758793969849,
      "loss": 2.0612,
      "step": 166490
    },
    {
      "epoch": 0.8325,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005050251256281407,
      "loss": 2.0702,
      "step": 166500
    },
    {
      "epoch": 0.83255,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0005048743718592965,
      "loss": 2.1224,
      "step": 166510
    },
    {
      "epoch": 0.8326,
      "grad_norm": 0.640625,
      "learning_rate": 0.0005047236180904523,
      "loss": 2.0717,
      "step": 166520
    },
    {
      "epoch": 0.83265,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000504572864321608,
      "loss": 2.079,
      "step": 166530
    },
    {
      "epoch": 0.8327,
      "grad_norm": 0.5625,
      "learning_rate": 0.0005044221105527638,
      "loss": 2.0801,
      "step": 166540
    },
    {
      "epoch": 0.83275,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0005042713567839196,
      "loss": 2.0566,
      "step": 166550
    },
    {
      "epoch": 0.8328,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0005041206030150754,
      "loss": 2.1338,
      "step": 166560
    },
    {
      "epoch": 0.83285,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0005039698492462311,
      "loss": 2.0695,
      "step": 166570
    },
    {
      "epoch": 0.8329,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0005038190954773869,
      "loss": 2.0668,
      "step": 166580
    },
    {
      "epoch": 0.83295,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005036683417085427,
      "loss": 2.0254,
      "step": 166590
    },
    {
      "epoch": 0.833,
      "grad_norm": 0.65625,
      "learning_rate": 0.0005035175879396985,
      "loss": 2.1031,
      "step": 166600
    },
    {
      "epoch": 0.83305,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0005033668341708542,
      "loss": 2.0504,
      "step": 166610
    },
    {
      "epoch": 0.8331,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00050321608040201,
      "loss": 2.1019,
      "step": 166620
    },
    {
      "epoch": 0.83315,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005030653266331658,
      "loss": 2.0602,
      "step": 166630
    },
    {
      "epoch": 0.8332,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0005029145728643215,
      "loss": 2.0815,
      "step": 166640
    },
    {
      "epoch": 0.83325,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0005027638190954774,
      "loss": 2.0569,
      "step": 166650
    },
    {
      "epoch": 0.8333,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0005026130653266332,
      "loss": 2.0778,
      "step": 166660
    },
    {
      "epoch": 0.83335,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000502462311557789,
      "loss": 2.0225,
      "step": 166670
    },
    {
      "epoch": 0.8334,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0005023115577889447,
      "loss": 2.116,
      "step": 166680
    },
    {
      "epoch": 0.83345,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0005021608040201005,
      "loss": 2.0462,
      "step": 166690
    },
    {
      "epoch": 0.8335,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005020100502512563,
      "loss": 2.1206,
      "step": 166700
    },
    {
      "epoch": 0.83355,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005018592964824121,
      "loss": 2.0322,
      "step": 166710
    },
    {
      "epoch": 0.8336,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005017085427135678,
      "loss": 2.0577,
      "step": 166720
    },
    {
      "epoch": 0.83365,
      "grad_norm": 0.625,
      "learning_rate": 0.0005015577889447236,
      "loss": 2.0346,
      "step": 166730
    },
    {
      "epoch": 0.8337,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005014070351758794,
      "loss": 2.1233,
      "step": 166740
    },
    {
      "epoch": 0.83375,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0005012562814070352,
      "loss": 2.0762,
      "step": 166750
    },
    {
      "epoch": 0.8338,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0005011055276381909,
      "loss": 2.0985,
      "step": 166760
    },
    {
      "epoch": 0.83385,
      "grad_norm": 0.6875,
      "learning_rate": 0.0005009547738693467,
      "loss": 2.0789,
      "step": 166770
    },
    {
      "epoch": 0.8339,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0005008040201005025,
      "loss": 2.0914,
      "step": 166780
    },
    {
      "epoch": 0.83395,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0005006532663316583,
      "loss": 2.06,
      "step": 166790
    },
    {
      "epoch": 0.834,
      "grad_norm": 0.59375,
      "learning_rate": 0.000500502512562814,
      "loss": 2.1026,
      "step": 166800
    },
    {
      "epoch": 0.83405,
      "grad_norm": 0.609375,
      "learning_rate": 0.0005003517587939698,
      "loss": 2.009,
      "step": 166810
    },
    {
      "epoch": 0.8341,
      "grad_norm": 0.59375,
      "learning_rate": 0.0005002010050251256,
      "loss": 2.142,
      "step": 166820
    },
    {
      "epoch": 0.83415,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0005000502512562814,
      "loss": 2.0255,
      "step": 166830
    },
    {
      "epoch": 0.8342,
      "grad_norm": 0.5625,
      "learning_rate": 0.0004998994974874371,
      "loss": 2.0633,
      "step": 166840
    },
    {
      "epoch": 0.83425,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000499748743718593,
      "loss": 2.0684,
      "step": 166850
    },
    {
      "epoch": 0.8343,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004995979899497488,
      "loss": 2.0357,
      "step": 166860
    },
    {
      "epoch": 0.83435,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0004994472361809046,
      "loss": 2.0895,
      "step": 166870
    },
    {
      "epoch": 0.8344,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004992964824120603,
      "loss": 2.0951,
      "step": 166880
    },
    {
      "epoch": 0.83445,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004991457286432161,
      "loss": 2.027,
      "step": 166890
    },
    {
      "epoch": 0.8345,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004989949748743719,
      "loss": 2.062,
      "step": 166900
    },
    {
      "epoch": 0.83455,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004988442211055277,
      "loss": 2.0581,
      "step": 166910
    },
    {
      "epoch": 0.8346,
      "grad_norm": 0.5625,
      "learning_rate": 0.0004986934673366834,
      "loss": 2.0655,
      "step": 166920
    },
    {
      "epoch": 0.83465,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004985427135678392,
      "loss": 2.0364,
      "step": 166930
    },
    {
      "epoch": 0.8347,
      "grad_norm": 0.59375,
      "learning_rate": 0.000498391959798995,
      "loss": 2.1126,
      "step": 166940
    },
    {
      "epoch": 0.83475,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004982412060301508,
      "loss": 2.0421,
      "step": 166950
    },
    {
      "epoch": 0.8348,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0004980904522613065,
      "loss": 2.0768,
      "step": 166960
    },
    {
      "epoch": 0.83485,
      "grad_norm": 0.6875,
      "learning_rate": 0.0004979396984924623,
      "loss": 2.061,
      "step": 166970
    },
    {
      "epoch": 0.8349,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0004977889447236181,
      "loss": 2.0856,
      "step": 166980
    },
    {
      "epoch": 0.83495,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004976381909547739,
      "loss": 2.0981,
      "step": 166990
    },
    {
      "epoch": 0.835,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004974874371859296,
      "loss": 2.105,
      "step": 167000
    },
    {
      "epoch": 0.83505,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0004973366834170854,
      "loss": 2.0369,
      "step": 167010
    },
    {
      "epoch": 0.8351,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0004971859296482412,
      "loss": 2.0648,
      "step": 167020
    },
    {
      "epoch": 0.83515,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000497035175879397,
      "loss": 2.0505,
      "step": 167030
    },
    {
      "epoch": 0.8352,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004968844221105527,
      "loss": 2.1183,
      "step": 167040
    },
    {
      "epoch": 0.83525,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004967336683417085,
      "loss": 2.0326,
      "step": 167050
    },
    {
      "epoch": 0.8353,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0004965829145728644,
      "loss": 2.1191,
      "step": 167060
    },
    {
      "epoch": 0.83535,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004964321608040202,
      "loss": 2.034,
      "step": 167070
    },
    {
      "epoch": 0.8354,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004962814070351759,
      "loss": 2.089,
      "step": 167080
    },
    {
      "epoch": 0.83545,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0004961306532663317,
      "loss": 2.0541,
      "step": 167090
    },
    {
      "epoch": 0.8355,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004959798994974875,
      "loss": 2.0965,
      "step": 167100
    },
    {
      "epoch": 0.83555,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004958291457286433,
      "loss": 2.0404,
      "step": 167110
    },
    {
      "epoch": 0.8356,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000495678391959799,
      "loss": 2.1194,
      "step": 167120
    },
    {
      "epoch": 0.83565,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004955276381909548,
      "loss": 2.1059,
      "step": 167130
    },
    {
      "epoch": 0.8357,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004953768844221106,
      "loss": 2.0855,
      "step": 167140
    },
    {
      "epoch": 0.83575,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0004952261306532664,
      "loss": 2.0214,
      "step": 167150
    },
    {
      "epoch": 0.8358,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004950753768844221,
      "loss": 2.0625,
      "step": 167160
    },
    {
      "epoch": 0.83585,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0004949246231155779,
      "loss": 2.1215,
      "step": 167170
    },
    {
      "epoch": 0.8359,
      "grad_norm": 0.625,
      "learning_rate": 0.0004947738693467337,
      "loss": 2.0471,
      "step": 167180
    },
    {
      "epoch": 0.83595,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004946231155778895,
      "loss": 2.0888,
      "step": 167190
    },
    {
      "epoch": 0.836,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004944723618090452,
      "loss": 2.0753,
      "step": 167200
    },
    {
      "epoch": 0.83605,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000494321608040201,
      "loss": 2.0778,
      "step": 167210
    },
    {
      "epoch": 0.8361,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004941708542713568,
      "loss": 2.0585,
      "step": 167220
    },
    {
      "epoch": 0.83615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0004940201005025126,
      "loss": 2.0758,
      "step": 167230
    },
    {
      "epoch": 0.8362,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0004938693467336683,
      "loss": 2.0568,
      "step": 167240
    },
    {
      "epoch": 0.83625,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004937185929648241,
      "loss": 2.105,
      "step": 167250
    },
    {
      "epoch": 0.8363,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004935678391959799,
      "loss": 2.0537,
      "step": 167260
    },
    {
      "epoch": 0.83635,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004934170854271358,
      "loss": 2.1063,
      "step": 167270
    },
    {
      "epoch": 0.8364,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004932663316582915,
      "loss": 2.0859,
      "step": 167280
    },
    {
      "epoch": 0.83645,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004931155778894473,
      "loss": 2.0998,
      "step": 167290
    },
    {
      "epoch": 0.8365,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0004929648241206031,
      "loss": 2.0883,
      "step": 167300
    },
    {
      "epoch": 0.83655,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0004928140703517589,
      "loss": 2.0942,
      "step": 167310
    },
    {
      "epoch": 0.8366,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0004926633165829146,
      "loss": 2.0796,
      "step": 167320
    },
    {
      "epoch": 0.83665,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004925125628140704,
      "loss": 2.0934,
      "step": 167330
    },
    {
      "epoch": 0.8367,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004923618090452262,
      "loss": 2.1077,
      "step": 167340
    },
    {
      "epoch": 0.83675,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000492211055276382,
      "loss": 2.0408,
      "step": 167350
    },
    {
      "epoch": 0.8368,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004920603015075377,
      "loss": 2.0431,
      "step": 167360
    },
    {
      "epoch": 0.83685,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004919095477386935,
      "loss": 2.0774,
      "step": 167370
    },
    {
      "epoch": 0.8369,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0004917587939698493,
      "loss": 2.0555,
      "step": 167380
    },
    {
      "epoch": 0.83695,
      "grad_norm": 0.6640625,
      "learning_rate": 0.000491608040201005,
      "loss": 2.1107,
      "step": 167390
    },
    {
      "epoch": 0.837,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004914572864321608,
      "loss": 2.0435,
      "step": 167400
    },
    {
      "epoch": 0.83705,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004913065326633166,
      "loss": 2.1038,
      "step": 167410
    },
    {
      "epoch": 0.8371,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004911557788944724,
      "loss": 2.0175,
      "step": 167420
    },
    {
      "epoch": 0.83715,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004910050251256281,
      "loss": 2.088,
      "step": 167430
    },
    {
      "epoch": 0.8372,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004908542713567839,
      "loss": 2.088,
      "step": 167440
    },
    {
      "epoch": 0.83725,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0004907035175879397,
      "loss": 2.1184,
      "step": 167450
    },
    {
      "epoch": 0.8373,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004905527638190955,
      "loss": 2.033,
      "step": 167460
    },
    {
      "epoch": 0.83735,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004904020100502512,
      "loss": 2.0825,
      "step": 167470
    },
    {
      "epoch": 0.8374,
      "grad_norm": 0.57421875,
      "learning_rate": 0.000490251256281407,
      "loss": 2.0326,
      "step": 167480
    },
    {
      "epoch": 0.83745,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004901005025125629,
      "loss": 2.1334,
      "step": 167490
    },
    {
      "epoch": 0.8375,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004899497487437187,
      "loss": 2.0595,
      "step": 167500
    },
    {
      "epoch": 0.83755,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004897989949748744,
      "loss": 2.1004,
      "step": 167510
    },
    {
      "epoch": 0.8376,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0004896482412060302,
      "loss": 2.0786,
      "step": 167520
    },
    {
      "epoch": 0.83765,
      "grad_norm": 0.65234375,
      "learning_rate": 0.000489497487437186,
      "loss": 2.0797,
      "step": 167530
    },
    {
      "epoch": 0.8377,
      "grad_norm": 0.7890625,
      "learning_rate": 0.0004893467336683418,
      "loss": 2.0939,
      "step": 167540
    },
    {
      "epoch": 0.83775,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004891959798994975,
      "loss": 2.1126,
      "step": 167550
    },
    {
      "epoch": 0.8378,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0004890452261306533,
      "loss": 2.0193,
      "step": 167560
    },
    {
      "epoch": 0.83785,
      "grad_norm": 0.609375,
      "learning_rate": 0.000488894472361809,
      "loss": 2.0843,
      "step": 167570
    },
    {
      "epoch": 0.8379,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004887437185929649,
      "loss": 2.1032,
      "step": 167580
    },
    {
      "epoch": 0.83795,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0004885929648241206,
      "loss": 2.1035,
      "step": 167590
    },
    {
      "epoch": 0.838,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004884422110552764,
      "loss": 2.0784,
      "step": 167600
    },
    {
      "epoch": 0.83805,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0004882914572864321,
      "loss": 2.0784,
      "step": 167610
    },
    {
      "epoch": 0.8381,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004881407035175879,
      "loss": 1.9898,
      "step": 167620
    },
    {
      "epoch": 0.83815,
      "grad_norm": 0.609375,
      "learning_rate": 0.00048798994974874377,
      "loss": 2.1169,
      "step": 167630
    },
    {
      "epoch": 0.8382,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004878391959798995,
      "loss": 2.0852,
      "step": 167640
    },
    {
      "epoch": 0.83825,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004876884422110553,
      "loss": 2.1176,
      "step": 167650
    },
    {
      "epoch": 0.8383,
      "grad_norm": 0.6640625,
      "learning_rate": 0.000487537688442211,
      "loss": 2.0764,
      "step": 167660
    },
    {
      "epoch": 0.83835,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004873869346733669,
      "loss": 2.1205,
      "step": 167670
    },
    {
      "epoch": 0.8384,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00048723618090452264,
      "loss": 2.0178,
      "step": 167680
    },
    {
      "epoch": 0.83845,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004870854271356784,
      "loss": 2.1114,
      "step": 167690
    },
    {
      "epoch": 0.8385,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00048693467336683414,
      "loss": 1.9702,
      "step": 167700
    },
    {
      "epoch": 0.83855,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00048678391959799,
      "loss": 2.0754,
      "step": 167710
    },
    {
      "epoch": 0.8386,
      "grad_norm": 0.640625,
      "learning_rate": 0.00048663316582914576,
      "loss": 2.0143,
      "step": 167720
    },
    {
      "epoch": 0.83865,
      "grad_norm": 0.6875,
      "learning_rate": 0.0004864824120603015,
      "loss": 2.0682,
      "step": 167730
    },
    {
      "epoch": 0.8387,
      "grad_norm": 0.65625,
      "learning_rate": 0.00048633165829145726,
      "loss": 2.0522,
      "step": 167740
    },
    {
      "epoch": 0.83875,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004861809045226131,
      "loss": 2.0416,
      "step": 167750
    },
    {
      "epoch": 0.8388,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0004860301507537689,
      "loss": 2.023,
      "step": 167760
    },
    {
      "epoch": 0.83885,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00048587939698492463,
      "loss": 2.0829,
      "step": 167770
    },
    {
      "epoch": 0.8389,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0004857286432160804,
      "loss": 2.0824,
      "step": 167780
    },
    {
      "epoch": 0.83895,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004855778894472362,
      "loss": 2.1174,
      "step": 167790
    },
    {
      "epoch": 0.839,
      "grad_norm": 0.546875,
      "learning_rate": 0.000485427135678392,
      "loss": 2.0213,
      "step": 167800
    },
    {
      "epoch": 0.83905,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00048527638190954775,
      "loss": 2.1137,
      "step": 167810
    },
    {
      "epoch": 0.8391,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004851256281407035,
      "loss": 2.0851,
      "step": 167820
    },
    {
      "epoch": 0.83915,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004849748743718593,
      "loss": 2.0864,
      "step": 167830
    },
    {
      "epoch": 0.8392,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0004848241206030151,
      "loss": 2.0241,
      "step": 167840
    },
    {
      "epoch": 0.83925,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00048467336683417087,
      "loss": 2.1065,
      "step": 167850
    },
    {
      "epoch": 0.8393,
      "grad_norm": 0.6875,
      "learning_rate": 0.0004845226130653266,
      "loss": 2.0631,
      "step": 167860
    },
    {
      "epoch": 0.83935,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00048437185929648243,
      "loss": 2.1385,
      "step": 167870
    },
    {
      "epoch": 0.8394,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004842211055276382,
      "loss": 2.0501,
      "step": 167880
    },
    {
      "epoch": 0.83945,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000484070351758794,
      "loss": 2.099,
      "step": 167890
    },
    {
      "epoch": 0.8395,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00048391959798994974,
      "loss": 2.0712,
      "step": 167900
    },
    {
      "epoch": 0.83955,
      "grad_norm": 0.5625,
      "learning_rate": 0.00048376884422110555,
      "loss": 2.0988,
      "step": 167910
    },
    {
      "epoch": 0.8396,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004836180904522613,
      "loss": 2.056,
      "step": 167920
    },
    {
      "epoch": 0.83965,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004834673366834171,
      "loss": 2.0538,
      "step": 167930
    },
    {
      "epoch": 0.8397,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00048331658291457286,
      "loss": 2.1033,
      "step": 167940
    },
    {
      "epoch": 0.83975,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00048316582914572867,
      "loss": 2.0914,
      "step": 167950
    },
    {
      "epoch": 0.8398,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004830150753768844,
      "loss": 2.0948,
      "step": 167960
    },
    {
      "epoch": 0.83985,
      "grad_norm": 0.546875,
      "learning_rate": 0.00048286432160804017,
      "loss": 2.083,
      "step": 167970
    },
    {
      "epoch": 0.8399,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000482713567839196,
      "loss": 2.105,
      "step": 167980
    },
    {
      "epoch": 0.83995,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004825628140703518,
      "loss": 2.0527,
      "step": 167990
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00048241206030150754,
      "loss": 2.0801,
      "step": 168000
    },
    {
      "epoch": 0.84,
      "eval_loss": 2.0725886821746826,
      "eval_runtime": 54.8619,
      "eval_samples_per_second": 45.569,
      "eval_steps_per_second": 0.091,
      "step": 168000
    },
    {
      "epoch": 0.84005,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0004822613065326633,
      "loss": 2.0691,
      "step": 168010
    },
    {
      "epoch": 0.8401,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0004821105527638191,
      "loss": 2.0869,
      "step": 168020
    },
    {
      "epoch": 0.84015,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004819597989949749,
      "loss": 2.0705,
      "step": 168030
    },
    {
      "epoch": 0.8402,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00048180904522613066,
      "loss": 2.1056,
      "step": 168040
    },
    {
      "epoch": 0.84025,
      "grad_norm": 0.671875,
      "learning_rate": 0.0004816582914572864,
      "loss": 2.0629,
      "step": 168050
    },
    {
      "epoch": 0.8403,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00048150753768844216,
      "loss": 2.1178,
      "step": 168060
    },
    {
      "epoch": 0.84035,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000481356783919598,
      "loss": 2.0254,
      "step": 168070
    },
    {
      "epoch": 0.8404,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004812060301507538,
      "loss": 2.1297,
      "step": 168080
    },
    {
      "epoch": 0.84045,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0004810552763819095,
      "loss": 2.0559,
      "step": 168090
    },
    {
      "epoch": 0.8405,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004809045226130653,
      "loss": 2.1117,
      "step": 168100
    },
    {
      "epoch": 0.84055,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00048075376884422114,
      "loss": 2.0291,
      "step": 168110
    },
    {
      "epoch": 0.8406,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0004806030150753769,
      "loss": 2.1179,
      "step": 168120
    },
    {
      "epoch": 0.84065,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00048045226130653265,
      "loss": 2.0689,
      "step": 168130
    },
    {
      "epoch": 0.8407,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0004803015075376884,
      "loss": 2.0454,
      "step": 168140
    },
    {
      "epoch": 0.84075,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00048015075376884426,
      "loss": 2.0376,
      "step": 168150
    },
    {
      "epoch": 0.8408,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00048,
      "loss": 2.1053,
      "step": 168160
    },
    {
      "epoch": 0.84085,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00047984924623115576,
      "loss": 2.0282,
      "step": 168170
    },
    {
      "epoch": 0.8409,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0004796984924623115,
      "loss": 2.073,
      "step": 168180
    },
    {
      "epoch": 0.84095,
      "grad_norm": 0.625,
      "learning_rate": 0.0004795477386934674,
      "loss": 2.0742,
      "step": 168190
    },
    {
      "epoch": 0.841,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00047939698492462313,
      "loss": 2.0813,
      "step": 168200
    },
    {
      "epoch": 0.84105,
      "grad_norm": 0.671875,
      "learning_rate": 0.0004792462311557789,
      "loss": 2.0503,
      "step": 168210
    },
    {
      "epoch": 0.8411,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00047909547738693464,
      "loss": 2.0737,
      "step": 168220
    },
    {
      "epoch": 0.84115,
      "grad_norm": 0.6875,
      "learning_rate": 0.0004789447236180905,
      "loss": 2.0709,
      "step": 168230
    },
    {
      "epoch": 0.8412,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00047879396984924625,
      "loss": 2.1127,
      "step": 168240
    },
    {
      "epoch": 0.84125,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000478643216080402,
      "loss": 2.0648,
      "step": 168250
    },
    {
      "epoch": 0.8413,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00047849246231155776,
      "loss": 2.0562,
      "step": 168260
    },
    {
      "epoch": 0.84135,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004783417085427136,
      "loss": 2.0735,
      "step": 168270
    },
    {
      "epoch": 0.8414,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00047819095477386937,
      "loss": 2.0625,
      "step": 168280
    },
    {
      "epoch": 0.84145,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004780402010050251,
      "loss": 2.0381,
      "step": 168290
    },
    {
      "epoch": 0.8415,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004778894472361809,
      "loss": 2.1057,
      "step": 168300
    },
    {
      "epoch": 0.84155,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00047773869346733674,
      "loss": 2.0511,
      "step": 168310
    },
    {
      "epoch": 0.8416,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004775879396984925,
      "loss": 2.0529,
      "step": 168320
    },
    {
      "epoch": 0.84165,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00047743718592964824,
      "loss": 2.0566,
      "step": 168330
    },
    {
      "epoch": 0.8417,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000477286432160804,
      "loss": 2.1201,
      "step": 168340
    },
    {
      "epoch": 0.84175,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00047713567839195985,
      "loss": 2.0424,
      "step": 168350
    },
    {
      "epoch": 0.8418,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004769849246231156,
      "loss": 2.0932,
      "step": 168360
    },
    {
      "epoch": 0.84185,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00047683417085427136,
      "loss": 2.0831,
      "step": 168370
    },
    {
      "epoch": 0.8419,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004766834170854271,
      "loss": 2.1036,
      "step": 168380
    },
    {
      "epoch": 0.84195,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000476532663316583,
      "loss": 2.0448,
      "step": 168390
    },
    {
      "epoch": 0.842,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004763819095477387,
      "loss": 2.0023,
      "step": 168400
    },
    {
      "epoch": 0.84205,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004762311557788945,
      "loss": 2.1292,
      "step": 168410
    },
    {
      "epoch": 0.8421,
      "grad_norm": 0.671875,
      "learning_rate": 0.00047608040201005023,
      "loss": 2.0126,
      "step": 168420
    },
    {
      "epoch": 0.84215,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004759296482412061,
      "loss": 2.0804,
      "step": 168430
    },
    {
      "epoch": 0.8422,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00047577889447236184,
      "loss": 2.0757,
      "step": 168440
    },
    {
      "epoch": 0.84225,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0004756281407035176,
      "loss": 2.124,
      "step": 168450
    },
    {
      "epoch": 0.8423,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00047547738693467335,
      "loss": 2.0182,
      "step": 168460
    },
    {
      "epoch": 0.84235,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004753266331658292,
      "loss": 2.1084,
      "step": 168470
    },
    {
      "epoch": 0.8424,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00047517587939698496,
      "loss": 2.0908,
      "step": 168480
    },
    {
      "epoch": 0.84245,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004750251256281407,
      "loss": 2.0498,
      "step": 168490
    },
    {
      "epoch": 0.8425,
      "grad_norm": 0.625,
      "learning_rate": 0.00047487437185929647,
      "loss": 2.0487,
      "step": 168500
    },
    {
      "epoch": 0.84255,
      "grad_norm": 0.578125,
      "learning_rate": 0.00047472361809045233,
      "loss": 2.0715,
      "step": 168510
    },
    {
      "epoch": 0.8426,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0004745728643216081,
      "loss": 2.0318,
      "step": 168520
    },
    {
      "epoch": 0.84265,
      "grad_norm": 0.609375,
      "learning_rate": 0.00047442211055276383,
      "loss": 2.0879,
      "step": 168530
    },
    {
      "epoch": 0.8427,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0004742713567839196,
      "loss": 2.0282,
      "step": 168540
    },
    {
      "epoch": 0.84275,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00047412060301507545,
      "loss": 2.1003,
      "step": 168550
    },
    {
      "epoch": 0.8428,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004739698492462312,
      "loss": 2.054,
      "step": 168560
    },
    {
      "epoch": 0.84285,
      "grad_norm": 0.609375,
      "learning_rate": 0.00047381909547738695,
      "loss": 2.0626,
      "step": 168570
    },
    {
      "epoch": 0.8429,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004736683417085427,
      "loss": 2.0476,
      "step": 168580
    },
    {
      "epoch": 0.84295,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00047351758793969857,
      "loss": 2.0903,
      "step": 168590
    },
    {
      "epoch": 0.843,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004733668341708543,
      "loss": 2.1087,
      "step": 168600
    },
    {
      "epoch": 0.84305,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00047321608040201007,
      "loss": 2.0931,
      "step": 168610
    },
    {
      "epoch": 0.8431,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004730653266331658,
      "loss": 2.0294,
      "step": 168620
    },
    {
      "epoch": 0.84315,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00047291457286432163,
      "loss": 2.1223,
      "step": 168630
    },
    {
      "epoch": 0.8432,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00047276381909547744,
      "loss": 2.0375,
      "step": 168640
    },
    {
      "epoch": 0.84325,
      "grad_norm": 0.625,
      "learning_rate": 0.0004726130653266332,
      "loss": 2.073,
      "step": 168650
    },
    {
      "epoch": 0.8433,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00047246231155778894,
      "loss": 2.0532,
      "step": 168660
    },
    {
      "epoch": 0.84335,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00047231155778894475,
      "loss": 2.0353,
      "step": 168670
    },
    {
      "epoch": 0.8434,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00047216080402010056,
      "loss": 2.0532,
      "step": 168680
    },
    {
      "epoch": 0.84345,
      "grad_norm": 0.5625,
      "learning_rate": 0.0004720100502512563,
      "loss": 2.1123,
      "step": 168690
    },
    {
      "epoch": 0.8435,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00047185929648241206,
      "loss": 2.0553,
      "step": 168700
    },
    {
      "epoch": 0.84355,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00047170854271356787,
      "loss": 2.1153,
      "step": 168710
    },
    {
      "epoch": 0.8436,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004715577889447236,
      "loss": 2.0978,
      "step": 168720
    },
    {
      "epoch": 0.84365,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00047140703517587943,
      "loss": 2.0972,
      "step": 168730
    },
    {
      "epoch": 0.8437,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004712562814070352,
      "loss": 2.0823,
      "step": 168740
    },
    {
      "epoch": 0.84375,
      "grad_norm": 0.66796875,
      "learning_rate": 0.000471105527638191,
      "loss": 2.0824,
      "step": 168750
    },
    {
      "epoch": 0.8438,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00047095477386934674,
      "loss": 2.0494,
      "step": 168760
    },
    {
      "epoch": 0.84385,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00047080402010050255,
      "loss": 2.0339,
      "step": 168770
    },
    {
      "epoch": 0.8439,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004706532663316583,
      "loss": 2.0691,
      "step": 168780
    },
    {
      "epoch": 0.84395,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00047050251256281405,
      "loss": 2.0645,
      "step": 168790
    },
    {
      "epoch": 0.844,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00047035175879396986,
      "loss": 2.1367,
      "step": 168800
    },
    {
      "epoch": 0.84405,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004702010050251256,
      "loss": 2.0811,
      "step": 168810
    },
    {
      "epoch": 0.8441,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004700502512562814,
      "loss": 2.0296,
      "step": 168820
    },
    {
      "epoch": 0.84415,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00046989949748743717,
      "loss": 2.0611,
      "step": 168830
    },
    {
      "epoch": 0.8442,
      "grad_norm": 0.625,
      "learning_rate": 0.000469748743718593,
      "loss": 2.1374,
      "step": 168840
    },
    {
      "epoch": 0.84425,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00046959798994974873,
      "loss": 2.0222,
      "step": 168850
    },
    {
      "epoch": 0.8443,
      "grad_norm": 0.609375,
      "learning_rate": 0.00046944723618090454,
      "loss": 2.0688,
      "step": 168860
    },
    {
      "epoch": 0.84435,
      "grad_norm": 0.625,
      "learning_rate": 0.0004692964824120603,
      "loss": 2.0679,
      "step": 168870
    },
    {
      "epoch": 0.8444,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004691457286432161,
      "loss": 2.0838,
      "step": 168880
    },
    {
      "epoch": 0.84445,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00046899497487437185,
      "loss": 2.0796,
      "step": 168890
    },
    {
      "epoch": 0.8445,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004688442211055276,
      "loss": 2.1117,
      "step": 168900
    },
    {
      "epoch": 0.84455,
      "grad_norm": 0.625,
      "learning_rate": 0.0004686934673366834,
      "loss": 2.0678,
      "step": 168910
    },
    {
      "epoch": 0.8446,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004685427135678392,
      "loss": 2.1692,
      "step": 168920
    },
    {
      "epoch": 0.84465,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00046839195979899497,
      "loss": 2.0618,
      "step": 168930
    },
    {
      "epoch": 0.8447,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004682412060301507,
      "loss": 2.0898,
      "step": 168940
    },
    {
      "epoch": 0.84475,
      "grad_norm": 0.65625,
      "learning_rate": 0.00046809045226130653,
      "loss": 2.0406,
      "step": 168950
    },
    {
      "epoch": 0.8448,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00046793969849246234,
      "loss": 2.1124,
      "step": 168960
    },
    {
      "epoch": 0.84485,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004677889447236181,
      "loss": 2.0554,
      "step": 168970
    },
    {
      "epoch": 0.8449,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00046763819095477384,
      "loss": 2.0994,
      "step": 168980
    },
    {
      "epoch": 0.84495,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004674874371859296,
      "loss": 2.0956,
      "step": 168990
    },
    {
      "epoch": 0.845,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00046733668341708545,
      "loss": 2.1063,
      "step": 169000
    },
    {
      "epoch": 0.84505,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004671859296482412,
      "loss": 2.0243,
      "step": 169010
    },
    {
      "epoch": 0.8451,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00046703517587939696,
      "loss": 2.0633,
      "step": 169020
    },
    {
      "epoch": 0.84515,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004668844221105527,
      "loss": 2.046,
      "step": 169030
    },
    {
      "epoch": 0.8452,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0004667336683417086,
      "loss": 2.1138,
      "step": 169040
    },
    {
      "epoch": 0.84525,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004665829145728643,
      "loss": 2.0745,
      "step": 169050
    },
    {
      "epoch": 0.8453,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0004664321608040201,
      "loss": 2.0281,
      "step": 169060
    },
    {
      "epoch": 0.84535,
      "grad_norm": 0.65625,
      "learning_rate": 0.00046628140703517583,
      "loss": 2.0464,
      "step": 169070
    },
    {
      "epoch": 0.8454,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0004661306532663317,
      "loss": 2.1053,
      "step": 169080
    },
    {
      "epoch": 0.84545,
      "grad_norm": 0.609375,
      "learning_rate": 0.00046597989949748745,
      "loss": 2.0796,
      "step": 169090
    },
    {
      "epoch": 0.8455,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004658291457286432,
      "loss": 2.0422,
      "step": 169100
    },
    {
      "epoch": 0.84555,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00046567839195979895,
      "loss": 2.1013,
      "step": 169110
    },
    {
      "epoch": 0.8456,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004655276381909548,
      "loss": 2.0521,
      "step": 169120
    },
    {
      "epoch": 0.84565,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00046537688442211056,
      "loss": 2.0727,
      "step": 169130
    },
    {
      "epoch": 0.8457,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004652261306532663,
      "loss": 2.0227,
      "step": 169140
    },
    {
      "epoch": 0.84575,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00046507537688442207,
      "loss": 2.1363,
      "step": 169150
    },
    {
      "epoch": 0.8458,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00046492462311557793,
      "loss": 2.1138,
      "step": 169160
    },
    {
      "epoch": 0.84585,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004647738693467337,
      "loss": 2.1197,
      "step": 169170
    },
    {
      "epoch": 0.8459,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00046462311557788944,
      "loss": 2.0086,
      "step": 169180
    },
    {
      "epoch": 0.84595,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004644723618090452,
      "loss": 2.0892,
      "step": 169190
    },
    {
      "epoch": 0.846,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00046432160804020105,
      "loss": 2.0713,
      "step": 169200
    },
    {
      "epoch": 0.84605,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0004641708542713568,
      "loss": 2.0969,
      "step": 169210
    },
    {
      "epoch": 0.8461,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00046402010050251255,
      "loss": 2.052,
      "step": 169220
    },
    {
      "epoch": 0.84615,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004638693467336683,
      "loss": 2.0712,
      "step": 169230
    },
    {
      "epoch": 0.8462,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00046371859296482417,
      "loss": 2.0834,
      "step": 169240
    },
    {
      "epoch": 0.84625,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004635678391959799,
      "loss": 2.0916,
      "step": 169250
    },
    {
      "epoch": 0.8463,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0004634170854271357,
      "loss": 2.0478,
      "step": 169260
    },
    {
      "epoch": 0.84635,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004632663316582914,
      "loss": 2.1066,
      "step": 169270
    },
    {
      "epoch": 0.8464,
      "grad_norm": 0.625,
      "learning_rate": 0.0004631155778894473,
      "loss": 2.0599,
      "step": 169280
    },
    {
      "epoch": 0.84645,
      "grad_norm": 0.59375,
      "learning_rate": 0.00046296482412060304,
      "loss": 2.1067,
      "step": 169290
    },
    {
      "epoch": 0.8465,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004628140703517588,
      "loss": 2.0625,
      "step": 169300
    },
    {
      "epoch": 0.84655,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00046266331658291455,
      "loss": 2.0947,
      "step": 169310
    },
    {
      "epoch": 0.8466,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0004625125628140704,
      "loss": 2.0757,
      "step": 169320
    },
    {
      "epoch": 0.84665,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00046236180904522616,
      "loss": 2.0901,
      "step": 169330
    },
    {
      "epoch": 0.8467,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004622110552763819,
      "loss": 2.0531,
      "step": 169340
    },
    {
      "epoch": 0.84675,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00046206030150753766,
      "loss": 2.0961,
      "step": 169350
    },
    {
      "epoch": 0.8468,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0004619095477386935,
      "loss": 2.0677,
      "step": 169360
    },
    {
      "epoch": 0.84685,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0004617587939698493,
      "loss": 2.0456,
      "step": 169370
    },
    {
      "epoch": 0.8469,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00046160804020100503,
      "loss": 2.128,
      "step": 169380
    },
    {
      "epoch": 0.84695,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004614572864321608,
      "loss": 2.0626,
      "step": 169390
    },
    {
      "epoch": 0.847,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00046130653266331664,
      "loss": 2.0855,
      "step": 169400
    },
    {
      "epoch": 0.84705,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004611557788944724,
      "loss": 2.0196,
      "step": 169410
    },
    {
      "epoch": 0.8471,
      "grad_norm": 0.59375,
      "learning_rate": 0.00046100502512562815,
      "loss": 2.0703,
      "step": 169420
    },
    {
      "epoch": 0.84715,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004608542713567839,
      "loss": 2.0709,
      "step": 169430
    },
    {
      "epoch": 0.8472,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00046070351758793976,
      "loss": 2.063,
      "step": 169440
    },
    {
      "epoch": 0.84725,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004605527638190955,
      "loss": 2.0057,
      "step": 169450
    },
    {
      "epoch": 0.8473,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00046040201005025127,
      "loss": 2.0593,
      "step": 169460
    },
    {
      "epoch": 0.84735,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000460251256281407,
      "loss": 1.9989,
      "step": 169470
    },
    {
      "epoch": 0.8474,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004601005025125629,
      "loss": 2.0544,
      "step": 169480
    },
    {
      "epoch": 0.84745,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00045994974874371863,
      "loss": 2.085,
      "step": 169490
    },
    {
      "epoch": 0.8475,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004597989949748744,
      "loss": 2.1124,
      "step": 169500
    },
    {
      "epoch": 0.84755,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00045964824120603014,
      "loss": 2.0316,
      "step": 169510
    },
    {
      "epoch": 0.8476,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000459497487437186,
      "loss": 2.1448,
      "step": 169520
    },
    {
      "epoch": 0.84765,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00045934673366834175,
      "loss": 2.0939,
      "step": 169530
    },
    {
      "epoch": 0.8477,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004591959798994975,
      "loss": 2.082,
      "step": 169540
    },
    {
      "epoch": 0.84775,
      "grad_norm": 0.59375,
      "learning_rate": 0.00045904522613065326,
      "loss": 2.0518,
      "step": 169550
    },
    {
      "epoch": 0.8478,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00045889447236180907,
      "loss": 2.1017,
      "step": 169560
    },
    {
      "epoch": 0.84785,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00045874371859296487,
      "loss": 2.0449,
      "step": 169570
    },
    {
      "epoch": 0.8479,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0004585929648241206,
      "loss": 2.0661,
      "step": 169580
    },
    {
      "epoch": 0.84795,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004584422110552764,
      "loss": 2.0753,
      "step": 169590
    },
    {
      "epoch": 0.848,
      "grad_norm": 0.625,
      "learning_rate": 0.0004582914572864322,
      "loss": 2.0832,
      "step": 169600
    },
    {
      "epoch": 0.84805,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000458140703517588,
      "loss": 2.0859,
      "step": 169610
    },
    {
      "epoch": 0.8481,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00045798994974874374,
      "loss": 2.0698,
      "step": 169620
    },
    {
      "epoch": 0.84815,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004578391959798995,
      "loss": 2.0929,
      "step": 169630
    },
    {
      "epoch": 0.8482,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004576884422110553,
      "loss": 2.0297,
      "step": 169640
    },
    {
      "epoch": 0.84825,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00045753768844221106,
      "loss": 2.1151,
      "step": 169650
    },
    {
      "epoch": 0.8483,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00045738693467336686,
      "loss": 2.0489,
      "step": 169660
    },
    {
      "epoch": 0.84835,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004572361809045226,
      "loss": 2.077,
      "step": 169670
    },
    {
      "epoch": 0.8484,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004570854271356784,
      "loss": 2.0615,
      "step": 169680
    },
    {
      "epoch": 0.84845,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0004569346733668342,
      "loss": 2.1547,
      "step": 169690
    },
    {
      "epoch": 0.8485,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00045678391959799,
      "loss": 2.0261,
      "step": 169700
    },
    {
      "epoch": 0.84855,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00045663316582914573,
      "loss": 2.0952,
      "step": 169710
    },
    {
      "epoch": 0.8486,
      "grad_norm": 0.59375,
      "learning_rate": 0.00045648241206030154,
      "loss": 2.0696,
      "step": 169720
    },
    {
      "epoch": 0.84865,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004563316582914573,
      "loss": 2.0629,
      "step": 169730
    },
    {
      "epoch": 0.8487,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00045618090452261305,
      "loss": 2.067,
      "step": 169740
    },
    {
      "epoch": 0.84875,
      "grad_norm": 0.65625,
      "learning_rate": 0.00045603015075376885,
      "loss": 2.067,
      "step": 169750
    },
    {
      "epoch": 0.8488,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00045587939698492466,
      "loss": 2.0754,
      "step": 169760
    },
    {
      "epoch": 0.84885,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004557286432160804,
      "loss": 2.1022,
      "step": 169770
    },
    {
      "epoch": 0.8489,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00045557788944723616,
      "loss": 2.0418,
      "step": 169780
    },
    {
      "epoch": 0.84895,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00045542713567839197,
      "loss": 2.095,
      "step": 169790
    },
    {
      "epoch": 0.849,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0004552763819095478,
      "loss": 2.075,
      "step": 169800
    },
    {
      "epoch": 0.84905,
      "grad_norm": 0.609375,
      "learning_rate": 0.00045512562814070353,
      "loss": 2.0875,
      "step": 169810
    },
    {
      "epoch": 0.8491,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004549748743718593,
      "loss": 2.0984,
      "step": 169820
    },
    {
      "epoch": 0.84915,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00045482412060301504,
      "loss": 2.0898,
      "step": 169830
    },
    {
      "epoch": 0.8492,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004546733668341709,
      "loss": 2.1199,
      "step": 169840
    },
    {
      "epoch": 0.84925,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00045452261306532665,
      "loss": 2.0705,
      "step": 169850
    },
    {
      "epoch": 0.8493,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004543718592964824,
      "loss": 2.1351,
      "step": 169860
    },
    {
      "epoch": 0.84935,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00045422110552763816,
      "loss": 2.0322,
      "step": 169870
    },
    {
      "epoch": 0.8494,
      "grad_norm": 0.74609375,
      "learning_rate": 0.000454070351758794,
      "loss": 2.1533,
      "step": 169880
    },
    {
      "epoch": 0.84945,
      "grad_norm": 0.671875,
      "learning_rate": 0.00045391959798994977,
      "loss": 2.0641,
      "step": 169890
    },
    {
      "epoch": 0.8495,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0004537688442211055,
      "loss": 2.0886,
      "step": 169900
    },
    {
      "epoch": 0.84955,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0004536180904522613,
      "loss": 2.0281,
      "step": 169910
    },
    {
      "epoch": 0.8496,
      "grad_norm": 0.609375,
      "learning_rate": 0.000453467336683417,
      "loss": 2.0768,
      "step": 169920
    },
    {
      "epoch": 0.84965,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004533165829145729,
      "loss": 2.0587,
      "step": 169930
    },
    {
      "epoch": 0.8497,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00045316582914572864,
      "loss": 2.1289,
      "step": 169940
    },
    {
      "epoch": 0.84975,
      "grad_norm": 0.625,
      "learning_rate": 0.0004530150753768844,
      "loss": 2.0326,
      "step": 169950
    },
    {
      "epoch": 0.8498,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00045286432160804015,
      "loss": 2.1118,
      "step": 169960
    },
    {
      "epoch": 0.84985,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000452713567839196,
      "loss": 2.0592,
      "step": 169970
    },
    {
      "epoch": 0.8499,
      "grad_norm": 0.578125,
      "learning_rate": 0.00045256281407035176,
      "loss": 2.1248,
      "step": 169980
    },
    {
      "epoch": 0.84995,
      "grad_norm": 0.625,
      "learning_rate": 0.0004524120603015075,
      "loss": 2.0573,
      "step": 169990
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.609375,
      "learning_rate": 0.00045226130653266326,
      "loss": 2.0799,
      "step": 170000
    },
    {
      "epoch": 0.85,
      "eval_loss": 2.075873851776123,
      "eval_runtime": 46.6298,
      "eval_samples_per_second": 53.614,
      "eval_steps_per_second": 0.107,
      "step": 170000
    },
    {
      "epoch": 0.85005,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004521105527638191,
      "loss": 2.0297,
      "step": 170010
    },
    {
      "epoch": 0.8501,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004519597989949749,
      "loss": 2.0929,
      "step": 170020
    },
    {
      "epoch": 0.85015,
      "grad_norm": 0.671875,
      "learning_rate": 0.00045180904522613063,
      "loss": 2.0399,
      "step": 170030
    },
    {
      "epoch": 0.8502,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004516582914572864,
      "loss": 2.0672,
      "step": 170040
    },
    {
      "epoch": 0.85025,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00045150753768844224,
      "loss": 2.084,
      "step": 170050
    },
    {
      "epoch": 0.8503,
      "grad_norm": 0.609375,
      "learning_rate": 0.000451356783919598,
      "loss": 2.0991,
      "step": 170060
    },
    {
      "epoch": 0.85035,
      "grad_norm": 0.546875,
      "learning_rate": 0.00045120603015075375,
      "loss": 2.1153,
      "step": 170070
    },
    {
      "epoch": 0.8504,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004510552763819095,
      "loss": 2.0728,
      "step": 170080
    },
    {
      "epoch": 0.85045,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00045090452261306536,
      "loss": 2.1188,
      "step": 170090
    },
    {
      "epoch": 0.8505,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0004507537688442211,
      "loss": 2.0649,
      "step": 170100
    },
    {
      "epoch": 0.85055,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00045060301507537687,
      "loss": 2.1152,
      "step": 170110
    },
    {
      "epoch": 0.8506,
      "grad_norm": 0.77734375,
      "learning_rate": 0.0004504522613065326,
      "loss": 2.031,
      "step": 170120
    },
    {
      "epoch": 0.85065,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0004503015075376885,
      "loss": 2.1107,
      "step": 170130
    },
    {
      "epoch": 0.8507,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00045015075376884424,
      "loss": 2.0395,
      "step": 170140
    },
    {
      "epoch": 0.85075,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00045,
      "loss": 2.0907,
      "step": 170150
    },
    {
      "epoch": 0.8508,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00044984924623115574,
      "loss": 2.0102,
      "step": 170160
    },
    {
      "epoch": 0.85085,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0004496984924623116,
      "loss": 2.1035,
      "step": 170170
    },
    {
      "epoch": 0.8509,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00044954773869346735,
      "loss": 2.0545,
      "step": 170180
    },
    {
      "epoch": 0.85095,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0004493969849246231,
      "loss": 2.1045,
      "step": 170190
    },
    {
      "epoch": 0.851,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00044924623115577886,
      "loss": 2.0829,
      "step": 170200
    },
    {
      "epoch": 0.85105,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0004490954773869347,
      "loss": 2.0795,
      "step": 170210
    },
    {
      "epoch": 0.8511,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00044894472361809047,
      "loss": 2.1134,
      "step": 170220
    },
    {
      "epoch": 0.85115,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004487939698492462,
      "loss": 2.0728,
      "step": 170230
    },
    {
      "epoch": 0.8512,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000448643216080402,
      "loss": 2.0944,
      "step": 170240
    },
    {
      "epoch": 0.85125,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00044849246231155784,
      "loss": 2.0744,
      "step": 170250
    },
    {
      "epoch": 0.8513,
      "grad_norm": 0.625,
      "learning_rate": 0.0004483417085427136,
      "loss": 2.0763,
      "step": 170260
    },
    {
      "epoch": 0.85135,
      "grad_norm": 0.59375,
      "learning_rate": 0.00044819095477386934,
      "loss": 2.0348,
      "step": 170270
    },
    {
      "epoch": 0.8514,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004480402010050251,
      "loss": 2.0872,
      "step": 170280
    },
    {
      "epoch": 0.85145,
      "grad_norm": 0.65625,
      "learning_rate": 0.00044788944723618096,
      "loss": 2.0597,
      "step": 170290
    },
    {
      "epoch": 0.8515,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004477386934673367,
      "loss": 2.1382,
      "step": 170300
    },
    {
      "epoch": 0.85155,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00044758793969849246,
      "loss": 2.0078,
      "step": 170310
    },
    {
      "epoch": 0.8516,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004474371859296482,
      "loss": 2.0625,
      "step": 170320
    },
    {
      "epoch": 0.85165,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0004472864321608041,
      "loss": 2.0308,
      "step": 170330
    },
    {
      "epoch": 0.8517,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00044713567839195983,
      "loss": 2.1252,
      "step": 170340
    },
    {
      "epoch": 0.85175,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004469849246231156,
      "loss": 2.0867,
      "step": 170350
    },
    {
      "epoch": 0.8518,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00044683417085427133,
      "loss": 2.0549,
      "step": 170360
    },
    {
      "epoch": 0.85185,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0004466834170854272,
      "loss": 2.0517,
      "step": 170370
    },
    {
      "epoch": 0.8519,
      "grad_norm": 0.59375,
      "learning_rate": 0.00044653266331658295,
      "loss": 2.0729,
      "step": 170380
    },
    {
      "epoch": 0.85195,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004463819095477387,
      "loss": 2.0386,
      "step": 170390
    },
    {
      "epoch": 0.852,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00044623115577889445,
      "loss": 2.0981,
      "step": 170400
    },
    {
      "epoch": 0.85205,
      "grad_norm": 0.625,
      "learning_rate": 0.0004460804020100503,
      "loss": 2.12,
      "step": 170410
    },
    {
      "epoch": 0.8521,
      "grad_norm": 0.578125,
      "learning_rate": 0.00044592964824120607,
      "loss": 2.0737,
      "step": 170420
    },
    {
      "epoch": 0.85215,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004457788944723618,
      "loss": 2.0933,
      "step": 170430
    },
    {
      "epoch": 0.8522,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00044562814070351757,
      "loss": 2.0509,
      "step": 170440
    },
    {
      "epoch": 0.85225,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004454773869346734,
      "loss": 2.097,
      "step": 170450
    },
    {
      "epoch": 0.8523,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004453266331658292,
      "loss": 2.0609,
      "step": 170460
    },
    {
      "epoch": 0.85235,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00044517587939698494,
      "loss": 2.0795,
      "step": 170470
    },
    {
      "epoch": 0.8524,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004450251256281407,
      "loss": 2.0524,
      "step": 170480
    },
    {
      "epoch": 0.85245,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0004448743718592965,
      "loss": 2.0812,
      "step": 170490
    },
    {
      "epoch": 0.8525,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004447236180904523,
      "loss": 2.0353,
      "step": 170500
    },
    {
      "epoch": 0.85255,
      "grad_norm": 0.59375,
      "learning_rate": 0.00044457286432160806,
      "loss": 2.0708,
      "step": 170510
    },
    {
      "epoch": 0.8526,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004444221105527638,
      "loss": 2.0485,
      "step": 170520
    },
    {
      "epoch": 0.85265,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004442713567839196,
      "loss": 2.1001,
      "step": 170530
    },
    {
      "epoch": 0.8527,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004441206030150754,
      "loss": 2.0932,
      "step": 170540
    },
    {
      "epoch": 0.85275,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004439698492462312,
      "loss": 2.0553,
      "step": 170550
    },
    {
      "epoch": 0.8528,
      "grad_norm": 0.609375,
      "learning_rate": 0.00044381909547738693,
      "loss": 2.0433,
      "step": 170560
    },
    {
      "epoch": 0.85285,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00044366834170854274,
      "loss": 2.0435,
      "step": 170570
    },
    {
      "epoch": 0.8529,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004435175879396985,
      "loss": 2.1159,
      "step": 170580
    },
    {
      "epoch": 0.85295,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004433668341708543,
      "loss": 2.1164,
      "step": 170590
    },
    {
      "epoch": 0.853,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00044321608040201005,
      "loss": 2.1293,
      "step": 170600
    },
    {
      "epoch": 0.85305,
      "grad_norm": 0.65625,
      "learning_rate": 0.00044306532663316586,
      "loss": 2.0465,
      "step": 170610
    },
    {
      "epoch": 0.8531,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0004429145728643216,
      "loss": 2.0921,
      "step": 170620
    },
    {
      "epoch": 0.85315,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004427638190954774,
      "loss": 2.0088,
      "step": 170630
    },
    {
      "epoch": 0.8532,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00044261306532663317,
      "loss": 2.1058,
      "step": 170640
    },
    {
      "epoch": 0.85325,
      "grad_norm": 0.609375,
      "learning_rate": 0.000442462311557789,
      "loss": 2.0032,
      "step": 170650
    },
    {
      "epoch": 0.8533,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0004423115577889447,
      "loss": 2.0621,
      "step": 170660
    },
    {
      "epoch": 0.85335,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004421608040201005,
      "loss": 2.0139,
      "step": 170670
    },
    {
      "epoch": 0.8534,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004420100502512563,
      "loss": 2.0749,
      "step": 170680
    },
    {
      "epoch": 0.85345,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004418592964824121,
      "loss": 2.0795,
      "step": 170690
    },
    {
      "epoch": 0.8535,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00044170854271356785,
      "loss": 2.0744,
      "step": 170700
    },
    {
      "epoch": 0.85355,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0004415577889447236,
      "loss": 2.0369,
      "step": 170710
    },
    {
      "epoch": 0.8536,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004414070351758794,
      "loss": 2.0849,
      "step": 170720
    },
    {
      "epoch": 0.85365,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004412562814070352,
      "loss": 2.0677,
      "step": 170730
    },
    {
      "epoch": 0.8537,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00044110552763819096,
      "loss": 2.046,
      "step": 170740
    },
    {
      "epoch": 0.85375,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004409547738693467,
      "loss": 2.0541,
      "step": 170750
    },
    {
      "epoch": 0.8538,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00044080402010050247,
      "loss": 2.0492,
      "step": 170760
    },
    {
      "epoch": 0.85385,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00044065326633165833,
      "loss": 2.1106,
      "step": 170770
    },
    {
      "epoch": 0.8539,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004405025125628141,
      "loss": 2.0546,
      "step": 170780
    },
    {
      "epoch": 0.85395,
      "grad_norm": 0.609375,
      "learning_rate": 0.00044035175879396984,
      "loss": 2.1,
      "step": 170790
    },
    {
      "epoch": 0.854,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004402010050251256,
      "loss": 2.0195,
      "step": 170800
    },
    {
      "epoch": 0.85405,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00044005025125628145,
      "loss": 2.1303,
      "step": 170810
    },
    {
      "epoch": 0.8541,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0004398994974874372,
      "loss": 2.0551,
      "step": 170820
    },
    {
      "epoch": 0.85415,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00043974874371859295,
      "loss": 2.1031,
      "step": 170830
    },
    {
      "epoch": 0.8542,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004395979899497487,
      "loss": 2.1253,
      "step": 170840
    },
    {
      "epoch": 0.85425,
      "grad_norm": 0.65625,
      "learning_rate": 0.00043944723618090457,
      "loss": 2.0766,
      "step": 170850
    },
    {
      "epoch": 0.8543,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004392964824120603,
      "loss": 2.1081,
      "step": 170860
    },
    {
      "epoch": 0.85435,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0004391457286432161,
      "loss": 2.0956,
      "step": 170870
    },
    {
      "epoch": 0.8544,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004389949748743718,
      "loss": 2.1246,
      "step": 170880
    },
    {
      "epoch": 0.85445,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0004388442211055277,
      "loss": 2.141,
      "step": 170890
    },
    {
      "epoch": 0.8545,
      "grad_norm": 0.609375,
      "learning_rate": 0.00043869346733668344,
      "loss": 2.0777,
      "step": 170900
    },
    {
      "epoch": 0.85455,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004385427135678392,
      "loss": 2.0679,
      "step": 170910
    },
    {
      "epoch": 0.8546,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00043839195979899495,
      "loss": 2.1272,
      "step": 170920
    },
    {
      "epoch": 0.85465,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004382412060301508,
      "loss": 2.0587,
      "step": 170930
    },
    {
      "epoch": 0.8547,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00043809045226130656,
      "loss": 2.1321,
      "step": 170940
    },
    {
      "epoch": 0.85475,
      "grad_norm": 0.703125,
      "learning_rate": 0.0004379396984924623,
      "loss": 2.1034,
      "step": 170950
    },
    {
      "epoch": 0.8548,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00043778894472361806,
      "loss": 2.1099,
      "step": 170960
    },
    {
      "epoch": 0.85485,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004376381909547739,
      "loss": 2.0128,
      "step": 170970
    },
    {
      "epoch": 0.8549,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004374874371859297,
      "loss": 2.1274,
      "step": 170980
    },
    {
      "epoch": 0.85495,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00043733668341708543,
      "loss": 2.0871,
      "step": 170990
    },
    {
      "epoch": 0.855,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004371859296482412,
      "loss": 2.1283,
      "step": 171000
    },
    {
      "epoch": 0.85505,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00043703517587939704,
      "loss": 2.1086,
      "step": 171010
    },
    {
      "epoch": 0.8551,
      "grad_norm": 0.546875,
      "learning_rate": 0.0004368844221105528,
      "loss": 2.0865,
      "step": 171020
    },
    {
      "epoch": 0.85515,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00043673366834170855,
      "loss": 2.0852,
      "step": 171030
    },
    {
      "epoch": 0.8552,
      "grad_norm": 0.5625,
      "learning_rate": 0.0004365829145728643,
      "loss": 2.0092,
      "step": 171040
    },
    {
      "epoch": 0.85525,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00043643216080402016,
      "loss": 2.0409,
      "step": 171050
    },
    {
      "epoch": 0.8553,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004362814070351759,
      "loss": 2.0804,
      "step": 171060
    },
    {
      "epoch": 0.85535,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00043613065326633167,
      "loss": 2.1014,
      "step": 171070
    },
    {
      "epoch": 0.8554,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0004359798994974874,
      "loss": 2.0969,
      "step": 171080
    },
    {
      "epoch": 0.85545,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004358291457286432,
      "loss": 2.0329,
      "step": 171090
    },
    {
      "epoch": 0.8555,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00043567839195979903,
      "loss": 2.0784,
      "step": 171100
    },
    {
      "epoch": 0.85555,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0004355276381909548,
      "loss": 2.1263,
      "step": 171110
    },
    {
      "epoch": 0.8556,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00043537688442211054,
      "loss": 2.0765,
      "step": 171120
    },
    {
      "epoch": 0.85565,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0004352261306532663,
      "loss": 2.1123,
      "step": 171130
    },
    {
      "epoch": 0.8557,
      "grad_norm": 0.671875,
      "learning_rate": 0.00043507537688442215,
      "loss": 2.0874,
      "step": 171140
    },
    {
      "epoch": 0.85575,
      "grad_norm": 0.625,
      "learning_rate": 0.0004349246231155779,
      "loss": 2.107,
      "step": 171150
    },
    {
      "epoch": 0.8558,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00043477386934673366,
      "loss": 2.0812,
      "step": 171160
    },
    {
      "epoch": 0.85585,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004346231155778894,
      "loss": 2.0798,
      "step": 171170
    },
    {
      "epoch": 0.8559,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00043447236180904527,
      "loss": 2.1071,
      "step": 171180
    },
    {
      "epoch": 0.85595,
      "grad_norm": 0.6796875,
      "learning_rate": 0.000434321608040201,
      "loss": 2.0905,
      "step": 171190
    },
    {
      "epoch": 0.856,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004341708542713568,
      "loss": 2.09,
      "step": 171200
    },
    {
      "epoch": 0.85605,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00043402010050251253,
      "loss": 2.0826,
      "step": 171210
    },
    {
      "epoch": 0.8561,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004338693467336684,
      "loss": 2.1146,
      "step": 171220
    },
    {
      "epoch": 0.85615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00043371859296482414,
      "loss": 2.048,
      "step": 171230
    },
    {
      "epoch": 0.8562,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004335678391959799,
      "loss": 2.0823,
      "step": 171240
    },
    {
      "epoch": 0.85625,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00043341708542713565,
      "loss": 2.0647,
      "step": 171250
    },
    {
      "epoch": 0.8563,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004332663316582915,
      "loss": 2.0725,
      "step": 171260
    },
    {
      "epoch": 0.85635,
      "grad_norm": 0.640625,
      "learning_rate": 0.00043311557788944726,
      "loss": 2.0464,
      "step": 171270
    },
    {
      "epoch": 0.8564,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000432964824120603,
      "loss": 2.0741,
      "step": 171280
    },
    {
      "epoch": 0.85645,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00043281407035175877,
      "loss": 2.0703,
      "step": 171290
    },
    {
      "epoch": 0.8565,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00043266331658291463,
      "loss": 2.0248,
      "step": 171300
    },
    {
      "epoch": 0.85655,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0004325125628140704,
      "loss": 2.0946,
      "step": 171310
    },
    {
      "epoch": 0.8566,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00043236180904522613,
      "loss": 2.0606,
      "step": 171320
    },
    {
      "epoch": 0.85665,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004322110552763819,
      "loss": 2.1055,
      "step": 171330
    },
    {
      "epoch": 0.8567,
      "grad_norm": 0.640625,
      "learning_rate": 0.00043206030150753775,
      "loss": 2.0769,
      "step": 171340
    },
    {
      "epoch": 0.85675,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004319095477386935,
      "loss": 2.0904,
      "step": 171350
    },
    {
      "epoch": 0.8568,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00043175879396984925,
      "loss": 2.042,
      "step": 171360
    },
    {
      "epoch": 0.85685,
      "grad_norm": 0.66796875,
      "learning_rate": 0.000431608040201005,
      "loss": 2.0872,
      "step": 171370
    },
    {
      "epoch": 0.8569,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0004314572864321608,
      "loss": 2.0814,
      "step": 171380
    },
    {
      "epoch": 0.85695,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004313065326633166,
      "loss": 2.1114,
      "step": 171390
    },
    {
      "epoch": 0.857,
      "grad_norm": 0.640625,
      "learning_rate": 0.00043115577889447237,
      "loss": 2.0714,
      "step": 171400
    },
    {
      "epoch": 0.85705,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004310050251256281,
      "loss": 2.0819,
      "step": 171410
    },
    {
      "epoch": 0.8571,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00043085427135678393,
      "loss": 2.068,
      "step": 171420
    },
    {
      "epoch": 0.85715,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00043070351758793974,
      "loss": 2.0839,
      "step": 171430
    },
    {
      "epoch": 0.8572,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004305527638190955,
      "loss": 2.1399,
      "step": 171440
    },
    {
      "epoch": 0.85725,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00043040201005025124,
      "loss": 2.0874,
      "step": 171450
    },
    {
      "epoch": 0.8573,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00043025125628140705,
      "loss": 2.1473,
      "step": 171460
    },
    {
      "epoch": 0.85735,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00043010050251256286,
      "loss": 2.07,
      "step": 171470
    },
    {
      "epoch": 0.8574,
      "grad_norm": 0.640625,
      "learning_rate": 0.0004299497487437186,
      "loss": 2.1271,
      "step": 171480
    },
    {
      "epoch": 0.85745,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00042979899497487436,
      "loss": 2.0568,
      "step": 171490
    },
    {
      "epoch": 0.8575,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00042964824120603017,
      "loss": 2.0485,
      "step": 171500
    },
    {
      "epoch": 0.85755,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004294974874371859,
      "loss": 2.0912,
      "step": 171510
    },
    {
      "epoch": 0.8576,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00042934673366834173,
      "loss": 2.0498,
      "step": 171520
    },
    {
      "epoch": 0.85765,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004291959798994975,
      "loss": 2.089,
      "step": 171530
    },
    {
      "epoch": 0.8577,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004290452261306533,
      "loss": 2.0303,
      "step": 171540
    },
    {
      "epoch": 0.85775,
      "grad_norm": 0.625,
      "learning_rate": 0.00042889447236180904,
      "loss": 2.0788,
      "step": 171550
    },
    {
      "epoch": 0.8578,
      "grad_norm": 0.640625,
      "learning_rate": 0.00042874371859296485,
      "loss": 2.0389,
      "step": 171560
    },
    {
      "epoch": 0.85785,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004285929648241206,
      "loss": 2.1285,
      "step": 171570
    },
    {
      "epoch": 0.8579,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004284422110552764,
      "loss": 2.0892,
      "step": 171580
    },
    {
      "epoch": 0.85795,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00042829145728643216,
      "loss": 2.0939,
      "step": 171590
    },
    {
      "epoch": 0.858,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004281407035175879,
      "loss": 2.079,
      "step": 171600
    },
    {
      "epoch": 0.85805,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004279899497487437,
      "loss": 2.0739,
      "step": 171610
    },
    {
      "epoch": 0.8581,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004278391959798995,
      "loss": 2.0444,
      "step": 171620
    },
    {
      "epoch": 0.85815,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004276884422110553,
      "loss": 2.0944,
      "step": 171630
    },
    {
      "epoch": 0.8582,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00042753768844221103,
      "loss": 2.058,
      "step": 171640
    },
    {
      "epoch": 0.85825,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00042738693467336684,
      "loss": 2.1225,
      "step": 171650
    },
    {
      "epoch": 0.8583,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00042723618090452264,
      "loss": 2.0994,
      "step": 171660
    },
    {
      "epoch": 0.85835,
      "grad_norm": 0.625,
      "learning_rate": 0.0004270854271356784,
      "loss": 2.0538,
      "step": 171670
    },
    {
      "epoch": 0.8584,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00042693467336683415,
      "loss": 2.1055,
      "step": 171680
    },
    {
      "epoch": 0.85845,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004267839195979899,
      "loss": 2.0911,
      "step": 171690
    },
    {
      "epoch": 0.8585,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00042663316582914576,
      "loss": 2.1135,
      "step": 171700
    },
    {
      "epoch": 0.85855,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004264824120603015,
      "loss": 2.009,
      "step": 171710
    },
    {
      "epoch": 0.8586,
      "grad_norm": 0.625,
      "learning_rate": 0.00042633165829145727,
      "loss": 2.1095,
      "step": 171720
    },
    {
      "epoch": 0.85865,
      "grad_norm": 0.609375,
      "learning_rate": 0.000426180904522613,
      "loss": 2.0793,
      "step": 171730
    },
    {
      "epoch": 0.8587,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004260301507537689,
      "loss": 2.1142,
      "step": 171740
    },
    {
      "epoch": 0.85875,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00042587939698492464,
      "loss": 2.0482,
      "step": 171750
    },
    {
      "epoch": 0.8588,
      "grad_norm": 0.5078125,
      "learning_rate": 0.0004257286432160804,
      "loss": 2.1053,
      "step": 171760
    },
    {
      "epoch": 0.85885,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00042557788944723614,
      "loss": 2.0551,
      "step": 171770
    },
    {
      "epoch": 0.8589,
      "grad_norm": 0.625,
      "learning_rate": 0.000425427135678392,
      "loss": 2.0718,
      "step": 171780
    },
    {
      "epoch": 0.85895,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00042527638190954775,
      "loss": 2.1197,
      "step": 171790
    },
    {
      "epoch": 0.859,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004251256281407035,
      "loss": 2.068,
      "step": 171800
    },
    {
      "epoch": 0.85905,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00042497487437185926,
      "loss": 2.1192,
      "step": 171810
    },
    {
      "epoch": 0.8591,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0004248241206030151,
      "loss": 2.0455,
      "step": 171820
    },
    {
      "epoch": 0.85915,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004246733668341709,
      "loss": 2.1148,
      "step": 171830
    },
    {
      "epoch": 0.8592,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004245226130653266,
      "loss": 2.0404,
      "step": 171840
    },
    {
      "epoch": 0.85925,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0004243718592964824,
      "loss": 2.1545,
      "step": 171850
    },
    {
      "epoch": 0.8593,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00042422110552763824,
      "loss": 2.0446,
      "step": 171860
    },
    {
      "epoch": 0.85935,
      "grad_norm": 0.546875,
      "learning_rate": 0.000424070351758794,
      "loss": 2.0623,
      "step": 171870
    },
    {
      "epoch": 0.8594,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00042391959798994974,
      "loss": 2.0784,
      "step": 171880
    },
    {
      "epoch": 0.85945,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004237688442211055,
      "loss": 2.0867,
      "step": 171890
    },
    {
      "epoch": 0.8595,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00042361809045226136,
      "loss": 2.0717,
      "step": 171900
    },
    {
      "epoch": 0.85955,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004234673366834171,
      "loss": 2.0702,
      "step": 171910
    },
    {
      "epoch": 0.8596,
      "grad_norm": 0.625,
      "learning_rate": 0.00042331658291457286,
      "loss": 2.0972,
      "step": 171920
    },
    {
      "epoch": 0.85965,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004231658291457286,
      "loss": 2.0429,
      "step": 171930
    },
    {
      "epoch": 0.8597,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004230150753768845,
      "loss": 2.1193,
      "step": 171940
    },
    {
      "epoch": 0.85975,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00042286432160804023,
      "loss": 2.0781,
      "step": 171950
    },
    {
      "epoch": 0.8598,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000422713567839196,
      "loss": 2.0608,
      "step": 171960
    },
    {
      "epoch": 0.85985,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00042256281407035173,
      "loss": 2.0927,
      "step": 171970
    },
    {
      "epoch": 0.8599,
      "grad_norm": 0.5625,
      "learning_rate": 0.0004224120603015076,
      "loss": 2.1038,
      "step": 171980
    },
    {
      "epoch": 0.85995,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00042226130653266335,
      "loss": 2.0888,
      "step": 171990
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004221105527638191,
      "loss": 2.0396,
      "step": 172000
    },
    {
      "epoch": 0.86,
      "eval_loss": 2.0746428966522217,
      "eval_runtime": 47.2843,
      "eval_samples_per_second": 52.872,
      "eval_steps_per_second": 0.106,
      "step": 172000
    },
    {
      "epoch": 0.86005,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00042195979899497485,
      "loss": 2.1072,
      "step": 172010
    },
    {
      "epoch": 0.8601,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004218090452261307,
      "loss": 2.1037,
      "step": 172020
    },
    {
      "epoch": 0.86015,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00042165829145728647,
      "loss": 2.12,
      "step": 172030
    },
    {
      "epoch": 0.8602,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004215075376884422,
      "loss": 2.0518,
      "step": 172040
    },
    {
      "epoch": 0.86025,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00042135678391959797,
      "loss": 2.125,
      "step": 172050
    },
    {
      "epoch": 0.8603,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00042120603015075383,
      "loss": 2.0602,
      "step": 172060
    },
    {
      "epoch": 0.86035,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004210552763819096,
      "loss": 2.102,
      "step": 172070
    },
    {
      "epoch": 0.8604,
      "grad_norm": 0.640625,
      "learning_rate": 0.00042090452261306534,
      "loss": 2.0532,
      "step": 172080
    },
    {
      "epoch": 0.86045,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004207537688442211,
      "loss": 2.0736,
      "step": 172090
    },
    {
      "epoch": 0.8605,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00042060301507537695,
      "loss": 2.0839,
      "step": 172100
    },
    {
      "epoch": 0.86055,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004204522613065327,
      "loss": 2.0447,
      "step": 172110
    },
    {
      "epoch": 0.8606,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00042030150753768846,
      "loss": 2.1366,
      "step": 172120
    },
    {
      "epoch": 0.86065,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004201507537688442,
      "loss": 2.0595,
      "step": 172130
    },
    {
      "epoch": 0.8607,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00042000000000000007,
      "loss": 2.0934,
      "step": 172140
    },
    {
      "epoch": 0.86075,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004198492462311558,
      "loss": 2.0424,
      "step": 172150
    },
    {
      "epoch": 0.8608,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0004196984924623116,
      "loss": 2.0689,
      "step": 172160
    },
    {
      "epoch": 0.86085,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00041954773869346733,
      "loss": 2.0721,
      "step": 172170
    },
    {
      "epoch": 0.8609,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0004193969849246232,
      "loss": 2.0534,
      "step": 172180
    },
    {
      "epoch": 0.86095,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00041924623115577894,
      "loss": 2.0812,
      "step": 172190
    },
    {
      "epoch": 0.861,
      "grad_norm": 0.625,
      "learning_rate": 0.0004190954773869347,
      "loss": 2.0434,
      "step": 172200
    },
    {
      "epoch": 0.86105,
      "grad_norm": 0.65625,
      "learning_rate": 0.00041894472361809045,
      "loss": 2.0863,
      "step": 172210
    },
    {
      "epoch": 0.8611,
      "grad_norm": 0.59375,
      "learning_rate": 0.00041879396984924626,
      "loss": 2.0774,
      "step": 172220
    },
    {
      "epoch": 0.86115,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00041864321608040206,
      "loss": 2.0976,
      "step": 172230
    },
    {
      "epoch": 0.8612,
      "grad_norm": 0.625,
      "learning_rate": 0.0004184924623115578,
      "loss": 2.0326,
      "step": 172240
    },
    {
      "epoch": 0.86125,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00041834170854271357,
      "loss": 2.1147,
      "step": 172250
    },
    {
      "epoch": 0.8613,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004181909547738693,
      "loss": 2.046,
      "step": 172260
    },
    {
      "epoch": 0.86135,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004180402010050252,
      "loss": 2.1527,
      "step": 172270
    },
    {
      "epoch": 0.8614,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00041788944723618093,
      "loss": 2.0634,
      "step": 172280
    },
    {
      "epoch": 0.86145,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0004177386934673367,
      "loss": 2.0573,
      "step": 172290
    },
    {
      "epoch": 0.8615,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00041758793969849244,
      "loss": 2.0985,
      "step": 172300
    },
    {
      "epoch": 0.86155,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00041743718592964825,
      "loss": 2.0989,
      "step": 172310
    },
    {
      "epoch": 0.8616,
      "grad_norm": 0.625,
      "learning_rate": 0.00041728643216080405,
      "loss": 2.0981,
      "step": 172320
    },
    {
      "epoch": 0.86165,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004171356783919598,
      "loss": 2.0974,
      "step": 172330
    },
    {
      "epoch": 0.8617,
      "grad_norm": 0.625,
      "learning_rate": 0.00041698492462311556,
      "loss": 2.0598,
      "step": 172340
    },
    {
      "epoch": 0.86175,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00041683417085427136,
      "loss": 2.0859,
      "step": 172350
    },
    {
      "epoch": 0.8618,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00041668341708542717,
      "loss": 2.0359,
      "step": 172360
    },
    {
      "epoch": 0.86185,
      "grad_norm": 0.671875,
      "learning_rate": 0.0004165326633165829,
      "loss": 2.0838,
      "step": 172370
    },
    {
      "epoch": 0.8619,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004163819095477387,
      "loss": 2.0894,
      "step": 172380
    },
    {
      "epoch": 0.86195,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004162311557788945,
      "loss": 2.1088,
      "step": 172390
    },
    {
      "epoch": 0.862,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00041608040201005024,
      "loss": 2.0034,
      "step": 172400
    },
    {
      "epoch": 0.86205,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00041592964824120604,
      "loss": 2.0576,
      "step": 172410
    },
    {
      "epoch": 0.8621,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004157788944723618,
      "loss": 2.0934,
      "step": 172420
    },
    {
      "epoch": 0.86215,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0004156281407035176,
      "loss": 2.1143,
      "step": 172430
    },
    {
      "epoch": 0.8622,
      "grad_norm": 0.625,
      "learning_rate": 0.00041547738693467335,
      "loss": 2.1005,
      "step": 172440
    },
    {
      "epoch": 0.86225,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00041532663316582916,
      "loss": 2.0503,
      "step": 172450
    },
    {
      "epoch": 0.8623,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004151758793969849,
      "loss": 2.1069,
      "step": 172460
    },
    {
      "epoch": 0.86235,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0004150251256281407,
      "loss": 2.0754,
      "step": 172470
    },
    {
      "epoch": 0.8624,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0004148743718592965,
      "loss": 2.1262,
      "step": 172480
    },
    {
      "epoch": 0.86245,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0004147236180904523,
      "loss": 2.0285,
      "step": 172490
    },
    {
      "epoch": 0.8625,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00041457286432160803,
      "loss": 2.0952,
      "step": 172500
    },
    {
      "epoch": 0.86255,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00041442211055276384,
      "loss": 2.1005,
      "step": 172510
    },
    {
      "epoch": 0.8626,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004142713567839196,
      "loss": 2.1282,
      "step": 172520
    },
    {
      "epoch": 0.86265,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00041412060301507535,
      "loss": 2.0368,
      "step": 172530
    },
    {
      "epoch": 0.8627,
      "grad_norm": 0.640625,
      "learning_rate": 0.00041396984924623115,
      "loss": 2.0798,
      "step": 172540
    },
    {
      "epoch": 0.86275,
      "grad_norm": 0.640625,
      "learning_rate": 0.00041381909547738696,
      "loss": 2.0404,
      "step": 172550
    },
    {
      "epoch": 0.8628,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004136683417085427,
      "loss": 2.1099,
      "step": 172560
    },
    {
      "epoch": 0.86285,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00041351758793969846,
      "loss": 2.0781,
      "step": 172570
    },
    {
      "epoch": 0.8629,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00041336683417085427,
      "loss": 2.0405,
      "step": 172580
    },
    {
      "epoch": 0.86295,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004132160804020101,
      "loss": 2.0941,
      "step": 172590
    },
    {
      "epoch": 0.863,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00041306532663316583,
      "loss": 2.0679,
      "step": 172600
    },
    {
      "epoch": 0.86305,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0004129145728643216,
      "loss": 2.0754,
      "step": 172610
    },
    {
      "epoch": 0.8631,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00041276381909547734,
      "loss": 2.0895,
      "step": 172620
    },
    {
      "epoch": 0.86315,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0004126130653266332,
      "loss": 2.0289,
      "step": 172630
    },
    {
      "epoch": 0.8632,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00041246231155778895,
      "loss": 2.0754,
      "step": 172640
    },
    {
      "epoch": 0.86325,
      "grad_norm": 0.578125,
      "learning_rate": 0.0004123115577889447,
      "loss": 2.1127,
      "step": 172650
    },
    {
      "epoch": 0.8633,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00041216080402010045,
      "loss": 2.0774,
      "step": 172660
    },
    {
      "epoch": 0.86335,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004120100502512563,
      "loss": 2.0348,
      "step": 172670
    },
    {
      "epoch": 0.8634,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00041185929648241207,
      "loss": 2.1181,
      "step": 172680
    },
    {
      "epoch": 0.86345,
      "grad_norm": 0.75,
      "learning_rate": 0.0004117085427135678,
      "loss": 2.0199,
      "step": 172690
    },
    {
      "epoch": 0.8635,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004115577889447236,
      "loss": 2.1221,
      "step": 172700
    },
    {
      "epoch": 0.86355,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00041140703517587943,
      "loss": 2.0212,
      "step": 172710
    },
    {
      "epoch": 0.8636,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004112562814070352,
      "loss": 2.0472,
      "step": 172720
    },
    {
      "epoch": 0.86365,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00041110552763819094,
      "loss": 2.1172,
      "step": 172730
    },
    {
      "epoch": 0.8637,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004109547738693467,
      "loss": 2.0529,
      "step": 172740
    },
    {
      "epoch": 0.86375,
      "grad_norm": 0.59375,
      "learning_rate": 0.00041080402010050255,
      "loss": 2.1,
      "step": 172750
    },
    {
      "epoch": 0.8638,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0004106532663316583,
      "loss": 1.9807,
      "step": 172760
    },
    {
      "epoch": 0.86385,
      "grad_norm": 0.578125,
      "learning_rate": 0.00041050251256281406,
      "loss": 2.0707,
      "step": 172770
    },
    {
      "epoch": 0.8639,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0004103517587939698,
      "loss": 2.0904,
      "step": 172780
    },
    {
      "epoch": 0.86395,
      "grad_norm": 0.609375,
      "learning_rate": 0.00041020100502512567,
      "loss": 2.1161,
      "step": 172790
    },
    {
      "epoch": 0.864,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0004100502512562814,
      "loss": 2.0778,
      "step": 172800
    },
    {
      "epoch": 0.86405,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0004098994974874372,
      "loss": 2.0496,
      "step": 172810
    },
    {
      "epoch": 0.8641,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00040974874371859293,
      "loss": 2.0863,
      "step": 172820
    },
    {
      "epoch": 0.86415,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0004095979899497488,
      "loss": 2.0482,
      "step": 172830
    },
    {
      "epoch": 0.8642,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00040944723618090454,
      "loss": 2.0863,
      "step": 172840
    },
    {
      "epoch": 0.86425,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004092964824120603,
      "loss": 2.09,
      "step": 172850
    },
    {
      "epoch": 0.8643,
      "grad_norm": 0.578125,
      "learning_rate": 0.00040914572864321605,
      "loss": 2.1,
      "step": 172860
    },
    {
      "epoch": 0.86435,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0004089949748743719,
      "loss": 2.0955,
      "step": 172870
    },
    {
      "epoch": 0.8644,
      "grad_norm": 0.625,
      "learning_rate": 0.00040884422110552766,
      "loss": 2.1504,
      "step": 172880
    },
    {
      "epoch": 0.86445,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0004086934673366834,
      "loss": 2.0577,
      "step": 172890
    },
    {
      "epoch": 0.8645,
      "grad_norm": 0.578125,
      "learning_rate": 0.00040854271356783917,
      "loss": 2.0583,
      "step": 172900
    },
    {
      "epoch": 0.86455,
      "grad_norm": 0.640625,
      "learning_rate": 0.00040839195979899503,
      "loss": 2.1166,
      "step": 172910
    },
    {
      "epoch": 0.8646,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004082412060301508,
      "loss": 2.0693,
      "step": 172920
    },
    {
      "epoch": 0.86465,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00040809045226130653,
      "loss": 2.0789,
      "step": 172930
    },
    {
      "epoch": 0.8647,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004079396984924623,
      "loss": 2.0808,
      "step": 172940
    },
    {
      "epoch": 0.86475,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00040778894472361815,
      "loss": 2.1279,
      "step": 172950
    },
    {
      "epoch": 0.8648,
      "grad_norm": 0.609375,
      "learning_rate": 0.0004076381909547739,
      "loss": 2.0802,
      "step": 172960
    },
    {
      "epoch": 0.86485,
      "grad_norm": 0.578125,
      "learning_rate": 0.00040748743718592965,
      "loss": 2.1248,
      "step": 172970
    },
    {
      "epoch": 0.8649,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0004073366834170854,
      "loss": 2.1004,
      "step": 172980
    },
    {
      "epoch": 0.86495,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00040718592964824127,
      "loss": 1.9987,
      "step": 172990
    },
    {
      "epoch": 0.865,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000407035175879397,
      "loss": 2.1458,
      "step": 173000
    },
    {
      "epoch": 0.86505,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00040688442211055277,
      "loss": 2.0621,
      "step": 173010
    },
    {
      "epoch": 0.8651,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004067336683417085,
      "loss": 2.159,
      "step": 173020
    },
    {
      "epoch": 0.86515,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0004065829145728644,
      "loss": 2.063,
      "step": 173030
    },
    {
      "epoch": 0.8652,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00040643216080402014,
      "loss": 2.0989,
      "step": 173040
    },
    {
      "epoch": 0.86525,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004062814070351759,
      "loss": 2.0408,
      "step": 173050
    },
    {
      "epoch": 0.8653,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00040613065326633164,
      "loss": 2.0636,
      "step": 173060
    },
    {
      "epoch": 0.86535,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0004059798994974875,
      "loss": 2.0402,
      "step": 173070
    },
    {
      "epoch": 0.8654,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00040582914572864326,
      "loss": 2.1144,
      "step": 173080
    },
    {
      "epoch": 0.86545,
      "grad_norm": 0.59375,
      "learning_rate": 0.000405678391959799,
      "loss": 2.1349,
      "step": 173090
    },
    {
      "epoch": 0.8655,
      "grad_norm": 0.59375,
      "learning_rate": 0.00040552763819095476,
      "loss": 2.0243,
      "step": 173100
    },
    {
      "epoch": 0.86555,
      "grad_norm": 0.71875,
      "learning_rate": 0.0004053768844221106,
      "loss": 2.1254,
      "step": 173110
    },
    {
      "epoch": 0.8656,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0004052261306532664,
      "loss": 2.088,
      "step": 173120
    },
    {
      "epoch": 0.86565,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00040507537688442213,
      "loss": 2.1293,
      "step": 173130
    },
    {
      "epoch": 0.8657,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004049246231155779,
      "loss": 2.0688,
      "step": 173140
    },
    {
      "epoch": 0.86575,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0004047738693467337,
      "loss": 2.1232,
      "step": 173150
    },
    {
      "epoch": 0.8658,
      "grad_norm": 0.65625,
      "learning_rate": 0.0004046231155778895,
      "loss": 2.0659,
      "step": 173160
    },
    {
      "epoch": 0.86585,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00040447236180904525,
      "loss": 2.0796,
      "step": 173170
    },
    {
      "epoch": 0.8659,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000404321608040201,
      "loss": 2.0838,
      "step": 173180
    },
    {
      "epoch": 0.86595,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004041708542713568,
      "loss": 2.0823,
      "step": 173190
    },
    {
      "epoch": 0.866,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004040201005025126,
      "loss": 2.0808,
      "step": 173200
    },
    {
      "epoch": 0.86605,
      "grad_norm": 0.703125,
      "learning_rate": 0.00040386934673366837,
      "loss": 2.0551,
      "step": 173210
    },
    {
      "epoch": 0.8661,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004037185929648241,
      "loss": 2.0892,
      "step": 173220
    },
    {
      "epoch": 0.86615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0004035678391959799,
      "loss": 2.0939,
      "step": 173230
    },
    {
      "epoch": 0.8662,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0004034170854271357,
      "loss": 2.0514,
      "step": 173240
    },
    {
      "epoch": 0.86625,
      "grad_norm": 0.59375,
      "learning_rate": 0.0004032663316582915,
      "loss": 2.1073,
      "step": 173250
    },
    {
      "epoch": 0.8663,
      "grad_norm": 0.625,
      "learning_rate": 0.00040311557788944724,
      "loss": 2.0995,
      "step": 173260
    },
    {
      "epoch": 0.86635,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00040296482412060305,
      "loss": 2.1116,
      "step": 173270
    },
    {
      "epoch": 0.8664,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0004028140703517588,
      "loss": 2.0694,
      "step": 173280
    },
    {
      "epoch": 0.86645,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0004026633165829146,
      "loss": 2.0714,
      "step": 173290
    },
    {
      "epoch": 0.8665,
      "grad_norm": 0.609375,
      "learning_rate": 0.00040251256281407036,
      "loss": 2.0778,
      "step": 173300
    },
    {
      "epoch": 0.86655,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00040236180904522616,
      "loss": 2.0634,
      "step": 173310
    },
    {
      "epoch": 0.8666,
      "grad_norm": 0.703125,
      "learning_rate": 0.0004022110552763819,
      "loss": 2.0938,
      "step": 173320
    },
    {
      "epoch": 0.86665,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00040206030150753767,
      "loss": 2.0515,
      "step": 173330
    },
    {
      "epoch": 0.8667,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0004019095477386935,
      "loss": 2.1224,
      "step": 173340
    },
    {
      "epoch": 0.86675,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0004017587939698493,
      "loss": 2.0707,
      "step": 173350
    },
    {
      "epoch": 0.8668,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00040160804020100504,
      "loss": 2.1104,
      "step": 173360
    },
    {
      "epoch": 0.86685,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004014572864321608,
      "loss": 2.06,
      "step": 173370
    },
    {
      "epoch": 0.8669,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0004013065326633166,
      "loss": 2.0761,
      "step": 173380
    },
    {
      "epoch": 0.86695,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00040115577889447235,
      "loss": 2.0832,
      "step": 173390
    },
    {
      "epoch": 0.867,
      "grad_norm": 0.578125,
      "learning_rate": 0.00040100502512562815,
      "loss": 2.059,
      "step": 173400
    },
    {
      "epoch": 0.86705,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0004008542713567839,
      "loss": 2.0934,
      "step": 173410
    },
    {
      "epoch": 0.8671,
      "grad_norm": 0.671875,
      "learning_rate": 0.00040070351758793966,
      "loss": 2.0668,
      "step": 173420
    },
    {
      "epoch": 0.86715,
      "grad_norm": 0.609375,
      "learning_rate": 0.00040055276381909547,
      "loss": 2.0841,
      "step": 173430
    },
    {
      "epoch": 0.8672,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0004004020100502513,
      "loss": 2.0435,
      "step": 173440
    },
    {
      "epoch": 0.86725,
      "grad_norm": 0.65625,
      "learning_rate": 0.000400251256281407,
      "loss": 2.0941,
      "step": 173450
    },
    {
      "epoch": 0.8673,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0004001005025125628,
      "loss": 2.0857,
      "step": 173460
    },
    {
      "epoch": 0.86735,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003999497487437186,
      "loss": 2.1421,
      "step": 173470
    },
    {
      "epoch": 0.8674,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0003997989949748744,
      "loss": 2.0614,
      "step": 173480
    },
    {
      "epoch": 0.86745,
      "grad_norm": 0.609375,
      "learning_rate": 0.00039964824120603014,
      "loss": 2.0666,
      "step": 173490
    },
    {
      "epoch": 0.8675,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003994974874371859,
      "loss": 2.0775,
      "step": 173500
    },
    {
      "epoch": 0.86755,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003993467336683417,
      "loss": 2.0118,
      "step": 173510
    },
    {
      "epoch": 0.8676,
      "grad_norm": 0.578125,
      "learning_rate": 0.0003991959798994975,
      "loss": 2.0728,
      "step": 173520
    },
    {
      "epoch": 0.86765,
      "grad_norm": 0.609375,
      "learning_rate": 0.00039904522613065326,
      "loss": 2.0671,
      "step": 173530
    },
    {
      "epoch": 0.8677,
      "grad_norm": 0.5546875,
      "learning_rate": 0.000398894472361809,
      "loss": 2.0968,
      "step": 173540
    },
    {
      "epoch": 0.86775,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00039874371859296477,
      "loss": 2.0796,
      "step": 173550
    },
    {
      "epoch": 0.8678,
      "grad_norm": 0.6875,
      "learning_rate": 0.00039859296482412063,
      "loss": 2.0878,
      "step": 173560
    },
    {
      "epoch": 0.86785,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003984422110552764,
      "loss": 2.0421,
      "step": 173570
    },
    {
      "epoch": 0.8679,
      "grad_norm": 0.609375,
      "learning_rate": 0.00039829145728643214,
      "loss": 2.1102,
      "step": 173580
    },
    {
      "epoch": 0.86795,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003981407035175879,
      "loss": 2.0786,
      "step": 173590
    },
    {
      "epoch": 0.868,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00039798994974874375,
      "loss": 2.0461,
      "step": 173600
    },
    {
      "epoch": 0.86805,
      "grad_norm": 0.546875,
      "learning_rate": 0.0003978391959798995,
      "loss": 2.0468,
      "step": 173610
    },
    {
      "epoch": 0.8681,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00039768844221105525,
      "loss": 2.101,
      "step": 173620
    },
    {
      "epoch": 0.86815,
      "grad_norm": 0.53125,
      "learning_rate": 0.000397537688442211,
      "loss": 2.0747,
      "step": 173630
    },
    {
      "epoch": 0.8682,
      "grad_norm": 0.59375,
      "learning_rate": 0.00039738693467336687,
      "loss": 2.0731,
      "step": 173640
    },
    {
      "epoch": 0.86825,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0003972361809045226,
      "loss": 2.0501,
      "step": 173650
    },
    {
      "epoch": 0.8683,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0003970854271356784,
      "loss": 2.0997,
      "step": 173660
    },
    {
      "epoch": 0.86835,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003969346733668341,
      "loss": 2.0614,
      "step": 173670
    },
    {
      "epoch": 0.8684,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00039678391959799,
      "loss": 2.0805,
      "step": 173680
    },
    {
      "epoch": 0.86845,
      "grad_norm": 0.59375,
      "learning_rate": 0.00039663316582914574,
      "loss": 2.0721,
      "step": 173690
    },
    {
      "epoch": 0.8685,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003964824120603015,
      "loss": 2.0828,
      "step": 173700
    },
    {
      "epoch": 0.86855,
      "grad_norm": 0.609375,
      "learning_rate": 0.00039633165829145724,
      "loss": 2.0684,
      "step": 173710
    },
    {
      "epoch": 0.8686,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003961809045226131,
      "loss": 2.0247,
      "step": 173720
    },
    {
      "epoch": 0.86865,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00039603015075376886,
      "loss": 2.133,
      "step": 173730
    },
    {
      "epoch": 0.8687,
      "grad_norm": 0.7265625,
      "learning_rate": 0.0003958793969849246,
      "loss": 2.0453,
      "step": 173740
    },
    {
      "epoch": 0.86875,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00039572864321608036,
      "loss": 2.0927,
      "step": 173750
    },
    {
      "epoch": 0.8688,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003955778894472362,
      "loss": 2.1341,
      "step": 173760
    },
    {
      "epoch": 0.86885,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000395427135678392,
      "loss": 2.0344,
      "step": 173770
    },
    {
      "epoch": 0.8689,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00039527638190954773,
      "loss": 2.124,
      "step": 173780
    },
    {
      "epoch": 0.86895,
      "grad_norm": 0.625,
      "learning_rate": 0.0003951256281407035,
      "loss": 2.0315,
      "step": 173790
    },
    {
      "epoch": 0.869,
      "grad_norm": 0.5625,
      "learning_rate": 0.00039497487437185934,
      "loss": 2.1174,
      "step": 173800
    },
    {
      "epoch": 0.86905,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003948241206030151,
      "loss": 2.0772,
      "step": 173810
    },
    {
      "epoch": 0.8691,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00039467336683417085,
      "loss": 2.0983,
      "step": 173820
    },
    {
      "epoch": 0.86915,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0003945226130653266,
      "loss": 2.0146,
      "step": 173830
    },
    {
      "epoch": 0.8692,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00039437185929648246,
      "loss": 2.0942,
      "step": 173840
    },
    {
      "epoch": 0.86925,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003942211055276382,
      "loss": 2.0918,
      "step": 173850
    },
    {
      "epoch": 0.8693,
      "grad_norm": 0.609375,
      "learning_rate": 0.00039407035175879397,
      "loss": 2.083,
      "step": 173860
    },
    {
      "epoch": 0.86935,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003939195979899497,
      "loss": 2.1046,
      "step": 173870
    },
    {
      "epoch": 0.8694,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003937688442211056,
      "loss": 2.0765,
      "step": 173880
    },
    {
      "epoch": 0.86945,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00039361809045226133,
      "loss": 2.0742,
      "step": 173890
    },
    {
      "epoch": 0.8695,
      "grad_norm": 0.625,
      "learning_rate": 0.0003934673366834171,
      "loss": 2.0342,
      "step": 173900
    },
    {
      "epoch": 0.86955,
      "grad_norm": 0.625,
      "learning_rate": 0.00039331658291457284,
      "loss": 2.1265,
      "step": 173910
    },
    {
      "epoch": 0.8696,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003931658291457287,
      "loss": 2.0611,
      "step": 173920
    },
    {
      "epoch": 0.86965,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00039301507537688445,
      "loss": 2.0661,
      "step": 173930
    },
    {
      "epoch": 0.8697,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003928643216080402,
      "loss": 2.1121,
      "step": 173940
    },
    {
      "epoch": 0.86975,
      "grad_norm": 0.65625,
      "learning_rate": 0.00039271356783919596,
      "loss": 2.1099,
      "step": 173950
    },
    {
      "epoch": 0.8698,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003925628140703518,
      "loss": 2.0809,
      "step": 173960
    },
    {
      "epoch": 0.86985,
      "grad_norm": 0.609375,
      "learning_rate": 0.00039241206030150757,
      "loss": 2.072,
      "step": 173970
    },
    {
      "epoch": 0.8699,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003922613065326633,
      "loss": 2.0885,
      "step": 173980
    },
    {
      "epoch": 0.86995,
      "grad_norm": 0.6875,
      "learning_rate": 0.0003921105527638191,
      "loss": 2.0392,
      "step": 173990
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00039195979899497494,
      "loss": 2.1455,
      "step": 174000
    },
    {
      "epoch": 0.87,
      "eval_loss": 2.07814621925354,
      "eval_runtime": 45.7583,
      "eval_samples_per_second": 54.635,
      "eval_steps_per_second": 0.109,
      "step": 174000
    },
    {
      "epoch": 0.87005,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003918090452261307,
      "loss": 2.0809,
      "step": 174010
    },
    {
      "epoch": 0.8701,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00039165829145728644,
      "loss": 1.994,
      "step": 174020
    },
    {
      "epoch": 0.87015,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003915075376884422,
      "loss": 2.123,
      "step": 174030
    },
    {
      "epoch": 0.8702,
      "grad_norm": 0.6875,
      "learning_rate": 0.00039135678391959806,
      "loss": 2.0386,
      "step": 174040
    },
    {
      "epoch": 0.87025,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003912060301507538,
      "loss": 2.0659,
      "step": 174050
    },
    {
      "epoch": 0.8703,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00039105527638190956,
      "loss": 2.0408,
      "step": 174060
    },
    {
      "epoch": 0.87035,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0003909045226130653,
      "loss": 2.1091,
      "step": 174070
    },
    {
      "epoch": 0.8704,
      "grad_norm": 0.625,
      "learning_rate": 0.0003907537688442211,
      "loss": 2.1243,
      "step": 174080
    },
    {
      "epoch": 0.87045,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00039060301507537693,
      "loss": 2.1003,
      "step": 174090
    },
    {
      "epoch": 0.8705,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003904522613065327,
      "loss": 2.0935,
      "step": 174100
    },
    {
      "epoch": 0.87055,
      "grad_norm": 0.609375,
      "learning_rate": 0.00039030150753768843,
      "loss": 2.0589,
      "step": 174110
    },
    {
      "epoch": 0.8706,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00039015075376884424,
      "loss": 2.089,
      "step": 174120
    },
    {
      "epoch": 0.87065,
      "grad_norm": 0.578125,
      "learning_rate": 0.00039000000000000005,
      "loss": 2.0564,
      "step": 174130
    },
    {
      "epoch": 0.8707,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003898492462311558,
      "loss": 2.0822,
      "step": 174140
    },
    {
      "epoch": 0.87075,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00038969849246231155,
      "loss": 2.0819,
      "step": 174150
    },
    {
      "epoch": 0.8708,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00038954773869346736,
      "loss": 2.0578,
      "step": 174160
    },
    {
      "epoch": 0.87085,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003893969849246231,
      "loss": 2.0679,
      "step": 174170
    },
    {
      "epoch": 0.8709,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0003892462311557789,
      "loss": 2.0916,
      "step": 174180
    },
    {
      "epoch": 0.87095,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00038909547738693467,
      "loss": 2.0889,
      "step": 174190
    },
    {
      "epoch": 0.871,
      "grad_norm": 0.625,
      "learning_rate": 0.0003889447236180905,
      "loss": 2.0623,
      "step": 174200
    },
    {
      "epoch": 0.87105,
      "grad_norm": 0.5625,
      "learning_rate": 0.00038879396984924623,
      "loss": 2.12,
      "step": 174210
    },
    {
      "epoch": 0.8711,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00038864321608040204,
      "loss": 2.062,
      "step": 174220
    },
    {
      "epoch": 0.87115,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003884924623115578,
      "loss": 2.0335,
      "step": 174230
    },
    {
      "epoch": 0.8712,
      "grad_norm": 0.5625,
      "learning_rate": 0.0003883417085427136,
      "loss": 2.084,
      "step": 174240
    },
    {
      "epoch": 0.87125,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00038819095477386935,
      "loss": 2.0836,
      "step": 174250
    },
    {
      "epoch": 0.8713,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0003880402010050251,
      "loss": 2.1765,
      "step": 174260
    },
    {
      "epoch": 0.87135,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003878894472361809,
      "loss": 2.0685,
      "step": 174270
    },
    {
      "epoch": 0.8714,
      "grad_norm": 0.546875,
      "learning_rate": 0.0003877386934673367,
      "loss": 2.0816,
      "step": 174280
    },
    {
      "epoch": 0.87145,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00038758793969849247,
      "loss": 2.1312,
      "step": 174290
    },
    {
      "epoch": 0.8715,
      "grad_norm": 0.625,
      "learning_rate": 0.0003874371859296482,
      "loss": 2.0816,
      "step": 174300
    },
    {
      "epoch": 0.87155,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00038728643216080403,
      "loss": 2.1133,
      "step": 174310
    },
    {
      "epoch": 0.8716,
      "grad_norm": 0.640625,
      "learning_rate": 0.00038713567839195983,
      "loss": 2.0117,
      "step": 174320
    },
    {
      "epoch": 0.87165,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003869849246231156,
      "loss": 2.1056,
      "step": 174330
    },
    {
      "epoch": 0.8717,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00038683417085427134,
      "loss": 2.1044,
      "step": 174340
    },
    {
      "epoch": 0.87175,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0003866834170854271,
      "loss": 2.1162,
      "step": 174350
    },
    {
      "epoch": 0.8718,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00038653266331658295,
      "loss": 2.0414,
      "step": 174360
    },
    {
      "epoch": 0.87185,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003863819095477387,
      "loss": 2.094,
      "step": 174370
    },
    {
      "epoch": 0.8719,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00038623115577889446,
      "loss": 2.0897,
      "step": 174380
    },
    {
      "epoch": 0.87195,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0003860804020100502,
      "loss": 2.0981,
      "step": 174390
    },
    {
      "epoch": 0.872,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00038592964824120607,
      "loss": 2.1377,
      "step": 174400
    },
    {
      "epoch": 0.87205,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003857788944723618,
      "loss": 2.0426,
      "step": 174410
    },
    {
      "epoch": 0.8721,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003856281407035176,
      "loss": 2.0665,
      "step": 174420
    },
    {
      "epoch": 0.87215,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00038547738693467333,
      "loss": 2.0893,
      "step": 174430
    },
    {
      "epoch": 0.8722,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0003853266331658292,
      "loss": 2.0498,
      "step": 174440
    },
    {
      "epoch": 0.87225,
      "grad_norm": 0.640625,
      "learning_rate": 0.00038517587939698494,
      "loss": 2.0828,
      "step": 174450
    },
    {
      "epoch": 0.8723,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003850251256281407,
      "loss": 2.092,
      "step": 174460
    },
    {
      "epoch": 0.87235,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00038487437185929645,
      "loss": 2.1131,
      "step": 174470
    },
    {
      "epoch": 0.8724,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003847236180904523,
      "loss": 2.066,
      "step": 174480
    },
    {
      "epoch": 0.87245,
      "grad_norm": 0.640625,
      "learning_rate": 0.00038457286432160806,
      "loss": 2.0955,
      "step": 174490
    },
    {
      "epoch": 0.8725,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003844221105527638,
      "loss": 2.1281,
      "step": 174500
    },
    {
      "epoch": 0.87255,
      "grad_norm": 0.640625,
      "learning_rate": 0.00038427135678391957,
      "loss": 2.1014,
      "step": 174510
    },
    {
      "epoch": 0.8726,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00038412060301507543,
      "loss": 2.1438,
      "step": 174520
    },
    {
      "epoch": 0.87265,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003839698492462312,
      "loss": 2.0718,
      "step": 174530
    },
    {
      "epoch": 0.8727,
      "grad_norm": 0.625,
      "learning_rate": 0.00038381909547738693,
      "loss": 2.136,
      "step": 174540
    },
    {
      "epoch": 0.87275,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003836683417085427,
      "loss": 2.1025,
      "step": 174550
    },
    {
      "epoch": 0.8728,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00038351758793969844,
      "loss": 2.0555,
      "step": 174560
    },
    {
      "epoch": 0.87285,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003833668341708543,
      "loss": 2.0818,
      "step": 174570
    },
    {
      "epoch": 0.8729,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00038321608040201005,
      "loss": 2.0346,
      "step": 174580
    },
    {
      "epoch": 0.87295,
      "grad_norm": 0.5625,
      "learning_rate": 0.0003830653266331658,
      "loss": 2.0489,
      "step": 174590
    },
    {
      "epoch": 0.873,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00038291457286432156,
      "loss": 2.0435,
      "step": 174600
    },
    {
      "epoch": 0.87305,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003827638190954774,
      "loss": 2.0843,
      "step": 174610
    },
    {
      "epoch": 0.8731,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00038261306532663317,
      "loss": 2.0442,
      "step": 174620
    },
    {
      "epoch": 0.87315,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0003824623115577889,
      "loss": 2.0663,
      "step": 174630
    },
    {
      "epoch": 0.8732,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003823115577889447,
      "loss": 2.1218,
      "step": 174640
    },
    {
      "epoch": 0.87325,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00038216080402010054,
      "loss": 2.0692,
      "step": 174650
    },
    {
      "epoch": 0.8733,
      "grad_norm": 0.73828125,
      "learning_rate": 0.0003820100502512563,
      "loss": 2.0972,
      "step": 174660
    },
    {
      "epoch": 0.87335,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00038185929648241204,
      "loss": 2.0245,
      "step": 174670
    },
    {
      "epoch": 0.8734,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003817085427135678,
      "loss": 2.064,
      "step": 174680
    },
    {
      "epoch": 0.87345,
      "grad_norm": 0.671875,
      "learning_rate": 0.00038155778894472366,
      "loss": 2.0424,
      "step": 174690
    },
    {
      "epoch": 0.8735,
      "grad_norm": 0.625,
      "learning_rate": 0.0003814070351758794,
      "loss": 2.0612,
      "step": 174700
    },
    {
      "epoch": 0.87355,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00038125628140703516,
      "loss": 2.0979,
      "step": 174710
    },
    {
      "epoch": 0.8736,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003811055276381909,
      "loss": 2.055,
      "step": 174720
    },
    {
      "epoch": 0.87365,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0003809547738693468,
      "loss": 2.1078,
      "step": 174730
    },
    {
      "epoch": 0.8737,
      "grad_norm": 0.671875,
      "learning_rate": 0.00038080402010050253,
      "loss": 2.0573,
      "step": 174740
    },
    {
      "epoch": 0.87375,
      "grad_norm": 0.625,
      "learning_rate": 0.0003806532663316583,
      "loss": 2.0958,
      "step": 174750
    },
    {
      "epoch": 0.8738,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00038050251256281403,
      "loss": 2.0836,
      "step": 174760
    },
    {
      "epoch": 0.87385,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0003803517587939699,
      "loss": 2.0403,
      "step": 174770
    },
    {
      "epoch": 0.8739,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00038020100502512565,
      "loss": 2.1225,
      "step": 174780
    },
    {
      "epoch": 0.87395,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0003800502512562814,
      "loss": 2.055,
      "step": 174790
    },
    {
      "epoch": 0.874,
      "grad_norm": 0.87109375,
      "learning_rate": 0.00037989949748743715,
      "loss": 2.1087,
      "step": 174800
    },
    {
      "epoch": 0.87405,
      "grad_norm": 0.640625,
      "learning_rate": 0.000379748743718593,
      "loss": 2.049,
      "step": 174810
    },
    {
      "epoch": 0.8741,
      "grad_norm": 0.578125,
      "learning_rate": 0.00037959798994974877,
      "loss": 2.0923,
      "step": 174820
    },
    {
      "epoch": 0.87415,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003794472361809045,
      "loss": 2.0398,
      "step": 174830
    },
    {
      "epoch": 0.8742,
      "grad_norm": 0.640625,
      "learning_rate": 0.00037929648241206027,
      "loss": 2.0375,
      "step": 174840
    },
    {
      "epoch": 0.87425,
      "grad_norm": 0.609375,
      "learning_rate": 0.00037914572864321613,
      "loss": 2.117,
      "step": 174850
    },
    {
      "epoch": 0.8743,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0003789949748743719,
      "loss": 2.0274,
      "step": 174860
    },
    {
      "epoch": 0.87435,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00037884422110552764,
      "loss": 2.1297,
      "step": 174870
    },
    {
      "epoch": 0.8744,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003786934673366834,
      "loss": 2.0871,
      "step": 174880
    },
    {
      "epoch": 0.87445,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00037854271356783925,
      "loss": 2.0573,
      "step": 174890
    },
    {
      "epoch": 0.8745,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000378391959798995,
      "loss": 2.0848,
      "step": 174900
    },
    {
      "epoch": 0.87455,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00037824120603015076,
      "loss": 2.0463,
      "step": 174910
    },
    {
      "epoch": 0.8746,
      "grad_norm": 0.625,
      "learning_rate": 0.0003780904522613065,
      "loss": 2.0794,
      "step": 174920
    },
    {
      "epoch": 0.87465,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00037793969849246237,
      "loss": 2.0629,
      "step": 174930
    },
    {
      "epoch": 0.8747,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003777889447236181,
      "loss": 2.0951,
      "step": 174940
    },
    {
      "epoch": 0.87475,
      "grad_norm": 0.5625,
      "learning_rate": 0.0003776381909547739,
      "loss": 2.0863,
      "step": 174950
    },
    {
      "epoch": 0.8748,
      "grad_norm": 0.640625,
      "learning_rate": 0.00037748743718592963,
      "loss": 2.0464,
      "step": 174960
    },
    {
      "epoch": 0.87485,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003773366834170855,
      "loss": 2.1276,
      "step": 174970
    },
    {
      "epoch": 0.8749,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00037718592964824124,
      "loss": 2.0559,
      "step": 174980
    },
    {
      "epoch": 0.87495,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000377035175879397,
      "loss": 2.1396,
      "step": 174990
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00037688442211055275,
      "loss": 2.0961,
      "step": 175000
    },
    {
      "epoch": 0.87505,
      "grad_norm": 0.609375,
      "learning_rate": 0.00037673366834170855,
      "loss": 2.0499,
      "step": 175010
    },
    {
      "epoch": 0.8751,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00037658291457286436,
      "loss": 2.0906,
      "step": 175020
    },
    {
      "epoch": 0.87515,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0003764321608040201,
      "loss": 2.0308,
      "step": 175030
    },
    {
      "epoch": 0.8752,
      "grad_norm": 0.765625,
      "learning_rate": 0.00037628140703517587,
      "loss": 2.0893,
      "step": 175040
    },
    {
      "epoch": 0.87525,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003761306532663317,
      "loss": 2.0606,
      "step": 175050
    },
    {
      "epoch": 0.8753,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003759798994974875,
      "loss": 2.119,
      "step": 175060
    },
    {
      "epoch": 0.87535,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00037582914572864323,
      "loss": 2.0922,
      "step": 175070
    },
    {
      "epoch": 0.8754,
      "grad_norm": 0.65234375,
      "learning_rate": 0.000375678391959799,
      "loss": 2.0582,
      "step": 175080
    },
    {
      "epoch": 0.87545,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003755276381909548,
      "loss": 2.0903,
      "step": 175090
    },
    {
      "epoch": 0.8755,
      "grad_norm": 0.5625,
      "learning_rate": 0.00037537688442211054,
      "loss": 2.0573,
      "step": 175100
    },
    {
      "epoch": 0.87555,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00037522613065326635,
      "loss": 2.1386,
      "step": 175110
    },
    {
      "epoch": 0.8756,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0003750753768844221,
      "loss": 2.0868,
      "step": 175120
    },
    {
      "epoch": 0.87565,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003749246231155779,
      "loss": 2.0707,
      "step": 175130
    },
    {
      "epoch": 0.8757,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00037477386934673366,
      "loss": 2.0769,
      "step": 175140
    },
    {
      "epoch": 0.87575,
      "grad_norm": 0.625,
      "learning_rate": 0.00037462311557788947,
      "loss": 2.0195,
      "step": 175150
    },
    {
      "epoch": 0.8758,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003744723618090452,
      "loss": 2.0763,
      "step": 175160
    },
    {
      "epoch": 0.87585,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00037432160804020103,
      "loss": 2.0554,
      "step": 175170
    },
    {
      "epoch": 0.8759,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003741708542713568,
      "loss": 2.1073,
      "step": 175180
    },
    {
      "epoch": 0.87595,
      "grad_norm": 0.65625,
      "learning_rate": 0.00037402010050251254,
      "loss": 2.0243,
      "step": 175190
    },
    {
      "epoch": 0.876,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00037386934673366834,
      "loss": 2.0506,
      "step": 175200
    },
    {
      "epoch": 0.87605,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003737185929648241,
      "loss": 2.0875,
      "step": 175210
    },
    {
      "epoch": 0.8761,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003735678391959799,
      "loss": 2.1147,
      "step": 175220
    },
    {
      "epoch": 0.87615,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00037341708542713565,
      "loss": 2.1186,
      "step": 175230
    },
    {
      "epoch": 0.8762,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00037326633165829146,
      "loss": 2.0707,
      "step": 175240
    },
    {
      "epoch": 0.87625,
      "grad_norm": 0.51953125,
      "learning_rate": 0.0003731155778894472,
      "loss": 2.1034,
      "step": 175250
    },
    {
      "epoch": 0.8763,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000372964824120603,
      "loss": 2.1264,
      "step": 175260
    },
    {
      "epoch": 0.87635,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003728140703517588,
      "loss": 2.0351,
      "step": 175270
    },
    {
      "epoch": 0.8764,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003726633165829146,
      "loss": 2.0869,
      "step": 175280
    },
    {
      "epoch": 0.87645,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00037251256281407033,
      "loss": 2.064,
      "step": 175290
    },
    {
      "epoch": 0.8765,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00037236180904522614,
      "loss": 2.0878,
      "step": 175300
    },
    {
      "epoch": 0.87655,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003722110552763819,
      "loss": 2.0732,
      "step": 175310
    },
    {
      "epoch": 0.8766,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003720603015075377,
      "loss": 2.0131,
      "step": 175320
    },
    {
      "epoch": 0.87665,
      "grad_norm": 0.65625,
      "learning_rate": 0.00037190954773869345,
      "loss": 2.1192,
      "step": 175330
    },
    {
      "epoch": 0.8767,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00037175879396984926,
      "loss": 2.0976,
      "step": 175340
    },
    {
      "epoch": 0.87675,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000371608040201005,
      "loss": 2.1568,
      "step": 175350
    },
    {
      "epoch": 0.8768,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003714572864321608,
      "loss": 2.0637,
      "step": 175360
    },
    {
      "epoch": 0.87685,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00037130653266331657,
      "loss": 2.0899,
      "step": 175370
    },
    {
      "epoch": 0.8769,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0003711557788944724,
      "loss": 2.0782,
      "step": 175380
    },
    {
      "epoch": 0.87695,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00037100502512562813,
      "loss": 2.0576,
      "step": 175390
    },
    {
      "epoch": 0.877,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00037085427135678394,
      "loss": 2.0816,
      "step": 175400
    },
    {
      "epoch": 0.87705,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003707035175879397,
      "loss": 2.1,
      "step": 175410
    },
    {
      "epoch": 0.8771,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0003705527638190955,
      "loss": 2.0785,
      "step": 175420
    },
    {
      "epoch": 0.87715,
      "grad_norm": 0.640625,
      "learning_rate": 0.00037040201005025125,
      "loss": 2.0588,
      "step": 175430
    },
    {
      "epoch": 0.8772,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00037025125628140706,
      "loss": 2.0819,
      "step": 175440
    },
    {
      "epoch": 0.87725,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003701005025125628,
      "loss": 2.102,
      "step": 175450
    },
    {
      "epoch": 0.8773,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0003699497487437186,
      "loss": 2.074,
      "step": 175460
    },
    {
      "epoch": 0.87735,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00036979899497487437,
      "loss": 2.1005,
      "step": 175470
    },
    {
      "epoch": 0.8774,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003696482412060302,
      "loss": 2.0887,
      "step": 175480
    },
    {
      "epoch": 0.87745,
      "grad_norm": 0.5625,
      "learning_rate": 0.00036949748743718593,
      "loss": 2.0679,
      "step": 175490
    },
    {
      "epoch": 0.8775,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00036934673366834173,
      "loss": 2.1079,
      "step": 175500
    },
    {
      "epoch": 0.87755,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0003691959798994975,
      "loss": 2.0927,
      "step": 175510
    },
    {
      "epoch": 0.8776,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003690452261306533,
      "loss": 2.098,
      "step": 175520
    },
    {
      "epoch": 0.87765,
      "grad_norm": 0.59375,
      "learning_rate": 0.00036889447236180905,
      "loss": 2.0615,
      "step": 175530
    },
    {
      "epoch": 0.8777,
      "grad_norm": 0.65625,
      "learning_rate": 0.00036874371859296485,
      "loss": 2.0762,
      "step": 175540
    },
    {
      "epoch": 0.87775,
      "grad_norm": 0.671875,
      "learning_rate": 0.0003685929648241206,
      "loss": 2.0893,
      "step": 175550
    },
    {
      "epoch": 0.8778,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003684422110552764,
      "loss": 2.0685,
      "step": 175560
    },
    {
      "epoch": 0.87785,
      "grad_norm": 0.59375,
      "learning_rate": 0.00036829145728643216,
      "loss": 2.0957,
      "step": 175570
    },
    {
      "epoch": 0.8779,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00036814070351758797,
      "loss": 2.0861,
      "step": 175580
    },
    {
      "epoch": 0.87795,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003679899497487437,
      "loss": 2.0805,
      "step": 175590
    },
    {
      "epoch": 0.878,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00036783919597989953,
      "loss": 2.0982,
      "step": 175600
    },
    {
      "epoch": 0.87805,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0003676884422110553,
      "loss": 2.0936,
      "step": 175610
    },
    {
      "epoch": 0.8781,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0003675376884422111,
      "loss": 2.0606,
      "step": 175620
    },
    {
      "epoch": 0.87815,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00036738693467336684,
      "loss": 2.0497,
      "step": 175630
    },
    {
      "epoch": 0.8782,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00036723618090452265,
      "loss": 2.081,
      "step": 175640
    },
    {
      "epoch": 0.87825,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003670854271356784,
      "loss": 2.0715,
      "step": 175650
    },
    {
      "epoch": 0.8783,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003669346733668342,
      "loss": 2.0696,
      "step": 175660
    },
    {
      "epoch": 0.87835,
      "grad_norm": 0.6875,
      "learning_rate": 0.00036678391959798996,
      "loss": 2.1121,
      "step": 175670
    },
    {
      "epoch": 0.8784,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00036663316582914577,
      "loss": 2.0093,
      "step": 175680
    },
    {
      "epoch": 0.87845,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003664824120603015,
      "loss": 2.1177,
      "step": 175690
    },
    {
      "epoch": 0.8785,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00036633165829145733,
      "loss": 2.0993,
      "step": 175700
    },
    {
      "epoch": 0.87855,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003661809045226131,
      "loss": 2.1029,
      "step": 175710
    },
    {
      "epoch": 0.8786,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00036603015075376883,
      "loss": 2.0651,
      "step": 175720
    },
    {
      "epoch": 0.87865,
      "grad_norm": 0.65625,
      "learning_rate": 0.00036587939698492464,
      "loss": 2.0501,
      "step": 175730
    },
    {
      "epoch": 0.8787,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0003657286432160804,
      "loss": 2.0835,
      "step": 175740
    },
    {
      "epoch": 0.87875,
      "grad_norm": 0.625,
      "learning_rate": 0.0003655778894472362,
      "loss": 2.0409,
      "step": 175750
    },
    {
      "epoch": 0.8788,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00036542713567839195,
      "loss": 2.0985,
      "step": 175760
    },
    {
      "epoch": 0.87885,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00036527638190954776,
      "loss": 2.0466,
      "step": 175770
    },
    {
      "epoch": 0.8789,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003651256281407035,
      "loss": 2.0829,
      "step": 175780
    },
    {
      "epoch": 0.87895,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003649748743718593,
      "loss": 2.1091,
      "step": 175790
    },
    {
      "epoch": 0.879,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00036482412060301507,
      "loss": 2.0685,
      "step": 175800
    },
    {
      "epoch": 0.87905,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003646733668341709,
      "loss": 2.1163,
      "step": 175810
    },
    {
      "epoch": 0.8791,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00036452261306532663,
      "loss": 2.0574,
      "step": 175820
    },
    {
      "epoch": 0.87915,
      "grad_norm": 0.609375,
      "learning_rate": 0.00036437185929648244,
      "loss": 2.0564,
      "step": 175830
    },
    {
      "epoch": 0.8792,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0003642211055276382,
      "loss": 2.0769,
      "step": 175840
    },
    {
      "epoch": 0.87925,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000364070351758794,
      "loss": 2.0858,
      "step": 175850
    },
    {
      "epoch": 0.8793,
      "grad_norm": 0.546875,
      "learning_rate": 0.00036391959798994975,
      "loss": 2.1369,
      "step": 175860
    },
    {
      "epoch": 0.87935,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00036376884422110556,
      "loss": 2.14,
      "step": 175870
    },
    {
      "epoch": 0.8794,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0003636180904522613,
      "loss": 2.0631,
      "step": 175880
    },
    {
      "epoch": 0.87945,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0003634673366834171,
      "loss": 2.0759,
      "step": 175890
    },
    {
      "epoch": 0.8795,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00036331658291457287,
      "loss": 2.0538,
      "step": 175900
    },
    {
      "epoch": 0.87955,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0003631658291457287,
      "loss": 2.0666,
      "step": 175910
    },
    {
      "epoch": 0.8796,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00036301507537688443,
      "loss": 2.0999,
      "step": 175920
    },
    {
      "epoch": 0.87965,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00036286432160804024,
      "loss": 2.0621,
      "step": 175930
    },
    {
      "epoch": 0.8797,
      "grad_norm": 0.625,
      "learning_rate": 0.000362713567839196,
      "loss": 2.1169,
      "step": 175940
    },
    {
      "epoch": 0.87975,
      "grad_norm": 0.625,
      "learning_rate": 0.0003625628140703518,
      "loss": 2.0228,
      "step": 175950
    },
    {
      "epoch": 0.8798,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00036241206030150755,
      "loss": 2.0678,
      "step": 175960
    },
    {
      "epoch": 0.87985,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00036226130653266335,
      "loss": 2.0674,
      "step": 175970
    },
    {
      "epoch": 0.8799,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0003621105527638191,
      "loss": 2.0819,
      "step": 175980
    },
    {
      "epoch": 0.87995,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0003619597989949749,
      "loss": 2.1163,
      "step": 175990
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00036180904522613067,
      "loss": 2.0744,
      "step": 176000
    },
    {
      "epoch": 0.88,
      "eval_loss": 2.07334566116333,
      "eval_runtime": 47.505,
      "eval_samples_per_second": 52.626,
      "eval_steps_per_second": 0.105,
      "step": 176000
    },
    {
      "epoch": 0.88005,
      "grad_norm": 0.625,
      "learning_rate": 0.0003616582914572864,
      "loss": 2.1233,
      "step": 176010
    },
    {
      "epoch": 0.8801,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003615075376884422,
      "loss": 2.0241,
      "step": 176020
    },
    {
      "epoch": 0.88015,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000361356783919598,
      "loss": 2.1097,
      "step": 176030
    },
    {
      "epoch": 0.8802,
      "grad_norm": 0.703125,
      "learning_rate": 0.0003612060301507538,
      "loss": 2.0729,
      "step": 176040
    },
    {
      "epoch": 0.88025,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00036105527638190954,
      "loss": 2.0732,
      "step": 176050
    },
    {
      "epoch": 0.8803,
      "grad_norm": 0.625,
      "learning_rate": 0.00036090452261306534,
      "loss": 2.0829,
      "step": 176060
    },
    {
      "epoch": 0.88035,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003607537688442211,
      "loss": 2.0571,
      "step": 176070
    },
    {
      "epoch": 0.8804,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003606030150753769,
      "loss": 2.1089,
      "step": 176080
    },
    {
      "epoch": 0.88045,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00036045226130653266,
      "loss": 2.1009,
      "step": 176090
    },
    {
      "epoch": 0.8805,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003603015075376884,
      "loss": 2.0097,
      "step": 176100
    },
    {
      "epoch": 0.88055,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0003601507537688442,
      "loss": 2.0575,
      "step": 176110
    },
    {
      "epoch": 0.8806,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00035999999999999997,
      "loss": 2.0121,
      "step": 176120
    },
    {
      "epoch": 0.88065,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003598492462311558,
      "loss": 2.1015,
      "step": 176130
    },
    {
      "epoch": 0.8807,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00035969849246231153,
      "loss": 2.0877,
      "step": 176140
    },
    {
      "epoch": 0.88075,
      "grad_norm": 0.578125,
      "learning_rate": 0.00035954773869346733,
      "loss": 2.0448,
      "step": 176150
    },
    {
      "epoch": 0.8808,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003593969849246231,
      "loss": 2.067,
      "step": 176160
    },
    {
      "epoch": 0.88085,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003592462311557789,
      "loss": 2.1134,
      "step": 176170
    },
    {
      "epoch": 0.8809,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00035909547738693465,
      "loss": 2.1231,
      "step": 176180
    },
    {
      "epoch": 0.88095,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00035894472361809045,
      "loss": 2.1013,
      "step": 176190
    },
    {
      "epoch": 0.881,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003587939698492462,
      "loss": 2.0442,
      "step": 176200
    },
    {
      "epoch": 0.88105,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000358643216080402,
      "loss": 2.0771,
      "step": 176210
    },
    {
      "epoch": 0.8811,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00035849246231155777,
      "loss": 2.0818,
      "step": 176220
    },
    {
      "epoch": 0.88115,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00035834170854271357,
      "loss": 2.1146,
      "step": 176230
    },
    {
      "epoch": 0.8812,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003581909547738693,
      "loss": 2.0909,
      "step": 176240
    },
    {
      "epoch": 0.88125,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00035804020100502513,
      "loss": 2.1252,
      "step": 176250
    },
    {
      "epoch": 0.8813,
      "grad_norm": 0.546875,
      "learning_rate": 0.0003578894472361809,
      "loss": 2.127,
      "step": 176260
    },
    {
      "epoch": 0.88135,
      "grad_norm": 0.703125,
      "learning_rate": 0.0003577386934673367,
      "loss": 2.0447,
      "step": 176270
    },
    {
      "epoch": 0.8814,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00035758793969849244,
      "loss": 2.1479,
      "step": 176280
    },
    {
      "epoch": 0.88145,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00035743718592964825,
      "loss": 2.0836,
      "step": 176290
    },
    {
      "epoch": 0.8815,
      "grad_norm": 0.5859375,
      "learning_rate": 0.000357286432160804,
      "loss": 2.1126,
      "step": 176300
    },
    {
      "epoch": 0.88155,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003571356783919598,
      "loss": 2.1045,
      "step": 176310
    },
    {
      "epoch": 0.8816,
      "grad_norm": 0.578125,
      "learning_rate": 0.00035698492462311556,
      "loss": 2.0597,
      "step": 176320
    },
    {
      "epoch": 0.88165,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00035683417085427137,
      "loss": 2.098,
      "step": 176330
    },
    {
      "epoch": 0.8817,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003566834170854271,
      "loss": 2.0628,
      "step": 176340
    },
    {
      "epoch": 0.88175,
      "grad_norm": 0.578125,
      "learning_rate": 0.00035653266331658293,
      "loss": 2.0818,
      "step": 176350
    },
    {
      "epoch": 0.8818,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0003563819095477387,
      "loss": 2.0457,
      "step": 176360
    },
    {
      "epoch": 0.88185,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003562311557788945,
      "loss": 2.0955,
      "step": 176370
    },
    {
      "epoch": 0.8819,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00035608040201005024,
      "loss": 2.1725,
      "step": 176380
    },
    {
      "epoch": 0.88195,
      "grad_norm": 0.65625,
      "learning_rate": 0.00035592964824120605,
      "loss": 2.0419,
      "step": 176390
    },
    {
      "epoch": 0.882,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003557788944723618,
      "loss": 2.0939,
      "step": 176400
    },
    {
      "epoch": 0.88205,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003556281407035176,
      "loss": 2.0862,
      "step": 176410
    },
    {
      "epoch": 0.8821,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00035547738693467336,
      "loss": 2.1181,
      "step": 176420
    },
    {
      "epoch": 0.88215,
      "grad_norm": 0.609375,
      "learning_rate": 0.00035532663316582917,
      "loss": 2.1422,
      "step": 176430
    },
    {
      "epoch": 0.8822,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003551758793969849,
      "loss": 2.0578,
      "step": 176440
    },
    {
      "epoch": 0.88225,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003550251256281407,
      "loss": 2.1309,
      "step": 176450
    },
    {
      "epoch": 0.8823,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0003548743718592965,
      "loss": 2.0545,
      "step": 176460
    },
    {
      "epoch": 0.88235,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003547236180904523,
      "loss": 2.052,
      "step": 176470
    },
    {
      "epoch": 0.8824,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00035457286432160804,
      "loss": 2.1191,
      "step": 176480
    },
    {
      "epoch": 0.88245,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00035442211055276385,
      "loss": 2.0578,
      "step": 176490
    },
    {
      "epoch": 0.8825,
      "grad_norm": 0.578125,
      "learning_rate": 0.0003542713567839196,
      "loss": 2.0719,
      "step": 176500
    },
    {
      "epoch": 0.88255,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003541206030150754,
      "loss": 2.0511,
      "step": 176510
    },
    {
      "epoch": 0.8826,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00035396984924623116,
      "loss": 2.0729,
      "step": 176520
    },
    {
      "epoch": 0.88265,
      "grad_norm": 0.65625,
      "learning_rate": 0.00035381909547738696,
      "loss": 2.1311,
      "step": 176530
    },
    {
      "epoch": 0.8827,
      "grad_norm": 0.671875,
      "learning_rate": 0.0003536683417085427,
      "loss": 2.1029,
      "step": 176540
    },
    {
      "epoch": 0.88275,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003535175879396985,
      "loss": 2.0993,
      "step": 176550
    },
    {
      "epoch": 0.8828,
      "grad_norm": 0.671875,
      "learning_rate": 0.0003533668341708543,
      "loss": 2.0746,
      "step": 176560
    },
    {
      "epoch": 0.88285,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003532160804020101,
      "loss": 2.0284,
      "step": 176570
    },
    {
      "epoch": 0.8829,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00035306532663316584,
      "loss": 2.0812,
      "step": 176580
    },
    {
      "epoch": 0.88295,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00035291457286432164,
      "loss": 2.0689,
      "step": 176590
    },
    {
      "epoch": 0.883,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0003527638190954774,
      "loss": 2.08,
      "step": 176600
    },
    {
      "epoch": 0.88305,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003526130653266332,
      "loss": 2.0436,
      "step": 176610
    },
    {
      "epoch": 0.8831,
      "grad_norm": 0.59375,
      "learning_rate": 0.00035246231155778895,
      "loss": 2.0361,
      "step": 176620
    },
    {
      "epoch": 0.88315,
      "grad_norm": 0.625,
      "learning_rate": 0.00035231155778894476,
      "loss": 2.1226,
      "step": 176630
    },
    {
      "epoch": 0.8832,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003521608040201005,
      "loss": 2.0845,
      "step": 176640
    },
    {
      "epoch": 0.88325,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0003520100502512563,
      "loss": 2.1066,
      "step": 176650
    },
    {
      "epoch": 0.8833,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003518592964824121,
      "loss": 2.0765,
      "step": 176660
    },
    {
      "epoch": 0.88335,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0003517085427135679,
      "loss": 2.0465,
      "step": 176670
    },
    {
      "epoch": 0.8834,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00035155778894472363,
      "loss": 2.1185,
      "step": 176680
    },
    {
      "epoch": 0.88345,
      "grad_norm": 0.609375,
      "learning_rate": 0.00035140703517587944,
      "loss": 2.0578,
      "step": 176690
    },
    {
      "epoch": 0.8835,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003512562814070352,
      "loss": 2.1257,
      "step": 176700
    },
    {
      "epoch": 0.88355,
      "grad_norm": 0.6328125,
      "learning_rate": 0.000351105527638191,
      "loss": 2.0646,
      "step": 176710
    },
    {
      "epoch": 0.8836,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00035095477386934675,
      "loss": 2.0529,
      "step": 176720
    },
    {
      "epoch": 0.88365,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00035080402010050256,
      "loss": 2.0823,
      "step": 176730
    },
    {
      "epoch": 0.8837,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003506532663316583,
      "loss": 2.0855,
      "step": 176740
    },
    {
      "epoch": 0.88375,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003505025125628141,
      "loss": 2.0865,
      "step": 176750
    },
    {
      "epoch": 0.8838,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00035035175879396987,
      "loss": 2.0615,
      "step": 176760
    },
    {
      "epoch": 0.88385,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0003502010050251257,
      "loss": 2.0678,
      "step": 176770
    },
    {
      "epoch": 0.8839,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00035005025125628143,
      "loss": 2.0907,
      "step": 176780
    },
    {
      "epoch": 0.88395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00034989949748743724,
      "loss": 2.0803,
      "step": 176790
    },
    {
      "epoch": 0.884,
      "grad_norm": 0.59375,
      "learning_rate": 0.000349748743718593,
      "loss": 2.103,
      "step": 176800
    },
    {
      "epoch": 0.88405,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003495979899497488,
      "loss": 2.0705,
      "step": 176810
    },
    {
      "epoch": 0.8841,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00034944723618090455,
      "loss": 2.0748,
      "step": 176820
    },
    {
      "epoch": 0.88415,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00034929648241206036,
      "loss": 2.0918,
      "step": 176830
    },
    {
      "epoch": 0.8842,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003491457286432161,
      "loss": 2.0862,
      "step": 176840
    },
    {
      "epoch": 0.88425,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00034899497487437186,
      "loss": 2.0937,
      "step": 176850
    },
    {
      "epoch": 0.8843,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00034884422110552767,
      "loss": 2.09,
      "step": 176860
    },
    {
      "epoch": 0.88435,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003486934673366834,
      "loss": 2.0422,
      "step": 176870
    },
    {
      "epoch": 0.8844,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00034854271356783923,
      "loss": 2.105,
      "step": 176880
    },
    {
      "epoch": 0.88445,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000348391959798995,
      "loss": 2.0483,
      "step": 176890
    },
    {
      "epoch": 0.8845,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003482412060301508,
      "loss": 2.033,
      "step": 176900
    },
    {
      "epoch": 0.88455,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00034809045226130654,
      "loss": 2.0506,
      "step": 176910
    },
    {
      "epoch": 0.8846,
      "grad_norm": 0.546875,
      "learning_rate": 0.00034793969849246235,
      "loss": 2.0354,
      "step": 176920
    },
    {
      "epoch": 0.88465,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0003477889447236181,
      "loss": 2.1528,
      "step": 176930
    },
    {
      "epoch": 0.8847,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00034763819095477385,
      "loss": 2.0572,
      "step": 176940
    },
    {
      "epoch": 0.88475,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00034748743718592966,
      "loss": 2.1015,
      "step": 176950
    },
    {
      "epoch": 0.8848,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003473366834170854,
      "loss": 2.0739,
      "step": 176960
    },
    {
      "epoch": 0.88485,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003471859296482412,
      "loss": 2.0761,
      "step": 176970
    },
    {
      "epoch": 0.8849,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00034703517587939697,
      "loss": 2.1116,
      "step": 176980
    },
    {
      "epoch": 0.88495,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003468844221105528,
      "loss": 2.0661,
      "step": 176990
    },
    {
      "epoch": 0.885,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00034673366834170853,
      "loss": 2.1093,
      "step": 177000
    },
    {
      "epoch": 0.88505,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00034658291457286434,
      "loss": 2.0673,
      "step": 177010
    },
    {
      "epoch": 0.8851,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003464321608040201,
      "loss": 2.0756,
      "step": 177020
    },
    {
      "epoch": 0.88515,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00034628140703517584,
      "loss": 2.1112,
      "step": 177030
    },
    {
      "epoch": 0.8852,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00034613065326633165,
      "loss": 2.0373,
      "step": 177040
    },
    {
      "epoch": 0.88525,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003459798994974874,
      "loss": 2.0804,
      "step": 177050
    },
    {
      "epoch": 0.8853,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003458291457286432,
      "loss": 2.0961,
      "step": 177060
    },
    {
      "epoch": 0.88535,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00034567839195979896,
      "loss": 2.0982,
      "step": 177070
    },
    {
      "epoch": 0.8854,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00034552763819095477,
      "loss": 2.0652,
      "step": 177080
    },
    {
      "epoch": 0.88545,
      "grad_norm": 0.51171875,
      "learning_rate": 0.0003453768844221105,
      "loss": 2.0383,
      "step": 177090
    },
    {
      "epoch": 0.8855,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00034522613065326633,
      "loss": 2.115,
      "step": 177100
    },
    {
      "epoch": 0.88555,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0003450753768844221,
      "loss": 2.0685,
      "step": 177110
    },
    {
      "epoch": 0.8856,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0003449246231155779,
      "loss": 2.0915,
      "step": 177120
    },
    {
      "epoch": 0.88565,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00034477386934673364,
      "loss": 2.0844,
      "step": 177130
    },
    {
      "epoch": 0.8857,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00034462311557788945,
      "loss": 2.0558,
      "step": 177140
    },
    {
      "epoch": 0.88575,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003444723618090452,
      "loss": 2.0856,
      "step": 177150
    },
    {
      "epoch": 0.8858,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000344321608040201,
      "loss": 2.0752,
      "step": 177160
    },
    {
      "epoch": 0.88585,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00034417085427135676,
      "loss": 2.0469,
      "step": 177170
    },
    {
      "epoch": 0.8859,
      "grad_norm": 0.578125,
      "learning_rate": 0.00034402010050251257,
      "loss": 2.1229,
      "step": 177180
    },
    {
      "epoch": 0.88595,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003438693467336683,
      "loss": 2.0963,
      "step": 177190
    },
    {
      "epoch": 0.886,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003437185929648241,
      "loss": 2.0679,
      "step": 177200
    },
    {
      "epoch": 0.88605,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003435678391959799,
      "loss": 2.1609,
      "step": 177210
    },
    {
      "epoch": 0.8861,
      "grad_norm": 0.578125,
      "learning_rate": 0.0003434170854271357,
      "loss": 2.0936,
      "step": 177220
    },
    {
      "epoch": 0.88615,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00034326633165829144,
      "loss": 2.1287,
      "step": 177230
    },
    {
      "epoch": 0.8862,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00034311557788944724,
      "loss": 2.109,
      "step": 177240
    },
    {
      "epoch": 0.88625,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000342964824120603,
      "loss": 2.0664,
      "step": 177250
    },
    {
      "epoch": 0.8863,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0003428140703517588,
      "loss": 2.0589,
      "step": 177260
    },
    {
      "epoch": 0.88635,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00034266331658291456,
      "loss": 2.0604,
      "step": 177270
    },
    {
      "epoch": 0.8864,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00034251256281407036,
      "loss": 2.0889,
      "step": 177280
    },
    {
      "epoch": 0.88645,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003423618090452261,
      "loss": 2.126,
      "step": 177290
    },
    {
      "epoch": 0.8865,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003422110552763819,
      "loss": 2.1182,
      "step": 177300
    },
    {
      "epoch": 0.88655,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003420603015075377,
      "loss": 2.0903,
      "step": 177310
    },
    {
      "epoch": 0.8866,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003419095477386935,
      "loss": 2.0612,
      "step": 177320
    },
    {
      "epoch": 0.88665,
      "grad_norm": 0.609375,
      "learning_rate": 0.00034175879396984923,
      "loss": 2.1096,
      "step": 177330
    },
    {
      "epoch": 0.8867,
      "grad_norm": 0.640625,
      "learning_rate": 0.00034160804020100504,
      "loss": 2.0839,
      "step": 177340
    },
    {
      "epoch": 0.88675,
      "grad_norm": 0.625,
      "learning_rate": 0.0003414572864321608,
      "loss": 2.0974,
      "step": 177350
    },
    {
      "epoch": 0.8868,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003413065326633166,
      "loss": 2.1519,
      "step": 177360
    },
    {
      "epoch": 0.88685,
      "grad_norm": 0.6875,
      "learning_rate": 0.00034115577889447235,
      "loss": 2.0328,
      "step": 177370
    },
    {
      "epoch": 0.8869,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00034100502512562816,
      "loss": 2.0804,
      "step": 177380
    },
    {
      "epoch": 0.88695,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0003408542713567839,
      "loss": 2.0786,
      "step": 177390
    },
    {
      "epoch": 0.887,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0003407035175879397,
      "loss": 2.0886,
      "step": 177400
    },
    {
      "epoch": 0.88705,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00034055276381909547,
      "loss": 2.0715,
      "step": 177410
    },
    {
      "epoch": 0.8871,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0003404020100502513,
      "loss": 2.0568,
      "step": 177420
    },
    {
      "epoch": 0.88715,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00034025125628140703,
      "loss": 2.0998,
      "step": 177430
    },
    {
      "epoch": 0.8872,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00034010050251256284,
      "loss": 2.0808,
      "step": 177440
    },
    {
      "epoch": 0.88725,
      "grad_norm": 0.5625,
      "learning_rate": 0.0003399497487437186,
      "loss": 2.0557,
      "step": 177450
    },
    {
      "epoch": 0.8873,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003397989949748744,
      "loss": 2.069,
      "step": 177460
    },
    {
      "epoch": 0.88735,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00033964824120603015,
      "loss": 2.0508,
      "step": 177470
    },
    {
      "epoch": 0.8874,
      "grad_norm": 0.609375,
      "learning_rate": 0.00033949748743718596,
      "loss": 2.1256,
      "step": 177480
    },
    {
      "epoch": 0.88745,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0003393467336683417,
      "loss": 2.0589,
      "step": 177490
    },
    {
      "epoch": 0.8875,
      "grad_norm": 0.828125,
      "learning_rate": 0.0003391959798994975,
      "loss": 2.0766,
      "step": 177500
    },
    {
      "epoch": 0.88755,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00033904522613065327,
      "loss": 2.1238,
      "step": 177510
    },
    {
      "epoch": 0.8876,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0003388944723618091,
      "loss": 2.0684,
      "step": 177520
    },
    {
      "epoch": 0.88765,
      "grad_norm": 0.59375,
      "learning_rate": 0.00033874371859296483,
      "loss": 2.1276,
      "step": 177530
    },
    {
      "epoch": 0.8877,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00033859296482412064,
      "loss": 2.1139,
      "step": 177540
    },
    {
      "epoch": 0.88775,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003384422110552764,
      "loss": 2.0824,
      "step": 177550
    },
    {
      "epoch": 0.8878,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003382914572864322,
      "loss": 2.1007,
      "step": 177560
    },
    {
      "epoch": 0.88785,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00033814070351758795,
      "loss": 2.1224,
      "step": 177570
    },
    {
      "epoch": 0.8879,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00033798994974874375,
      "loss": 2.1267,
      "step": 177580
    },
    {
      "epoch": 0.88795,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003378391959798995,
      "loss": 2.0391,
      "step": 177590
    },
    {
      "epoch": 0.888,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0003376884422110553,
      "loss": 2.1044,
      "step": 177600
    },
    {
      "epoch": 0.88805,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00033753768844221107,
      "loss": 2.1219,
      "step": 177610
    },
    {
      "epoch": 0.8881,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0003373869346733669,
      "loss": 2.0439,
      "step": 177620
    },
    {
      "epoch": 0.88815,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003372361809045226,
      "loss": 2.1147,
      "step": 177630
    },
    {
      "epoch": 0.8882,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00033708542713567843,
      "loss": 2.0678,
      "step": 177640
    },
    {
      "epoch": 0.88825,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003369346733668342,
      "loss": 2.0363,
      "step": 177650
    },
    {
      "epoch": 0.8883,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00033678391959799,
      "loss": 2.0904,
      "step": 177660
    },
    {
      "epoch": 0.88835,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00033663316582914574,
      "loss": 2.0475,
      "step": 177670
    },
    {
      "epoch": 0.8884,
      "grad_norm": 0.65625,
      "learning_rate": 0.00033648241206030155,
      "loss": 2.0254,
      "step": 177680
    },
    {
      "epoch": 0.88845,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003363316582914573,
      "loss": 2.1366,
      "step": 177690
    },
    {
      "epoch": 0.8885,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003361809045226131,
      "loss": 2.0721,
      "step": 177700
    },
    {
      "epoch": 0.88855,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00033603015075376886,
      "loss": 2.0768,
      "step": 177710
    },
    {
      "epoch": 0.8886,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00033587939698492467,
      "loss": 2.0961,
      "step": 177720
    },
    {
      "epoch": 0.88865,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0003357286432160804,
      "loss": 2.0066,
      "step": 177730
    },
    {
      "epoch": 0.8887,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00033557788944723623,
      "loss": 2.0562,
      "step": 177740
    },
    {
      "epoch": 0.88875,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000335427135678392,
      "loss": 2.114,
      "step": 177750
    },
    {
      "epoch": 0.8888,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00033527638190954773,
      "loss": 2.0722,
      "step": 177760
    },
    {
      "epoch": 0.88885,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00033512562814070354,
      "loss": 2.0717,
      "step": 177770
    },
    {
      "epoch": 0.8889,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0003349748743718593,
      "loss": 2.0916,
      "step": 177780
    },
    {
      "epoch": 0.88895,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003348241206030151,
      "loss": 2.0216,
      "step": 177790
    },
    {
      "epoch": 0.889,
      "grad_norm": 0.65625,
      "learning_rate": 0.00033467336683417085,
      "loss": 2.1188,
      "step": 177800
    },
    {
      "epoch": 0.88905,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00033452261306532666,
      "loss": 2.0439,
      "step": 177810
    },
    {
      "epoch": 0.8891,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003343718592964824,
      "loss": 2.0717,
      "step": 177820
    },
    {
      "epoch": 0.88915,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0003342211055276382,
      "loss": 2.1545,
      "step": 177830
    },
    {
      "epoch": 0.8892,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00033407035175879397,
      "loss": 2.0761,
      "step": 177840
    },
    {
      "epoch": 0.88925,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003339195979899498,
      "loss": 2.0749,
      "step": 177850
    },
    {
      "epoch": 0.8893,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00033376884422110553,
      "loss": 2.0761,
      "step": 177860
    },
    {
      "epoch": 0.88935,
      "grad_norm": 0.578125,
      "learning_rate": 0.0003336180904522613,
      "loss": 2.0357,
      "step": 177870
    },
    {
      "epoch": 0.8894,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003334673366834171,
      "loss": 2.1186,
      "step": 177880
    },
    {
      "epoch": 0.88945,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00033331658291457284,
      "loss": 2.0548,
      "step": 177890
    },
    {
      "epoch": 0.8895,
      "grad_norm": 0.609375,
      "learning_rate": 0.00033316582914572865,
      "loss": 2.0768,
      "step": 177900
    },
    {
      "epoch": 0.88955,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003330150753768844,
      "loss": 2.0802,
      "step": 177910
    },
    {
      "epoch": 0.8896,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0003328643216080402,
      "loss": 2.0452,
      "step": 177920
    },
    {
      "epoch": 0.88965,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00033271356783919596,
      "loss": 2.0633,
      "step": 177930
    },
    {
      "epoch": 0.8897,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00033256281407035177,
      "loss": 2.0805,
      "step": 177940
    },
    {
      "epoch": 0.88975,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0003324120603015075,
      "loss": 2.067,
      "step": 177950
    },
    {
      "epoch": 0.8898,
      "grad_norm": 0.609375,
      "learning_rate": 0.00033226130653266333,
      "loss": 2.1177,
      "step": 177960
    },
    {
      "epoch": 0.88985,
      "grad_norm": 0.546875,
      "learning_rate": 0.0003321105527638191,
      "loss": 2.0287,
      "step": 177970
    },
    {
      "epoch": 0.8899,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003319597989949749,
      "loss": 2.0541,
      "step": 177980
    },
    {
      "epoch": 0.88995,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00033180904522613064,
      "loss": 2.0873,
      "step": 177990
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00033165829145728645,
      "loss": 2.0061,
      "step": 178000
    },
    {
      "epoch": 0.89,
      "eval_loss": 2.0768039226531982,
      "eval_runtime": 46.3005,
      "eval_samples_per_second": 53.995,
      "eval_steps_per_second": 0.108,
      "step": 178000
    },
    {
      "epoch": 0.89005,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003315075376884422,
      "loss": 2.085,
      "step": 178010
    },
    {
      "epoch": 0.8901,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00033135678391959795,
      "loss": 2.0574,
      "step": 178020
    },
    {
      "epoch": 0.89015,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00033120603015075376,
      "loss": 2.0457,
      "step": 178030
    },
    {
      "epoch": 0.8902,
      "grad_norm": 0.6875,
      "learning_rate": 0.0003310552763819095,
      "loss": 2.1263,
      "step": 178040
    },
    {
      "epoch": 0.89025,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003309045226130653,
      "loss": 2.0732,
      "step": 178050
    },
    {
      "epoch": 0.8903,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00033075376884422107,
      "loss": 2.0409,
      "step": 178060
    },
    {
      "epoch": 0.89035,
      "grad_norm": 0.71484375,
      "learning_rate": 0.0003306030150753769,
      "loss": 2.1511,
      "step": 178070
    },
    {
      "epoch": 0.8904,
      "grad_norm": 0.59375,
      "learning_rate": 0.00033045226130653263,
      "loss": 2.0649,
      "step": 178080
    },
    {
      "epoch": 0.89045,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00033030150753768844,
      "loss": 2.1326,
      "step": 178090
    },
    {
      "epoch": 0.8905,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003301507537688442,
      "loss": 2.0817,
      "step": 178100
    },
    {
      "epoch": 0.89055,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00033,
      "loss": 2.0678,
      "step": 178110
    },
    {
      "epoch": 0.8906,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00032984924623115575,
      "loss": 2.135,
      "step": 178120
    },
    {
      "epoch": 0.89065,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00032969849246231156,
      "loss": 2.0409,
      "step": 178130
    },
    {
      "epoch": 0.8907,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003295477386934673,
      "loss": 2.0914,
      "step": 178140
    },
    {
      "epoch": 0.89075,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003293969849246231,
      "loss": 2.1061,
      "step": 178150
    },
    {
      "epoch": 0.8908,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00032924623115577887,
      "loss": 2.0131,
      "step": 178160
    },
    {
      "epoch": 0.89085,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003290954773869347,
      "loss": 2.0652,
      "step": 178170
    },
    {
      "epoch": 0.8909,
      "grad_norm": 0.625,
      "learning_rate": 0.00032894472361809043,
      "loss": 2.0797,
      "step": 178180
    },
    {
      "epoch": 0.89095,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00032879396984924624,
      "loss": 2.1108,
      "step": 178190
    },
    {
      "epoch": 0.891,
      "grad_norm": 0.75390625,
      "learning_rate": 0.000328643216080402,
      "loss": 2.0879,
      "step": 178200
    },
    {
      "epoch": 0.89105,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0003284924623115578,
      "loss": 2.0321,
      "step": 178210
    },
    {
      "epoch": 0.8911,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00032834170854271355,
      "loss": 2.11,
      "step": 178220
    },
    {
      "epoch": 0.89115,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00032819095477386935,
      "loss": 2.0186,
      "step": 178230
    },
    {
      "epoch": 0.8912,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003280402010050251,
      "loss": 2.068,
      "step": 178240
    },
    {
      "epoch": 0.89125,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003278894472361809,
      "loss": 2.1471,
      "step": 178250
    },
    {
      "epoch": 0.8913,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00032773869346733667,
      "loss": 2.0353,
      "step": 178260
    },
    {
      "epoch": 0.89135,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0003275879396984925,
      "loss": 2.072,
      "step": 178270
    },
    {
      "epoch": 0.8914,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003274371859296482,
      "loss": 2.0639,
      "step": 178280
    },
    {
      "epoch": 0.89145,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00032728643216080403,
      "loss": 2.0369,
      "step": 178290
    },
    {
      "epoch": 0.8915,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003271356783919598,
      "loss": 2.0967,
      "step": 178300
    },
    {
      "epoch": 0.89155,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003269849246231156,
      "loss": 2.0151,
      "step": 178310
    },
    {
      "epoch": 0.8916,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00032683417085427135,
      "loss": 2.1036,
      "step": 178320
    },
    {
      "epoch": 0.89165,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00032668341708542715,
      "loss": 1.9969,
      "step": 178330
    },
    {
      "epoch": 0.8917,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003265326633165829,
      "loss": 2.0121,
      "step": 178340
    },
    {
      "epoch": 0.89175,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003263819095477387,
      "loss": 2.113,
      "step": 178350
    },
    {
      "epoch": 0.8918,
      "grad_norm": 0.578125,
      "learning_rate": 0.00032623115577889446,
      "loss": 2.0656,
      "step": 178360
    },
    {
      "epoch": 0.89185,
      "grad_norm": 0.609375,
      "learning_rate": 0.00032608040201005027,
      "loss": 2.0883,
      "step": 178370
    },
    {
      "epoch": 0.8919,
      "grad_norm": 0.625,
      "learning_rate": 0.000325929648241206,
      "loss": 2.083,
      "step": 178380
    },
    {
      "epoch": 0.89195,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00032577889447236183,
      "loss": 2.0451,
      "step": 178390
    },
    {
      "epoch": 0.892,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0003256281407035176,
      "loss": 2.0626,
      "step": 178400
    },
    {
      "epoch": 0.89205,
      "grad_norm": 0.578125,
      "learning_rate": 0.0003254773869346734,
      "loss": 2.0185,
      "step": 178410
    },
    {
      "epoch": 0.8921,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00032532663316582914,
      "loss": 2.068,
      "step": 178420
    },
    {
      "epoch": 0.89215,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00032517587939698495,
      "loss": 2.1072,
      "step": 178430
    },
    {
      "epoch": 0.8922,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003250251256281407,
      "loss": 2.0169,
      "step": 178440
    },
    {
      "epoch": 0.89225,
      "grad_norm": 0.703125,
      "learning_rate": 0.0003248743718592965,
      "loss": 2.1047,
      "step": 178450
    },
    {
      "epoch": 0.8923,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00032472361809045226,
      "loss": 2.0635,
      "step": 178460
    },
    {
      "epoch": 0.89235,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00032457286432160807,
      "loss": 2.0874,
      "step": 178470
    },
    {
      "epoch": 0.8924,
      "grad_norm": 0.578125,
      "learning_rate": 0.0003244221105527638,
      "loss": 2.0972,
      "step": 178480
    },
    {
      "epoch": 0.89245,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00032427135678391963,
      "loss": 2.0412,
      "step": 178490
    },
    {
      "epoch": 0.8925,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003241206030150754,
      "loss": 2.0704,
      "step": 178500
    },
    {
      "epoch": 0.89255,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003239698492462312,
      "loss": 2.0581,
      "step": 178510
    },
    {
      "epoch": 0.8926,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00032381909547738694,
      "loss": 2.0863,
      "step": 178520
    },
    {
      "epoch": 0.89265,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00032366834170854275,
      "loss": 2.1252,
      "step": 178530
    },
    {
      "epoch": 0.8927,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0003235175879396985,
      "loss": 2.0217,
      "step": 178540
    },
    {
      "epoch": 0.89275,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003233668341708543,
      "loss": 2.0465,
      "step": 178550
    },
    {
      "epoch": 0.8928,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00032321608040201006,
      "loss": 2.043,
      "step": 178560
    },
    {
      "epoch": 0.89285,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00032306532663316587,
      "loss": 2.0645,
      "step": 178570
    },
    {
      "epoch": 0.8929,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0003229145728643216,
      "loss": 2.1054,
      "step": 178580
    },
    {
      "epoch": 0.89295,
      "grad_norm": 0.703125,
      "learning_rate": 0.0003227638190954774,
      "loss": 2.0547,
      "step": 178590
    },
    {
      "epoch": 0.893,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003226130653266332,
      "loss": 2.0818,
      "step": 178600
    },
    {
      "epoch": 0.89305,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000322462311557789,
      "loss": 2.0358,
      "step": 178610
    },
    {
      "epoch": 0.8931,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00032231155778894474,
      "loss": 2.0743,
      "step": 178620
    },
    {
      "epoch": 0.89315,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00032216080402010054,
      "loss": 2.1324,
      "step": 178630
    },
    {
      "epoch": 0.8932,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003220100502512563,
      "loss": 2.0465,
      "step": 178640
    },
    {
      "epoch": 0.89325,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003218592964824121,
      "loss": 2.0873,
      "step": 178650
    },
    {
      "epoch": 0.8933,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00032170854271356786,
      "loss": 2.0758,
      "step": 178660
    },
    {
      "epoch": 0.89335,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00032155778894472366,
      "loss": 2.0151,
      "step": 178670
    },
    {
      "epoch": 0.8934,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003214070351758794,
      "loss": 2.0877,
      "step": 178680
    },
    {
      "epoch": 0.89345,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00032125628140703517,
      "loss": 2.0301,
      "step": 178690
    },
    {
      "epoch": 0.8935,
      "grad_norm": 0.578125,
      "learning_rate": 0.000321105527638191,
      "loss": 2.0906,
      "step": 178700
    },
    {
      "epoch": 0.89355,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00032095477386934673,
      "loss": 2.0639,
      "step": 178710
    },
    {
      "epoch": 0.8936,
      "grad_norm": 0.578125,
      "learning_rate": 0.00032080402010050253,
      "loss": 2.0256,
      "step": 178720
    },
    {
      "epoch": 0.89365,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0003206532663316583,
      "loss": 2.0987,
      "step": 178730
    },
    {
      "epoch": 0.8937,
      "grad_norm": 0.578125,
      "learning_rate": 0.0003205025125628141,
      "loss": 2.0783,
      "step": 178740
    },
    {
      "epoch": 0.89375,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00032035175879396985,
      "loss": 2.0614,
      "step": 178750
    },
    {
      "epoch": 0.8938,
      "grad_norm": 0.640625,
      "learning_rate": 0.00032020100502512565,
      "loss": 2.0669,
      "step": 178760
    },
    {
      "epoch": 0.89385,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003200502512562814,
      "loss": 2.0075,
      "step": 178770
    },
    {
      "epoch": 0.8939,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00031989949748743716,
      "loss": 2.0537,
      "step": 178780
    },
    {
      "epoch": 0.89395,
      "grad_norm": 0.59375,
      "learning_rate": 0.00031974874371859297,
      "loss": 2.0242,
      "step": 178790
    },
    {
      "epoch": 0.894,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0003195979899497487,
      "loss": 2.1148,
      "step": 178800
    },
    {
      "epoch": 0.89405,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0003194472361809045,
      "loss": 2.0724,
      "step": 178810
    },
    {
      "epoch": 0.8941,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003192964824120603,
      "loss": 1.9919,
      "step": 178820
    },
    {
      "epoch": 0.89415,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003191457286432161,
      "loss": 2.066,
      "step": 178830
    },
    {
      "epoch": 0.8942,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00031899497487437184,
      "loss": 2.0398,
      "step": 178840
    },
    {
      "epoch": 0.89425,
      "grad_norm": 0.65625,
      "learning_rate": 0.00031884422110552764,
      "loss": 2.0866,
      "step": 178850
    },
    {
      "epoch": 0.8943,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0003186934673366834,
      "loss": 2.0969,
      "step": 178860
    },
    {
      "epoch": 0.89435,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0003185427135678392,
      "loss": 2.0164,
      "step": 178870
    },
    {
      "epoch": 0.8944,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00031839195979899496,
      "loss": 2.1353,
      "step": 178880
    },
    {
      "epoch": 0.89445,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00031824120603015076,
      "loss": 2.0164,
      "step": 178890
    },
    {
      "epoch": 0.8945,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003180904522613065,
      "loss": 2.1078,
      "step": 178900
    },
    {
      "epoch": 0.89455,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003179396984924623,
      "loss": 2.0925,
      "step": 178910
    },
    {
      "epoch": 0.8946,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003177889447236181,
      "loss": 2.0275,
      "step": 178920
    },
    {
      "epoch": 0.89465,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0003176381909547739,
      "loss": 2.1355,
      "step": 178930
    },
    {
      "epoch": 0.8947,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00031748743718592963,
      "loss": 2.0898,
      "step": 178940
    },
    {
      "epoch": 0.89475,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00031733668341708544,
      "loss": 2.0844,
      "step": 178950
    },
    {
      "epoch": 0.8948,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003171859296482412,
      "loss": 2.1173,
      "step": 178960
    },
    {
      "epoch": 0.89485,
      "grad_norm": 0.66015625,
      "learning_rate": 0.000317035175879397,
      "loss": 2.0361,
      "step": 178970
    },
    {
      "epoch": 0.8949,
      "grad_norm": 0.625,
      "learning_rate": 0.00031688442211055275,
      "loss": 2.1078,
      "step": 178980
    },
    {
      "epoch": 0.89495,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00031673366834170856,
      "loss": 2.0538,
      "step": 178990
    },
    {
      "epoch": 0.895,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003165829145728643,
      "loss": 2.0606,
      "step": 179000
    },
    {
      "epoch": 0.89505,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003164321608040201,
      "loss": 2.0852,
      "step": 179010
    },
    {
      "epoch": 0.8951,
      "grad_norm": 0.625,
      "learning_rate": 0.00031628140703517587,
      "loss": 2.0694,
      "step": 179020
    },
    {
      "epoch": 0.89515,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003161306532663317,
      "loss": 2.1215,
      "step": 179030
    },
    {
      "epoch": 0.8952,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00031597989949748743,
      "loss": 2.0683,
      "step": 179040
    },
    {
      "epoch": 0.89525,
      "grad_norm": 0.625,
      "learning_rate": 0.00031582914572864324,
      "loss": 2.1083,
      "step": 179050
    },
    {
      "epoch": 0.8953,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000315678391959799,
      "loss": 2.0645,
      "step": 179060
    },
    {
      "epoch": 0.89535,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003155276381909548,
      "loss": 2.0784,
      "step": 179070
    },
    {
      "epoch": 0.8954,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00031537688442211055,
      "loss": 2.0785,
      "step": 179080
    },
    {
      "epoch": 0.89545,
      "grad_norm": 0.578125,
      "learning_rate": 0.00031522613065326636,
      "loss": 2.0428,
      "step": 179090
    },
    {
      "epoch": 0.8955,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0003150753768844221,
      "loss": 2.161,
      "step": 179100
    },
    {
      "epoch": 0.89555,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003149246231155779,
      "loss": 2.0439,
      "step": 179110
    },
    {
      "epoch": 0.8956,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00031477386934673367,
      "loss": 2.0737,
      "step": 179120
    },
    {
      "epoch": 0.89565,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003146231155778895,
      "loss": 2.0932,
      "step": 179130
    },
    {
      "epoch": 0.8957,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00031447236180904523,
      "loss": 2.0312,
      "step": 179140
    },
    {
      "epoch": 0.89575,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00031432160804020104,
      "loss": 2.1393,
      "step": 179150
    },
    {
      "epoch": 0.8958,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003141708542713568,
      "loss": 2.0585,
      "step": 179160
    },
    {
      "epoch": 0.89585,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003140201005025126,
      "loss": 2.0529,
      "step": 179170
    },
    {
      "epoch": 0.8959,
      "grad_norm": 0.65625,
      "learning_rate": 0.00031386934673366835,
      "loss": 2.0879,
      "step": 179180
    },
    {
      "epoch": 0.89595,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0003137185929648241,
      "loss": 2.0246,
      "step": 179190
    },
    {
      "epoch": 0.896,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003135678391959799,
      "loss": 2.1192,
      "step": 179200
    },
    {
      "epoch": 0.89605,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00031341708542713566,
      "loss": 2.0685,
      "step": 179210
    },
    {
      "epoch": 0.8961,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00031326633165829147,
      "loss": 2.0421,
      "step": 179220
    },
    {
      "epoch": 0.89615,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0003131155778894472,
      "loss": 2.0439,
      "step": 179230
    },
    {
      "epoch": 0.8962,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000312964824120603,
      "loss": 2.005,
      "step": 179240
    },
    {
      "epoch": 0.89625,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003128140703517588,
      "loss": 2.0625,
      "step": 179250
    },
    {
      "epoch": 0.8963,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0003126633165829146,
      "loss": 2.0563,
      "step": 179260
    },
    {
      "epoch": 0.89635,
      "grad_norm": 0.609375,
      "learning_rate": 0.00031251256281407034,
      "loss": 2.137,
      "step": 179270
    },
    {
      "epoch": 0.8964,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00031236180904522614,
      "loss": 2.084,
      "step": 179280
    },
    {
      "epoch": 0.89645,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003122110552763819,
      "loss": 2.0737,
      "step": 179290
    },
    {
      "epoch": 0.8965,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003120603015075377,
      "loss": 2.1168,
      "step": 179300
    },
    {
      "epoch": 0.89655,
      "grad_norm": 0.609375,
      "learning_rate": 0.00031190954773869346,
      "loss": 2.0478,
      "step": 179310
    },
    {
      "epoch": 0.8966,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00031175879396984926,
      "loss": 2.0629,
      "step": 179320
    },
    {
      "epoch": 0.89665,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000311608040201005,
      "loss": 2.0157,
      "step": 179330
    },
    {
      "epoch": 0.8967,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003114572864321608,
      "loss": 2.0474,
      "step": 179340
    },
    {
      "epoch": 0.89675,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0003113065326633166,
      "loss": 2.0998,
      "step": 179350
    },
    {
      "epoch": 0.8968,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0003111557788944724,
      "loss": 2.0672,
      "step": 179360
    },
    {
      "epoch": 0.89685,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00031100502512562814,
      "loss": 2.1115,
      "step": 179370
    },
    {
      "epoch": 0.8969,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00031085427135678394,
      "loss": 2.0535,
      "step": 179380
    },
    {
      "epoch": 0.89695,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003107035175879397,
      "loss": 2.1108,
      "step": 179390
    },
    {
      "epoch": 0.897,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0003105527638190955,
      "loss": 2.0622,
      "step": 179400
    },
    {
      "epoch": 0.89705,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00031040201005025125,
      "loss": 2.0228,
      "step": 179410
    },
    {
      "epoch": 0.8971,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00031025125628140706,
      "loss": 2.1107,
      "step": 179420
    },
    {
      "epoch": 0.89715,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003101005025125628,
      "loss": 2.0292,
      "step": 179430
    },
    {
      "epoch": 0.8972,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0003099497487437186,
      "loss": 2.1594,
      "step": 179440
    },
    {
      "epoch": 0.89725,
      "grad_norm": 0.53515625,
      "learning_rate": 0.0003097989949748744,
      "loss": 2.0511,
      "step": 179450
    },
    {
      "epoch": 0.8973,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003096482412060302,
      "loss": 2.0607,
      "step": 179460
    },
    {
      "epoch": 0.89735,
      "grad_norm": 0.640625,
      "learning_rate": 0.00030949748743718593,
      "loss": 2.1141,
      "step": 179470
    },
    {
      "epoch": 0.8974,
      "grad_norm": 0.625,
      "learning_rate": 0.00030934673366834174,
      "loss": 2.0264,
      "step": 179480
    },
    {
      "epoch": 0.89745,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0003091959798994975,
      "loss": 2.0712,
      "step": 179490
    },
    {
      "epoch": 0.8975,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0003090452261306533,
      "loss": 2.0711,
      "step": 179500
    },
    {
      "epoch": 0.89755,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00030889447236180905,
      "loss": 2.0494,
      "step": 179510
    },
    {
      "epoch": 0.8976,
      "grad_norm": 0.640625,
      "learning_rate": 0.00030874371859296486,
      "loss": 2.0959,
      "step": 179520
    },
    {
      "epoch": 0.89765,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003085929648241206,
      "loss": 2.0367,
      "step": 179530
    },
    {
      "epoch": 0.8977,
      "grad_norm": 0.640625,
      "learning_rate": 0.0003084422110552764,
      "loss": 2.0991,
      "step": 179540
    },
    {
      "epoch": 0.89775,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00030829145728643217,
      "loss": 2.0104,
      "step": 179550
    },
    {
      "epoch": 0.8978,
      "grad_norm": 0.59375,
      "learning_rate": 0.000308140703517588,
      "loss": 2.055,
      "step": 179560
    },
    {
      "epoch": 0.89785,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00030798994974874373,
      "loss": 2.0636,
      "step": 179570
    },
    {
      "epoch": 0.8979,
      "grad_norm": 0.609375,
      "learning_rate": 0.00030783919597989954,
      "loss": 2.0279,
      "step": 179580
    },
    {
      "epoch": 0.89795,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0003076884422110553,
      "loss": 2.1041,
      "step": 179590
    },
    {
      "epoch": 0.898,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0003075376884422111,
      "loss": 1.9883,
      "step": 179600
    },
    {
      "epoch": 0.89805,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00030738693467336685,
      "loss": 2.1507,
      "step": 179610
    },
    {
      "epoch": 0.8981,
      "grad_norm": 0.5390625,
      "learning_rate": 0.0003072361809045226,
      "loss": 2.0477,
      "step": 179620
    },
    {
      "epoch": 0.89815,
      "grad_norm": 0.625,
      "learning_rate": 0.0003070854271356784,
      "loss": 2.0633,
      "step": 179630
    },
    {
      "epoch": 0.8982,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00030693467336683416,
      "loss": 2.1032,
      "step": 179640
    },
    {
      "epoch": 0.89825,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00030678391959798997,
      "loss": 2.0446,
      "step": 179650
    },
    {
      "epoch": 0.8983,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003066331658291457,
      "loss": 2.1512,
      "step": 179660
    },
    {
      "epoch": 0.89835,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0003064824120603015,
      "loss": 2.0884,
      "step": 179670
    },
    {
      "epoch": 0.8984,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003063316582914573,
      "loss": 2.1451,
      "step": 179680
    },
    {
      "epoch": 0.89845,
      "grad_norm": 0.65625,
      "learning_rate": 0.0003061809045226131,
      "loss": 2.0713,
      "step": 179690
    },
    {
      "epoch": 0.8985,
      "grad_norm": 0.609375,
      "learning_rate": 0.00030603015075376884,
      "loss": 2.0509,
      "step": 179700
    },
    {
      "epoch": 0.89855,
      "grad_norm": 0.578125,
      "learning_rate": 0.0003058793969849246,
      "loss": 2.0754,
      "step": 179710
    },
    {
      "epoch": 0.8986,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003057286432160804,
      "loss": 2.0164,
      "step": 179720
    },
    {
      "epoch": 0.89865,
      "grad_norm": 0.640625,
      "learning_rate": 0.00030557788944723615,
      "loss": 2.0777,
      "step": 179730
    },
    {
      "epoch": 0.8987,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00030542713567839196,
      "loss": 2.0442,
      "step": 179740
    },
    {
      "epoch": 0.89875,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0003052763819095477,
      "loss": 2.0972,
      "step": 179750
    },
    {
      "epoch": 0.8988,
      "grad_norm": 0.609375,
      "learning_rate": 0.0003051256281407035,
      "loss": 2.1199,
      "step": 179760
    },
    {
      "epoch": 0.89885,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00030497487437185927,
      "loss": 2.0092,
      "step": 179770
    },
    {
      "epoch": 0.8989,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0003048241206030151,
      "loss": 2.0829,
      "step": 179780
    },
    {
      "epoch": 0.89895,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00030467336683417083,
      "loss": 2.0694,
      "step": 179790
    },
    {
      "epoch": 0.899,
      "grad_norm": 0.59375,
      "learning_rate": 0.00030452261306532664,
      "loss": 2.0673,
      "step": 179800
    },
    {
      "epoch": 0.89905,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0003043718592964824,
      "loss": 2.0888,
      "step": 179810
    },
    {
      "epoch": 0.8991,
      "grad_norm": 0.5625,
      "learning_rate": 0.0003042211055276382,
      "loss": 2.053,
      "step": 179820
    },
    {
      "epoch": 0.89915,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00030407035175879395,
      "loss": 2.0943,
      "step": 179830
    },
    {
      "epoch": 0.8992,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00030391959798994976,
      "loss": 2.0801,
      "step": 179840
    },
    {
      "epoch": 0.89925,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0003037688442211055,
      "loss": 2.0791,
      "step": 179850
    },
    {
      "epoch": 0.8993,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0003036180904522613,
      "loss": 2.0932,
      "step": 179860
    },
    {
      "epoch": 0.89935,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00030346733668341707,
      "loss": 2.1032,
      "step": 179870
    },
    {
      "epoch": 0.8994,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0003033165829145729,
      "loss": 2.1108,
      "step": 179880
    },
    {
      "epoch": 0.89945,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0003031658291457286,
      "loss": 1.9951,
      "step": 179890
    },
    {
      "epoch": 0.8995,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00030301507537688443,
      "loss": 2.0748,
      "step": 179900
    },
    {
      "epoch": 0.89955,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0003028643216080402,
      "loss": 2.0468,
      "step": 179910
    },
    {
      "epoch": 0.8996,
      "grad_norm": 0.69921875,
      "learning_rate": 0.000302713567839196,
      "loss": 2.0514,
      "step": 179920
    },
    {
      "epoch": 0.89965,
      "grad_norm": 0.625,
      "learning_rate": 0.00030256281407035175,
      "loss": 2.0292,
      "step": 179930
    },
    {
      "epoch": 0.8997,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00030241206030150755,
      "loss": 2.0528,
      "step": 179940
    },
    {
      "epoch": 0.89975,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0003022613065326633,
      "loss": 2.0842,
      "step": 179950
    },
    {
      "epoch": 0.8998,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003021105527638191,
      "loss": 2.035,
      "step": 179960
    },
    {
      "epoch": 0.89985,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00030195979899497486,
      "loss": 2.0758,
      "step": 179970
    },
    {
      "epoch": 0.8999,
      "grad_norm": 0.59375,
      "learning_rate": 0.00030180904522613067,
      "loss": 2.08,
      "step": 179980
    },
    {
      "epoch": 0.89995,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0003016582914572864,
      "loss": 2.1169,
      "step": 179990
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00030150753768844223,
      "loss": 2.0308,
      "step": 180000
    },
    {
      "epoch": 0.9,
      "eval_loss": 2.0748322010040283,
      "eval_runtime": 49.3416,
      "eval_samples_per_second": 50.667,
      "eval_steps_per_second": 0.101,
      "step": 180000
    },
    {
      "epoch": 0.90005,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000301356783919598,
      "loss": 2.039,
      "step": 180010
    },
    {
      "epoch": 0.9001,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0003012060301507538,
      "loss": 2.131,
      "step": 180020
    },
    {
      "epoch": 0.90015,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00030105527638190954,
      "loss": 2.0503,
      "step": 180030
    },
    {
      "epoch": 0.9002,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00030090452261306535,
      "loss": 2.0836,
      "step": 180040
    },
    {
      "epoch": 0.90025,
      "grad_norm": 0.59375,
      "learning_rate": 0.0003007537688442211,
      "loss": 2.0197,
      "step": 180050
    },
    {
      "epoch": 0.9003,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0003006030150753769,
      "loss": 2.0802,
      "step": 180060
    },
    {
      "epoch": 0.90035,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00030045226130653266,
      "loss": 2.0458,
      "step": 180070
    },
    {
      "epoch": 0.9004,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00030030150753768847,
      "loss": 2.048,
      "step": 180080
    },
    {
      "epoch": 0.90045,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0003001507537688442,
      "loss": 2.0637,
      "step": 180090
    },
    {
      "epoch": 0.9005,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00030000000000000003,
      "loss": 2.0075,
      "step": 180100
    },
    {
      "epoch": 0.90055,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002998492462311558,
      "loss": 2.1262,
      "step": 180110
    },
    {
      "epoch": 0.9006,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002996984924623116,
      "loss": 2.045,
      "step": 180120
    },
    {
      "epoch": 0.90065,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00029954773869346734,
      "loss": 2.0909,
      "step": 180130
    },
    {
      "epoch": 0.9007,
      "grad_norm": 0.546875,
      "learning_rate": 0.00029939698492462315,
      "loss": 2.0826,
      "step": 180140
    },
    {
      "epoch": 0.90075,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002992462311557789,
      "loss": 2.0701,
      "step": 180150
    },
    {
      "epoch": 0.9008,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002990954773869347,
      "loss": 2.0557,
      "step": 180160
    },
    {
      "epoch": 0.90085,
      "grad_norm": 0.59375,
      "learning_rate": 0.00029894472361809046,
      "loss": 2.1025,
      "step": 180170
    },
    {
      "epoch": 0.9009,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00029879396984924627,
      "loss": 2.1104,
      "step": 180180
    },
    {
      "epoch": 0.90095,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000298643216080402,
      "loss": 2.0282,
      "step": 180190
    },
    {
      "epoch": 0.901,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002984924623115578,
      "loss": 2.088,
      "step": 180200
    },
    {
      "epoch": 0.90105,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002983417085427136,
      "loss": 2.0538,
      "step": 180210
    },
    {
      "epoch": 0.9011,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002981909547738694,
      "loss": 2.0476,
      "step": 180220
    },
    {
      "epoch": 0.90115,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00029804020100502514,
      "loss": 2.0741,
      "step": 180230
    },
    {
      "epoch": 0.9012,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00029788944723618094,
      "loss": 2.025,
      "step": 180240
    },
    {
      "epoch": 0.90125,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002977386934673367,
      "loss": 2.0968,
      "step": 180250
    },
    {
      "epoch": 0.9013,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002975879396984925,
      "loss": 2.0956,
      "step": 180260
    },
    {
      "epoch": 0.90135,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00029743718592964826,
      "loss": 2.0475,
      "step": 180270
    },
    {
      "epoch": 0.9014,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00029728643216080406,
      "loss": 2.0738,
      "step": 180280
    },
    {
      "epoch": 0.90145,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002971356783919598,
      "loss": 2.0517,
      "step": 180290
    },
    {
      "epoch": 0.9015,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002969849246231156,
      "loss": 2.1046,
      "step": 180300
    },
    {
      "epoch": 0.90155,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002968341708542714,
      "loss": 2.0272,
      "step": 180310
    },
    {
      "epoch": 0.9016,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0002966834170854272,
      "loss": 2.1436,
      "step": 180320
    },
    {
      "epoch": 0.90165,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00029653266331658293,
      "loss": 2.0444,
      "step": 180330
    },
    {
      "epoch": 0.9017,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002963819095477387,
      "loss": 2.0671,
      "step": 180340
    },
    {
      "epoch": 0.90175,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002962311557788945,
      "loss": 2.1134,
      "step": 180350
    },
    {
      "epoch": 0.9018,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00029608040201005025,
      "loss": 2.0122,
      "step": 180360
    },
    {
      "epoch": 0.90185,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00029592964824120605,
      "loss": 2.1204,
      "step": 180370
    },
    {
      "epoch": 0.9019,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002957788944723618,
      "loss": 2.0227,
      "step": 180380
    },
    {
      "epoch": 0.90195,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002956281407035176,
      "loss": 2.0906,
      "step": 180390
    },
    {
      "epoch": 0.902,
      "grad_norm": 0.5625,
      "learning_rate": 0.00029547738693467337,
      "loss": 2.0607,
      "step": 180400
    },
    {
      "epoch": 0.90205,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00029532663316582917,
      "loss": 2.0597,
      "step": 180410
    },
    {
      "epoch": 0.9021,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0002951758793969849,
      "loss": 2.0686,
      "step": 180420
    },
    {
      "epoch": 0.90215,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00029502512562814073,
      "loss": 2.0279,
      "step": 180430
    },
    {
      "epoch": 0.9022,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002948743718592965,
      "loss": 2.1115,
      "step": 180440
    },
    {
      "epoch": 0.90225,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002947236180904523,
      "loss": 2.0139,
      "step": 180450
    },
    {
      "epoch": 0.9023,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00029457286432160804,
      "loss": 2.0798,
      "step": 180460
    },
    {
      "epoch": 0.90235,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00029442211055276385,
      "loss": 2.0354,
      "step": 180470
    },
    {
      "epoch": 0.9024,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0002942713567839196,
      "loss": 1.9961,
      "step": 180480
    },
    {
      "epoch": 0.90245,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002941206030150754,
      "loss": 2.1122,
      "step": 180490
    },
    {
      "epoch": 0.9025,
      "grad_norm": 0.625,
      "learning_rate": 0.00029396984924623116,
      "loss": 2.0515,
      "step": 180500
    },
    {
      "epoch": 0.90255,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00029381909547738697,
      "loss": 2.1164,
      "step": 180510
    },
    {
      "epoch": 0.9026,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002936683417085427,
      "loss": 2.0684,
      "step": 180520
    },
    {
      "epoch": 0.90265,
      "grad_norm": 0.609375,
      "learning_rate": 0.00029351758793969853,
      "loss": 2.0836,
      "step": 180530
    },
    {
      "epoch": 0.9027,
      "grad_norm": 0.625,
      "learning_rate": 0.0002933668341708543,
      "loss": 2.0792,
      "step": 180540
    },
    {
      "epoch": 0.90275,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00029321608040201003,
      "loss": 2.0699,
      "step": 180550
    },
    {
      "epoch": 0.9028,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00029306532663316584,
      "loss": 2.0379,
      "step": 180560
    },
    {
      "epoch": 0.90285,
      "grad_norm": 0.76171875,
      "learning_rate": 0.0002929145728643216,
      "loss": 2.0145,
      "step": 180570
    },
    {
      "epoch": 0.9029,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0002927638190954774,
      "loss": 2.0831,
      "step": 180580
    },
    {
      "epoch": 0.90295,
      "grad_norm": 0.640625,
      "learning_rate": 0.00029261306532663315,
      "loss": 2.0974,
      "step": 180590
    },
    {
      "epoch": 0.903,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00029246231155778896,
      "loss": 2.1029,
      "step": 180600
    },
    {
      "epoch": 0.90305,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0002923115577889447,
      "loss": 2.0847,
      "step": 180610
    },
    {
      "epoch": 0.9031,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002921608040201005,
      "loss": 2.0424,
      "step": 180620
    },
    {
      "epoch": 0.90315,
      "grad_norm": 0.5625,
      "learning_rate": 0.00029201005025125627,
      "loss": 2.0846,
      "step": 180630
    },
    {
      "epoch": 0.9032,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000291859296482412,
      "loss": 2.0185,
      "step": 180640
    },
    {
      "epoch": 0.90325,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00029170854271356783,
      "loss": 2.1202,
      "step": 180650
    },
    {
      "epoch": 0.9033,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0002915577889447236,
      "loss": 2.0752,
      "step": 180660
    },
    {
      "epoch": 0.90335,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002914070351758794,
      "loss": 2.1004,
      "step": 180670
    },
    {
      "epoch": 0.9034,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00029125628140703514,
      "loss": 2.0892,
      "step": 180680
    },
    {
      "epoch": 0.90345,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00029110552763819095,
      "loss": 2.0286,
      "step": 180690
    },
    {
      "epoch": 0.9035,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002909547738693467,
      "loss": 2.0746,
      "step": 180700
    },
    {
      "epoch": 0.90355,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0002908040201005025,
      "loss": 2.0563,
      "step": 180710
    },
    {
      "epoch": 0.9036,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00029065326633165826,
      "loss": 2.0752,
      "step": 180720
    },
    {
      "epoch": 0.90365,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00029050251256281407,
      "loss": 2.0816,
      "step": 180730
    },
    {
      "epoch": 0.9037,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002903517587939698,
      "loss": 2.0764,
      "step": 180740
    },
    {
      "epoch": 0.90375,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00029020100502512563,
      "loss": 2.069,
      "step": 180750
    },
    {
      "epoch": 0.9038,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002900502512562814,
      "loss": 2.0356,
      "step": 180760
    },
    {
      "epoch": 0.90385,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002898994974874372,
      "loss": 2.1019,
      "step": 180770
    },
    {
      "epoch": 0.9039,
      "grad_norm": 0.59375,
      "learning_rate": 0.00028974874371859294,
      "loss": 2.0358,
      "step": 180780
    },
    {
      "epoch": 0.90395,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00028959798994974875,
      "loss": 2.111,
      "step": 180790
    },
    {
      "epoch": 0.904,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0002894472361809045,
      "loss": 2.0556,
      "step": 180800
    },
    {
      "epoch": 0.90405,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002892964824120603,
      "loss": 2.0644,
      "step": 180810
    },
    {
      "epoch": 0.9041,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00028914572864321606,
      "loss": 2.0849,
      "step": 180820
    },
    {
      "epoch": 0.90415,
      "grad_norm": 0.578125,
      "learning_rate": 0.00028899497487437187,
      "loss": 2.0421,
      "step": 180830
    },
    {
      "epoch": 0.9042,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002888442211055276,
      "loss": 2.1158,
      "step": 180840
    },
    {
      "epoch": 0.90425,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002886934673366834,
      "loss": 2.0439,
      "step": 180850
    },
    {
      "epoch": 0.9043,
      "grad_norm": 0.671875,
      "learning_rate": 0.0002885427135678392,
      "loss": 2.0966,
      "step": 180860
    },
    {
      "epoch": 0.90435,
      "grad_norm": 0.6484375,
      "learning_rate": 0.000288391959798995,
      "loss": 2.0737,
      "step": 180870
    },
    {
      "epoch": 0.9044,
      "grad_norm": 0.640625,
      "learning_rate": 0.00028824120603015074,
      "loss": 2.054,
      "step": 180880
    },
    {
      "epoch": 0.90445,
      "grad_norm": 0.578125,
      "learning_rate": 0.00028809045226130654,
      "loss": 2.0175,
      "step": 180890
    },
    {
      "epoch": 0.9045,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002879396984924623,
      "loss": 2.0527,
      "step": 180900
    },
    {
      "epoch": 0.90455,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002877889447236181,
      "loss": 2.1075,
      "step": 180910
    },
    {
      "epoch": 0.9046,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00028763819095477386,
      "loss": 2.0471,
      "step": 180920
    },
    {
      "epoch": 0.90465,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00028748743718592966,
      "loss": 2.0942,
      "step": 180930
    },
    {
      "epoch": 0.9047,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0002873366834170854,
      "loss": 2.0661,
      "step": 180940
    },
    {
      "epoch": 0.90475,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002871859296482412,
      "loss": 2.1046,
      "step": 180950
    },
    {
      "epoch": 0.9048,
      "grad_norm": 0.59375,
      "learning_rate": 0.000287035175879397,
      "loss": 2.0599,
      "step": 180960
    },
    {
      "epoch": 0.90485,
      "grad_norm": 0.75,
      "learning_rate": 0.0002868844221105528,
      "loss": 2.0598,
      "step": 180970
    },
    {
      "epoch": 0.9049,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00028673366834170854,
      "loss": 2.1114,
      "step": 180980
    },
    {
      "epoch": 0.90495,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00028658291457286434,
      "loss": 2.0428,
      "step": 180990
    },
    {
      "epoch": 0.905,
      "grad_norm": 0.578125,
      "learning_rate": 0.0002864321608040201,
      "loss": 2.0855,
      "step": 181000
    },
    {
      "epoch": 0.90505,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002862814070351759,
      "loss": 2.0077,
      "step": 181010
    },
    {
      "epoch": 0.9051,
      "grad_norm": 0.65625,
      "learning_rate": 0.00028613065326633165,
      "loss": 2.0839,
      "step": 181020
    },
    {
      "epoch": 0.90515,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00028597989949748746,
      "loss": 2.018,
      "step": 181030
    },
    {
      "epoch": 0.9052,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002858291457286432,
      "loss": 2.081,
      "step": 181040
    },
    {
      "epoch": 0.90525,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000285678391959799,
      "loss": 2.0382,
      "step": 181050
    },
    {
      "epoch": 0.9053,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002855276381909548,
      "loss": 2.0421,
      "step": 181060
    },
    {
      "epoch": 0.90535,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002853768844221106,
      "loss": 2.0912,
      "step": 181070
    },
    {
      "epoch": 0.9054,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00028522613065326633,
      "loss": 2.0588,
      "step": 181080
    },
    {
      "epoch": 0.90545,
      "grad_norm": 0.640625,
      "learning_rate": 0.00028507537688442214,
      "loss": 2.1265,
      "step": 181090
    },
    {
      "epoch": 0.9055,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0002849246231155779,
      "loss": 2.064,
      "step": 181100
    },
    {
      "epoch": 0.90555,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002847738693467337,
      "loss": 2.1244,
      "step": 181110
    },
    {
      "epoch": 0.9056,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00028462311557788945,
      "loss": 2.1309,
      "step": 181120
    },
    {
      "epoch": 0.90565,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00028447236180904526,
      "loss": 2.0753,
      "step": 181130
    },
    {
      "epoch": 0.9057,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000284321608040201,
      "loss": 2.0969,
      "step": 181140
    },
    {
      "epoch": 0.90575,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0002841708542713568,
      "loss": 2.0223,
      "step": 181150
    },
    {
      "epoch": 0.9058,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00028402010050251257,
      "loss": 2.1192,
      "step": 181160
    },
    {
      "epoch": 0.90585,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002838693467336684,
      "loss": 2.1059,
      "step": 181170
    },
    {
      "epoch": 0.9059,
      "grad_norm": 0.65625,
      "learning_rate": 0.00028371859296482413,
      "loss": 2.1002,
      "step": 181180
    },
    {
      "epoch": 0.90595,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00028356783919597994,
      "loss": 2.0996,
      "step": 181190
    },
    {
      "epoch": 0.906,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002834170854271357,
      "loss": 2.0582,
      "step": 181200
    },
    {
      "epoch": 0.90605,
      "grad_norm": 0.5234375,
      "learning_rate": 0.0002832663316582915,
      "loss": 2.1,
      "step": 181210
    },
    {
      "epoch": 0.9061,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00028311557788944725,
      "loss": 2.0609,
      "step": 181220
    },
    {
      "epoch": 0.90615,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00028296482412060306,
      "loss": 2.0624,
      "step": 181230
    },
    {
      "epoch": 0.9062,
      "grad_norm": 0.578125,
      "learning_rate": 0.0002828140703517588,
      "loss": 2.0434,
      "step": 181240
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002826633165829146,
      "loss": 2.1214,
      "step": 181250
    },
    {
      "epoch": 0.9063,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00028251256281407037,
      "loss": 2.0433,
      "step": 181260
    },
    {
      "epoch": 0.90635,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002823618090452262,
      "loss": 2.1063,
      "step": 181270
    },
    {
      "epoch": 0.9064,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002822110552763819,
      "loss": 2.1116,
      "step": 181280
    },
    {
      "epoch": 0.90645,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00028206030150753773,
      "loss": 2.0621,
      "step": 181290
    },
    {
      "epoch": 0.9065,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002819095477386935,
      "loss": 2.0692,
      "step": 181300
    },
    {
      "epoch": 0.90655,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002817587939698493,
      "loss": 1.9949,
      "step": 181310
    },
    {
      "epoch": 0.9066,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00028160804020100505,
      "loss": 2.0342,
      "step": 181320
    },
    {
      "epoch": 0.90665,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00028145728643216085,
      "loss": 2.1196,
      "step": 181330
    },
    {
      "epoch": 0.9067,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0002813065326633166,
      "loss": 2.094,
      "step": 181340
    },
    {
      "epoch": 0.90675,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002811557788944724,
      "loss": 2.0598,
      "step": 181350
    },
    {
      "epoch": 0.9068,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00028100502512562816,
      "loss": 2.0875,
      "step": 181360
    },
    {
      "epoch": 0.90685,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002808542713567839,
      "loss": 2.0859,
      "step": 181370
    },
    {
      "epoch": 0.9069,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002807035175879397,
      "loss": 2.0462,
      "step": 181380
    },
    {
      "epoch": 0.90695,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002805527638190955,
      "loss": 2.116,
      "step": 181390
    },
    {
      "epoch": 0.907,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002804020100502513,
      "loss": 2.0524,
      "step": 181400
    },
    {
      "epoch": 0.90705,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00028025125628140704,
      "loss": 2.114,
      "step": 181410
    },
    {
      "epoch": 0.9071,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00028010050251256284,
      "loss": 2.0311,
      "step": 181420
    },
    {
      "epoch": 0.90715,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002799497487437186,
      "loss": 2.1127,
      "step": 181430
    },
    {
      "epoch": 0.9072,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002797989949748744,
      "loss": 2.0534,
      "step": 181440
    },
    {
      "epoch": 0.90725,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00027964824120603016,
      "loss": 2.0747,
      "step": 181450
    },
    {
      "epoch": 0.9073,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002794974874371859,
      "loss": 2.0861,
      "step": 181460
    },
    {
      "epoch": 0.90735,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002793467336683417,
      "loss": 2.069,
      "step": 181470
    },
    {
      "epoch": 0.9074,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00027919597989949747,
      "loss": 2.0912,
      "step": 181480
    },
    {
      "epoch": 0.90745,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002790452261306533,
      "loss": 2.0205,
      "step": 181490
    },
    {
      "epoch": 0.9075,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000278894472361809,
      "loss": 2.0811,
      "step": 181500
    },
    {
      "epoch": 0.90755,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00027874371859296483,
      "loss": 2.0739,
      "step": 181510
    },
    {
      "epoch": 0.9076,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002785929648241206,
      "loss": 2.0699,
      "step": 181520
    },
    {
      "epoch": 0.90765,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002784422110552764,
      "loss": 2.0841,
      "step": 181530
    },
    {
      "epoch": 0.9077,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00027829145728643215,
      "loss": 2.0371,
      "step": 181540
    },
    {
      "epoch": 0.90775,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00027814070351758795,
      "loss": 2.0694,
      "step": 181550
    },
    {
      "epoch": 0.9078,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002779899497487437,
      "loss": 2.0612,
      "step": 181560
    },
    {
      "epoch": 0.90785,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00027783919597989946,
      "loss": 2.1005,
      "step": 181570
    },
    {
      "epoch": 0.9079,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00027768844221105526,
      "loss": 2.0717,
      "step": 181580
    },
    {
      "epoch": 0.90795,
      "grad_norm": 0.609375,
      "learning_rate": 0.000277537688442211,
      "loss": 2.0903,
      "step": 181590
    },
    {
      "epoch": 0.908,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002773869346733668,
      "loss": 2.0715,
      "step": 181600
    },
    {
      "epoch": 0.90805,
      "grad_norm": 0.703125,
      "learning_rate": 0.0002772361809045226,
      "loss": 2.086,
      "step": 181610
    },
    {
      "epoch": 0.9081,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002770854271356784,
      "loss": 2.0543,
      "step": 181620
    },
    {
      "epoch": 0.90815,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00027693467336683414,
      "loss": 2.1104,
      "step": 181630
    },
    {
      "epoch": 0.9082,
      "grad_norm": 0.59375,
      "learning_rate": 0.00027678391959798994,
      "loss": 2.0882,
      "step": 181640
    },
    {
      "epoch": 0.90825,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0002766331658291457,
      "loss": 2.0444,
      "step": 181650
    },
    {
      "epoch": 0.9083,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0002764824120603015,
      "loss": 2.106,
      "step": 181660
    },
    {
      "epoch": 0.90835,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00027633165829145726,
      "loss": 2.0989,
      "step": 181670
    },
    {
      "epoch": 0.9084,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00027618090452261306,
      "loss": 2.1029,
      "step": 181680
    },
    {
      "epoch": 0.90845,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002760301507537688,
      "loss": 2.0153,
      "step": 181690
    },
    {
      "epoch": 0.9085,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002758793969849246,
      "loss": 2.0831,
      "step": 181700
    },
    {
      "epoch": 0.90855,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002757286432160804,
      "loss": 2.0551,
      "step": 181710
    },
    {
      "epoch": 0.9086,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002755778894472362,
      "loss": 2.0615,
      "step": 181720
    },
    {
      "epoch": 0.90865,
      "grad_norm": 0.578125,
      "learning_rate": 0.00027542713567839193,
      "loss": 2.1159,
      "step": 181730
    },
    {
      "epoch": 0.9087,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00027527638190954774,
      "loss": 2.0786,
      "step": 181740
    },
    {
      "epoch": 0.90875,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002751256281407035,
      "loss": 2.1104,
      "step": 181750
    },
    {
      "epoch": 0.9088,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002749748743718593,
      "loss": 2.0555,
      "step": 181760
    },
    {
      "epoch": 0.90885,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00027482412060301505,
      "loss": 2.1297,
      "step": 181770
    },
    {
      "epoch": 0.9089,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00027467336683417086,
      "loss": 2.0524,
      "step": 181780
    },
    {
      "epoch": 0.90895,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0002745226130653266,
      "loss": 2.0943,
      "step": 181790
    },
    {
      "epoch": 0.909,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002743718592964824,
      "loss": 2.035,
      "step": 181800
    },
    {
      "epoch": 0.90905,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00027422110552763817,
      "loss": 2.0826,
      "step": 181810
    },
    {
      "epoch": 0.9091,
      "grad_norm": 0.6171875,
      "learning_rate": 0.000274070351758794,
      "loss": 2.1343,
      "step": 181820
    },
    {
      "epoch": 0.90915,
      "grad_norm": 0.53125,
      "learning_rate": 0.00027391959798994973,
      "loss": 2.0598,
      "step": 181830
    },
    {
      "epoch": 0.9092,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00027376884422110554,
      "loss": 2.0769,
      "step": 181840
    },
    {
      "epoch": 0.90925,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0002736180904522613,
      "loss": 2.0538,
      "step": 181850
    },
    {
      "epoch": 0.9093,
      "grad_norm": 0.578125,
      "learning_rate": 0.0002734673366834171,
      "loss": 2.0686,
      "step": 181860
    },
    {
      "epoch": 0.90935,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00027331658291457285,
      "loss": 2.0854,
      "step": 181870
    },
    {
      "epoch": 0.9094,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00027316582914572866,
      "loss": 2.0655,
      "step": 181880
    },
    {
      "epoch": 0.90945,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002730150753768844,
      "loss": 2.0727,
      "step": 181890
    },
    {
      "epoch": 0.9095,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0002728643216080402,
      "loss": 2.1104,
      "step": 181900
    },
    {
      "epoch": 0.90955,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00027271356783919597,
      "loss": 2.0518,
      "step": 181910
    },
    {
      "epoch": 0.9096,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002725628140703518,
      "loss": 2.091,
      "step": 181920
    },
    {
      "epoch": 0.90965,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00027241206030150753,
      "loss": 2.1153,
      "step": 181930
    },
    {
      "epoch": 0.9097,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00027226130653266333,
      "loss": 2.0517,
      "step": 181940
    },
    {
      "epoch": 0.90975,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002721105527638191,
      "loss": 2.0979,
      "step": 181950
    },
    {
      "epoch": 0.9098,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002719597989949749,
      "loss": 2.0504,
      "step": 181960
    },
    {
      "epoch": 0.90985,
      "grad_norm": 0.65625,
      "learning_rate": 0.00027180904522613065,
      "loss": 2.1149,
      "step": 181970
    },
    {
      "epoch": 0.9099,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00027165829145728645,
      "loss": 2.0335,
      "step": 181980
    },
    {
      "epoch": 0.90995,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002715075376884422,
      "loss": 2.0898,
      "step": 181990
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6796875,
      "learning_rate": 0.000271356783919598,
      "loss": 2.0673,
      "step": 182000
    },
    {
      "epoch": 0.91,
      "eval_loss": 2.077899217605591,
      "eval_runtime": 47.3337,
      "eval_samples_per_second": 52.816,
      "eval_steps_per_second": 0.106,
      "step": 182000
    },
    {
      "epoch": 0.91005,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00027120603015075377,
      "loss": 2.0998,
      "step": 182010
    },
    {
      "epoch": 0.9101,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00027105527638190957,
      "loss": 2.0589,
      "step": 182020
    },
    {
      "epoch": 0.91015,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002709045226130653,
      "loss": 2.042,
      "step": 182030
    },
    {
      "epoch": 0.9102,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00027075376884422113,
      "loss": 2.0952,
      "step": 182040
    },
    {
      "epoch": 0.91025,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002706030150753769,
      "loss": 2.0213,
      "step": 182050
    },
    {
      "epoch": 0.9103,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002704522613065327,
      "loss": 2.0664,
      "step": 182060
    },
    {
      "epoch": 0.91035,
      "grad_norm": 0.65625,
      "learning_rate": 0.00027030150753768844,
      "loss": 2.027,
      "step": 182070
    },
    {
      "epoch": 0.9104,
      "grad_norm": 0.609375,
      "learning_rate": 0.00027015075376884425,
      "loss": 2.1725,
      "step": 182080
    },
    {
      "epoch": 0.91045,
      "grad_norm": 0.59375,
      "learning_rate": 0.00027,
      "loss": 2.0073,
      "step": 182090
    },
    {
      "epoch": 0.9105,
      "grad_norm": 0.625,
      "learning_rate": 0.0002698492462311558,
      "loss": 2.0898,
      "step": 182100
    },
    {
      "epoch": 0.91055,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00026969849246231156,
      "loss": 2.041,
      "step": 182110
    },
    {
      "epoch": 0.9106,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00026954773869346737,
      "loss": 2.0501,
      "step": 182120
    },
    {
      "epoch": 0.91065,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0002693969849246231,
      "loss": 2.067,
      "step": 182130
    },
    {
      "epoch": 0.9107,
      "grad_norm": 0.640625,
      "learning_rate": 0.00026924623115577893,
      "loss": 2.0216,
      "step": 182140
    },
    {
      "epoch": 0.91075,
      "grad_norm": 0.625,
      "learning_rate": 0.0002690954773869347,
      "loss": 2.0826,
      "step": 182150
    },
    {
      "epoch": 0.9108,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0002689447236180905,
      "loss": 2.061,
      "step": 182160
    },
    {
      "epoch": 0.91085,
      "grad_norm": 0.65625,
      "learning_rate": 0.00026879396984924624,
      "loss": 2.0581,
      "step": 182170
    },
    {
      "epoch": 0.9109,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00026864321608040205,
      "loss": 2.0644,
      "step": 182180
    },
    {
      "epoch": 0.91095,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002684924623115578,
      "loss": 2.1397,
      "step": 182190
    },
    {
      "epoch": 0.911,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002683417085427136,
      "loss": 2.0509,
      "step": 182200
    },
    {
      "epoch": 0.91105,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00026819095477386936,
      "loss": 2.0435,
      "step": 182210
    },
    {
      "epoch": 0.9111,
      "grad_norm": 0.703125,
      "learning_rate": 0.00026804020100502517,
      "loss": 2.0644,
      "step": 182220
    },
    {
      "epoch": 0.91115,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002678894472361809,
      "loss": 2.0348,
      "step": 182230
    },
    {
      "epoch": 0.9112,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002677386934673367,
      "loss": 2.1338,
      "step": 182240
    },
    {
      "epoch": 0.91125,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002675879396984925,
      "loss": 2.0939,
      "step": 182250
    },
    {
      "epoch": 0.9113,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0002674371859296483,
      "loss": 2.0968,
      "step": 182260
    },
    {
      "epoch": 0.91135,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00026728643216080404,
      "loss": 2.0023,
      "step": 182270
    },
    {
      "epoch": 0.9114,
      "grad_norm": 0.59375,
      "learning_rate": 0.00026713567839195985,
      "loss": 2.0946,
      "step": 182280
    },
    {
      "epoch": 0.91145,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002669849246231156,
      "loss": 2.0168,
      "step": 182290
    },
    {
      "epoch": 0.9115,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00026683417085427135,
      "loss": 2.1195,
      "step": 182300
    },
    {
      "epoch": 0.91155,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00026668341708542716,
      "loss": 2.0619,
      "step": 182310
    },
    {
      "epoch": 0.9116,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002665326633165829,
      "loss": 2.1098,
      "step": 182320
    },
    {
      "epoch": 0.91165,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0002663819095477387,
      "loss": 2.0575,
      "step": 182330
    },
    {
      "epoch": 0.9117,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00026623115577889447,
      "loss": 2.0477,
      "step": 182340
    },
    {
      "epoch": 0.91175,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002660804020100503,
      "loss": 2.0457,
      "step": 182350
    },
    {
      "epoch": 0.9118,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00026592964824120603,
      "loss": 2.0541,
      "step": 182360
    },
    {
      "epoch": 0.91185,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00026577889447236184,
      "loss": 2.0834,
      "step": 182370
    },
    {
      "epoch": 0.9119,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002656281407035176,
      "loss": 2.089,
      "step": 182380
    },
    {
      "epoch": 0.91195,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00026547738693467334,
      "loss": 2.1557,
      "step": 182390
    },
    {
      "epoch": 0.912,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00026532663316582915,
      "loss": 2.046,
      "step": 182400
    },
    {
      "epoch": 0.91205,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002651758793969849,
      "loss": 2.119,
      "step": 182410
    },
    {
      "epoch": 0.9121,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002650251256281407,
      "loss": 2.0255,
      "step": 182420
    },
    {
      "epoch": 0.91215,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00026487437185929646,
      "loss": 2.0682,
      "step": 182430
    },
    {
      "epoch": 0.9122,
      "grad_norm": 0.609375,
      "learning_rate": 0.00026472361809045227,
      "loss": 2.0378,
      "step": 182440
    },
    {
      "epoch": 0.91225,
      "grad_norm": 0.67578125,
      "learning_rate": 0.000264572864321608,
      "loss": 2.0899,
      "step": 182450
    },
    {
      "epoch": 0.9123,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002644221105527638,
      "loss": 2.0448,
      "step": 182460
    },
    {
      "epoch": 0.91235,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002642713567839196,
      "loss": 2.0996,
      "step": 182470
    },
    {
      "epoch": 0.9124,
      "grad_norm": 0.54296875,
      "learning_rate": 0.0002641206030150754,
      "loss": 2.0755,
      "step": 182480
    },
    {
      "epoch": 0.91245,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00026396984924623114,
      "loss": 2.0668,
      "step": 182490
    },
    {
      "epoch": 0.9125,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00026381909547738695,
      "loss": 2.0898,
      "step": 182500
    },
    {
      "epoch": 0.91255,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002636683417085427,
      "loss": 2.0655,
      "step": 182510
    },
    {
      "epoch": 0.9126,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002635175879396985,
      "loss": 2.13,
      "step": 182520
    },
    {
      "epoch": 0.91265,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00026336683417085426,
      "loss": 2.0422,
      "step": 182530
    },
    {
      "epoch": 0.9127,
      "grad_norm": 0.625,
      "learning_rate": 0.00026321608040201006,
      "loss": 2.1001,
      "step": 182540
    },
    {
      "epoch": 0.91275,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002630653266331658,
      "loss": 2.0806,
      "step": 182550
    },
    {
      "epoch": 0.9128,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002629145728643216,
      "loss": 2.1143,
      "step": 182560
    },
    {
      "epoch": 0.91285,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002627638190954774,
      "loss": 2.0741,
      "step": 182570
    },
    {
      "epoch": 0.9129,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0002626130653266332,
      "loss": 2.0587,
      "step": 182580
    },
    {
      "epoch": 0.91295,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00026246231155778894,
      "loss": 2.0704,
      "step": 182590
    },
    {
      "epoch": 0.913,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00026231155778894474,
      "loss": 2.0756,
      "step": 182600
    },
    {
      "epoch": 0.91305,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002621608040201005,
      "loss": 2.0874,
      "step": 182610
    },
    {
      "epoch": 0.9131,
      "grad_norm": 0.625,
      "learning_rate": 0.0002620100502512563,
      "loss": 2.0354,
      "step": 182620
    },
    {
      "epoch": 0.91315,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00026185929648241205,
      "loss": 2.1047,
      "step": 182630
    },
    {
      "epoch": 0.9132,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00026170854271356786,
      "loss": 2.039,
      "step": 182640
    },
    {
      "epoch": 0.91325,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002615577889447236,
      "loss": 2.0872,
      "step": 182650
    },
    {
      "epoch": 0.9133,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00026140703517587937,
      "loss": 2.0562,
      "step": 182660
    },
    {
      "epoch": 0.91335,
      "grad_norm": 0.625,
      "learning_rate": 0.0002612562814070352,
      "loss": 2.1326,
      "step": 182670
    },
    {
      "epoch": 0.9134,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002611055276381909,
      "loss": 2.0466,
      "step": 182680
    },
    {
      "epoch": 0.91345,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00026095477386934673,
      "loss": 2.0613,
      "step": 182690
    },
    {
      "epoch": 0.9135,
      "grad_norm": 0.7578125,
      "learning_rate": 0.0002608040201005025,
      "loss": 2.055,
      "step": 182700
    },
    {
      "epoch": 0.91355,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002606532663316583,
      "loss": 2.0918,
      "step": 182710
    },
    {
      "epoch": 0.9136,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00026050251256281404,
      "loss": 2.0346,
      "step": 182720
    },
    {
      "epoch": 0.91365,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00026035175879396985,
      "loss": 2.0655,
      "step": 182730
    },
    {
      "epoch": 0.9137,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002602010050251256,
      "loss": 2.1026,
      "step": 182740
    },
    {
      "epoch": 0.91375,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002600502512562814,
      "loss": 2.0076,
      "step": 182750
    },
    {
      "epoch": 0.9138,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00025989949748743716,
      "loss": 2.0834,
      "step": 182760
    },
    {
      "epoch": 0.91385,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00025974874371859297,
      "loss": 1.9937,
      "step": 182770
    },
    {
      "epoch": 0.9139,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0002595979899497487,
      "loss": 2.0934,
      "step": 182780
    },
    {
      "epoch": 0.91395,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00025944723618090453,
      "loss": 2.042,
      "step": 182790
    },
    {
      "epoch": 0.914,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002592964824120603,
      "loss": 2.0925,
      "step": 182800
    },
    {
      "epoch": 0.91405,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002591457286432161,
      "loss": 2.0365,
      "step": 182810
    },
    {
      "epoch": 0.9141,
      "grad_norm": 0.6875,
      "learning_rate": 0.00025899497487437184,
      "loss": 2.1063,
      "step": 182820
    },
    {
      "epoch": 0.91415,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00025884422110552765,
      "loss": 2.0747,
      "step": 182830
    },
    {
      "epoch": 0.9142,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002586934673366834,
      "loss": 2.1084,
      "step": 182840
    },
    {
      "epoch": 0.91425,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002585427135678392,
      "loss": 2.033,
      "step": 182850
    },
    {
      "epoch": 0.9143,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00025839195979899496,
      "loss": 2.0498,
      "step": 182860
    },
    {
      "epoch": 0.91435,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00025824120603015077,
      "loss": 2.0931,
      "step": 182870
    },
    {
      "epoch": 0.9144,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0002580904522613065,
      "loss": 2.0736,
      "step": 182880
    },
    {
      "epoch": 0.91445,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00025793969849246233,
      "loss": 2.0957,
      "step": 182890
    },
    {
      "epoch": 0.9145,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002577889447236181,
      "loss": 2.0596,
      "step": 182900
    },
    {
      "epoch": 0.91455,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0002576381909547739,
      "loss": 2.1209,
      "step": 182910
    },
    {
      "epoch": 0.9146,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00025748743718592964,
      "loss": 2.0554,
      "step": 182920
    },
    {
      "epoch": 0.91465,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00025733668341708545,
      "loss": 2.0936,
      "step": 182930
    },
    {
      "epoch": 0.9147,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002571859296482412,
      "loss": 2.0751,
      "step": 182940
    },
    {
      "epoch": 0.91475,
      "grad_norm": 0.59375,
      "learning_rate": 0.000257035175879397,
      "loss": 2.0916,
      "step": 182950
    },
    {
      "epoch": 0.9148,
      "grad_norm": 0.53125,
      "learning_rate": 0.00025688442211055276,
      "loss": 2.06,
      "step": 182960
    },
    {
      "epoch": 0.91485,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00025673366834170857,
      "loss": 2.0908,
      "step": 182970
    },
    {
      "epoch": 0.9149,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0002565829145728643,
      "loss": 2.0321,
      "step": 182980
    },
    {
      "epoch": 0.91495,
      "grad_norm": 0.71875,
      "learning_rate": 0.0002564321608040201,
      "loss": 2.0724,
      "step": 182990
    },
    {
      "epoch": 0.915,
      "grad_norm": 0.53125,
      "learning_rate": 0.0002562814070351759,
      "loss": 2.0393,
      "step": 183000
    },
    {
      "epoch": 0.91505,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002561306532663317,
      "loss": 2.0176,
      "step": 183010
    },
    {
      "epoch": 0.9151,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00025597989949748744,
      "loss": 2.1426,
      "step": 183020
    },
    {
      "epoch": 0.91515,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00025582914572864324,
      "loss": 2.0767,
      "step": 183030
    },
    {
      "epoch": 0.9152,
      "grad_norm": 0.578125,
      "learning_rate": 0.000255678391959799,
      "loss": 2.1417,
      "step": 183040
    },
    {
      "epoch": 0.91525,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0002555276381909548,
      "loss": 2.0745,
      "step": 183050
    },
    {
      "epoch": 0.9153,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00025537688442211056,
      "loss": 2.1084,
      "step": 183060
    },
    {
      "epoch": 0.91535,
      "grad_norm": 0.609375,
      "learning_rate": 0.00025522613065326636,
      "loss": 2.0323,
      "step": 183070
    },
    {
      "epoch": 0.9154,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002550753768844221,
      "loss": 2.0911,
      "step": 183080
    },
    {
      "epoch": 0.91545,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002549246231155779,
      "loss": 2.0484,
      "step": 183090
    },
    {
      "epoch": 0.9155,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002547738693467337,
      "loss": 2.0852,
      "step": 183100
    },
    {
      "epoch": 0.91555,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0002546231155778895,
      "loss": 2.0529,
      "step": 183110
    },
    {
      "epoch": 0.9156,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00025447236180904523,
      "loss": 2.0763,
      "step": 183120
    },
    {
      "epoch": 0.91565,
      "grad_norm": 0.5234375,
      "learning_rate": 0.00025432160804020104,
      "loss": 2.0529,
      "step": 183130
    },
    {
      "epoch": 0.9157,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002541708542713568,
      "loss": 2.0741,
      "step": 183140
    },
    {
      "epoch": 0.91575,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0002540201005025126,
      "loss": 2.0821,
      "step": 183150
    },
    {
      "epoch": 0.9158,
      "grad_norm": 0.65625,
      "learning_rate": 0.00025386934673366835,
      "loss": 2.0969,
      "step": 183160
    },
    {
      "epoch": 0.91585,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00025371859296482416,
      "loss": 2.0554,
      "step": 183170
    },
    {
      "epoch": 0.9159,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002535678391959799,
      "loss": 2.0164,
      "step": 183180
    },
    {
      "epoch": 0.91595,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002534170854271357,
      "loss": 2.0873,
      "step": 183190
    },
    {
      "epoch": 0.916,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00025326633165829147,
      "loss": 2.016,
      "step": 183200
    },
    {
      "epoch": 0.91605,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002531155778894473,
      "loss": 2.1066,
      "step": 183210
    },
    {
      "epoch": 0.9161,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00025296482412060303,
      "loss": 2.002,
      "step": 183220
    },
    {
      "epoch": 0.91615,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0002528140703517588,
      "loss": 2.1135,
      "step": 183230
    },
    {
      "epoch": 0.9162,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002526633165829146,
      "loss": 2.1269,
      "step": 183240
    },
    {
      "epoch": 0.91625,
      "grad_norm": 0.59375,
      "learning_rate": 0.00025251256281407034,
      "loss": 2.111,
      "step": 183250
    },
    {
      "epoch": 0.9163,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00025236180904522615,
      "loss": 2.0999,
      "step": 183260
    },
    {
      "epoch": 0.91635,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002522110552763819,
      "loss": 2.0244,
      "step": 183270
    },
    {
      "epoch": 0.9164,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002520603015075377,
      "loss": 2.1289,
      "step": 183280
    },
    {
      "epoch": 0.91645,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00025190954773869346,
      "loss": 2.0458,
      "step": 183290
    },
    {
      "epoch": 0.9165,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00025175879396984927,
      "loss": 2.1225,
      "step": 183300
    },
    {
      "epoch": 0.91655,
      "grad_norm": 0.69921875,
      "learning_rate": 0.000251608040201005,
      "loss": 2.0634,
      "step": 183310
    },
    {
      "epoch": 0.9166,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002514572864321608,
      "loss": 2.0556,
      "step": 183320
    },
    {
      "epoch": 0.91665,
      "grad_norm": 0.671875,
      "learning_rate": 0.0002513065326633166,
      "loss": 2.0185,
      "step": 183330
    },
    {
      "epoch": 0.9167,
      "grad_norm": 0.625,
      "learning_rate": 0.00025115577889447233,
      "loss": 2.0546,
      "step": 183340
    },
    {
      "epoch": 0.91675,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00025100502512562814,
      "loss": 2.0433,
      "step": 183350
    },
    {
      "epoch": 0.9168,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002508542713567839,
      "loss": 2.0713,
      "step": 183360
    },
    {
      "epoch": 0.91685,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002507035175879397,
      "loss": 2.0294,
      "step": 183370
    },
    {
      "epoch": 0.9169,
      "grad_norm": 0.6875,
      "learning_rate": 0.00025055276381909545,
      "loss": 2.101,
      "step": 183380
    },
    {
      "epoch": 0.91695,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00025040201005025126,
      "loss": 2.0666,
      "step": 183390
    },
    {
      "epoch": 0.917,
      "grad_norm": 0.578125,
      "learning_rate": 0.000250251256281407,
      "loss": 2.1156,
      "step": 183400
    },
    {
      "epoch": 0.91705,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002501005025125628,
      "loss": 2.0937,
      "step": 183410
    },
    {
      "epoch": 0.9171,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00024994974874371857,
      "loss": 2.1253,
      "step": 183420
    },
    {
      "epoch": 0.91715,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002497989949748744,
      "loss": 2.0632,
      "step": 183430
    },
    {
      "epoch": 0.9172,
      "grad_norm": 0.609375,
      "learning_rate": 0.00024964824120603013,
      "loss": 2.1143,
      "step": 183440
    },
    {
      "epoch": 0.91725,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00024949748743718594,
      "loss": 2.0881,
      "step": 183450
    },
    {
      "epoch": 0.9173,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002493467336683417,
      "loss": 2.066,
      "step": 183460
    },
    {
      "epoch": 0.91735,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002491959798994975,
      "loss": 2.0885,
      "step": 183470
    },
    {
      "epoch": 0.9174,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00024904522613065325,
      "loss": 2.0468,
      "step": 183480
    },
    {
      "epoch": 0.91745,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00024889447236180906,
      "loss": 2.1161,
      "step": 183490
    },
    {
      "epoch": 0.9175,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002487437185929648,
      "loss": 2.0849,
      "step": 183500
    },
    {
      "epoch": 0.91755,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0002485929648241206,
      "loss": 2.1122,
      "step": 183510
    },
    {
      "epoch": 0.9176,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00024844221105527637,
      "loss": 2.0824,
      "step": 183520
    },
    {
      "epoch": 0.91765,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002482914572864322,
      "loss": 2.1398,
      "step": 183530
    },
    {
      "epoch": 0.9177,
      "grad_norm": 0.640625,
      "learning_rate": 0.00024814070351758793,
      "loss": 2.0274,
      "step": 183540
    },
    {
      "epoch": 0.91775,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00024798994974874373,
      "loss": 2.0945,
      "step": 183550
    },
    {
      "epoch": 0.9178,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002478391959798995,
      "loss": 2.046,
      "step": 183560
    },
    {
      "epoch": 0.91785,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002476884422110553,
      "loss": 2.0932,
      "step": 183570
    },
    {
      "epoch": 0.9179,
      "grad_norm": 0.5625,
      "learning_rate": 0.00024753768844221105,
      "loss": 2.1116,
      "step": 183580
    },
    {
      "epoch": 0.91795,
      "grad_norm": 0.609375,
      "learning_rate": 0.00024738693467336685,
      "loss": 2.0863,
      "step": 183590
    },
    {
      "epoch": 0.918,
      "grad_norm": 0.625,
      "learning_rate": 0.0002472361809045226,
      "loss": 2.0852,
      "step": 183600
    },
    {
      "epoch": 0.91805,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002470854271356784,
      "loss": 2.0669,
      "step": 183610
    },
    {
      "epoch": 0.9181,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00024693467336683417,
      "loss": 2.1717,
      "step": 183620
    },
    {
      "epoch": 0.91815,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00024678391959798997,
      "loss": 2.0663,
      "step": 183630
    },
    {
      "epoch": 0.9182,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002466331658291457,
      "loss": 2.0267,
      "step": 183640
    },
    {
      "epoch": 0.91825,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00024648241206030153,
      "loss": 2.0528,
      "step": 183650
    },
    {
      "epoch": 0.9183,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0002463316582914573,
      "loss": 2.1035,
      "step": 183660
    },
    {
      "epoch": 0.91835,
      "grad_norm": 0.5625,
      "learning_rate": 0.0002461809045226131,
      "loss": 2.0484,
      "step": 183670
    },
    {
      "epoch": 0.9184,
      "grad_norm": 0.609375,
      "learning_rate": 0.00024603015075376884,
      "loss": 2.0817,
      "step": 183680
    },
    {
      "epoch": 0.91845,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00024587939698492465,
      "loss": 2.0275,
      "step": 183690
    },
    {
      "epoch": 0.9185,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002457286432160804,
      "loss": 2.0945,
      "step": 183700
    },
    {
      "epoch": 0.91855,
      "grad_norm": 0.6875,
      "learning_rate": 0.0002455778894472362,
      "loss": 2.0275,
      "step": 183710
    },
    {
      "epoch": 0.9186,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00024542713567839196,
      "loss": 2.0953,
      "step": 183720
    },
    {
      "epoch": 0.91865,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00024527638190954777,
      "loss": 2.087,
      "step": 183730
    },
    {
      "epoch": 0.9187,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002451256281407035,
      "loss": 2.1101,
      "step": 183740
    },
    {
      "epoch": 0.91875,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00024497487437185933,
      "loss": 2.0534,
      "step": 183750
    },
    {
      "epoch": 0.9188,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002448241206030151,
      "loss": 2.0891,
      "step": 183760
    },
    {
      "epoch": 0.91885,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002446733668341709,
      "loss": 2.0778,
      "step": 183770
    },
    {
      "epoch": 0.9189,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00024452261306532664,
      "loss": 2.0948,
      "step": 183780
    },
    {
      "epoch": 0.91895,
      "grad_norm": 0.609375,
      "learning_rate": 0.00024437185929648245,
      "loss": 2.0868,
      "step": 183790
    },
    {
      "epoch": 0.919,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002442211055276382,
      "loss": 2.0417,
      "step": 183800
    },
    {
      "epoch": 0.91905,
      "grad_norm": 0.71875,
      "learning_rate": 0.00024407035175879395,
      "loss": 2.1355,
      "step": 183810
    },
    {
      "epoch": 0.9191,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00024391959798994976,
      "loss": 2.0485,
      "step": 183820
    },
    {
      "epoch": 0.91915,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002437688442211055,
      "loss": 2.0839,
      "step": 183830
    },
    {
      "epoch": 0.9192,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00024361809045226132,
      "loss": 2.0589,
      "step": 183840
    },
    {
      "epoch": 0.91925,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00024346733668341707,
      "loss": 2.1627,
      "step": 183850
    },
    {
      "epoch": 0.9193,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00024331658291457288,
      "loss": 2.0492,
      "step": 183860
    },
    {
      "epoch": 0.91935,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00024316582914572863,
      "loss": 2.0762,
      "step": 183870
    },
    {
      "epoch": 0.9194,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00024301507537688444,
      "loss": 2.0843,
      "step": 183880
    },
    {
      "epoch": 0.91945,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002428643216080402,
      "loss": 2.0905,
      "step": 183890
    },
    {
      "epoch": 0.9195,
      "grad_norm": 0.5546875,
      "learning_rate": 0.000242713567839196,
      "loss": 2.0587,
      "step": 183900
    },
    {
      "epoch": 0.91955,
      "grad_norm": 0.73046875,
      "learning_rate": 0.00024256281407035175,
      "loss": 2.1232,
      "step": 183910
    },
    {
      "epoch": 0.9196,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00024241206030150756,
      "loss": 2.074,
      "step": 183920
    },
    {
      "epoch": 0.91965,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002422613065326633,
      "loss": 2.0886,
      "step": 183930
    },
    {
      "epoch": 0.9197,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002421105527638191,
      "loss": 2.1069,
      "step": 183940
    },
    {
      "epoch": 0.91975,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00024195979899497487,
      "loss": 2.0745,
      "step": 183950
    },
    {
      "epoch": 0.9198,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00024180904522613065,
      "loss": 2.0812,
      "step": 183960
    },
    {
      "epoch": 0.91985,
      "grad_norm": 0.609375,
      "learning_rate": 0.00024165829145728643,
      "loss": 2.0088,
      "step": 183970
    },
    {
      "epoch": 0.9199,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002415075376884422,
      "loss": 2.0843,
      "step": 183980
    },
    {
      "epoch": 0.91995,
      "grad_norm": 0.6015625,
      "learning_rate": 0.000241356783919598,
      "loss": 2.064,
      "step": 183990
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00024120603015075377,
      "loss": 2.1059,
      "step": 184000
    },
    {
      "epoch": 0.92,
      "eval_loss": 2.082710027694702,
      "eval_runtime": 48.5395,
      "eval_samples_per_second": 51.504,
      "eval_steps_per_second": 0.103,
      "step": 184000
    },
    {
      "epoch": 0.92005,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00024105527638190955,
      "loss": 2.0872,
      "step": 184010
    },
    {
      "epoch": 0.9201,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00024090452261306533,
      "loss": 2.1275,
      "step": 184020
    },
    {
      "epoch": 0.92015,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00024075376884422108,
      "loss": 2.0422,
      "step": 184030
    },
    {
      "epoch": 0.9202,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002406030150753769,
      "loss": 2.0987,
      "step": 184040
    },
    {
      "epoch": 0.92025,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00024045226130653264,
      "loss": 2.084,
      "step": 184050
    },
    {
      "epoch": 0.9203,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00024030150753768845,
      "loss": 2.0878,
      "step": 184060
    },
    {
      "epoch": 0.92035,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0002401507537688442,
      "loss": 2.0528,
      "step": 184070
    },
    {
      "epoch": 0.9204,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00024,
      "loss": 2.0745,
      "step": 184080
    },
    {
      "epoch": 0.92045,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00023984924623115576,
      "loss": 2.0466,
      "step": 184090
    },
    {
      "epoch": 0.9205,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00023969849246231157,
      "loss": 2.0957,
      "step": 184100
    },
    {
      "epoch": 0.92055,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00023954773869346732,
      "loss": 2.0576,
      "step": 184110
    },
    {
      "epoch": 0.9206,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00023939698492462312,
      "loss": 2.1358,
      "step": 184120
    },
    {
      "epoch": 0.92065,
      "grad_norm": 0.578125,
      "learning_rate": 0.00023924623115577888,
      "loss": 2.0314,
      "step": 184130
    },
    {
      "epoch": 0.9207,
      "grad_norm": 0.640625,
      "learning_rate": 0.00023909547738693468,
      "loss": 2.1288,
      "step": 184140
    },
    {
      "epoch": 0.92075,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00023894472361809044,
      "loss": 2.0691,
      "step": 184150
    },
    {
      "epoch": 0.9208,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00023879396984924624,
      "loss": 2.0759,
      "step": 184160
    },
    {
      "epoch": 0.92085,
      "grad_norm": 0.58984375,
      "learning_rate": 0.000238643216080402,
      "loss": 2.1613,
      "step": 184170
    },
    {
      "epoch": 0.9209,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0002384924623115578,
      "loss": 2.0497,
      "step": 184180
    },
    {
      "epoch": 0.92095,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00023834170854271356,
      "loss": 2.051,
      "step": 184190
    },
    {
      "epoch": 0.921,
      "grad_norm": 0.671875,
      "learning_rate": 0.00023819095477386936,
      "loss": 2.0487,
      "step": 184200
    },
    {
      "epoch": 0.92105,
      "grad_norm": 0.5625,
      "learning_rate": 0.00023804020100502512,
      "loss": 2.1501,
      "step": 184210
    },
    {
      "epoch": 0.9211,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00023788944723618092,
      "loss": 2.0268,
      "step": 184220
    },
    {
      "epoch": 0.92115,
      "grad_norm": 0.6875,
      "learning_rate": 0.00023773869346733667,
      "loss": 2.1073,
      "step": 184230
    },
    {
      "epoch": 0.9212,
      "grad_norm": 0.59375,
      "learning_rate": 0.00023758793969849248,
      "loss": 2.0943,
      "step": 184240
    },
    {
      "epoch": 0.92125,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00023743718592964823,
      "loss": 2.0585,
      "step": 184250
    },
    {
      "epoch": 0.9213,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00023728643216080404,
      "loss": 2.0444,
      "step": 184260
    },
    {
      "epoch": 0.92135,
      "grad_norm": 0.578125,
      "learning_rate": 0.0002371356783919598,
      "loss": 2.1176,
      "step": 184270
    },
    {
      "epoch": 0.9214,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002369849246231156,
      "loss": 2.0749,
      "step": 184280
    },
    {
      "epoch": 0.92145,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00023683417085427135,
      "loss": 2.1169,
      "step": 184290
    },
    {
      "epoch": 0.9215,
      "grad_norm": 0.640625,
      "learning_rate": 0.00023668341708542716,
      "loss": 2.0584,
      "step": 184300
    },
    {
      "epoch": 0.92155,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002365326633165829,
      "loss": 2.1002,
      "step": 184310
    },
    {
      "epoch": 0.9216,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00023638190954773872,
      "loss": 2.0323,
      "step": 184320
    },
    {
      "epoch": 0.92165,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00023623115577889447,
      "loss": 2.0581,
      "step": 184330
    },
    {
      "epoch": 0.9217,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00023608040201005028,
      "loss": 2.0831,
      "step": 184340
    },
    {
      "epoch": 0.92175,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00023592964824120603,
      "loss": 2.0668,
      "step": 184350
    },
    {
      "epoch": 0.9218,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002357788944723618,
      "loss": 2.0442,
      "step": 184360
    },
    {
      "epoch": 0.92185,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002356281407035176,
      "loss": 2.0622,
      "step": 184370
    },
    {
      "epoch": 0.9219,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00023547738693467337,
      "loss": 2.1524,
      "step": 184380
    },
    {
      "epoch": 0.92195,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00023532663316582915,
      "loss": 2.0285,
      "step": 184390
    },
    {
      "epoch": 0.922,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00023517587939698493,
      "loss": 2.0917,
      "step": 184400
    },
    {
      "epoch": 0.92205,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002350251256281407,
      "loss": 2.0531,
      "step": 184410
    },
    {
      "epoch": 0.9221,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002348743718592965,
      "loss": 2.1158,
      "step": 184420
    },
    {
      "epoch": 0.92215,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00023472361809045227,
      "loss": 2.0363,
      "step": 184430
    },
    {
      "epoch": 0.9222,
      "grad_norm": 0.609375,
      "learning_rate": 0.00023457286432160805,
      "loss": 2.0602,
      "step": 184440
    },
    {
      "epoch": 0.92225,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0002344221105527638,
      "loss": 2.0636,
      "step": 184450
    },
    {
      "epoch": 0.9223,
      "grad_norm": 0.640625,
      "learning_rate": 0.0002342713567839196,
      "loss": 2.0477,
      "step": 184460
    },
    {
      "epoch": 0.92235,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00023412060301507536,
      "loss": 2.0347,
      "step": 184470
    },
    {
      "epoch": 0.9224,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00023396984924623117,
      "loss": 2.1353,
      "step": 184480
    },
    {
      "epoch": 0.92245,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00023381909547738692,
      "loss": 2.0715,
      "step": 184490
    },
    {
      "epoch": 0.9225,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00023366834170854273,
      "loss": 2.1265,
      "step": 184500
    },
    {
      "epoch": 0.92255,
      "grad_norm": 0.640625,
      "learning_rate": 0.00023351758793969848,
      "loss": 2.0728,
      "step": 184510
    },
    {
      "epoch": 0.9226,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002333668341708543,
      "loss": 2.1363,
      "step": 184520
    },
    {
      "epoch": 0.92265,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00023321608040201004,
      "loss": 2.055,
      "step": 184530
    },
    {
      "epoch": 0.9227,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00023306532663316585,
      "loss": 2.1169,
      "step": 184540
    },
    {
      "epoch": 0.92275,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0002329145728643216,
      "loss": 2.0202,
      "step": 184550
    },
    {
      "epoch": 0.9228,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002327638190954774,
      "loss": 2.0812,
      "step": 184560
    },
    {
      "epoch": 0.92285,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00023261306532663316,
      "loss": 2.0275,
      "step": 184570
    },
    {
      "epoch": 0.9229,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00023246231155778897,
      "loss": 2.1102,
      "step": 184580
    },
    {
      "epoch": 0.92295,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00023231155778894472,
      "loss": 2.1033,
      "step": 184590
    },
    {
      "epoch": 0.923,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00023216080402010052,
      "loss": 2.0683,
      "step": 184600
    },
    {
      "epoch": 0.92305,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00023201005025125628,
      "loss": 2.0703,
      "step": 184610
    },
    {
      "epoch": 0.9231,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00023185929648241208,
      "loss": 2.0425,
      "step": 184620
    },
    {
      "epoch": 0.92315,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00023170854271356784,
      "loss": 2.1391,
      "step": 184630
    },
    {
      "epoch": 0.9232,
      "grad_norm": 0.80078125,
      "learning_rate": 0.00023155778894472364,
      "loss": 2.0265,
      "step": 184640
    },
    {
      "epoch": 0.92325,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002314070351758794,
      "loss": 2.0621,
      "step": 184650
    },
    {
      "epoch": 0.9233,
      "grad_norm": 0.89453125,
      "learning_rate": 0.0002312562814070352,
      "loss": 2.0465,
      "step": 184660
    },
    {
      "epoch": 0.92335,
      "grad_norm": 0.5625,
      "learning_rate": 0.00023110552763819096,
      "loss": 2.0893,
      "step": 184670
    },
    {
      "epoch": 0.9234,
      "grad_norm": 0.59375,
      "learning_rate": 0.00023095477386934676,
      "loss": 2.0324,
      "step": 184680
    },
    {
      "epoch": 0.92345,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00023080402010050252,
      "loss": 2.1295,
      "step": 184690
    },
    {
      "epoch": 0.9235,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00023065326633165832,
      "loss": 2.068,
      "step": 184700
    },
    {
      "epoch": 0.92355,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00023050251256281407,
      "loss": 2.0958,
      "step": 184710
    },
    {
      "epoch": 0.9236,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00023035175879396988,
      "loss": 2.0714,
      "step": 184720
    },
    {
      "epoch": 0.92365,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00023020100502512563,
      "loss": 2.1307,
      "step": 184730
    },
    {
      "epoch": 0.9237,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00023005025125628144,
      "loss": 2.0726,
      "step": 184740
    },
    {
      "epoch": 0.92375,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002298994974874372,
      "loss": 2.1035,
      "step": 184750
    },
    {
      "epoch": 0.9238,
      "grad_norm": 0.62890625,
      "learning_rate": 0.000229748743718593,
      "loss": 2.0294,
      "step": 184760
    },
    {
      "epoch": 0.92385,
      "grad_norm": 0.625,
      "learning_rate": 0.00022959798994974875,
      "loss": 2.0741,
      "step": 184770
    },
    {
      "epoch": 0.9239,
      "grad_norm": 0.734375,
      "learning_rate": 0.00022944723618090453,
      "loss": 2.028,
      "step": 184780
    },
    {
      "epoch": 0.92395,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0002292964824120603,
      "loss": 2.07,
      "step": 184790
    },
    {
      "epoch": 0.924,
      "grad_norm": 0.546875,
      "learning_rate": 0.0002291457286432161,
      "loss": 2.0904,
      "step": 184800
    },
    {
      "epoch": 0.92405,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00022899497487437187,
      "loss": 2.0944,
      "step": 184810
    },
    {
      "epoch": 0.9241,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00022884422110552765,
      "loss": 2.0481,
      "step": 184820
    },
    {
      "epoch": 0.92415,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00022869346733668343,
      "loss": 2.0662,
      "step": 184830
    },
    {
      "epoch": 0.9242,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002285427135678392,
      "loss": 2.0747,
      "step": 184840
    },
    {
      "epoch": 0.92425,
      "grad_norm": 0.609375,
      "learning_rate": 0.000228391959798995,
      "loss": 2.0574,
      "step": 184850
    },
    {
      "epoch": 0.9243,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00022824120603015077,
      "loss": 2.0719,
      "step": 184860
    },
    {
      "epoch": 0.92435,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00022809045226130652,
      "loss": 1.995,
      "step": 184870
    },
    {
      "epoch": 0.9244,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00022793969849246233,
      "loss": 2.0904,
      "step": 184880
    },
    {
      "epoch": 0.92445,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00022778894472361808,
      "loss": 2.0744,
      "step": 184890
    },
    {
      "epoch": 0.9245,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0002276381909547739,
      "loss": 2.0644,
      "step": 184900
    },
    {
      "epoch": 0.92455,
      "grad_norm": 0.640625,
      "learning_rate": 0.00022748743718592964,
      "loss": 2.0361,
      "step": 184910
    },
    {
      "epoch": 0.9246,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00022733668341708545,
      "loss": 2.1215,
      "step": 184920
    },
    {
      "epoch": 0.92465,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0002271859296482412,
      "loss": 2.0128,
      "step": 184930
    },
    {
      "epoch": 0.9247,
      "grad_norm": 0.640625,
      "learning_rate": 0.000227035175879397,
      "loss": 2.1305,
      "step": 184940
    },
    {
      "epoch": 0.92475,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00022688442211055276,
      "loss": 2.0505,
      "step": 184950
    },
    {
      "epoch": 0.9248,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002267336683417085,
      "loss": 2.0706,
      "step": 184960
    },
    {
      "epoch": 0.92485,
      "grad_norm": 0.65625,
      "learning_rate": 0.00022658291457286432,
      "loss": 2.0553,
      "step": 184970
    },
    {
      "epoch": 0.9249,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00022643216080402007,
      "loss": 2.101,
      "step": 184980
    },
    {
      "epoch": 0.92495,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00022628140703517588,
      "loss": 2.0464,
      "step": 184990
    },
    {
      "epoch": 0.925,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00022613065326633163,
      "loss": 2.0497,
      "step": 185000
    },
    {
      "epoch": 0.92505,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00022597989949748744,
      "loss": 2.0545,
      "step": 185010
    },
    {
      "epoch": 0.9251,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002258291457286432,
      "loss": 2.1203,
      "step": 185020
    },
    {
      "epoch": 0.92515,
      "grad_norm": 0.72265625,
      "learning_rate": 0.000225678391959799,
      "loss": 2.0581,
      "step": 185030
    },
    {
      "epoch": 0.9252,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00022552763819095475,
      "loss": 2.0906,
      "step": 185040
    },
    {
      "epoch": 0.92525,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00022537688442211056,
      "loss": 2.0615,
      "step": 185050
    },
    {
      "epoch": 0.9253,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0002252261306532663,
      "loss": 2.076,
      "step": 185060
    },
    {
      "epoch": 0.92535,
      "grad_norm": 0.59375,
      "learning_rate": 0.00022507537688442212,
      "loss": 2.0528,
      "step": 185070
    },
    {
      "epoch": 0.9254,
      "grad_norm": 0.625,
      "learning_rate": 0.00022492462311557787,
      "loss": 2.0756,
      "step": 185080
    },
    {
      "epoch": 0.92545,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00022477386934673368,
      "loss": 2.0753,
      "step": 185090
    },
    {
      "epoch": 0.9255,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00022462311557788943,
      "loss": 2.0697,
      "step": 185100
    },
    {
      "epoch": 0.92555,
      "grad_norm": 0.546875,
      "learning_rate": 0.00022447236180904524,
      "loss": 2.0444,
      "step": 185110
    },
    {
      "epoch": 0.9256,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000224321608040201,
      "loss": 2.0781,
      "step": 185120
    },
    {
      "epoch": 0.92565,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0002241708542713568,
      "loss": 2.0857,
      "step": 185130
    },
    {
      "epoch": 0.9257,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00022402010050251255,
      "loss": 2.0685,
      "step": 185140
    },
    {
      "epoch": 0.92575,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00022386934673366836,
      "loss": 2.0963,
      "step": 185150
    },
    {
      "epoch": 0.9258,
      "grad_norm": 0.625,
      "learning_rate": 0.0002237185929648241,
      "loss": 2.023,
      "step": 185160
    },
    {
      "epoch": 0.92585,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00022356783919597991,
      "loss": 2.0828,
      "step": 185170
    },
    {
      "epoch": 0.9259,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00022341708542713567,
      "loss": 2.0865,
      "step": 185180
    },
    {
      "epoch": 0.92595,
      "grad_norm": 0.609375,
      "learning_rate": 0.00022326633165829147,
      "loss": 2.0785,
      "step": 185190
    },
    {
      "epoch": 0.926,
      "grad_norm": 0.703125,
      "learning_rate": 0.00022311557788944723,
      "loss": 2.0518,
      "step": 185200
    },
    {
      "epoch": 0.92605,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00022296482412060303,
      "loss": 2.0629,
      "step": 185210
    },
    {
      "epoch": 0.9261,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00022281407035175879,
      "loss": 2.0803,
      "step": 185220
    },
    {
      "epoch": 0.92615,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002226633165829146,
      "loss": 2.1038,
      "step": 185230
    },
    {
      "epoch": 0.9262,
      "grad_norm": 0.671875,
      "learning_rate": 0.00022251256281407035,
      "loss": 1.9977,
      "step": 185240
    },
    {
      "epoch": 0.92625,
      "grad_norm": 0.671875,
      "learning_rate": 0.00022236180904522615,
      "loss": 2.0715,
      "step": 185250
    },
    {
      "epoch": 0.9263,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0002222110552763819,
      "loss": 2.0551,
      "step": 185260
    },
    {
      "epoch": 0.92635,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002220603015075377,
      "loss": 2.0803,
      "step": 185270
    },
    {
      "epoch": 0.9264,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00022190954773869346,
      "loss": 2.0488,
      "step": 185280
    },
    {
      "epoch": 0.92645,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00022175879396984924,
      "loss": 2.1126,
      "step": 185290
    },
    {
      "epoch": 0.9265,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00022160804020100502,
      "loss": 2.0411,
      "step": 185300
    },
    {
      "epoch": 0.92655,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002214572864321608,
      "loss": 2.1517,
      "step": 185310
    },
    {
      "epoch": 0.9266,
      "grad_norm": 0.703125,
      "learning_rate": 0.00022130653266331658,
      "loss": 2.0342,
      "step": 185320
    },
    {
      "epoch": 0.92665,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00022115577889447236,
      "loss": 2.0804,
      "step": 185330
    },
    {
      "epoch": 0.9267,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00022100502512562814,
      "loss": 2.0429,
      "step": 185340
    },
    {
      "epoch": 0.92675,
      "grad_norm": 0.59375,
      "learning_rate": 0.00022085427135678392,
      "loss": 2.0918,
      "step": 185350
    },
    {
      "epoch": 0.9268,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002207035175879397,
      "loss": 2.0632,
      "step": 185360
    },
    {
      "epoch": 0.92685,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00022055276381909548,
      "loss": 2.0923,
      "step": 185370
    },
    {
      "epoch": 0.9269,
      "grad_norm": 0.578125,
      "learning_rate": 0.00022040201005025123,
      "loss": 2.0606,
      "step": 185380
    },
    {
      "epoch": 0.92695,
      "grad_norm": 0.609375,
      "learning_rate": 0.00022025125628140704,
      "loss": 2.1231,
      "step": 185390
    },
    {
      "epoch": 0.927,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0002201005025125628,
      "loss": 2.063,
      "step": 185400
    },
    {
      "epoch": 0.92705,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002199497487437186,
      "loss": 2.1125,
      "step": 185410
    },
    {
      "epoch": 0.9271,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00021979899497487435,
      "loss": 2.0515,
      "step": 185420
    },
    {
      "epoch": 0.92715,
      "grad_norm": 0.6875,
      "learning_rate": 0.00021964824120603016,
      "loss": 2.104,
      "step": 185430
    },
    {
      "epoch": 0.9272,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0002194974874371859,
      "loss": 2.0755,
      "step": 185440
    },
    {
      "epoch": 0.92725,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00021934673366834172,
      "loss": 2.0668,
      "step": 185450
    },
    {
      "epoch": 0.9273,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00021919597989949747,
      "loss": 2.0881,
      "step": 185460
    },
    {
      "epoch": 0.92735,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00021904522613065328,
      "loss": 2.0885,
      "step": 185470
    },
    {
      "epoch": 0.9274,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00021889447236180903,
      "loss": 2.1062,
      "step": 185480
    },
    {
      "epoch": 0.92745,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00021874371859296484,
      "loss": 2.0626,
      "step": 185490
    },
    {
      "epoch": 0.9275,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002185929648241206,
      "loss": 2.1418,
      "step": 185500
    },
    {
      "epoch": 0.92755,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0002184422110552764,
      "loss": 2.0245,
      "step": 185510
    },
    {
      "epoch": 0.9276,
      "grad_norm": 0.5625,
      "learning_rate": 0.00021829145728643215,
      "loss": 2.0665,
      "step": 185520
    },
    {
      "epoch": 0.92765,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00021814070351758796,
      "loss": 2.0699,
      "step": 185530
    },
    {
      "epoch": 0.9277,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0002179899497487437,
      "loss": 2.1631,
      "step": 185540
    },
    {
      "epoch": 0.92775,
      "grad_norm": 0.65625,
      "learning_rate": 0.00021783919597989952,
      "loss": 2.0722,
      "step": 185550
    },
    {
      "epoch": 0.9278,
      "grad_norm": 0.5625,
      "learning_rate": 0.00021768844221105527,
      "loss": 2.1232,
      "step": 185560
    },
    {
      "epoch": 0.92785,
      "grad_norm": 0.640625,
      "learning_rate": 0.00021753768844221108,
      "loss": 1.9967,
      "step": 185570
    },
    {
      "epoch": 0.9279,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00021738693467336683,
      "loss": 2.0793,
      "step": 185580
    },
    {
      "epoch": 0.92795,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00021723618090452264,
      "loss": 2.036,
      "step": 185590
    },
    {
      "epoch": 0.928,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0002170854271356784,
      "loss": 2.0759,
      "step": 185600
    },
    {
      "epoch": 0.92805,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0002169346733668342,
      "loss": 2.0572,
      "step": 185610
    },
    {
      "epoch": 0.9281,
      "grad_norm": 0.546875,
      "learning_rate": 0.00021678391959798995,
      "loss": 2.0721,
      "step": 185620
    },
    {
      "epoch": 0.92815,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00021663316582914576,
      "loss": 2.0133,
      "step": 185630
    },
    {
      "epoch": 0.9282,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002164824120603015,
      "loss": 2.1208,
      "step": 185640
    },
    {
      "epoch": 0.92825,
      "grad_norm": 0.640625,
      "learning_rate": 0.00021633165829145731,
      "loss": 2.0223,
      "step": 185650
    },
    {
      "epoch": 0.9283,
      "grad_norm": 0.578125,
      "learning_rate": 0.00021618090452261307,
      "loss": 2.125,
      "step": 185660
    },
    {
      "epoch": 0.92835,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00021603015075376887,
      "loss": 2.0117,
      "step": 185670
    },
    {
      "epoch": 0.9284,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00021587939698492463,
      "loss": 2.1159,
      "step": 185680
    },
    {
      "epoch": 0.92845,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002157286432160804,
      "loss": 2.0682,
      "step": 185690
    },
    {
      "epoch": 0.9285,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00021557788944723619,
      "loss": 2.1054,
      "step": 185700
    },
    {
      "epoch": 0.92855,
      "grad_norm": 0.65625,
      "learning_rate": 0.00021542713567839197,
      "loss": 2.0671,
      "step": 185710
    },
    {
      "epoch": 0.9286,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00021527638190954775,
      "loss": 2.1467,
      "step": 185720
    },
    {
      "epoch": 0.92865,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00021512562814070353,
      "loss": 2.0798,
      "step": 185730
    },
    {
      "epoch": 0.9287,
      "grad_norm": 0.65625,
      "learning_rate": 0.0002149748743718593,
      "loss": 2.0783,
      "step": 185740
    },
    {
      "epoch": 0.92875,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00021482412060301508,
      "loss": 2.0755,
      "step": 185750
    },
    {
      "epoch": 0.9288,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00021467336683417086,
      "loss": 2.0796,
      "step": 185760
    },
    {
      "epoch": 0.92885,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00021452261306532664,
      "loss": 2.0765,
      "step": 185770
    },
    {
      "epoch": 0.9289,
      "grad_norm": 0.7421875,
      "learning_rate": 0.00021437185929648242,
      "loss": 2.0824,
      "step": 185780
    },
    {
      "epoch": 0.92895,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002142211055276382,
      "loss": 2.0925,
      "step": 185790
    },
    {
      "epoch": 0.929,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00021407035175879396,
      "loss": 2.0719,
      "step": 185800
    },
    {
      "epoch": 0.92905,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00021391959798994976,
      "loss": 2.1163,
      "step": 185810
    },
    {
      "epoch": 0.9291,
      "grad_norm": 0.609375,
      "learning_rate": 0.00021376884422110552,
      "loss": 2.0788,
      "step": 185820
    },
    {
      "epoch": 0.92915,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00021361809045226132,
      "loss": 2.0661,
      "step": 185830
    },
    {
      "epoch": 0.9292,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00021346733668341708,
      "loss": 2.0387,
      "step": 185840
    },
    {
      "epoch": 0.92925,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00021331658291457288,
      "loss": 2.0472,
      "step": 185850
    },
    {
      "epoch": 0.9293,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00021316582914572863,
      "loss": 2.0474,
      "step": 185860
    },
    {
      "epoch": 0.92935,
      "grad_norm": 0.609375,
      "learning_rate": 0.00021301507537688444,
      "loss": 2.0473,
      "step": 185870
    },
    {
      "epoch": 0.9294,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002128643216080402,
      "loss": 2.0877,
      "step": 185880
    },
    {
      "epoch": 0.92945,
      "grad_norm": 0.63671875,
      "learning_rate": 0.000212713567839196,
      "loss": 2.052,
      "step": 185890
    },
    {
      "epoch": 0.9295,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00021256281407035175,
      "loss": 2.0422,
      "step": 185900
    },
    {
      "epoch": 0.92955,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00021241206030150756,
      "loss": 2.0982,
      "step": 185910
    },
    {
      "epoch": 0.9296,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002122613065326633,
      "loss": 2.0978,
      "step": 185920
    },
    {
      "epoch": 0.92965,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00021211055276381912,
      "loss": 2.0853,
      "step": 185930
    },
    {
      "epoch": 0.9297,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00021195979899497487,
      "loss": 2.0293,
      "step": 185940
    },
    {
      "epoch": 0.92975,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00021180904522613068,
      "loss": 2.0951,
      "step": 185950
    },
    {
      "epoch": 0.9298,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00021165829145728643,
      "loss": 2.0387,
      "step": 185960
    },
    {
      "epoch": 0.92985,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00021150753768844224,
      "loss": 2.0629,
      "step": 185970
    },
    {
      "epoch": 0.9299,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000211356783919598,
      "loss": 2.0716,
      "step": 185980
    },
    {
      "epoch": 0.92995,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002112060301507538,
      "loss": 2.0459,
      "step": 185990
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.625,
      "learning_rate": 0.00021105527638190955,
      "loss": 2.0816,
      "step": 186000
    },
    {
      "epoch": 0.93,
      "eval_loss": 2.0817923545837402,
      "eval_runtime": 47.0651,
      "eval_samples_per_second": 53.118,
      "eval_steps_per_second": 0.106,
      "step": 186000
    },
    {
      "epoch": 0.93005,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00021090452261306536,
      "loss": 2.1061,
      "step": 186010
    },
    {
      "epoch": 0.9301,
      "grad_norm": 0.703125,
      "learning_rate": 0.0002107537688442211,
      "loss": 2.0658,
      "step": 186020
    },
    {
      "epoch": 0.93015,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00021060301507537692,
      "loss": 2.0876,
      "step": 186030
    },
    {
      "epoch": 0.9302,
      "grad_norm": 0.609375,
      "learning_rate": 0.00021045226130653267,
      "loss": 2.0312,
      "step": 186040
    },
    {
      "epoch": 0.93025,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00021030150753768848,
      "loss": 2.1341,
      "step": 186050
    },
    {
      "epoch": 0.9303,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00021015075376884423,
      "loss": 2.0516,
      "step": 186060
    },
    {
      "epoch": 0.93035,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00021000000000000004,
      "loss": 2.0955,
      "step": 186070
    },
    {
      "epoch": 0.9304,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0002098492462311558,
      "loss": 2.0668,
      "step": 186080
    },
    {
      "epoch": 0.93045,
      "grad_norm": 0.609375,
      "learning_rate": 0.0002096984924623116,
      "loss": 2.1244,
      "step": 186090
    },
    {
      "epoch": 0.9305,
      "grad_norm": 0.51953125,
      "learning_rate": 0.00020954773869346735,
      "loss": 2.0523,
      "step": 186100
    },
    {
      "epoch": 0.93055,
      "grad_norm": 0.625,
      "learning_rate": 0.00020939698492462313,
      "loss": 2.1121,
      "step": 186110
    },
    {
      "epoch": 0.9306,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0002092462311557789,
      "loss": 2.0427,
      "step": 186120
    },
    {
      "epoch": 0.93065,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00020909547738693466,
      "loss": 2.0295,
      "step": 186130
    },
    {
      "epoch": 0.9307,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00020894472361809047,
      "loss": 2.0312,
      "step": 186140
    },
    {
      "epoch": 0.93075,
      "grad_norm": 0.65625,
      "learning_rate": 0.00020879396984924622,
      "loss": 2.0727,
      "step": 186150
    },
    {
      "epoch": 0.9308,
      "grad_norm": 0.640625,
      "learning_rate": 0.00020864321608040203,
      "loss": 2.0506,
      "step": 186160
    },
    {
      "epoch": 0.93085,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00020849246231155778,
      "loss": 2.0878,
      "step": 186170
    },
    {
      "epoch": 0.9309,
      "grad_norm": 0.640625,
      "learning_rate": 0.00020834170854271359,
      "loss": 2.0735,
      "step": 186180
    },
    {
      "epoch": 0.93095,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00020819095477386934,
      "loss": 2.0846,
      "step": 186190
    },
    {
      "epoch": 0.931,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00020804020100502512,
      "loss": 2.0445,
      "step": 186200
    },
    {
      "epoch": 0.93105,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002078894472361809,
      "loss": 2.0509,
      "step": 186210
    },
    {
      "epoch": 0.9311,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00020773869346733668,
      "loss": 2.042,
      "step": 186220
    },
    {
      "epoch": 0.93115,
      "grad_norm": 0.609375,
      "learning_rate": 0.00020758793969849246,
      "loss": 2.1375,
      "step": 186230
    },
    {
      "epoch": 0.9312,
      "grad_norm": 0.609375,
      "learning_rate": 0.00020743718592964824,
      "loss": 2.0664,
      "step": 186240
    },
    {
      "epoch": 0.93125,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00020728643216080402,
      "loss": 2.1491,
      "step": 186250
    },
    {
      "epoch": 0.9313,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002071356783919598,
      "loss": 2.0568,
      "step": 186260
    },
    {
      "epoch": 0.93135,
      "grad_norm": 0.625,
      "learning_rate": 0.00020698492462311558,
      "loss": 2.1035,
      "step": 186270
    },
    {
      "epoch": 0.9314,
      "grad_norm": 0.609375,
      "learning_rate": 0.00020683417085427136,
      "loss": 2.0785,
      "step": 186280
    },
    {
      "epoch": 0.93145,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00020668341708542714,
      "loss": 2.1324,
      "step": 186290
    },
    {
      "epoch": 0.9315,
      "grad_norm": 0.625,
      "learning_rate": 0.00020653266331658292,
      "loss": 2.0199,
      "step": 186300
    },
    {
      "epoch": 0.93155,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00020638190954773867,
      "loss": 2.1236,
      "step": 186310
    },
    {
      "epoch": 0.9316,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00020623115577889447,
      "loss": 2.0512,
      "step": 186320
    },
    {
      "epoch": 0.93165,
      "grad_norm": 0.5625,
      "learning_rate": 0.00020608040201005023,
      "loss": 2.1375,
      "step": 186330
    },
    {
      "epoch": 0.9317,
      "grad_norm": 0.546875,
      "learning_rate": 0.00020592964824120603,
      "loss": 2.0203,
      "step": 186340
    },
    {
      "epoch": 0.93175,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0002057788944723618,
      "loss": 2.0647,
      "step": 186350
    },
    {
      "epoch": 0.9318,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0002056281407035176,
      "loss": 2.0647,
      "step": 186360
    },
    {
      "epoch": 0.93185,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00020547738693467335,
      "loss": 2.0906,
      "step": 186370
    },
    {
      "epoch": 0.9319,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00020532663316582915,
      "loss": 2.0726,
      "step": 186380
    },
    {
      "epoch": 0.93195,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0002051758793969849,
      "loss": 2.084,
      "step": 186390
    },
    {
      "epoch": 0.932,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0002050251256281407,
      "loss": 2.0455,
      "step": 186400
    },
    {
      "epoch": 0.93205,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00020487437185929647,
      "loss": 2.049,
      "step": 186410
    },
    {
      "epoch": 0.9321,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00020472361809045227,
      "loss": 2.0642,
      "step": 186420
    },
    {
      "epoch": 0.93215,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00020457286432160802,
      "loss": 2.0865,
      "step": 186430
    },
    {
      "epoch": 0.9322,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00020442211055276383,
      "loss": 2.1006,
      "step": 186440
    },
    {
      "epoch": 0.93225,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00020427135678391958,
      "loss": 2.1092,
      "step": 186450
    },
    {
      "epoch": 0.9323,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0002041206030150754,
      "loss": 2.0356,
      "step": 186460
    },
    {
      "epoch": 0.93235,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00020396984924623114,
      "loss": 2.1041,
      "step": 186470
    },
    {
      "epoch": 0.9324,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00020381909547738695,
      "loss": 2.0515,
      "step": 186480
    },
    {
      "epoch": 0.93245,
      "grad_norm": 0.59375,
      "learning_rate": 0.0002036683417085427,
      "loss": 2.1353,
      "step": 186490
    },
    {
      "epoch": 0.9325,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0002035175879396985,
      "loss": 2.0844,
      "step": 186500
    },
    {
      "epoch": 0.93255,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00020336683417085426,
      "loss": 2.053,
      "step": 186510
    },
    {
      "epoch": 0.9326,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00020321608040201007,
      "loss": 2.0914,
      "step": 186520
    },
    {
      "epoch": 0.93265,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00020306532663316582,
      "loss": 2.1659,
      "step": 186530
    },
    {
      "epoch": 0.9327,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00020291457286432163,
      "loss": 2.0918,
      "step": 186540
    },
    {
      "epoch": 0.93275,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00020276381909547738,
      "loss": 2.0962,
      "step": 186550
    },
    {
      "epoch": 0.9328,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002026130653266332,
      "loss": 2.0255,
      "step": 186560
    },
    {
      "epoch": 0.93285,
      "grad_norm": 0.609375,
      "learning_rate": 0.00020246231155778894,
      "loss": 2.0755,
      "step": 186570
    },
    {
      "epoch": 0.9329,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00020231155778894475,
      "loss": 2.0601,
      "step": 186580
    },
    {
      "epoch": 0.93295,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0002021608040201005,
      "loss": 2.1252,
      "step": 186590
    },
    {
      "epoch": 0.933,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0002020100502512563,
      "loss": 2.0547,
      "step": 186600
    },
    {
      "epoch": 0.93305,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00020185929648241206,
      "loss": 2.1158,
      "step": 186610
    },
    {
      "epoch": 0.9331,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00020170854271356784,
      "loss": 2.0673,
      "step": 186620
    },
    {
      "epoch": 0.93315,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00020155778894472362,
      "loss": 2.1324,
      "step": 186630
    },
    {
      "epoch": 0.9332,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0002014070351758794,
      "loss": 2.0331,
      "step": 186640
    },
    {
      "epoch": 0.93325,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00020125628140703518,
      "loss": 2.1077,
      "step": 186650
    },
    {
      "epoch": 0.9333,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00020110552763819096,
      "loss": 2.0476,
      "step": 186660
    },
    {
      "epoch": 0.93335,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00020095477386934674,
      "loss": 2.1124,
      "step": 186670
    },
    {
      "epoch": 0.9334,
      "grad_norm": 0.65625,
      "learning_rate": 0.00020080402010050252,
      "loss": 2.0226,
      "step": 186680
    },
    {
      "epoch": 0.93345,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002006532663316583,
      "loss": 2.0693,
      "step": 186690
    },
    {
      "epoch": 0.9335,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00020050251256281408,
      "loss": 2.0317,
      "step": 186700
    },
    {
      "epoch": 0.93355,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00020035175879396983,
      "loss": 2.0668,
      "step": 186710
    },
    {
      "epoch": 0.9336,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00020020100502512564,
      "loss": 2.0213,
      "step": 186720
    },
    {
      "epoch": 0.93365,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0002000502512562814,
      "loss": 2.1085,
      "step": 186730
    },
    {
      "epoch": 0.9337,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001998994974874372,
      "loss": 2.0316,
      "step": 186740
    },
    {
      "epoch": 0.93375,
      "grad_norm": 0.671875,
      "learning_rate": 0.00019974874371859295,
      "loss": 2.1282,
      "step": 186750
    },
    {
      "epoch": 0.9338,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00019959798994974876,
      "loss": 2.0735,
      "step": 186760
    },
    {
      "epoch": 0.93385,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0001994472361809045,
      "loss": 2.0827,
      "step": 186770
    },
    {
      "epoch": 0.9339,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00019929648241206031,
      "loss": 2.0614,
      "step": 186780
    },
    {
      "epoch": 0.93395,
      "grad_norm": 0.59375,
      "learning_rate": 0.00019914572864321607,
      "loss": 2.1139,
      "step": 186790
    },
    {
      "epoch": 0.934,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00019899497487437187,
      "loss": 2.0515,
      "step": 186800
    },
    {
      "epoch": 0.93405,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00019884422110552763,
      "loss": 2.0673,
      "step": 186810
    },
    {
      "epoch": 0.9341,
      "grad_norm": 0.640625,
      "learning_rate": 0.00019869346733668343,
      "loss": 2.0432,
      "step": 186820
    },
    {
      "epoch": 0.93415,
      "grad_norm": 0.6875,
      "learning_rate": 0.0001985427135678392,
      "loss": 2.1284,
      "step": 186830
    },
    {
      "epoch": 0.9342,
      "grad_norm": 0.59765625,
      "learning_rate": 0.000198391959798995,
      "loss": 2.0678,
      "step": 186840
    },
    {
      "epoch": 0.93425,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00019824120603015075,
      "loss": 2.0767,
      "step": 186850
    },
    {
      "epoch": 0.9343,
      "grad_norm": 0.625,
      "learning_rate": 0.00019809045226130655,
      "loss": 2.0525,
      "step": 186860
    },
    {
      "epoch": 0.93435,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0001979396984924623,
      "loss": 2.0887,
      "step": 186870
    },
    {
      "epoch": 0.9344,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0001977889447236181,
      "loss": 2.0606,
      "step": 186880
    },
    {
      "epoch": 0.93445,
      "grad_norm": 0.609375,
      "learning_rate": 0.00019763819095477386,
      "loss": 2.0799,
      "step": 186890
    },
    {
      "epoch": 0.9345,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00019748743718592967,
      "loss": 2.0598,
      "step": 186900
    },
    {
      "epoch": 0.93455,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00019733668341708542,
      "loss": 2.0483,
      "step": 186910
    },
    {
      "epoch": 0.9346,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00019718592964824123,
      "loss": 2.0776,
      "step": 186920
    },
    {
      "epoch": 0.93465,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00019703517587939698,
      "loss": 2.1292,
      "step": 186930
    },
    {
      "epoch": 0.9347,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0001968844221105528,
      "loss": 2.0043,
      "step": 186940
    },
    {
      "epoch": 0.93475,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00019673366834170854,
      "loss": 2.0838,
      "step": 186950
    },
    {
      "epoch": 0.9348,
      "grad_norm": 0.609375,
      "learning_rate": 0.00019658291457286435,
      "loss": 2.0326,
      "step": 186960
    },
    {
      "epoch": 0.93485,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0001964321608040201,
      "loss": 2.0848,
      "step": 186970
    },
    {
      "epoch": 0.9349,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0001962814070351759,
      "loss": 2.0661,
      "step": 186980
    },
    {
      "epoch": 0.93495,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00019613065326633166,
      "loss": 2.0541,
      "step": 186990
    },
    {
      "epoch": 0.935,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00019597989949748747,
      "loss": 2.0628,
      "step": 187000
    },
    {
      "epoch": 0.93505,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00019582914572864322,
      "loss": 2.0534,
      "step": 187010
    },
    {
      "epoch": 0.9351,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00019567839195979903,
      "loss": 2.0416,
      "step": 187020
    },
    {
      "epoch": 0.93515,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00019552763819095478,
      "loss": 2.0961,
      "step": 187030
    },
    {
      "epoch": 0.9352,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00019537688442211056,
      "loss": 2.0247,
      "step": 187040
    },
    {
      "epoch": 0.93525,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00019522613065326634,
      "loss": 2.1006,
      "step": 187050
    },
    {
      "epoch": 0.9353,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00019507537688442212,
      "loss": 2.0859,
      "step": 187060
    },
    {
      "epoch": 0.93535,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001949246231155779,
      "loss": 2.1207,
      "step": 187070
    },
    {
      "epoch": 0.9354,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00019477386934673368,
      "loss": 2.0635,
      "step": 187080
    },
    {
      "epoch": 0.93545,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00019462311557788946,
      "loss": 2.133,
      "step": 187090
    },
    {
      "epoch": 0.9355,
      "grad_norm": 0.671875,
      "learning_rate": 0.00019447236180904524,
      "loss": 2.0881,
      "step": 187100
    },
    {
      "epoch": 0.93555,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00019432160804020102,
      "loss": 2.076,
      "step": 187110
    },
    {
      "epoch": 0.9356,
      "grad_norm": 0.578125,
      "learning_rate": 0.0001941708542713568,
      "loss": 2.0342,
      "step": 187120
    },
    {
      "epoch": 0.93565,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00019402010050251255,
      "loss": 2.0803,
      "step": 187130
    },
    {
      "epoch": 0.9357,
      "grad_norm": 0.640625,
      "learning_rate": 0.00019386934673366836,
      "loss": 2.0255,
      "step": 187140
    },
    {
      "epoch": 0.93575,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0001937185929648241,
      "loss": 2.0713,
      "step": 187150
    },
    {
      "epoch": 0.9358,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00019356783919597992,
      "loss": 2.0914,
      "step": 187160
    },
    {
      "epoch": 0.93585,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00019341708542713567,
      "loss": 2.0779,
      "step": 187170
    },
    {
      "epoch": 0.9359,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00019326633165829148,
      "loss": 2.054,
      "step": 187180
    },
    {
      "epoch": 0.93595,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00019311557788944723,
      "loss": 2.111,
      "step": 187190
    },
    {
      "epoch": 0.936,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00019296482412060304,
      "loss": 2.0843,
      "step": 187200
    },
    {
      "epoch": 0.93605,
      "grad_norm": 0.640625,
      "learning_rate": 0.0001928140703517588,
      "loss": 2.0824,
      "step": 187210
    },
    {
      "epoch": 0.9361,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0001926633165829146,
      "loss": 2.041,
      "step": 187220
    },
    {
      "epoch": 0.93615,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00019251256281407035,
      "loss": 2.1036,
      "step": 187230
    },
    {
      "epoch": 0.9362,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00019236180904522616,
      "loss": 2.0245,
      "step": 187240
    },
    {
      "epoch": 0.93625,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0001922110552763819,
      "loss": 2.0591,
      "step": 187250
    },
    {
      "epoch": 0.9363,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00019206030150753771,
      "loss": 2.0244,
      "step": 187260
    },
    {
      "epoch": 0.93635,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00019190954773869347,
      "loss": 2.0531,
      "step": 187270
    },
    {
      "epoch": 0.9364,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00019175879396984922,
      "loss": 2.0241,
      "step": 187280
    },
    {
      "epoch": 0.93645,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00019160804020100503,
      "loss": 2.0576,
      "step": 187290
    },
    {
      "epoch": 0.9365,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00019145728643216078,
      "loss": 2.0852,
      "step": 187300
    },
    {
      "epoch": 0.93655,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00019130653266331659,
      "loss": 2.0842,
      "step": 187310
    },
    {
      "epoch": 0.9366,
      "grad_norm": 0.59375,
      "learning_rate": 0.00019115577889447234,
      "loss": 2.0566,
      "step": 187320
    },
    {
      "epoch": 0.93665,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00019100502512562815,
      "loss": 2.0885,
      "step": 187330
    },
    {
      "epoch": 0.9367,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0001908542713567839,
      "loss": 2.0541,
      "step": 187340
    },
    {
      "epoch": 0.93675,
      "grad_norm": 0.65625,
      "learning_rate": 0.0001907035175879397,
      "loss": 2.1058,
      "step": 187350
    },
    {
      "epoch": 0.9368,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00019055276381909546,
      "loss": 2.0102,
      "step": 187360
    },
    {
      "epoch": 0.93685,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00019040201005025126,
      "loss": 2.1068,
      "step": 187370
    },
    {
      "epoch": 0.9369,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00019025125628140702,
      "loss": 2.0393,
      "step": 187380
    },
    {
      "epoch": 0.93695,
      "grad_norm": 0.65625,
      "learning_rate": 0.00019010050251256282,
      "loss": 2.1259,
      "step": 187390
    },
    {
      "epoch": 0.937,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00018994974874371858,
      "loss": 2.0423,
      "step": 187400
    },
    {
      "epoch": 0.93705,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00018979899497487438,
      "loss": 2.1181,
      "step": 187410
    },
    {
      "epoch": 0.9371,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00018964824120603014,
      "loss": 2.0788,
      "step": 187420
    },
    {
      "epoch": 0.93715,
      "grad_norm": 0.609375,
      "learning_rate": 0.00018949748743718594,
      "loss": 2.0965,
      "step": 187430
    },
    {
      "epoch": 0.9372,
      "grad_norm": 0.671875,
      "learning_rate": 0.0001893467336683417,
      "loss": 2.0569,
      "step": 187440
    },
    {
      "epoch": 0.93725,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0001891959798994975,
      "loss": 2.104,
      "step": 187450
    },
    {
      "epoch": 0.9373,
      "grad_norm": 0.546875,
      "learning_rate": 0.00018904522613065325,
      "loss": 2.0413,
      "step": 187460
    },
    {
      "epoch": 0.93735,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00018889447236180906,
      "loss": 2.0933,
      "step": 187470
    },
    {
      "epoch": 0.9374,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00018874371859296481,
      "loss": 2.0729,
      "step": 187480
    },
    {
      "epoch": 0.93745,
      "grad_norm": 0.65625,
      "learning_rate": 0.00018859296482412062,
      "loss": 2.0788,
      "step": 187490
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00018844221105527637,
      "loss": 2.0619,
      "step": 187500
    },
    {
      "epoch": 0.93755,
      "grad_norm": 0.578125,
      "learning_rate": 0.00018829145728643218,
      "loss": 2.1379,
      "step": 187510
    },
    {
      "epoch": 0.9376,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00018814070351758793,
      "loss": 2.0563,
      "step": 187520
    },
    {
      "epoch": 0.93765,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00018798994974874374,
      "loss": 2.0658,
      "step": 187530
    },
    {
      "epoch": 0.9377,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001878391959798995,
      "loss": 2.0605,
      "step": 187540
    },
    {
      "epoch": 0.93775,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00018768844221105527,
      "loss": 2.0748,
      "step": 187550
    },
    {
      "epoch": 0.9378,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00018753768844221105,
      "loss": 2.0249,
      "step": 187560
    },
    {
      "epoch": 0.93785,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00018738693467336683,
      "loss": 2.0838,
      "step": 187570
    },
    {
      "epoch": 0.9379,
      "grad_norm": 0.578125,
      "learning_rate": 0.0001872361809045226,
      "loss": 2.0374,
      "step": 187580
    },
    {
      "epoch": 0.93795,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0001870854271356784,
      "loss": 2.1316,
      "step": 187590
    },
    {
      "epoch": 0.938,
      "grad_norm": 0.671875,
      "learning_rate": 0.00018693467336683417,
      "loss": 2.0621,
      "step": 187600
    },
    {
      "epoch": 0.93805,
      "grad_norm": 0.578125,
      "learning_rate": 0.00018678391959798995,
      "loss": 2.1077,
      "step": 187610
    },
    {
      "epoch": 0.9381,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00018663316582914573,
      "loss": 2.0406,
      "step": 187620
    },
    {
      "epoch": 0.93815,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0001864824120603015,
      "loss": 2.0825,
      "step": 187630
    },
    {
      "epoch": 0.9382,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0001863316582914573,
      "loss": 2.0774,
      "step": 187640
    },
    {
      "epoch": 0.93825,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00018618090452261307,
      "loss": 2.0528,
      "step": 187650
    },
    {
      "epoch": 0.9383,
      "grad_norm": 0.625,
      "learning_rate": 0.00018603015075376885,
      "loss": 2.0646,
      "step": 187660
    },
    {
      "epoch": 0.93835,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00018587939698492463,
      "loss": 2.0908,
      "step": 187670
    },
    {
      "epoch": 0.9384,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0001857286432160804,
      "loss": 2.0389,
      "step": 187680
    },
    {
      "epoch": 0.93845,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001855778894472362,
      "loss": 2.1238,
      "step": 187690
    },
    {
      "epoch": 0.9385,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00018542713567839197,
      "loss": 2.0386,
      "step": 187700
    },
    {
      "epoch": 0.93855,
      "grad_norm": 0.65625,
      "learning_rate": 0.00018527638190954775,
      "loss": 2.0399,
      "step": 187710
    },
    {
      "epoch": 0.9386,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00018512562814070353,
      "loss": 2.0629,
      "step": 187720
    },
    {
      "epoch": 0.93865,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0001849748743718593,
      "loss": 2.0759,
      "step": 187730
    },
    {
      "epoch": 0.9387,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0001848241206030151,
      "loss": 2.0518,
      "step": 187740
    },
    {
      "epoch": 0.93875,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00018467336683417087,
      "loss": 2.1347,
      "step": 187750
    },
    {
      "epoch": 0.9388,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00018452261306532665,
      "loss": 2.0708,
      "step": 187760
    },
    {
      "epoch": 0.93885,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00018437185929648243,
      "loss": 2.0782,
      "step": 187770
    },
    {
      "epoch": 0.9389,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0001842211055276382,
      "loss": 2.0917,
      "step": 187780
    },
    {
      "epoch": 0.93895,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00018407035175879399,
      "loss": 2.0975,
      "step": 187790
    },
    {
      "epoch": 0.939,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00018391959798994977,
      "loss": 2.1027,
      "step": 187800
    },
    {
      "epoch": 0.93905,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00018376884422110555,
      "loss": 2.0497,
      "step": 187810
    },
    {
      "epoch": 0.9391,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00018361809045226133,
      "loss": 2.0588,
      "step": 187820
    },
    {
      "epoch": 0.93915,
      "grad_norm": 0.609375,
      "learning_rate": 0.0001834673366834171,
      "loss": 2.0801,
      "step": 187830
    },
    {
      "epoch": 0.9392,
      "grad_norm": 0.671875,
      "learning_rate": 0.00018331658291457288,
      "loss": 2.0883,
      "step": 187840
    },
    {
      "epoch": 0.93925,
      "grad_norm": 0.640625,
      "learning_rate": 0.00018316582914572866,
      "loss": 2.0635,
      "step": 187850
    },
    {
      "epoch": 0.9393,
      "grad_norm": 0.7734375,
      "learning_rate": 0.00018301507537688442,
      "loss": 2.0646,
      "step": 187860
    },
    {
      "epoch": 0.93935,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0001828643216080402,
      "loss": 2.0789,
      "step": 187870
    },
    {
      "epoch": 0.9394,
      "grad_norm": 0.625,
      "learning_rate": 0.00018271356783919598,
      "loss": 2.0904,
      "step": 187880
    },
    {
      "epoch": 0.93945,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00018256281407035176,
      "loss": 2.0708,
      "step": 187890
    },
    {
      "epoch": 0.9395,
      "grad_norm": 0.65625,
      "learning_rate": 0.00018241206030150754,
      "loss": 2.1152,
      "step": 187900
    },
    {
      "epoch": 0.93955,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00018226130653266332,
      "loss": 2.0559,
      "step": 187910
    },
    {
      "epoch": 0.9396,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001821105527638191,
      "loss": 2.0715,
      "step": 187920
    },
    {
      "epoch": 0.93965,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00018195979899497487,
      "loss": 2.0543,
      "step": 187930
    },
    {
      "epoch": 0.9397,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00018180904522613065,
      "loss": 2.0869,
      "step": 187940
    },
    {
      "epoch": 0.93975,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00018165829145728643,
      "loss": 2.073,
      "step": 187950
    },
    {
      "epoch": 0.9398,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00018150753768844221,
      "loss": 2.0742,
      "step": 187960
    },
    {
      "epoch": 0.93985,
      "grad_norm": 0.55859375,
      "learning_rate": 0.000181356783919598,
      "loss": 2.0955,
      "step": 187970
    },
    {
      "epoch": 0.9399,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00018120603015075377,
      "loss": 2.1334,
      "step": 187980
    },
    {
      "epoch": 0.93995,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00018105527638190955,
      "loss": 2.0767,
      "step": 187990
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.65625,
      "learning_rate": 0.00018090452261306533,
      "loss": 2.0844,
      "step": 188000
    },
    {
      "epoch": 0.94,
      "eval_loss": 2.0760934352874756,
      "eval_runtime": 46.9677,
      "eval_samples_per_second": 53.228,
      "eval_steps_per_second": 0.106,
      "step": 188000
    },
    {
      "epoch": 0.94005,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001807537688442211,
      "loss": 2.0533,
      "step": 188010
    },
    {
      "epoch": 0.9401,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0001806030150753769,
      "loss": 2.0851,
      "step": 188020
    },
    {
      "epoch": 0.94015,
      "grad_norm": 0.765625,
      "learning_rate": 0.00018045226130653267,
      "loss": 2.0721,
      "step": 188030
    },
    {
      "epoch": 0.9402,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00018030150753768845,
      "loss": 2.0979,
      "step": 188040
    },
    {
      "epoch": 0.94025,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0001801507537688442,
      "loss": 2.075,
      "step": 188050
    },
    {
      "epoch": 0.9403,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00017999999999999998,
      "loss": 2.105,
      "step": 188060
    },
    {
      "epoch": 0.94035,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00017984924623115576,
      "loss": 2.062,
      "step": 188070
    },
    {
      "epoch": 0.9404,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00017969849246231154,
      "loss": 2.1089,
      "step": 188080
    },
    {
      "epoch": 0.94045,
      "grad_norm": 0.5625,
      "learning_rate": 0.00017954773869346732,
      "loss": 2.0414,
      "step": 188090
    },
    {
      "epoch": 0.9405,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0001793969849246231,
      "loss": 2.0339,
      "step": 188100
    },
    {
      "epoch": 0.94055,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00017924623115577888,
      "loss": 2.0508,
      "step": 188110
    },
    {
      "epoch": 0.9406,
      "grad_norm": 0.578125,
      "learning_rate": 0.00017909547738693466,
      "loss": 2.1595,
      "step": 188120
    },
    {
      "epoch": 0.94065,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00017894472361809044,
      "loss": 2.0372,
      "step": 188130
    },
    {
      "epoch": 0.9407,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00017879396984924622,
      "loss": 2.0978,
      "step": 188140
    },
    {
      "epoch": 0.94075,
      "grad_norm": 0.60546875,
      "learning_rate": 0.000178643216080402,
      "loss": 2.0838,
      "step": 188150
    },
    {
      "epoch": 0.9408,
      "grad_norm": 0.625,
      "learning_rate": 0.00017849246231155778,
      "loss": 2.0838,
      "step": 188160
    },
    {
      "epoch": 0.94085,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00017834170854271356,
      "loss": 2.0702,
      "step": 188170
    },
    {
      "epoch": 0.9409,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00017819095477386934,
      "loss": 2.1845,
      "step": 188180
    },
    {
      "epoch": 0.94095,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00017804020100502512,
      "loss": 2.0341,
      "step": 188190
    },
    {
      "epoch": 0.941,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0001778894472361809,
      "loss": 2.1108,
      "step": 188200
    },
    {
      "epoch": 0.94105,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00017773869346733668,
      "loss": 2.0623,
      "step": 188210
    },
    {
      "epoch": 0.9411,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00017758793969849246,
      "loss": 2.101,
      "step": 188220
    },
    {
      "epoch": 0.94115,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00017743718592964824,
      "loss": 2.0877,
      "step": 188230
    },
    {
      "epoch": 0.9412,
      "grad_norm": 0.65625,
      "learning_rate": 0.00017728643216080402,
      "loss": 2.127,
      "step": 188240
    },
    {
      "epoch": 0.94125,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001771356783919598,
      "loss": 2.0565,
      "step": 188250
    },
    {
      "epoch": 0.9413,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00017698492462311558,
      "loss": 2.0893,
      "step": 188260
    },
    {
      "epoch": 0.94135,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00017683417085427136,
      "loss": 2.0343,
      "step": 188270
    },
    {
      "epoch": 0.9414,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00017668341708542714,
      "loss": 2.1362,
      "step": 188280
    },
    {
      "epoch": 0.94145,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00017653266331658292,
      "loss": 2.0511,
      "step": 188290
    },
    {
      "epoch": 0.9415,
      "grad_norm": 0.57421875,
      "learning_rate": 0.0001763819095477387,
      "loss": 2.0948,
      "step": 188300
    },
    {
      "epoch": 0.94155,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00017623115577889448,
      "loss": 2.0895,
      "step": 188310
    },
    {
      "epoch": 0.9416,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00017608040201005026,
      "loss": 2.076,
      "step": 188320
    },
    {
      "epoch": 0.94165,
      "grad_norm": 0.625,
      "learning_rate": 0.00017592964824120604,
      "loss": 2.0924,
      "step": 188330
    },
    {
      "epoch": 0.9417,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00017577889447236182,
      "loss": 2.0813,
      "step": 188340
    },
    {
      "epoch": 0.94175,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0001756281407035176,
      "loss": 2.0662,
      "step": 188350
    },
    {
      "epoch": 0.9418,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00017547738693467338,
      "loss": 2.0819,
      "step": 188360
    },
    {
      "epoch": 0.94185,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00017532663316582916,
      "loss": 2.0497,
      "step": 188370
    },
    {
      "epoch": 0.9419,
      "grad_norm": 0.65625,
      "learning_rate": 0.00017517587939698494,
      "loss": 2.1002,
      "step": 188380
    },
    {
      "epoch": 0.94195,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00017502512562814072,
      "loss": 2.0582,
      "step": 188390
    },
    {
      "epoch": 0.942,
      "grad_norm": 0.65625,
      "learning_rate": 0.0001748743718592965,
      "loss": 2.0731,
      "step": 188400
    },
    {
      "epoch": 0.94205,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00017472361809045227,
      "loss": 2.0979,
      "step": 188410
    },
    {
      "epoch": 0.9421,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00017457286432160805,
      "loss": 2.0139,
      "step": 188420
    },
    {
      "epoch": 0.94215,
      "grad_norm": 0.65625,
      "learning_rate": 0.00017442211055276383,
      "loss": 2.0837,
      "step": 188430
    },
    {
      "epoch": 0.9422,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00017427135678391961,
      "loss": 2.0739,
      "step": 188440
    },
    {
      "epoch": 0.94225,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0001741206030150754,
      "loss": 2.0808,
      "step": 188450
    },
    {
      "epoch": 0.9423,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00017396984924623117,
      "loss": 2.0608,
      "step": 188460
    },
    {
      "epoch": 0.94235,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00017381909547738693,
      "loss": 2.1209,
      "step": 188470
    },
    {
      "epoch": 0.9424,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0001736683417085427,
      "loss": 2.0895,
      "step": 188480
    },
    {
      "epoch": 0.94245,
      "grad_norm": 0.640625,
      "learning_rate": 0.00017351758793969849,
      "loss": 2.0928,
      "step": 188490
    },
    {
      "epoch": 0.9425,
      "grad_norm": 0.71875,
      "learning_rate": 0.00017336683417085427,
      "loss": 2.0691,
      "step": 188500
    },
    {
      "epoch": 0.94255,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00017321608040201004,
      "loss": 2.1356,
      "step": 188510
    },
    {
      "epoch": 0.9426,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00017306532663316582,
      "loss": 2.097,
      "step": 188520
    },
    {
      "epoch": 0.94265,
      "grad_norm": 0.74609375,
      "learning_rate": 0.0001729145728643216,
      "loss": 2.0912,
      "step": 188530
    },
    {
      "epoch": 0.9427,
      "grad_norm": 0.578125,
      "learning_rate": 0.00017276381909547738,
      "loss": 2.0451,
      "step": 188540
    },
    {
      "epoch": 0.94275,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00017261306532663316,
      "loss": 2.0928,
      "step": 188550
    },
    {
      "epoch": 0.9428,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00017246231155778894,
      "loss": 2.0784,
      "step": 188560
    },
    {
      "epoch": 0.94285,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00017231155778894472,
      "loss": 2.1075,
      "step": 188570
    },
    {
      "epoch": 0.9429,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0001721608040201005,
      "loss": 2.0357,
      "step": 188580
    },
    {
      "epoch": 0.94295,
      "grad_norm": 0.578125,
      "learning_rate": 0.00017201005025125628,
      "loss": 2.1498,
      "step": 188590
    },
    {
      "epoch": 0.943,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00017185929648241206,
      "loss": 2.0547,
      "step": 188600
    },
    {
      "epoch": 0.94305,
      "grad_norm": 0.625,
      "learning_rate": 0.00017170854271356784,
      "loss": 2.0693,
      "step": 188610
    },
    {
      "epoch": 0.9431,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00017155778894472362,
      "loss": 2.0391,
      "step": 188620
    },
    {
      "epoch": 0.94315,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0001714070351758794,
      "loss": 2.1173,
      "step": 188630
    },
    {
      "epoch": 0.9432,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00017125628140703518,
      "loss": 2.058,
      "step": 188640
    },
    {
      "epoch": 0.94325,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00017110552763819096,
      "loss": 2.1448,
      "step": 188650
    },
    {
      "epoch": 0.9433,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00017095477386934674,
      "loss": 2.0136,
      "step": 188660
    },
    {
      "epoch": 0.94335,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00017080402010050252,
      "loss": 2.1121,
      "step": 188670
    },
    {
      "epoch": 0.9434,
      "grad_norm": 0.72265625,
      "learning_rate": 0.0001706532663316583,
      "loss": 2.057,
      "step": 188680
    },
    {
      "epoch": 0.94345,
      "grad_norm": 0.625,
      "learning_rate": 0.00017050251256281408,
      "loss": 2.1165,
      "step": 188690
    },
    {
      "epoch": 0.9435,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00017035175879396986,
      "loss": 2.0749,
      "step": 188700
    },
    {
      "epoch": 0.94355,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00017020100502512564,
      "loss": 2.108,
      "step": 188710
    },
    {
      "epoch": 0.9436,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00017005025125628142,
      "loss": 2.0445,
      "step": 188720
    },
    {
      "epoch": 0.94365,
      "grad_norm": 0.578125,
      "learning_rate": 0.0001698994974874372,
      "loss": 2.0813,
      "step": 188730
    },
    {
      "epoch": 0.9437,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00016974874371859298,
      "loss": 2.0011,
      "step": 188740
    },
    {
      "epoch": 0.94375,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00016959798994974876,
      "loss": 2.1213,
      "step": 188750
    },
    {
      "epoch": 0.9438,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00016944723618090454,
      "loss": 2.0229,
      "step": 188760
    },
    {
      "epoch": 0.94385,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00016929648241206032,
      "loss": 2.1604,
      "step": 188770
    },
    {
      "epoch": 0.9439,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0001691457286432161,
      "loss": 2.0936,
      "step": 188780
    },
    {
      "epoch": 0.94395,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00016899497487437188,
      "loss": 2.0465,
      "step": 188790
    },
    {
      "epoch": 0.944,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00016884422110552766,
      "loss": 2.0728,
      "step": 188800
    },
    {
      "epoch": 0.94405,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00016869346733668344,
      "loss": 2.0527,
      "step": 188810
    },
    {
      "epoch": 0.9441,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00016854271356783922,
      "loss": 2.0712,
      "step": 188820
    },
    {
      "epoch": 0.94415,
      "grad_norm": 0.5703125,
      "learning_rate": 0.000168391959798995,
      "loss": 2.1487,
      "step": 188830
    },
    {
      "epoch": 0.9442,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00016824120603015078,
      "loss": 2.08,
      "step": 188840
    },
    {
      "epoch": 0.94425,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00016809045226130656,
      "loss": 2.1344,
      "step": 188850
    },
    {
      "epoch": 0.9443,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00016793969849246234,
      "loss": 2.0719,
      "step": 188860
    },
    {
      "epoch": 0.94435,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00016778894472361811,
      "loss": 2.0582,
      "step": 188870
    },
    {
      "epoch": 0.9444,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00016763819095477387,
      "loss": 2.0911,
      "step": 188880
    },
    {
      "epoch": 0.94445,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00016748743718592965,
      "loss": 2.0407,
      "step": 188890
    },
    {
      "epoch": 0.9445,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00016733668341708543,
      "loss": 2.1092,
      "step": 188900
    },
    {
      "epoch": 0.94455,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0001671859296482412,
      "loss": 2.0364,
      "step": 188910
    },
    {
      "epoch": 0.9446,
      "grad_norm": 0.625,
      "learning_rate": 0.00016703517587939699,
      "loss": 2.0687,
      "step": 188920
    },
    {
      "epoch": 0.94465,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00016688442211055277,
      "loss": 2.0457,
      "step": 188930
    },
    {
      "epoch": 0.9447,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00016673366834170855,
      "loss": 2.1133,
      "step": 188940
    },
    {
      "epoch": 0.94475,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00016658291457286433,
      "loss": 2.0474,
      "step": 188950
    },
    {
      "epoch": 0.9448,
      "grad_norm": 0.59375,
      "learning_rate": 0.0001664321608040201,
      "loss": 2.1377,
      "step": 188960
    },
    {
      "epoch": 0.94485,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00016628140703517588,
      "loss": 2.0304,
      "step": 188970
    },
    {
      "epoch": 0.9449,
      "grad_norm": 0.6875,
      "learning_rate": 0.00016613065326633166,
      "loss": 2.0925,
      "step": 188980
    },
    {
      "epoch": 0.94495,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00016597989949748744,
      "loss": 2.0453,
      "step": 188990
    },
    {
      "epoch": 0.945,
      "grad_norm": 0.640625,
      "learning_rate": 0.00016582914572864322,
      "loss": 2.0898,
      "step": 189000
    },
    {
      "epoch": 0.94505,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00016567839195979898,
      "loss": 2.0415,
      "step": 189010
    },
    {
      "epoch": 0.9451,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00016552763819095476,
      "loss": 2.1008,
      "step": 189020
    },
    {
      "epoch": 0.94515,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00016537688442211054,
      "loss": 2.0725,
      "step": 189030
    },
    {
      "epoch": 0.9452,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00016522613065326632,
      "loss": 2.0822,
      "step": 189040
    },
    {
      "epoch": 0.94525,
      "grad_norm": 0.66015625,
      "learning_rate": 0.0001650753768844221,
      "loss": 2.018,
      "step": 189050
    },
    {
      "epoch": 0.9453,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00016492462311557788,
      "loss": 2.1091,
      "step": 189060
    },
    {
      "epoch": 0.94535,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00016477386934673366,
      "loss": 2.0275,
      "step": 189070
    },
    {
      "epoch": 0.9454,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00016462311557788943,
      "loss": 2.1187,
      "step": 189080
    },
    {
      "epoch": 0.94545,
      "grad_norm": 0.65625,
      "learning_rate": 0.00016447236180904521,
      "loss": 2.0654,
      "step": 189090
    },
    {
      "epoch": 0.9455,
      "grad_norm": 0.59375,
      "learning_rate": 0.000164321608040201,
      "loss": 2.0743,
      "step": 189100
    },
    {
      "epoch": 0.94555,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00016417085427135677,
      "loss": 2.0484,
      "step": 189110
    },
    {
      "epoch": 0.9456,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00016402010050251255,
      "loss": 2.1343,
      "step": 189120
    },
    {
      "epoch": 0.94565,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00016386934673366833,
      "loss": 2.0461,
      "step": 189130
    },
    {
      "epoch": 0.9457,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0001637185929648241,
      "loss": 2.0325,
      "step": 189140
    },
    {
      "epoch": 0.94575,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0001635678391959799,
      "loss": 2.0768,
      "step": 189150
    },
    {
      "epoch": 0.9458,
      "grad_norm": 0.609375,
      "learning_rate": 0.00016341708542713567,
      "loss": 2.0483,
      "step": 189160
    },
    {
      "epoch": 0.94585,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00016326633165829145,
      "loss": 2.0834,
      "step": 189170
    },
    {
      "epoch": 0.9459,
      "grad_norm": 0.609375,
      "learning_rate": 0.00016311557788944723,
      "loss": 2.085,
      "step": 189180
    },
    {
      "epoch": 0.94595,
      "grad_norm": 0.58203125,
      "learning_rate": 0.000162964824120603,
      "loss": 2.0742,
      "step": 189190
    },
    {
      "epoch": 0.946,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0001628140703517588,
      "loss": 2.0685,
      "step": 189200
    },
    {
      "epoch": 0.94605,
      "grad_norm": 0.546875,
      "learning_rate": 0.00016266331658291457,
      "loss": 2.059,
      "step": 189210
    },
    {
      "epoch": 0.9461,
      "grad_norm": 0.625,
      "learning_rate": 0.00016251256281407035,
      "loss": 2.1144,
      "step": 189220
    },
    {
      "epoch": 0.94615,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00016236180904522613,
      "loss": 2.1174,
      "step": 189230
    },
    {
      "epoch": 0.9462,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001622110552763819,
      "loss": 2.0684,
      "step": 189240
    },
    {
      "epoch": 0.94625,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0001620603015075377,
      "loss": 2.1202,
      "step": 189250
    },
    {
      "epoch": 0.9463,
      "grad_norm": 0.59375,
      "learning_rate": 0.00016190954773869347,
      "loss": 2.0852,
      "step": 189260
    },
    {
      "epoch": 0.94635,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00016175879396984925,
      "loss": 2.1614,
      "step": 189270
    },
    {
      "epoch": 0.9464,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00016160804020100503,
      "loss": 2.0169,
      "step": 189280
    },
    {
      "epoch": 0.94645,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0001614572864321608,
      "loss": 2.1303,
      "step": 189290
    },
    {
      "epoch": 0.9465,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0001613065326633166,
      "loss": 2.0714,
      "step": 189300
    },
    {
      "epoch": 0.94655,
      "grad_norm": 0.59375,
      "learning_rate": 0.00016115577889447237,
      "loss": 2.0873,
      "step": 189310
    },
    {
      "epoch": 0.9466,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00016100502512562815,
      "loss": 2.0663,
      "step": 189320
    },
    {
      "epoch": 0.94665,
      "grad_norm": 0.609375,
      "learning_rate": 0.00016085427135678393,
      "loss": 2.1446,
      "step": 189330
    },
    {
      "epoch": 0.9467,
      "grad_norm": 0.5546875,
      "learning_rate": 0.0001607035175879397,
      "loss": 2.0225,
      "step": 189340
    },
    {
      "epoch": 0.94675,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001605527638190955,
      "loss": 2.1286,
      "step": 189350
    },
    {
      "epoch": 0.9468,
      "grad_norm": 0.71875,
      "learning_rate": 0.00016040201005025127,
      "loss": 2.0606,
      "step": 189360
    },
    {
      "epoch": 0.94685,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00016025125628140705,
      "loss": 2.0535,
      "step": 189370
    },
    {
      "epoch": 0.9469,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00016010050251256283,
      "loss": 2.0628,
      "step": 189380
    },
    {
      "epoch": 0.94695,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00015994974874371858,
      "loss": 2.0932,
      "step": 189390
    },
    {
      "epoch": 0.947,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00015979899497487436,
      "loss": 2.0556,
      "step": 189400
    },
    {
      "epoch": 0.94705,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00015964824120603014,
      "loss": 2.0541,
      "step": 189410
    },
    {
      "epoch": 0.9471,
      "grad_norm": 0.640625,
      "learning_rate": 0.00015949748743718592,
      "loss": 2.0541,
      "step": 189420
    },
    {
      "epoch": 0.94715,
      "grad_norm": 0.671875,
      "learning_rate": 0.0001593467336683417,
      "loss": 2.0832,
      "step": 189430
    },
    {
      "epoch": 0.9472,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00015919597989949748,
      "loss": 2.0882,
      "step": 189440
    },
    {
      "epoch": 0.94725,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00015904522613065326,
      "loss": 2.0716,
      "step": 189450
    },
    {
      "epoch": 0.9473,
      "grad_norm": 0.65625,
      "learning_rate": 0.00015889447236180904,
      "loss": 2.0963,
      "step": 189460
    },
    {
      "epoch": 0.94735,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00015874371859296482,
      "loss": 2.0872,
      "step": 189470
    },
    {
      "epoch": 0.9474,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0001585929648241206,
      "loss": 2.1304,
      "step": 189480
    },
    {
      "epoch": 0.94745,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00015844221105527638,
      "loss": 2.0546,
      "step": 189490
    },
    {
      "epoch": 0.9475,
      "grad_norm": 0.59375,
      "learning_rate": 0.00015829145728643216,
      "loss": 2.0459,
      "step": 189500
    },
    {
      "epoch": 0.94755,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00015814070351758794,
      "loss": 2.0831,
      "step": 189510
    },
    {
      "epoch": 0.9476,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00015798994974874372,
      "loss": 2.051,
      "step": 189520
    },
    {
      "epoch": 0.94765,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0001578391959798995,
      "loss": 2.0499,
      "step": 189530
    },
    {
      "epoch": 0.9477,
      "grad_norm": 0.609375,
      "learning_rate": 0.00015768844221105528,
      "loss": 2.0697,
      "step": 189540
    },
    {
      "epoch": 0.94775,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00015753768844221105,
      "loss": 2.0891,
      "step": 189550
    },
    {
      "epoch": 0.9478,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00015738693467336683,
      "loss": 2.0534,
      "step": 189560
    },
    {
      "epoch": 0.94785,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00015723618090452261,
      "loss": 2.025,
      "step": 189570
    },
    {
      "epoch": 0.9479,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0001570854271356784,
      "loss": 2.106,
      "step": 189580
    },
    {
      "epoch": 0.94795,
      "grad_norm": 0.65625,
      "learning_rate": 0.00015693467336683417,
      "loss": 2.0581,
      "step": 189590
    },
    {
      "epoch": 0.948,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00015678391959798995,
      "loss": 2.0616,
      "step": 189600
    },
    {
      "epoch": 0.94805,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00015663316582914573,
      "loss": 2.0347,
      "step": 189610
    },
    {
      "epoch": 0.9481,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001564824120603015,
      "loss": 2.1,
      "step": 189620
    },
    {
      "epoch": 0.94815,
      "grad_norm": 0.578125,
      "learning_rate": 0.0001563316582914573,
      "loss": 1.9956,
      "step": 189630
    },
    {
      "epoch": 0.9482,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00015618090452261307,
      "loss": 2.1,
      "step": 189640
    },
    {
      "epoch": 0.94825,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00015603015075376885,
      "loss": 2.0761,
      "step": 189650
    },
    {
      "epoch": 0.9483,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00015587939698492463,
      "loss": 2.0873,
      "step": 189660
    },
    {
      "epoch": 0.94835,
      "grad_norm": 0.70703125,
      "learning_rate": 0.0001557286432160804,
      "loss": 2.0641,
      "step": 189670
    },
    {
      "epoch": 0.9484,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0001555778894472362,
      "loss": 2.0861,
      "step": 189680
    },
    {
      "epoch": 0.94845,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00015542713567839197,
      "loss": 2.0452,
      "step": 189690
    },
    {
      "epoch": 0.9485,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00015527638190954775,
      "loss": 2.0532,
      "step": 189700
    },
    {
      "epoch": 0.94855,
      "grad_norm": 0.625,
      "learning_rate": 0.00015512562814070353,
      "loss": 2.0191,
      "step": 189710
    },
    {
      "epoch": 0.9486,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0001549748743718593,
      "loss": 2.0682,
      "step": 189720
    },
    {
      "epoch": 0.94865,
      "grad_norm": 0.578125,
      "learning_rate": 0.0001548241206030151,
      "loss": 2.0632,
      "step": 189730
    },
    {
      "epoch": 0.9487,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00015467336683417087,
      "loss": 2.0818,
      "step": 189740
    },
    {
      "epoch": 0.94875,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00015452261306532665,
      "loss": 2.1203,
      "step": 189750
    },
    {
      "epoch": 0.9488,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00015437185929648243,
      "loss": 2.0392,
      "step": 189760
    },
    {
      "epoch": 0.94885,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0001542211055276382,
      "loss": 2.065,
      "step": 189770
    },
    {
      "epoch": 0.9489,
      "grad_norm": 0.64453125,
      "learning_rate": 0.000154070351758794,
      "loss": 2.0564,
      "step": 189780
    },
    {
      "epoch": 0.94895,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00015391959798994977,
      "loss": 2.0972,
      "step": 189790
    },
    {
      "epoch": 0.949,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00015376884422110555,
      "loss": 2.0499,
      "step": 189800
    },
    {
      "epoch": 0.94905,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001536180904522613,
      "loss": 2.0896,
      "step": 189810
    },
    {
      "epoch": 0.9491,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00015346733668341708,
      "loss": 2.028,
      "step": 189820
    },
    {
      "epoch": 0.94915,
      "grad_norm": 0.671875,
      "learning_rate": 0.00015331658291457286,
      "loss": 2.1363,
      "step": 189830
    },
    {
      "epoch": 0.9492,
      "grad_norm": 0.59375,
      "learning_rate": 0.00015316582914572864,
      "loss": 2.0409,
      "step": 189840
    },
    {
      "epoch": 0.94925,
      "grad_norm": 0.59375,
      "learning_rate": 0.00015301507537688442,
      "loss": 2.1004,
      "step": 189850
    },
    {
      "epoch": 0.9493,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001528643216080402,
      "loss": 1.9923,
      "step": 189860
    },
    {
      "epoch": 0.94935,
      "grad_norm": 0.609375,
      "learning_rate": 0.00015271356783919598,
      "loss": 2.1317,
      "step": 189870
    },
    {
      "epoch": 0.9494,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00015256281407035176,
      "loss": 2.0115,
      "step": 189880
    },
    {
      "epoch": 0.94945,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00015241206030150754,
      "loss": 2.1037,
      "step": 189890
    },
    {
      "epoch": 0.9495,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00015226130653266332,
      "loss": 2.0749,
      "step": 189900
    },
    {
      "epoch": 0.94955,
      "grad_norm": 0.625,
      "learning_rate": 0.0001521105527638191,
      "loss": 2.1172,
      "step": 189910
    },
    {
      "epoch": 0.9496,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00015195979899497488,
      "loss": 2.057,
      "step": 189920
    },
    {
      "epoch": 0.94965,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00015180904522613066,
      "loss": 2.1363,
      "step": 189930
    },
    {
      "epoch": 0.9497,
      "grad_norm": 0.6875,
      "learning_rate": 0.00015165829145728644,
      "loss": 2.0698,
      "step": 189940
    },
    {
      "epoch": 0.94975,
      "grad_norm": 0.59375,
      "learning_rate": 0.00015150753768844222,
      "loss": 2.1333,
      "step": 189950
    },
    {
      "epoch": 0.9498,
      "grad_norm": 0.62109375,
      "learning_rate": 0.000151356783919598,
      "loss": 2.0521,
      "step": 189960
    },
    {
      "epoch": 0.94985,
      "grad_norm": 0.5625,
      "learning_rate": 0.00015120603015075378,
      "loss": 2.095,
      "step": 189970
    },
    {
      "epoch": 0.9499,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00015105527638190956,
      "loss": 2.0858,
      "step": 189980
    },
    {
      "epoch": 0.94995,
      "grad_norm": 0.546875,
      "learning_rate": 0.00015090452261306534,
      "loss": 2.127,
      "step": 189990
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00015075376884422112,
      "loss": 2.0651,
      "step": 190000
    },
    {
      "epoch": 0.95,
      "eval_loss": 2.081099510192871,
      "eval_runtime": 44.7714,
      "eval_samples_per_second": 55.839,
      "eval_steps_per_second": 0.112,
      "step": 190000
    },
    {
      "epoch": 0.95005,
      "grad_norm": 0.62109375,
      "learning_rate": 0.0001506030150753769,
      "loss": 2.0004,
      "step": 190010
    },
    {
      "epoch": 0.9501,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00015045226130653267,
      "loss": 2.0991,
      "step": 190020
    },
    {
      "epoch": 0.95015,
      "grad_norm": 0.609375,
      "learning_rate": 0.00015030150753768845,
      "loss": 2.0178,
      "step": 190030
    },
    {
      "epoch": 0.9502,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00015015075376884423,
      "loss": 2.0923,
      "step": 190040
    },
    {
      "epoch": 0.95025,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00015000000000000001,
      "loss": 2.0582,
      "step": 190050
    },
    {
      "epoch": 0.9503,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0001498492462311558,
      "loss": 2.0614,
      "step": 190060
    },
    {
      "epoch": 0.95035,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00014969849246231157,
      "loss": 2.0464,
      "step": 190070
    },
    {
      "epoch": 0.9504,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00014954773869346735,
      "loss": 2.1018,
      "step": 190080
    },
    {
      "epoch": 0.95045,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00014939698492462313,
      "loss": 2.0234,
      "step": 190090
    },
    {
      "epoch": 0.9505,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0001492462311557789,
      "loss": 2.0972,
      "step": 190100
    },
    {
      "epoch": 0.95055,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001490954773869347,
      "loss": 2.0022,
      "step": 190110
    },
    {
      "epoch": 0.9506,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00014894472361809047,
      "loss": 2.1019,
      "step": 190120
    },
    {
      "epoch": 0.95065,
      "grad_norm": 0.65625,
      "learning_rate": 0.00014879396984924625,
      "loss": 2.0464,
      "step": 190130
    },
    {
      "epoch": 0.9507,
      "grad_norm": 0.609375,
      "learning_rate": 0.00014864321608040203,
      "loss": 2.1099,
      "step": 190140
    },
    {
      "epoch": 0.95075,
      "grad_norm": 0.6875,
      "learning_rate": 0.0001484924623115578,
      "loss": 2.0738,
      "step": 190150
    },
    {
      "epoch": 0.9508,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0001483417085427136,
      "loss": 2.0761,
      "step": 190160
    },
    {
      "epoch": 0.95085,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00014819095477386934,
      "loss": 2.0303,
      "step": 190170
    },
    {
      "epoch": 0.9509,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00014804020100502512,
      "loss": 2.1301,
      "step": 190180
    },
    {
      "epoch": 0.95095,
      "grad_norm": 0.59375,
      "learning_rate": 0.0001478894472361809,
      "loss": 2.0556,
      "step": 190190
    },
    {
      "epoch": 0.951,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00014773869346733668,
      "loss": 2.0584,
      "step": 190200
    },
    {
      "epoch": 0.95105,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00014758793969849246,
      "loss": 2.0747,
      "step": 190210
    },
    {
      "epoch": 0.9511,
      "grad_norm": 0.671875,
      "learning_rate": 0.00014743718592964824,
      "loss": 2.1238,
      "step": 190220
    },
    {
      "epoch": 0.95115,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00014728643216080402,
      "loss": 2.0867,
      "step": 190230
    },
    {
      "epoch": 0.9512,
      "grad_norm": 0.59375,
      "learning_rate": 0.0001471356783919598,
      "loss": 2.0827,
      "step": 190240
    },
    {
      "epoch": 0.95125,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00014698492462311558,
      "loss": 2.1055,
      "step": 190250
    },
    {
      "epoch": 0.9513,
      "grad_norm": 0.546875,
      "learning_rate": 0.00014683417085427136,
      "loss": 2.0712,
      "step": 190260
    },
    {
      "epoch": 0.95135,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00014668341708542714,
      "loss": 2.1213,
      "step": 190270
    },
    {
      "epoch": 0.9514,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00014653266331658292,
      "loss": 2.076,
      "step": 190280
    },
    {
      "epoch": 0.95145,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0001463819095477387,
      "loss": 2.143,
      "step": 190290
    },
    {
      "epoch": 0.9515,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00014623115577889448,
      "loss": 2.0917,
      "step": 190300
    },
    {
      "epoch": 0.95155,
      "grad_norm": 0.671875,
      "learning_rate": 0.00014608040201005026,
      "loss": 2.1258,
      "step": 190310
    },
    {
      "epoch": 0.9516,
      "grad_norm": 0.56640625,
      "learning_rate": 0.000145929648241206,
      "loss": 2.0654,
      "step": 190320
    },
    {
      "epoch": 0.95165,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0001457788944723618,
      "loss": 2.0934,
      "step": 190330
    },
    {
      "epoch": 0.9517,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00014562814070351757,
      "loss": 2.0745,
      "step": 190340
    },
    {
      "epoch": 0.95175,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00014547738693467335,
      "loss": 2.0991,
      "step": 190350
    },
    {
      "epoch": 0.9518,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00014532663316582913,
      "loss": 2.0382,
      "step": 190360
    },
    {
      "epoch": 0.95185,
      "grad_norm": 0.59375,
      "learning_rate": 0.0001451758793969849,
      "loss": 2.063,
      "step": 190370
    },
    {
      "epoch": 0.9519,
      "grad_norm": 0.6953125,
      "learning_rate": 0.0001450251256281407,
      "loss": 2.0719,
      "step": 190380
    },
    {
      "epoch": 0.95195,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00014487437185929647,
      "loss": 2.1048,
      "step": 190390
    },
    {
      "epoch": 0.952,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00014472361809045225,
      "loss": 2.0517,
      "step": 190400
    },
    {
      "epoch": 0.95205,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00014457286432160803,
      "loss": 2.1138,
      "step": 190410
    },
    {
      "epoch": 0.9521,
      "grad_norm": 0.6875,
      "learning_rate": 0.0001444221105527638,
      "loss": 2.0651,
      "step": 190420
    },
    {
      "epoch": 0.95215,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001442713567839196,
      "loss": 2.083,
      "step": 190430
    },
    {
      "epoch": 0.9522,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00014412060301507537,
      "loss": 2.1099,
      "step": 190440
    },
    {
      "epoch": 0.95225,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00014396984924623115,
      "loss": 2.0636,
      "step": 190450
    },
    {
      "epoch": 0.9523,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00014381909547738693,
      "loss": 2.0889,
      "step": 190460
    },
    {
      "epoch": 0.95235,
      "grad_norm": 0.609375,
      "learning_rate": 0.0001436683417085427,
      "loss": 2.0924,
      "step": 190470
    },
    {
      "epoch": 0.9524,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001435175879396985,
      "loss": 2.093,
      "step": 190480
    },
    {
      "epoch": 0.95245,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00014336683417085427,
      "loss": 2.0709,
      "step": 190490
    },
    {
      "epoch": 0.9525,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00014321608040201005,
      "loss": 2.1028,
      "step": 190500
    },
    {
      "epoch": 0.95255,
      "grad_norm": 0.625,
      "learning_rate": 0.00014306532663316583,
      "loss": 2.0553,
      "step": 190510
    },
    {
      "epoch": 0.9526,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0001429145728643216,
      "loss": 2.1083,
      "step": 190520
    },
    {
      "epoch": 0.95265,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0001427638190954774,
      "loss": 2.0884,
      "step": 190530
    },
    {
      "epoch": 0.9527,
      "grad_norm": 0.609375,
      "learning_rate": 0.00014261306532663317,
      "loss": 2.0443,
      "step": 190540
    },
    {
      "epoch": 0.95275,
      "grad_norm": 0.59375,
      "learning_rate": 0.00014246231155778895,
      "loss": 2.0079,
      "step": 190550
    },
    {
      "epoch": 0.9528,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00014231155778894473,
      "loss": 2.058,
      "step": 190560
    },
    {
      "epoch": 0.95285,
      "grad_norm": 0.63671875,
      "learning_rate": 0.0001421608040201005,
      "loss": 2.0716,
      "step": 190570
    },
    {
      "epoch": 0.9529,
      "grad_norm": 0.65625,
      "learning_rate": 0.00014201005025125629,
      "loss": 2.1293,
      "step": 190580
    },
    {
      "epoch": 0.95295,
      "grad_norm": 0.71875,
      "learning_rate": 0.00014185929648241206,
      "loss": 2.0567,
      "step": 190590
    },
    {
      "epoch": 0.953,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00014170854271356784,
      "loss": 2.078,
      "step": 190600
    },
    {
      "epoch": 0.95305,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00014155778894472362,
      "loss": 2.0656,
      "step": 190610
    },
    {
      "epoch": 0.9531,
      "grad_norm": 0.7421875,
      "learning_rate": 0.0001414070351758794,
      "loss": 2.0535,
      "step": 190620
    },
    {
      "epoch": 0.95315,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00014125628140703518,
      "loss": 2.0867,
      "step": 190630
    },
    {
      "epoch": 0.9532,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00014110552763819096,
      "loss": 2.0631,
      "step": 190640
    },
    {
      "epoch": 0.95325,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00014095477386934674,
      "loss": 2.1371,
      "step": 190650
    },
    {
      "epoch": 0.9533,
      "grad_norm": 0.671875,
      "learning_rate": 0.00014080402010050252,
      "loss": 2.0915,
      "step": 190660
    },
    {
      "epoch": 0.95335,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0001406532663316583,
      "loss": 2.1192,
      "step": 190670
    },
    {
      "epoch": 0.9534,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00014050251256281408,
      "loss": 2.0475,
      "step": 190680
    },
    {
      "epoch": 0.95345,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00014035175879396986,
      "loss": 2.13,
      "step": 190690
    },
    {
      "epoch": 0.9535,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00014020100502512564,
      "loss": 2.1189,
      "step": 190700
    },
    {
      "epoch": 0.95355,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00014005025125628142,
      "loss": 2.1515,
      "step": 190710
    },
    {
      "epoch": 0.9536,
      "grad_norm": 0.625,
      "learning_rate": 0.0001398994974874372,
      "loss": 2.0547,
      "step": 190720
    },
    {
      "epoch": 0.95365,
      "grad_norm": 0.703125,
      "learning_rate": 0.00013974874371859295,
      "loss": 2.0924,
      "step": 190730
    },
    {
      "epoch": 0.9537,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00013959798994974873,
      "loss": 1.9793,
      "step": 190740
    },
    {
      "epoch": 0.95375,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001394472361809045,
      "loss": 2.0733,
      "step": 190750
    },
    {
      "epoch": 0.9538,
      "grad_norm": 0.6796875,
      "learning_rate": 0.0001392964824120603,
      "loss": 2.0214,
      "step": 190760
    },
    {
      "epoch": 0.95385,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00013914572864321607,
      "loss": 2.1152,
      "step": 190770
    },
    {
      "epoch": 0.9539,
      "grad_norm": 0.59375,
      "learning_rate": 0.00013899497487437185,
      "loss": 2.062,
      "step": 190780
    },
    {
      "epoch": 0.95395,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00013884422110552763,
      "loss": 2.125,
      "step": 190790
    },
    {
      "epoch": 0.954,
      "grad_norm": 0.65625,
      "learning_rate": 0.0001386934673366834,
      "loss": 2.045,
      "step": 190800
    },
    {
      "epoch": 0.95405,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0001385427135678392,
      "loss": 2.1051,
      "step": 190810
    },
    {
      "epoch": 0.9541,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00013839195979899497,
      "loss": 2.0775,
      "step": 190820
    },
    {
      "epoch": 0.95415,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00013824120603015075,
      "loss": 2.1264,
      "step": 190830
    },
    {
      "epoch": 0.9542,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00013809045226130653,
      "loss": 2.1213,
      "step": 190840
    },
    {
      "epoch": 0.95425,
      "grad_norm": 0.52734375,
      "learning_rate": 0.0001379396984924623,
      "loss": 2.0717,
      "step": 190850
    },
    {
      "epoch": 0.9543,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0001377889447236181,
      "loss": 2.1014,
      "step": 190860
    },
    {
      "epoch": 0.95435,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00013763819095477387,
      "loss": 2.0651,
      "step": 190870
    },
    {
      "epoch": 0.9544,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00013748743718592965,
      "loss": 2.0977,
      "step": 190880
    },
    {
      "epoch": 0.95445,
      "grad_norm": 0.640625,
      "learning_rate": 0.00013733668341708543,
      "loss": 1.9893,
      "step": 190890
    },
    {
      "epoch": 0.9545,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0001371859296482412,
      "loss": 2.06,
      "step": 190900
    },
    {
      "epoch": 0.95455,
      "grad_norm": 0.609375,
      "learning_rate": 0.000137035175879397,
      "loss": 2.022,
      "step": 190910
    },
    {
      "epoch": 0.9546,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00013688442211055277,
      "loss": 2.1225,
      "step": 190920
    },
    {
      "epoch": 0.95465,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00013673366834170855,
      "loss": 2.0389,
      "step": 190930
    },
    {
      "epoch": 0.9547,
      "grad_norm": 0.52734375,
      "learning_rate": 0.00013658291457286433,
      "loss": 2.1078,
      "step": 190940
    },
    {
      "epoch": 0.95475,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001364321608040201,
      "loss": 2.0705,
      "step": 190950
    },
    {
      "epoch": 0.9548,
      "grad_norm": 0.69921875,
      "learning_rate": 0.0001362814070351759,
      "loss": 2.102,
      "step": 190960
    },
    {
      "epoch": 0.95485,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00013613065326633167,
      "loss": 2.0775,
      "step": 190970
    },
    {
      "epoch": 0.9549,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00013597989949748745,
      "loss": 2.0981,
      "step": 190980
    },
    {
      "epoch": 0.95495,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00013582914572864323,
      "loss": 2.0947,
      "step": 190990
    },
    {
      "epoch": 0.955,
      "grad_norm": 0.671875,
      "learning_rate": 0.000135678391959799,
      "loss": 2.1062,
      "step": 191000
    },
    {
      "epoch": 0.95505,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00013552763819095479,
      "loss": 2.0585,
      "step": 191010
    },
    {
      "epoch": 0.9551,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00013537688442211057,
      "loss": 2.0776,
      "step": 191020
    },
    {
      "epoch": 0.95515,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00013522613065326635,
      "loss": 2.1143,
      "step": 191030
    },
    {
      "epoch": 0.9552,
      "grad_norm": 0.65625,
      "learning_rate": 0.00013507537688442213,
      "loss": 2.0123,
      "step": 191040
    },
    {
      "epoch": 0.95525,
      "grad_norm": 0.609375,
      "learning_rate": 0.0001349246231155779,
      "loss": 2.1056,
      "step": 191050
    },
    {
      "epoch": 0.9553,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00013477386934673368,
      "loss": 2.0757,
      "step": 191060
    },
    {
      "epoch": 0.95535,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00013462311557788946,
      "loss": 2.0873,
      "step": 191070
    },
    {
      "epoch": 0.9554,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00013447236180904524,
      "loss": 2.0337,
      "step": 191080
    },
    {
      "epoch": 0.95545,
      "grad_norm": 0.68359375,
      "learning_rate": 0.00013432160804020102,
      "loss": 2.1479,
      "step": 191090
    },
    {
      "epoch": 0.9555,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0001341708542713568,
      "loss": 2.058,
      "step": 191100
    },
    {
      "epoch": 0.95555,
      "grad_norm": 0.640625,
      "learning_rate": 0.00013402010050251258,
      "loss": 2.1267,
      "step": 191110
    },
    {
      "epoch": 0.9556,
      "grad_norm": 0.640625,
      "learning_rate": 0.00013386934673366836,
      "loss": 2.0395,
      "step": 191120
    },
    {
      "epoch": 0.95565,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00013371859296482414,
      "loss": 2.0922,
      "step": 191130
    },
    {
      "epoch": 0.9557,
      "grad_norm": 0.59375,
      "learning_rate": 0.00013356783919597992,
      "loss": 2.0301,
      "step": 191140
    },
    {
      "epoch": 0.95575,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00013341708542713568,
      "loss": 2.0545,
      "step": 191150
    },
    {
      "epoch": 0.9558,
      "grad_norm": 0.625,
      "learning_rate": 0.00013326633165829146,
      "loss": 2.0887,
      "step": 191160
    },
    {
      "epoch": 0.95585,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00013311557788944723,
      "loss": 2.1136,
      "step": 191170
    },
    {
      "epoch": 0.9559,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00013296482412060301,
      "loss": 2.0965,
      "step": 191180
    },
    {
      "epoch": 0.95595,
      "grad_norm": 0.609375,
      "learning_rate": 0.0001328140703517588,
      "loss": 2.053,
      "step": 191190
    },
    {
      "epoch": 0.956,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00013266331658291457,
      "loss": 2.1121,
      "step": 191200
    },
    {
      "epoch": 0.95605,
      "grad_norm": 0.71875,
      "learning_rate": 0.00013251256281407035,
      "loss": 2.0792,
      "step": 191210
    },
    {
      "epoch": 0.9561,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00013236180904522613,
      "loss": 2.0705,
      "step": 191220
    },
    {
      "epoch": 0.95615,
      "grad_norm": 0.68359375,
      "learning_rate": 0.0001322110552763819,
      "loss": 2.0744,
      "step": 191230
    },
    {
      "epoch": 0.9562,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0001320603015075377,
      "loss": 2.1264,
      "step": 191240
    },
    {
      "epoch": 0.95625,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00013190954773869347,
      "loss": 2.0598,
      "step": 191250
    },
    {
      "epoch": 0.9563,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00013175879396984925,
      "loss": 2.1105,
      "step": 191260
    },
    {
      "epoch": 0.95635,
      "grad_norm": 0.765625,
      "learning_rate": 0.00013160804020100503,
      "loss": 2.054,
      "step": 191270
    },
    {
      "epoch": 0.9564,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001314572864321608,
      "loss": 2.114,
      "step": 191280
    },
    {
      "epoch": 0.95645,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0001313065326633166,
      "loss": 2.0503,
      "step": 191290
    },
    {
      "epoch": 0.9565,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00013115577889447237,
      "loss": 2.0925,
      "step": 191300
    },
    {
      "epoch": 0.95655,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00013100502512562815,
      "loss": 2.0664,
      "step": 191310
    },
    {
      "epoch": 0.9566,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00013085427135678393,
      "loss": 2.0889,
      "step": 191320
    },
    {
      "epoch": 0.95665,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00013070351758793968,
      "loss": 2.0734,
      "step": 191330
    },
    {
      "epoch": 0.9567,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00013055276381909546,
      "loss": 2.0587,
      "step": 191340
    },
    {
      "epoch": 0.95675,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00013040201005025124,
      "loss": 2.0608,
      "step": 191350
    },
    {
      "epoch": 0.9568,
      "grad_norm": 0.625,
      "learning_rate": 0.00013025125628140702,
      "loss": 2.0411,
      "step": 191360
    },
    {
      "epoch": 0.95685,
      "grad_norm": 0.67578125,
      "learning_rate": 0.0001301005025125628,
      "loss": 2.0911,
      "step": 191370
    },
    {
      "epoch": 0.9569,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00012994974874371858,
      "loss": 2.0644,
      "step": 191380
    },
    {
      "epoch": 0.95695,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00012979899497487436,
      "loss": 2.1134,
      "step": 191390
    },
    {
      "epoch": 0.957,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00012964824120603014,
      "loss": 2.0544,
      "step": 191400
    },
    {
      "epoch": 0.95705,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00012949748743718592,
      "loss": 2.0629,
      "step": 191410
    },
    {
      "epoch": 0.9571,
      "grad_norm": 0.55078125,
      "learning_rate": 0.0001293467336683417,
      "loss": 2.0771,
      "step": 191420
    },
    {
      "epoch": 0.95715,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00012919597989949748,
      "loss": 2.1078,
      "step": 191430
    },
    {
      "epoch": 0.9572,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00012904522613065326,
      "loss": 2.045,
      "step": 191440
    },
    {
      "epoch": 0.95725,
      "grad_norm": 0.59375,
      "learning_rate": 0.00012889447236180904,
      "loss": 2.0552,
      "step": 191450
    },
    {
      "epoch": 0.9573,
      "grad_norm": 0.6875,
      "learning_rate": 0.00012874371859296482,
      "loss": 2.1011,
      "step": 191460
    },
    {
      "epoch": 0.95735,
      "grad_norm": 0.625,
      "learning_rate": 0.0001285929648241206,
      "loss": 2.0611,
      "step": 191470
    },
    {
      "epoch": 0.9574,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00012844221105527638,
      "loss": 2.1465,
      "step": 191480
    },
    {
      "epoch": 0.95745,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00012829145728643216,
      "loss": 2.083,
      "step": 191490
    },
    {
      "epoch": 0.9575,
      "grad_norm": 0.609375,
      "learning_rate": 0.00012814070351758794,
      "loss": 2.1161,
      "step": 191500
    },
    {
      "epoch": 0.95755,
      "grad_norm": 0.65625,
      "learning_rate": 0.00012798994974874372,
      "loss": 2.0367,
      "step": 191510
    },
    {
      "epoch": 0.9576,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0001278391959798995,
      "loss": 2.1105,
      "step": 191520
    },
    {
      "epoch": 0.95765,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00012768844221105528,
      "loss": 1.9999,
      "step": 191530
    },
    {
      "epoch": 0.9577,
      "grad_norm": 0.578125,
      "learning_rate": 0.00012753768844221106,
      "loss": 2.0595,
      "step": 191540
    },
    {
      "epoch": 0.95775,
      "grad_norm": 0.6953125,
      "learning_rate": 0.00012738693467336684,
      "loss": 2.0385,
      "step": 191550
    },
    {
      "epoch": 0.9578,
      "grad_norm": 0.6875,
      "learning_rate": 0.00012723618090452262,
      "loss": 2.1116,
      "step": 191560
    },
    {
      "epoch": 0.95785,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0001270854271356784,
      "loss": 2.0575,
      "step": 191570
    },
    {
      "epoch": 0.9579,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00012693467336683418,
      "loss": 2.1329,
      "step": 191580
    },
    {
      "epoch": 0.95795,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00012678391959798996,
      "loss": 2.0978,
      "step": 191590
    },
    {
      "epoch": 0.958,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00012663316582914574,
      "loss": 2.1066,
      "step": 191600
    },
    {
      "epoch": 0.95805,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00012648241206030152,
      "loss": 2.1142,
      "step": 191610
    },
    {
      "epoch": 0.9581,
      "grad_norm": 0.62890625,
      "learning_rate": 0.0001263316582914573,
      "loss": 2.0786,
      "step": 191620
    },
    {
      "epoch": 0.95815,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00012618090452261307,
      "loss": 2.0807,
      "step": 191630
    },
    {
      "epoch": 0.9582,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00012603015075376885,
      "loss": 2.0895,
      "step": 191640
    },
    {
      "epoch": 0.95825,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00012587939698492463,
      "loss": 2.0832,
      "step": 191650
    },
    {
      "epoch": 0.9583,
      "grad_norm": 0.7109375,
      "learning_rate": 0.0001257286432160804,
      "loss": 2.0742,
      "step": 191660
    },
    {
      "epoch": 0.95835,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00012557788944723617,
      "loss": 2.075,
      "step": 191670
    },
    {
      "epoch": 0.9584,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00012542713567839195,
      "loss": 2.07,
      "step": 191680
    },
    {
      "epoch": 0.95845,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00012527638190954773,
      "loss": 2.058,
      "step": 191690
    },
    {
      "epoch": 0.9585,
      "grad_norm": 0.609375,
      "learning_rate": 0.0001251256281407035,
      "loss": 2.0996,
      "step": 191700
    },
    {
      "epoch": 0.95855,
      "grad_norm": 0.640625,
      "learning_rate": 0.00012497487437185929,
      "loss": 2.0705,
      "step": 191710
    },
    {
      "epoch": 0.9586,
      "grad_norm": 0.69921875,
      "learning_rate": 0.00012482412060301507,
      "loss": 2.0608,
      "step": 191720
    },
    {
      "epoch": 0.95865,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00012467336683417085,
      "loss": 2.0663,
      "step": 191730
    },
    {
      "epoch": 0.9587,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00012452261306532662,
      "loss": 2.0932,
      "step": 191740
    },
    {
      "epoch": 0.95875,
      "grad_norm": 0.59765625,
      "learning_rate": 0.0001243718592964824,
      "loss": 2.0588,
      "step": 191750
    },
    {
      "epoch": 0.9588,
      "grad_norm": 0.5625,
      "learning_rate": 0.00012422110552763818,
      "loss": 2.1187,
      "step": 191760
    },
    {
      "epoch": 0.95885,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00012407035175879396,
      "loss": 2.0173,
      "step": 191770
    },
    {
      "epoch": 0.9589,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00012391959798994974,
      "loss": 2.0806,
      "step": 191780
    },
    {
      "epoch": 0.95895,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00012376884422110552,
      "loss": 2.0796,
      "step": 191790
    },
    {
      "epoch": 0.959,
      "grad_norm": 0.6484375,
      "learning_rate": 0.0001236180904522613,
      "loss": 2.1168,
      "step": 191800
    },
    {
      "epoch": 0.95905,
      "grad_norm": 0.703125,
      "learning_rate": 0.00012346733668341708,
      "loss": 2.0345,
      "step": 191810
    },
    {
      "epoch": 0.9591,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00012331658291457286,
      "loss": 2.1222,
      "step": 191820
    },
    {
      "epoch": 0.95915,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00012316582914572864,
      "loss": 2.0809,
      "step": 191830
    },
    {
      "epoch": 0.9592,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00012301507537688442,
      "loss": 2.0722,
      "step": 191840
    },
    {
      "epoch": 0.95925,
      "grad_norm": 0.578125,
      "learning_rate": 0.0001228643216080402,
      "loss": 2.0978,
      "step": 191850
    },
    {
      "epoch": 0.9593,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00012271356783919598,
      "loss": 2.0301,
      "step": 191860
    },
    {
      "epoch": 0.95935,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00012256281407035176,
      "loss": 2.0826,
      "step": 191870
    },
    {
      "epoch": 0.9594,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00012241206030150754,
      "loss": 2.0361,
      "step": 191880
    },
    {
      "epoch": 0.95945,
      "grad_norm": 0.54296875,
      "learning_rate": 0.00012226130653266332,
      "loss": 2.0595,
      "step": 191890
    },
    {
      "epoch": 0.9595,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0001221105527638191,
      "loss": 2.053,
      "step": 191900
    },
    {
      "epoch": 0.95955,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00012195979899497488,
      "loss": 2.149,
      "step": 191910
    },
    {
      "epoch": 0.9596,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00012180904522613066,
      "loss": 2.0694,
      "step": 191920
    },
    {
      "epoch": 0.95965,
      "grad_norm": 0.72265625,
      "learning_rate": 0.00012165829145728644,
      "loss": 2.1193,
      "step": 191930
    },
    {
      "epoch": 0.9597,
      "grad_norm": 0.56640625,
      "learning_rate": 0.00012150753768844222,
      "loss": 2.0476,
      "step": 191940
    },
    {
      "epoch": 0.95975,
      "grad_norm": 0.5625,
      "learning_rate": 0.000121356783919598,
      "loss": 2.107,
      "step": 191950
    },
    {
      "epoch": 0.9598,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00012120603015075378,
      "loss": 2.043,
      "step": 191960
    },
    {
      "epoch": 0.95985,
      "grad_norm": 0.609375,
      "learning_rate": 0.00012105527638190954,
      "loss": 2.1366,
      "step": 191970
    },
    {
      "epoch": 0.9599,
      "grad_norm": 0.734375,
      "learning_rate": 0.00012090452261306532,
      "loss": 2.0905,
      "step": 191980
    },
    {
      "epoch": 0.95995,
      "grad_norm": 0.55859375,
      "learning_rate": 0.0001207537688442211,
      "loss": 2.0672,
      "step": 191990
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00012060301507537688,
      "loss": 2.1047,
      "step": 192000
    },
    {
      "epoch": 0.96,
      "eval_loss": 2.0778567790985107,
      "eval_runtime": 45.2903,
      "eval_samples_per_second": 55.2,
      "eval_steps_per_second": 0.11,
      "step": 192000
    },
    {
      "epoch": 0.96005,
      "grad_norm": 0.76171875,
      "learning_rate": 0.00012045226130653266,
      "loss": 2.0404,
      "step": 192010
    },
    {
      "epoch": 0.9601,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00012030150753768844,
      "loss": 2.1006,
      "step": 192020
    },
    {
      "epoch": 0.96015,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00012015075376884422,
      "loss": 2.0222,
      "step": 192030
    },
    {
      "epoch": 0.9602,
      "grad_norm": 0.671875,
      "learning_rate": 0.00012,
      "loss": 2.1103,
      "step": 192040
    },
    {
      "epoch": 0.96025,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00011984924623115578,
      "loss": 2.0192,
      "step": 192050
    },
    {
      "epoch": 0.9603,
      "grad_norm": 0.609375,
      "learning_rate": 0.00011969849246231156,
      "loss": 2.0935,
      "step": 192060
    },
    {
      "epoch": 0.96035,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00011954773869346734,
      "loss": 2.0174,
      "step": 192070
    },
    {
      "epoch": 0.9604,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00011939698492462312,
      "loss": 2.0971,
      "step": 192080
    },
    {
      "epoch": 0.96045,
      "grad_norm": 0.6640625,
      "learning_rate": 0.0001192462311557789,
      "loss": 2.0244,
      "step": 192090
    },
    {
      "epoch": 0.9605,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00011909547738693468,
      "loss": 2.0763,
      "step": 192100
    },
    {
      "epoch": 0.96055,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00011894472361809046,
      "loss": 2.0698,
      "step": 192110
    },
    {
      "epoch": 0.9606,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00011879396984924624,
      "loss": 2.0831,
      "step": 192120
    },
    {
      "epoch": 0.96065,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00011864321608040202,
      "loss": 2.0726,
      "step": 192130
    },
    {
      "epoch": 0.9607,
      "grad_norm": 0.625,
      "learning_rate": 0.0001184924623115578,
      "loss": 2.0523,
      "step": 192140
    },
    {
      "epoch": 0.96075,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00011834170854271358,
      "loss": 2.1123,
      "step": 192150
    },
    {
      "epoch": 0.9608,
      "grad_norm": 0.640625,
      "learning_rate": 0.00011819095477386936,
      "loss": 2.0639,
      "step": 192160
    },
    {
      "epoch": 0.96085,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00011804020100502514,
      "loss": 2.0743,
      "step": 192170
    },
    {
      "epoch": 0.9609,
      "grad_norm": 0.6328125,
      "learning_rate": 0.0001178894472361809,
      "loss": 2.0775,
      "step": 192180
    },
    {
      "epoch": 0.96095,
      "grad_norm": 0.546875,
      "learning_rate": 0.00011773869346733669,
      "loss": 2.1002,
      "step": 192190
    },
    {
      "epoch": 0.961,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00011758793969849247,
      "loss": 2.0077,
      "step": 192200
    },
    {
      "epoch": 0.96105,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00011743718592964824,
      "loss": 2.053,
      "step": 192210
    },
    {
      "epoch": 0.9611,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00011728643216080402,
      "loss": 2.0919,
      "step": 192220
    },
    {
      "epoch": 0.96115,
      "grad_norm": 0.56640625,
      "learning_rate": 0.0001171356783919598,
      "loss": 2.025,
      "step": 192230
    },
    {
      "epoch": 0.9612,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00011698492462311558,
      "loss": 2.1223,
      "step": 192240
    },
    {
      "epoch": 0.96125,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00011683417085427136,
      "loss": 2.0455,
      "step": 192250
    },
    {
      "epoch": 0.9613,
      "grad_norm": 0.69140625,
      "learning_rate": 0.00011668341708542714,
      "loss": 2.0944,
      "step": 192260
    },
    {
      "epoch": 0.96135,
      "grad_norm": 0.7265625,
      "learning_rate": 0.00011653266331658292,
      "loss": 2.0621,
      "step": 192270
    },
    {
      "epoch": 0.9614,
      "grad_norm": 0.61328125,
      "learning_rate": 0.0001163819095477387,
      "loss": 2.0937,
      "step": 192280
    },
    {
      "epoch": 0.96145,
      "grad_norm": 0.578125,
      "learning_rate": 0.00011623115577889448,
      "loss": 2.0469,
      "step": 192290
    },
    {
      "epoch": 0.9615,
      "grad_norm": 0.65234375,
      "learning_rate": 0.00011608040201005026,
      "loss": 2.0901,
      "step": 192300
    },
    {
      "epoch": 0.96155,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00011592964824120604,
      "loss": 2.0236,
      "step": 192310
    },
    {
      "epoch": 0.9616,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00011577889447236182,
      "loss": 2.0918,
      "step": 192320
    },
    {
      "epoch": 0.96165,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0001156281407035176,
      "loss": 2.0807,
      "step": 192330
    },
    {
      "epoch": 0.9617,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00011547738693467338,
      "loss": 2.0503,
      "step": 192340
    },
    {
      "epoch": 0.96175,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00011532663316582916,
      "loss": 2.1287,
      "step": 192350
    },
    {
      "epoch": 0.9618,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00011517587939698494,
      "loss": 2.1066,
      "step": 192360
    },
    {
      "epoch": 0.96185,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00011502512562814072,
      "loss": 2.1153,
      "step": 192370
    },
    {
      "epoch": 0.9619,
      "grad_norm": 0.609375,
      "learning_rate": 0.0001148743718592965,
      "loss": 2.0449,
      "step": 192380
    },
    {
      "epoch": 0.96195,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00011472361809045227,
      "loss": 2.0976,
      "step": 192390
    },
    {
      "epoch": 0.962,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00011457286432160805,
      "loss": 2.0822,
      "step": 192400
    },
    {
      "epoch": 0.96205,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00011442211055276383,
      "loss": 2.0671,
      "step": 192410
    },
    {
      "epoch": 0.9621,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0001142713567839196,
      "loss": 2.0809,
      "step": 192420
    },
    {
      "epoch": 0.96215,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00011412060301507539,
      "loss": 2.0569,
      "step": 192430
    },
    {
      "epoch": 0.9622,
      "grad_norm": 0.671875,
      "learning_rate": 0.00011396984924623116,
      "loss": 2.085,
      "step": 192440
    },
    {
      "epoch": 0.96225,
      "grad_norm": 0.59375,
      "learning_rate": 0.00011381909547738694,
      "loss": 2.0742,
      "step": 192450
    },
    {
      "epoch": 0.9623,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00011366834170854272,
      "loss": 2.0884,
      "step": 192460
    },
    {
      "epoch": 0.96235,
      "grad_norm": 0.625,
      "learning_rate": 0.0001135175879396985,
      "loss": 2.0131,
      "step": 192470
    },
    {
      "epoch": 0.9624,
      "grad_norm": 0.640625,
      "learning_rate": 0.00011336683417085426,
      "loss": 2.081,
      "step": 192480
    },
    {
      "epoch": 0.96245,
      "grad_norm": 0.546875,
      "learning_rate": 0.00011321608040201004,
      "loss": 2.0745,
      "step": 192490
    },
    {
      "epoch": 0.9625,
      "grad_norm": 0.5546875,
      "learning_rate": 0.00011306532663316582,
      "loss": 2.079,
      "step": 192500
    },
    {
      "epoch": 0.96255,
      "grad_norm": 0.71875,
      "learning_rate": 0.0001129145728643216,
      "loss": 2.0357,
      "step": 192510
    },
    {
      "epoch": 0.9626,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00011276381909547738,
      "loss": 2.099,
      "step": 192520
    },
    {
      "epoch": 0.96265,
      "grad_norm": 0.70703125,
      "learning_rate": 0.00011261306532663316,
      "loss": 2.0364,
      "step": 192530
    },
    {
      "epoch": 0.9627,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00011246231155778894,
      "loss": 2.0981,
      "step": 192540
    },
    {
      "epoch": 0.96275,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00011231155778894471,
      "loss": 2.0898,
      "step": 192550
    },
    {
      "epoch": 0.9628,
      "grad_norm": 0.5703125,
      "learning_rate": 0.0001121608040201005,
      "loss": 2.0789,
      "step": 192560
    },
    {
      "epoch": 0.96285,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00011201005025125627,
      "loss": 2.1286,
      "step": 192570
    },
    {
      "epoch": 0.9629,
      "grad_norm": 0.609375,
      "learning_rate": 0.00011185929648241205,
      "loss": 2.0632,
      "step": 192580
    },
    {
      "epoch": 0.96295,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00011170854271356783,
      "loss": 2.0861,
      "step": 192590
    },
    {
      "epoch": 0.963,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00011155778894472361,
      "loss": 2.0272,
      "step": 192600
    },
    {
      "epoch": 0.96305,
      "grad_norm": 0.66015625,
      "learning_rate": 0.00011140703517587939,
      "loss": 2.1351,
      "step": 192610
    },
    {
      "epoch": 0.9631,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00011125628140703517,
      "loss": 2.1006,
      "step": 192620
    },
    {
      "epoch": 0.96315,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00011110552763819095,
      "loss": 2.0411,
      "step": 192630
    },
    {
      "epoch": 0.9632,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00011095477386934673,
      "loss": 2.0426,
      "step": 192640
    },
    {
      "epoch": 0.96325,
      "grad_norm": 0.578125,
      "learning_rate": 0.00011080402010050251,
      "loss": 2.0275,
      "step": 192650
    },
    {
      "epoch": 0.9633,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00011065326633165829,
      "loss": 2.0903,
      "step": 192660
    },
    {
      "epoch": 0.96335,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00011050251256281407,
      "loss": 2.0704,
      "step": 192670
    },
    {
      "epoch": 0.9634,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00011035175879396985,
      "loss": 2.0627,
      "step": 192680
    },
    {
      "epoch": 0.96345,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00011020100502512562,
      "loss": 2.0467,
      "step": 192690
    },
    {
      "epoch": 0.9635,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0001100502512562814,
      "loss": 2.134,
      "step": 192700
    },
    {
      "epoch": 0.96355,
      "grad_norm": 0.65625,
      "learning_rate": 0.00010989949748743718,
      "loss": 2.0142,
      "step": 192710
    },
    {
      "epoch": 0.9636,
      "grad_norm": 0.6015625,
      "learning_rate": 0.00010974874371859296,
      "loss": 2.1523,
      "step": 192720
    },
    {
      "epoch": 0.96365,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00010959798994974874,
      "loss": 2.0758,
      "step": 192730
    },
    {
      "epoch": 0.9637,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00010944723618090452,
      "loss": 2.0931,
      "step": 192740
    },
    {
      "epoch": 0.96375,
      "grad_norm": 0.5859375,
      "learning_rate": 0.0001092964824120603,
      "loss": 2.0748,
      "step": 192750
    },
    {
      "epoch": 0.9638,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00010914572864321608,
      "loss": 2.089,
      "step": 192760
    },
    {
      "epoch": 0.96385,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00010899497487437186,
      "loss": 2.09,
      "step": 192770
    },
    {
      "epoch": 0.9639,
      "grad_norm": 0.625,
      "learning_rate": 0.00010884422110552763,
      "loss": 2.0736,
      "step": 192780
    },
    {
      "epoch": 0.96395,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00010869346733668341,
      "loss": 2.0489,
      "step": 192790
    },
    {
      "epoch": 0.964,
      "grad_norm": 0.64453125,
      "learning_rate": 0.0001085427135678392,
      "loss": 2.056,
      "step": 192800
    },
    {
      "epoch": 0.96405,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00010839195979899497,
      "loss": 2.1303,
      "step": 192810
    },
    {
      "epoch": 0.9641,
      "grad_norm": 0.53515625,
      "learning_rate": 0.00010824120603015075,
      "loss": 2.0366,
      "step": 192820
    },
    {
      "epoch": 0.96415,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00010809045226130653,
      "loss": 2.1007,
      "step": 192830
    },
    {
      "epoch": 0.9642,
      "grad_norm": 0.64453125,
      "learning_rate": 0.00010793969849246231,
      "loss": 2.0316,
      "step": 192840
    },
    {
      "epoch": 0.96425,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00010778894472361809,
      "loss": 2.0614,
      "step": 192850
    },
    {
      "epoch": 0.9643,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00010763819095477387,
      "loss": 2.087,
      "step": 192860
    },
    {
      "epoch": 0.96435,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00010748743718592965,
      "loss": 2.0492,
      "step": 192870
    },
    {
      "epoch": 0.9644,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00010733668341708543,
      "loss": 2.103,
      "step": 192880
    },
    {
      "epoch": 0.96445,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00010718592964824121,
      "loss": 2.0502,
      "step": 192890
    },
    {
      "epoch": 0.9645,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00010703517587939698,
      "loss": 2.0828,
      "step": 192900
    },
    {
      "epoch": 0.96455,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00010688442211055276,
      "loss": 2.0552,
      "step": 192910
    },
    {
      "epoch": 0.9646,
      "grad_norm": 0.62890625,
      "learning_rate": 0.00010673366834170854,
      "loss": 2.0825,
      "step": 192920
    },
    {
      "epoch": 0.96465,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00010658291457286432,
      "loss": 2.0672,
      "step": 192930
    },
    {
      "epoch": 0.9647,
      "grad_norm": 0.609375,
      "learning_rate": 0.0001064321608040201,
      "loss": 2.0596,
      "step": 192940
    },
    {
      "epoch": 0.96475,
      "grad_norm": 0.640625,
      "learning_rate": 0.00010628140703517588,
      "loss": 2.0168,
      "step": 192950
    },
    {
      "epoch": 0.9648,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00010613065326633166,
      "loss": 2.0733,
      "step": 192960
    },
    {
      "epoch": 0.96485,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00010597989949748744,
      "loss": 2.1119,
      "step": 192970
    },
    {
      "epoch": 0.9649,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00010582914572864322,
      "loss": 2.0478,
      "step": 192980
    },
    {
      "epoch": 0.96495,
      "grad_norm": 0.61328125,
      "learning_rate": 0.000105678391959799,
      "loss": 2.0958,
      "step": 192990
    },
    {
      "epoch": 0.965,
      "grad_norm": 0.578125,
      "learning_rate": 0.00010552763819095478,
      "loss": 2.044,
      "step": 193000
    },
    {
      "epoch": 0.96505,
      "grad_norm": 0.58984375,
      "learning_rate": 0.00010537688442211056,
      "loss": 2.0735,
      "step": 193010
    },
    {
      "epoch": 0.9651,
      "grad_norm": 0.6640625,
      "learning_rate": 0.00010522613065326633,
      "loss": 2.013,
      "step": 193020
    },
    {
      "epoch": 0.96515,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00010507537688442211,
      "loss": 2.0933,
      "step": 193030
    },
    {
      "epoch": 0.9652,
      "grad_norm": 0.6015625,
      "learning_rate": 0.0001049246231155779,
      "loss": 2.0616,
      "step": 193040
    },
    {
      "epoch": 0.96525,
      "grad_norm": 0.5390625,
      "learning_rate": 0.00010477386934673367,
      "loss": 2.0499,
      "step": 193050
    },
    {
      "epoch": 0.9653,
      "grad_norm": 0.65625,
      "learning_rate": 0.00010462311557788945,
      "loss": 2.1086,
      "step": 193060
    },
    {
      "epoch": 0.96535,
      "grad_norm": 0.609375,
      "learning_rate": 0.00010447236180904523,
      "loss": 2.0909,
      "step": 193070
    },
    {
      "epoch": 0.9654,
      "grad_norm": 0.6796875,
      "learning_rate": 0.00010432160804020101,
      "loss": 2.0897,
      "step": 193080
    },
    {
      "epoch": 0.96545,
      "grad_norm": 0.60546875,
      "learning_rate": 0.00010417085427135679,
      "loss": 2.0741,
      "step": 193090
    },
    {
      "epoch": 0.9655,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00010402010050251256,
      "loss": 2.128,
      "step": 193100
    },
    {
      "epoch": 0.96555,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00010386934673366834,
      "loss": 2.0221,
      "step": 193110
    },
    {
      "epoch": 0.9656,
      "grad_norm": 0.625,
      "learning_rate": 0.00010371859296482412,
      "loss": 2.1525,
      "step": 193120
    },
    {
      "epoch": 0.96565,
      "grad_norm": 0.69140625,
      "learning_rate": 0.0001035678391959799,
      "loss": 2.0668,
      "step": 193130
    },
    {
      "epoch": 0.9657,
      "grad_norm": 0.65625,
      "learning_rate": 0.00010341708542713568,
      "loss": 2.133,
      "step": 193140
    },
    {
      "epoch": 0.96575,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00010326633165829146,
      "loss": 2.0543,
      "step": 193150
    },
    {
      "epoch": 0.9658,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00010311557788944724,
      "loss": 2.0828,
      "step": 193160
    },
    {
      "epoch": 0.96585,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00010296482412060302,
      "loss": 2.1479,
      "step": 193170
    },
    {
      "epoch": 0.9659,
      "grad_norm": 0.5625,
      "learning_rate": 0.0001028140703517588,
      "loss": 2.0801,
      "step": 193180
    },
    {
      "epoch": 0.96595,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00010266331658291458,
      "loss": 2.1114,
      "step": 193190
    },
    {
      "epoch": 0.966,
      "grad_norm": 0.66796875,
      "learning_rate": 0.00010251256281407036,
      "loss": 2.0793,
      "step": 193200
    },
    {
      "epoch": 0.96605,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00010236180904522614,
      "loss": 2.1357,
      "step": 193210
    },
    {
      "epoch": 0.9661,
      "grad_norm": 0.63671875,
      "learning_rate": 0.00010221105527638192,
      "loss": 2.0579,
      "step": 193220
    },
    {
      "epoch": 0.96615,
      "grad_norm": 0.65234375,
      "learning_rate": 0.0001020603015075377,
      "loss": 2.1389,
      "step": 193230
    },
    {
      "epoch": 0.9662,
      "grad_norm": 0.55859375,
      "learning_rate": 0.00010190954773869348,
      "loss": 2.082,
      "step": 193240
    },
    {
      "epoch": 0.96625,
      "grad_norm": 0.57421875,
      "learning_rate": 0.00010175879396984925,
      "loss": 2.0782,
      "step": 193250
    },
    {
      "epoch": 0.9663,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00010160804020100503,
      "loss": 2.0719,
      "step": 193260
    },
    {
      "epoch": 0.96635,
      "grad_norm": 0.59375,
      "learning_rate": 0.00010145728643216081,
      "loss": 2.1004,
      "step": 193270
    },
    {
      "epoch": 0.9664,
      "grad_norm": 0.58984375,
      "learning_rate": 0.0001013065326633166,
      "loss": 2.0673,
      "step": 193280
    },
    {
      "epoch": 0.96645,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00010115577889447237,
      "loss": 2.0743,
      "step": 193290
    },
    {
      "epoch": 0.9665,
      "grad_norm": 0.73828125,
      "learning_rate": 0.00010100502512562815,
      "loss": 2.0939,
      "step": 193300
    },
    {
      "epoch": 0.96655,
      "grad_norm": 0.5859375,
      "learning_rate": 0.00010085427135678392,
      "loss": 2.0247,
      "step": 193310
    },
    {
      "epoch": 0.9666,
      "grad_norm": 0.58203125,
      "learning_rate": 0.0001007035175879397,
      "loss": 2.1287,
      "step": 193320
    },
    {
      "epoch": 0.96665,
      "grad_norm": 0.6875,
      "learning_rate": 0.00010055276381909548,
      "loss": 2.0658,
      "step": 193330
    },
    {
      "epoch": 0.9667,
      "grad_norm": 0.58203125,
      "learning_rate": 0.00010040201005025126,
      "loss": 2.1019,
      "step": 193340
    },
    {
      "epoch": 0.96675,
      "grad_norm": 0.640625,
      "learning_rate": 0.00010025125628140704,
      "loss": 2.0826,
      "step": 193350
    },
    {
      "epoch": 0.9668,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00010010050251256282,
      "loss": 2.0846,
      "step": 193360
    },
    {
      "epoch": 0.96685,
      "grad_norm": 0.68359375,
      "learning_rate": 9.99497487437186e-05,
      "loss": 2.1111,
      "step": 193370
    },
    {
      "epoch": 0.9669,
      "grad_norm": 0.60546875,
      "learning_rate": 9.979899497487438e-05,
      "loss": 2.0623,
      "step": 193380
    },
    {
      "epoch": 0.96695,
      "grad_norm": 0.62890625,
      "learning_rate": 9.964824120603016e-05,
      "loss": 2.1013,
      "step": 193390
    },
    {
      "epoch": 0.967,
      "grad_norm": 0.58984375,
      "learning_rate": 9.949748743718594e-05,
      "loss": 2.069,
      "step": 193400
    },
    {
      "epoch": 0.96705,
      "grad_norm": 0.64453125,
      "learning_rate": 9.934673366834172e-05,
      "loss": 2.1121,
      "step": 193410
    },
    {
      "epoch": 0.9671,
      "grad_norm": 0.6328125,
      "learning_rate": 9.91959798994975e-05,
      "loss": 2.0587,
      "step": 193420
    },
    {
      "epoch": 0.96715,
      "grad_norm": 0.64453125,
      "learning_rate": 9.904522613065328e-05,
      "loss": 2.0443,
      "step": 193430
    },
    {
      "epoch": 0.9672,
      "grad_norm": 0.6171875,
      "learning_rate": 9.889447236180906e-05,
      "loss": 2.0459,
      "step": 193440
    },
    {
      "epoch": 0.96725,
      "grad_norm": 0.60546875,
      "learning_rate": 9.874371859296484e-05,
      "loss": 2.0208,
      "step": 193450
    },
    {
      "epoch": 0.9673,
      "grad_norm": 0.640625,
      "learning_rate": 9.859296482412062e-05,
      "loss": 2.1135,
      "step": 193460
    },
    {
      "epoch": 0.96735,
      "grad_norm": 0.59375,
      "learning_rate": 9.84422110552764e-05,
      "loss": 2.0626,
      "step": 193470
    },
    {
      "epoch": 0.9674,
      "grad_norm": 0.6484375,
      "learning_rate": 9.829145728643218e-05,
      "loss": 2.1517,
      "step": 193480
    },
    {
      "epoch": 0.96745,
      "grad_norm": 0.56640625,
      "learning_rate": 9.814070351758795e-05,
      "loss": 2.0249,
      "step": 193490
    },
    {
      "epoch": 0.9675,
      "grad_norm": 0.56640625,
      "learning_rate": 9.798994974874373e-05,
      "loss": 2.116,
      "step": 193500
    },
    {
      "epoch": 0.96755,
      "grad_norm": 0.64453125,
      "learning_rate": 9.783919597989951e-05,
      "loss": 2.0581,
      "step": 193510
    },
    {
      "epoch": 0.9676,
      "grad_norm": 0.6328125,
      "learning_rate": 9.768844221105528e-05,
      "loss": 2.1323,
      "step": 193520
    },
    {
      "epoch": 0.96765,
      "grad_norm": 0.67578125,
      "learning_rate": 9.753768844221106e-05,
      "loss": 2.0611,
      "step": 193530
    },
    {
      "epoch": 0.9677,
      "grad_norm": 0.64453125,
      "learning_rate": 9.738693467336684e-05,
      "loss": 2.0753,
      "step": 193540
    },
    {
      "epoch": 0.96775,
      "grad_norm": 0.640625,
      "learning_rate": 9.723618090452262e-05,
      "loss": 2.0894,
      "step": 193550
    },
    {
      "epoch": 0.9678,
      "grad_norm": 0.578125,
      "learning_rate": 9.70854271356784e-05,
      "loss": 2.0414,
      "step": 193560
    },
    {
      "epoch": 0.96785,
      "grad_norm": 0.69921875,
      "learning_rate": 9.693467336683418e-05,
      "loss": 2.0803,
      "step": 193570
    },
    {
      "epoch": 0.9679,
      "grad_norm": 0.56640625,
      "learning_rate": 9.678391959798996e-05,
      "loss": 2.0275,
      "step": 193580
    },
    {
      "epoch": 0.96795,
      "grad_norm": 0.60546875,
      "learning_rate": 9.663316582914574e-05,
      "loss": 2.1239,
      "step": 193590
    },
    {
      "epoch": 0.968,
      "grad_norm": 0.5859375,
      "learning_rate": 9.648241206030152e-05,
      "loss": 2.0337,
      "step": 193600
    },
    {
      "epoch": 0.96805,
      "grad_norm": 0.62109375,
      "learning_rate": 9.63316582914573e-05,
      "loss": 2.0741,
      "step": 193610
    },
    {
      "epoch": 0.9681,
      "grad_norm": 0.66015625,
      "learning_rate": 9.618090452261308e-05,
      "loss": 2.0599,
      "step": 193620
    },
    {
      "epoch": 0.96815,
      "grad_norm": 0.62890625,
      "learning_rate": 9.603015075376886e-05,
      "loss": 2.0559,
      "step": 193630
    },
    {
      "epoch": 0.9682,
      "grad_norm": 0.640625,
      "learning_rate": 9.587939698492461e-05,
      "loss": 2.1606,
      "step": 193640
    },
    {
      "epoch": 0.96825,
      "grad_norm": 0.62109375,
      "learning_rate": 9.572864321608039e-05,
      "loss": 2.0655,
      "step": 193650
    },
    {
      "epoch": 0.9683,
      "grad_norm": 0.58203125,
      "learning_rate": 9.557788944723617e-05,
      "loss": 2.0956,
      "step": 193660
    },
    {
      "epoch": 0.96835,
      "grad_norm": 0.6328125,
      "learning_rate": 9.542713567839195e-05,
      "loss": 2.0487,
      "step": 193670
    },
    {
      "epoch": 0.9684,
      "grad_norm": 0.60546875,
      "learning_rate": 9.527638190954773e-05,
      "loss": 2.0721,
      "step": 193680
    },
    {
      "epoch": 0.96845,
      "grad_norm": 0.62109375,
      "learning_rate": 9.512562814070351e-05,
      "loss": 2.108,
      "step": 193690
    },
    {
      "epoch": 0.9685,
      "grad_norm": 0.6484375,
      "learning_rate": 9.497487437185929e-05,
      "loss": 2.09,
      "step": 193700
    },
    {
      "epoch": 0.96855,
      "grad_norm": 0.61328125,
      "learning_rate": 9.482412060301507e-05,
      "loss": 2.0447,
      "step": 193710
    },
    {
      "epoch": 0.9686,
      "grad_norm": 0.578125,
      "learning_rate": 9.467336683417085e-05,
      "loss": 2.0791,
      "step": 193720
    },
    {
      "epoch": 0.96865,
      "grad_norm": 0.5859375,
      "learning_rate": 9.452261306532663e-05,
      "loss": 2.1149,
      "step": 193730
    },
    {
      "epoch": 0.9687,
      "grad_norm": 0.59765625,
      "learning_rate": 9.437185929648241e-05,
      "loss": 2.0379,
      "step": 193740
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.53125,
      "learning_rate": 9.422110552763819e-05,
      "loss": 2.0959,
      "step": 193750
    },
    {
      "epoch": 0.9688,
      "grad_norm": 0.58984375,
      "learning_rate": 9.407035175879397e-05,
      "loss": 2.0678,
      "step": 193760
    },
    {
      "epoch": 0.96885,
      "grad_norm": 0.66796875,
      "learning_rate": 9.391959798994975e-05,
      "loss": 2.1388,
      "step": 193770
    },
    {
      "epoch": 0.9689,
      "grad_norm": 0.60546875,
      "learning_rate": 9.376884422110553e-05,
      "loss": 2.09,
      "step": 193780
    },
    {
      "epoch": 0.96895,
      "grad_norm": 0.60546875,
      "learning_rate": 9.36180904522613e-05,
      "loss": 2.1365,
      "step": 193790
    },
    {
      "epoch": 0.969,
      "grad_norm": 0.609375,
      "learning_rate": 9.346733668341709e-05,
      "loss": 2.0655,
      "step": 193800
    },
    {
      "epoch": 0.96905,
      "grad_norm": 0.57421875,
      "learning_rate": 9.331658291457287e-05,
      "loss": 2.0588,
      "step": 193810
    },
    {
      "epoch": 0.9691,
      "grad_norm": 0.6640625,
      "learning_rate": 9.316582914572864e-05,
      "loss": 2.1514,
      "step": 193820
    },
    {
      "epoch": 0.96915,
      "grad_norm": 0.67578125,
      "learning_rate": 9.301507537688442e-05,
      "loss": 2.0114,
      "step": 193830
    },
    {
      "epoch": 0.9692,
      "grad_norm": 0.56640625,
      "learning_rate": 9.28643216080402e-05,
      "loss": 2.0999,
      "step": 193840
    },
    {
      "epoch": 0.96925,
      "grad_norm": 0.6328125,
      "learning_rate": 9.271356783919598e-05,
      "loss": 2.0517,
      "step": 193850
    },
    {
      "epoch": 0.9693,
      "grad_norm": 0.6796875,
      "learning_rate": 9.256281407035176e-05,
      "loss": 2.1083,
      "step": 193860
    },
    {
      "epoch": 0.96935,
      "grad_norm": 0.58984375,
      "learning_rate": 9.241206030150754e-05,
      "loss": 2.0611,
      "step": 193870
    },
    {
      "epoch": 0.9694,
      "grad_norm": 0.625,
      "learning_rate": 9.226130653266332e-05,
      "loss": 2.0811,
      "step": 193880
    },
    {
      "epoch": 0.96945,
      "grad_norm": 0.58984375,
      "learning_rate": 9.21105527638191e-05,
      "loss": 2.0413,
      "step": 193890
    },
    {
      "epoch": 0.9695,
      "grad_norm": 0.625,
      "learning_rate": 9.195979899497488e-05,
      "loss": 2.0435,
      "step": 193900
    },
    {
      "epoch": 0.96955,
      "grad_norm": 0.625,
      "learning_rate": 9.180904522613066e-05,
      "loss": 2.1016,
      "step": 193910
    },
    {
      "epoch": 0.9696,
      "grad_norm": 0.58203125,
      "learning_rate": 9.165829145728644e-05,
      "loss": 2.1049,
      "step": 193920
    },
    {
      "epoch": 0.96965,
      "grad_norm": 0.609375,
      "learning_rate": 9.150753768844221e-05,
      "loss": 2.0746,
      "step": 193930
    },
    {
      "epoch": 0.9697,
      "grad_norm": 0.66796875,
      "learning_rate": 9.135678391959799e-05,
      "loss": 2.0927,
      "step": 193940
    },
    {
      "epoch": 0.96975,
      "grad_norm": 0.63671875,
      "learning_rate": 9.120603015075377e-05,
      "loss": 2.109,
      "step": 193950
    },
    {
      "epoch": 0.9698,
      "grad_norm": 0.66796875,
      "learning_rate": 9.105527638190955e-05,
      "loss": 2.0889,
      "step": 193960
    },
    {
      "epoch": 0.96985,
      "grad_norm": 0.60546875,
      "learning_rate": 9.090452261306533e-05,
      "loss": 2.0564,
      "step": 193970
    },
    {
      "epoch": 0.9699,
      "grad_norm": 0.7265625,
      "learning_rate": 9.075376884422111e-05,
      "loss": 2.0829,
      "step": 193980
    },
    {
      "epoch": 0.96995,
      "grad_norm": 0.6953125,
      "learning_rate": 9.060301507537689e-05,
      "loss": 2.0556,
      "step": 193990
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6328125,
      "learning_rate": 9.045226130653267e-05,
      "loss": 2.1009,
      "step": 194000
    },
    {
      "epoch": 0.97,
      "eval_loss": 2.07601261138916,
      "eval_runtime": 47.1258,
      "eval_samples_per_second": 53.049,
      "eval_steps_per_second": 0.106,
      "step": 194000
    },
    {
      "epoch": 0.97005,
      "grad_norm": 0.62890625,
      "learning_rate": 9.030150753768845e-05,
      "loss": 2.0384,
      "step": 194010
    },
    {
      "epoch": 0.9701,
      "grad_norm": 0.6796875,
      "learning_rate": 9.015075376884423e-05,
      "loss": 2.0706,
      "step": 194020
    },
    {
      "epoch": 0.97015,
      "grad_norm": 0.53125,
      "learning_rate": 8.999999999999999e-05,
      "loss": 2.0821,
      "step": 194030
    },
    {
      "epoch": 0.9702,
      "grad_norm": 0.578125,
      "learning_rate": 8.984924623115577e-05,
      "loss": 2.1075,
      "step": 194040
    },
    {
      "epoch": 0.97025,
      "grad_norm": 0.6328125,
      "learning_rate": 8.969849246231155e-05,
      "loss": 2.0734,
      "step": 194050
    },
    {
      "epoch": 0.9703,
      "grad_norm": 0.62109375,
      "learning_rate": 8.954773869346733e-05,
      "loss": 2.0926,
      "step": 194060
    },
    {
      "epoch": 0.97035,
      "grad_norm": 0.65625,
      "learning_rate": 8.939698492462311e-05,
      "loss": 2.1112,
      "step": 194070
    },
    {
      "epoch": 0.9704,
      "grad_norm": 0.671875,
      "learning_rate": 8.924623115577889e-05,
      "loss": 2.0451,
      "step": 194080
    },
    {
      "epoch": 0.97045,
      "grad_norm": 0.59375,
      "learning_rate": 8.909547738693467e-05,
      "loss": 2.0717,
      "step": 194090
    },
    {
      "epoch": 0.9705,
      "grad_norm": 0.6796875,
      "learning_rate": 8.894472361809045e-05,
      "loss": 2.0684,
      "step": 194100
    },
    {
      "epoch": 0.97055,
      "grad_norm": 0.61328125,
      "learning_rate": 8.879396984924623e-05,
      "loss": 2.1276,
      "step": 194110
    },
    {
      "epoch": 0.9706,
      "grad_norm": 0.74609375,
      "learning_rate": 8.864321608040201e-05,
      "loss": 2.0602,
      "step": 194120
    },
    {
      "epoch": 0.97065,
      "grad_norm": 0.61328125,
      "learning_rate": 8.849246231155779e-05,
      "loss": 2.1114,
      "step": 194130
    },
    {
      "epoch": 0.9707,
      "grad_norm": 0.609375,
      "learning_rate": 8.834170854271357e-05,
      "loss": 2.0791,
      "step": 194140
    },
    {
      "epoch": 0.97075,
      "grad_norm": 0.59765625,
      "learning_rate": 8.819095477386935e-05,
      "loss": 2.0548,
      "step": 194150
    },
    {
      "epoch": 0.9708,
      "grad_norm": 0.55859375,
      "learning_rate": 8.804020100502513e-05,
      "loss": 2.0775,
      "step": 194160
    },
    {
      "epoch": 0.97085,
      "grad_norm": 0.68359375,
      "learning_rate": 8.788944723618091e-05,
      "loss": 2.0738,
      "step": 194170
    },
    {
      "epoch": 0.9709,
      "grad_norm": 0.61328125,
      "learning_rate": 8.773869346733669e-05,
      "loss": 2.1551,
      "step": 194180
    },
    {
      "epoch": 0.97095,
      "grad_norm": 0.6328125,
      "learning_rate": 8.758793969849247e-05,
      "loss": 2.0596,
      "step": 194190
    },
    {
      "epoch": 0.971,
      "grad_norm": 0.609375,
      "learning_rate": 8.743718592964825e-05,
      "loss": 2.0845,
      "step": 194200
    },
    {
      "epoch": 0.97105,
      "grad_norm": 0.671875,
      "learning_rate": 8.728643216080403e-05,
      "loss": 2.0366,
      "step": 194210
    },
    {
      "epoch": 0.9711,
      "grad_norm": 0.63671875,
      "learning_rate": 8.713567839195981e-05,
      "loss": 2.088,
      "step": 194220
    },
    {
      "epoch": 0.97115,
      "grad_norm": 0.66015625,
      "learning_rate": 8.698492462311559e-05,
      "loss": 2.0873,
      "step": 194230
    },
    {
      "epoch": 0.9712,
      "grad_norm": 0.5625,
      "learning_rate": 8.683417085427135e-05,
      "loss": 2.0475,
      "step": 194240
    },
    {
      "epoch": 0.97125,
      "grad_norm": 0.64453125,
      "learning_rate": 8.668341708542713e-05,
      "loss": 2.066,
      "step": 194250
    },
    {
      "epoch": 0.9713,
      "grad_norm": 0.625,
      "learning_rate": 8.653266331658291e-05,
      "loss": 2.0245,
      "step": 194260
    },
    {
      "epoch": 0.97135,
      "grad_norm": 0.56640625,
      "learning_rate": 8.638190954773869e-05,
      "loss": 2.1035,
      "step": 194270
    },
    {
      "epoch": 0.9714,
      "grad_norm": 0.63671875,
      "learning_rate": 8.623115577889447e-05,
      "loss": 2.0527,
      "step": 194280
    },
    {
      "epoch": 0.97145,
      "grad_norm": 0.671875,
      "learning_rate": 8.608040201005025e-05,
      "loss": 2.063,
      "step": 194290
    },
    {
      "epoch": 0.9715,
      "grad_norm": 0.671875,
      "learning_rate": 8.592964824120603e-05,
      "loss": 2.0161,
      "step": 194300
    },
    {
      "epoch": 0.97155,
      "grad_norm": 0.61328125,
      "learning_rate": 8.577889447236181e-05,
      "loss": 2.1606,
      "step": 194310
    },
    {
      "epoch": 0.9716,
      "grad_norm": 0.640625,
      "learning_rate": 8.562814070351759e-05,
      "loss": 2.0762,
      "step": 194320
    },
    {
      "epoch": 0.97165,
      "grad_norm": 0.58984375,
      "learning_rate": 8.547738693467337e-05,
      "loss": 2.0266,
      "step": 194330
    },
    {
      "epoch": 0.9717,
      "grad_norm": 0.6171875,
      "learning_rate": 8.532663316582915e-05,
      "loss": 2.1165,
      "step": 194340
    },
    {
      "epoch": 0.97175,
      "grad_norm": 0.609375,
      "learning_rate": 8.517587939698493e-05,
      "loss": 2.0723,
      "step": 194350
    },
    {
      "epoch": 0.9718,
      "grad_norm": 0.6171875,
      "learning_rate": 8.502512562814071e-05,
      "loss": 2.0379,
      "step": 194360
    },
    {
      "epoch": 0.97185,
      "grad_norm": 0.64453125,
      "learning_rate": 8.487437185929649e-05,
      "loss": 2.0648,
      "step": 194370
    },
    {
      "epoch": 0.9719,
      "grad_norm": 0.60546875,
      "learning_rate": 8.472361809045227e-05,
      "loss": 2.0479,
      "step": 194380
    },
    {
      "epoch": 0.97195,
      "grad_norm": 0.5859375,
      "learning_rate": 8.457286432160805e-05,
      "loss": 2.0829,
      "step": 194390
    },
    {
      "epoch": 0.972,
      "grad_norm": 0.57421875,
      "learning_rate": 8.442211055276383e-05,
      "loss": 2.0655,
      "step": 194400
    },
    {
      "epoch": 0.97205,
      "grad_norm": 0.63671875,
      "learning_rate": 8.427135678391961e-05,
      "loss": 2.1013,
      "step": 194410
    },
    {
      "epoch": 0.9721,
      "grad_norm": 0.66796875,
      "learning_rate": 8.412060301507539e-05,
      "loss": 2.0431,
      "step": 194420
    },
    {
      "epoch": 0.97215,
      "grad_norm": 0.62890625,
      "learning_rate": 8.396984924623117e-05,
      "loss": 2.0636,
      "step": 194430
    },
    {
      "epoch": 0.9722,
      "grad_norm": 0.58203125,
      "learning_rate": 8.381909547738693e-05,
      "loss": 2.0263,
      "step": 194440
    },
    {
      "epoch": 0.97225,
      "grad_norm": 0.60546875,
      "learning_rate": 8.366834170854271e-05,
      "loss": 2.1033,
      "step": 194450
    },
    {
      "epoch": 0.9723,
      "grad_norm": 0.62890625,
      "learning_rate": 8.351758793969849e-05,
      "loss": 2.0468,
      "step": 194460
    },
    {
      "epoch": 0.97235,
      "grad_norm": 0.5625,
      "learning_rate": 8.336683417085427e-05,
      "loss": 2.0634,
      "step": 194470
    },
    {
      "epoch": 0.9724,
      "grad_norm": 0.609375,
      "learning_rate": 8.321608040201005e-05,
      "loss": 2.0786,
      "step": 194480
    },
    {
      "epoch": 0.97245,
      "grad_norm": 0.625,
      "learning_rate": 8.306532663316583e-05,
      "loss": 2.0466,
      "step": 194490
    },
    {
      "epoch": 0.9725,
      "grad_norm": 0.65625,
      "learning_rate": 8.291457286432161e-05,
      "loss": 2.1189,
      "step": 194500
    },
    {
      "epoch": 0.97255,
      "grad_norm": 0.63671875,
      "learning_rate": 8.276381909547738e-05,
      "loss": 2.0692,
      "step": 194510
    },
    {
      "epoch": 0.9726,
      "grad_norm": 0.58984375,
      "learning_rate": 8.261306532663316e-05,
      "loss": 2.1415,
      "step": 194520
    },
    {
      "epoch": 0.97265,
      "grad_norm": 0.65625,
      "learning_rate": 8.246231155778894e-05,
      "loss": 2.0286,
      "step": 194530
    },
    {
      "epoch": 0.9727,
      "grad_norm": 0.5546875,
      "learning_rate": 8.231155778894472e-05,
      "loss": 2.1371,
      "step": 194540
    },
    {
      "epoch": 0.97275,
      "grad_norm": 0.61328125,
      "learning_rate": 8.21608040201005e-05,
      "loss": 2.071,
      "step": 194550
    },
    {
      "epoch": 0.9728,
      "grad_norm": 0.53515625,
      "learning_rate": 8.201005025125628e-05,
      "loss": 2.0851,
      "step": 194560
    },
    {
      "epoch": 0.97285,
      "grad_norm": 0.57421875,
      "learning_rate": 8.185929648241206e-05,
      "loss": 2.0778,
      "step": 194570
    },
    {
      "epoch": 0.9729,
      "grad_norm": 0.66796875,
      "learning_rate": 8.170854271356784e-05,
      "loss": 2.0634,
      "step": 194580
    },
    {
      "epoch": 0.97295,
      "grad_norm": 0.62109375,
      "learning_rate": 8.155778894472362e-05,
      "loss": 2.1477,
      "step": 194590
    },
    {
      "epoch": 0.973,
      "grad_norm": 0.6953125,
      "learning_rate": 8.14070351758794e-05,
      "loss": 2.0247,
      "step": 194600
    },
    {
      "epoch": 0.97305,
      "grad_norm": 0.60546875,
      "learning_rate": 8.125628140703518e-05,
      "loss": 2.1606,
      "step": 194610
    },
    {
      "epoch": 0.9731,
      "grad_norm": 0.6328125,
      "learning_rate": 8.110552763819096e-05,
      "loss": 2.0624,
      "step": 194620
    },
    {
      "epoch": 0.97315,
      "grad_norm": 0.80859375,
      "learning_rate": 8.095477386934673e-05,
      "loss": 2.068,
      "step": 194630
    },
    {
      "epoch": 0.9732,
      "grad_norm": 0.5859375,
      "learning_rate": 8.080402010050251e-05,
      "loss": 2.1179,
      "step": 194640
    },
    {
      "epoch": 0.97325,
      "grad_norm": 0.5546875,
      "learning_rate": 8.06532663316583e-05,
      "loss": 2.0413,
      "step": 194650
    },
    {
      "epoch": 0.9733,
      "grad_norm": 0.6484375,
      "learning_rate": 8.050251256281407e-05,
      "loss": 2.0631,
      "step": 194660
    },
    {
      "epoch": 0.97335,
      "grad_norm": 0.64453125,
      "learning_rate": 8.035175879396985e-05,
      "loss": 2.0582,
      "step": 194670
    },
    {
      "epoch": 0.9734,
      "grad_norm": 0.703125,
      "learning_rate": 8.020100502512563e-05,
      "loss": 2.1336,
      "step": 194680
    },
    {
      "epoch": 0.97345,
      "grad_norm": 0.59765625,
      "learning_rate": 8.005025125628141e-05,
      "loss": 2.0992,
      "step": 194690
    },
    {
      "epoch": 0.9735,
      "grad_norm": 0.61328125,
      "learning_rate": 7.989949748743718e-05,
      "loss": 2.1031,
      "step": 194700
    },
    {
      "epoch": 0.97355,
      "grad_norm": 0.6171875,
      "learning_rate": 7.974874371859296e-05,
      "loss": 2.102,
      "step": 194710
    },
    {
      "epoch": 0.9736,
      "grad_norm": 0.6171875,
      "learning_rate": 7.959798994974874e-05,
      "loss": 2.0675,
      "step": 194720
    },
    {
      "epoch": 0.97365,
      "grad_norm": 0.58984375,
      "learning_rate": 7.944723618090452e-05,
      "loss": 2.0498,
      "step": 194730
    },
    {
      "epoch": 0.9737,
      "grad_norm": 0.64453125,
      "learning_rate": 7.92964824120603e-05,
      "loss": 2.0321,
      "step": 194740
    },
    {
      "epoch": 0.97375,
      "grad_norm": 0.625,
      "learning_rate": 7.914572864321608e-05,
      "loss": 2.0695,
      "step": 194750
    },
    {
      "epoch": 0.9738,
      "grad_norm": 0.671875,
      "learning_rate": 7.899497487437186e-05,
      "loss": 2.0564,
      "step": 194760
    },
    {
      "epoch": 0.97385,
      "grad_norm": 0.5390625,
      "learning_rate": 7.884422110552764e-05,
      "loss": 2.1664,
      "step": 194770
    },
    {
      "epoch": 0.9739,
      "grad_norm": 0.6484375,
      "learning_rate": 7.869346733668342e-05,
      "loss": 2.0693,
      "step": 194780
    },
    {
      "epoch": 0.97395,
      "grad_norm": 0.69140625,
      "learning_rate": 7.85427135678392e-05,
      "loss": 2.0349,
      "step": 194790
    },
    {
      "epoch": 0.974,
      "grad_norm": 0.640625,
      "learning_rate": 7.839195979899498e-05,
      "loss": 2.0468,
      "step": 194800
    },
    {
      "epoch": 0.97405,
      "grad_norm": 0.69921875,
      "learning_rate": 7.824120603015076e-05,
      "loss": 2.1135,
      "step": 194810
    },
    {
      "epoch": 0.9741,
      "grad_norm": 0.546875,
      "learning_rate": 7.809045226130654e-05,
      "loss": 2.1618,
      "step": 194820
    },
    {
      "epoch": 0.97415,
      "grad_norm": 0.61328125,
      "learning_rate": 7.793969849246232e-05,
      "loss": 2.06,
      "step": 194830
    },
    {
      "epoch": 0.9742,
      "grad_norm": 0.609375,
      "learning_rate": 7.77889447236181e-05,
      "loss": 2.1369,
      "step": 194840
    },
    {
      "epoch": 0.97425,
      "grad_norm": 0.5703125,
      "learning_rate": 7.763819095477388e-05,
      "loss": 2.1368,
      "step": 194850
    },
    {
      "epoch": 0.9743,
      "grad_norm": 0.59375,
      "learning_rate": 7.748743718592966e-05,
      "loss": 2.0634,
      "step": 194860
    },
    {
      "epoch": 0.97435,
      "grad_norm": 0.58984375,
      "learning_rate": 7.733668341708543e-05,
      "loss": 2.075,
      "step": 194870
    },
    {
      "epoch": 0.9744,
      "grad_norm": 0.546875,
      "learning_rate": 7.718592964824121e-05,
      "loss": 2.0687,
      "step": 194880
    },
    {
      "epoch": 0.97445,
      "grad_norm": 0.6484375,
      "learning_rate": 7.7035175879397e-05,
      "loss": 2.0964,
      "step": 194890
    },
    {
      "epoch": 0.9745,
      "grad_norm": 0.58203125,
      "learning_rate": 7.688442211055277e-05,
      "loss": 2.0518,
      "step": 194900
    },
    {
      "epoch": 0.97455,
      "grad_norm": 0.59765625,
      "learning_rate": 7.673366834170854e-05,
      "loss": 2.1192,
      "step": 194910
    },
    {
      "epoch": 0.9746,
      "grad_norm": 0.62109375,
      "learning_rate": 7.658291457286432e-05,
      "loss": 2.0555,
      "step": 194920
    },
    {
      "epoch": 0.97465,
      "grad_norm": 0.59765625,
      "learning_rate": 7.64321608040201e-05,
      "loss": 2.1182,
      "step": 194930
    },
    {
      "epoch": 0.9747,
      "grad_norm": 0.6171875,
      "learning_rate": 7.628140703517588e-05,
      "loss": 2.0265,
      "step": 194940
    },
    {
      "epoch": 0.97475,
      "grad_norm": 0.58203125,
      "learning_rate": 7.613065326633166e-05,
      "loss": 2.1029,
      "step": 194950
    },
    {
      "epoch": 0.9748,
      "grad_norm": 0.63671875,
      "learning_rate": 7.597989949748744e-05,
      "loss": 2.0365,
      "step": 194960
    },
    {
      "epoch": 0.97485,
      "grad_norm": 0.640625,
      "learning_rate": 7.582914572864322e-05,
      "loss": 2.0575,
      "step": 194970
    },
    {
      "epoch": 0.9749,
      "grad_norm": 0.5859375,
      "learning_rate": 7.5678391959799e-05,
      "loss": 2.09,
      "step": 194980
    },
    {
      "epoch": 0.97495,
      "grad_norm": 0.59765625,
      "learning_rate": 7.552763819095478e-05,
      "loss": 2.0609,
      "step": 194990
    },
    {
      "epoch": 0.975,
      "grad_norm": 0.5703125,
      "learning_rate": 7.537688442211056e-05,
      "loss": 2.1511,
      "step": 195000
    },
    {
      "epoch": 0.97505,
      "grad_norm": 0.57421875,
      "learning_rate": 7.522613065326634e-05,
      "loss": 2.0456,
      "step": 195010
    },
    {
      "epoch": 0.9751,
      "grad_norm": 0.57421875,
      "learning_rate": 7.507537688442212e-05,
      "loss": 2.0705,
      "step": 195020
    },
    {
      "epoch": 0.97515,
      "grad_norm": 0.59765625,
      "learning_rate": 7.49246231155779e-05,
      "loss": 2.0374,
      "step": 195030
    },
    {
      "epoch": 0.9752,
      "grad_norm": 0.56640625,
      "learning_rate": 7.477386934673368e-05,
      "loss": 2.1065,
      "step": 195040
    },
    {
      "epoch": 0.97525,
      "grad_norm": 0.58203125,
      "learning_rate": 7.462311557788946e-05,
      "loss": 2.0951,
      "step": 195050
    },
    {
      "epoch": 0.9753,
      "grad_norm": 0.7265625,
      "learning_rate": 7.447236180904524e-05,
      "loss": 2.0473,
      "step": 195060
    },
    {
      "epoch": 0.97535,
      "grad_norm": 0.69140625,
      "learning_rate": 7.432160804020102e-05,
      "loss": 2.121,
      "step": 195070
    },
    {
      "epoch": 0.9754,
      "grad_norm": 0.62890625,
      "learning_rate": 7.41708542713568e-05,
      "loss": 2.0394,
      "step": 195080
    },
    {
      "epoch": 0.97545,
      "grad_norm": 0.6875,
      "learning_rate": 7.402010050251256e-05,
      "loss": 2.094,
      "step": 195090
    },
    {
      "epoch": 0.9755,
      "grad_norm": 0.5859375,
      "learning_rate": 7.386934673366834e-05,
      "loss": 2.0743,
      "step": 195100
    },
    {
      "epoch": 0.97555,
      "grad_norm": 0.58984375,
      "learning_rate": 7.371859296482412e-05,
      "loss": 2.0448,
      "step": 195110
    },
    {
      "epoch": 0.9756,
      "grad_norm": 0.59765625,
      "learning_rate": 7.35678391959799e-05,
      "loss": 2.1157,
      "step": 195120
    },
    {
      "epoch": 0.97565,
      "grad_norm": 0.625,
      "learning_rate": 7.341708542713568e-05,
      "loss": 2.0819,
      "step": 195130
    },
    {
      "epoch": 0.9757,
      "grad_norm": 0.5625,
      "learning_rate": 7.326633165829146e-05,
      "loss": 2.0982,
      "step": 195140
    },
    {
      "epoch": 0.97575,
      "grad_norm": 0.72265625,
      "learning_rate": 7.311557788944724e-05,
      "loss": 1.9995,
      "step": 195150
    },
    {
      "epoch": 0.9758,
      "grad_norm": 0.63671875,
      "learning_rate": 7.2964824120603e-05,
      "loss": 2.0914,
      "step": 195160
    },
    {
      "epoch": 0.97585,
      "grad_norm": 0.58203125,
      "learning_rate": 7.281407035175879e-05,
      "loss": 2.1213,
      "step": 195170
    },
    {
      "epoch": 0.9759,
      "grad_norm": 0.5625,
      "learning_rate": 7.266331658291457e-05,
      "loss": 2.0208,
      "step": 195180
    },
    {
      "epoch": 0.97595,
      "grad_norm": 0.5859375,
      "learning_rate": 7.251256281407035e-05,
      "loss": 2.1003,
      "step": 195190
    },
    {
      "epoch": 0.976,
      "grad_norm": 0.7578125,
      "learning_rate": 7.236180904522613e-05,
      "loss": 2.0308,
      "step": 195200
    },
    {
      "epoch": 0.97605,
      "grad_norm": 0.671875,
      "learning_rate": 7.22110552763819e-05,
      "loss": 2.107,
      "step": 195210
    },
    {
      "epoch": 0.9761,
      "grad_norm": 0.62890625,
      "learning_rate": 7.206030150753768e-05,
      "loss": 2.0508,
      "step": 195220
    },
    {
      "epoch": 0.97615,
      "grad_norm": 0.58984375,
      "learning_rate": 7.190954773869346e-05,
      "loss": 2.089,
      "step": 195230
    },
    {
      "epoch": 0.9762,
      "grad_norm": 0.6171875,
      "learning_rate": 7.175879396984924e-05,
      "loss": 2.0705,
      "step": 195240
    },
    {
      "epoch": 0.97625,
      "grad_norm": 0.6328125,
      "learning_rate": 7.160804020100502e-05,
      "loss": 2.0752,
      "step": 195250
    },
    {
      "epoch": 0.9763,
      "grad_norm": 0.625,
      "learning_rate": 7.14572864321608e-05,
      "loss": 2.0629,
      "step": 195260
    },
    {
      "epoch": 0.97635,
      "grad_norm": 0.71484375,
      "learning_rate": 7.130653266331658e-05,
      "loss": 2.044,
      "step": 195270
    },
    {
      "epoch": 0.9764,
      "grad_norm": 0.625,
      "learning_rate": 7.115577889447236e-05,
      "loss": 2.1158,
      "step": 195280
    },
    {
      "epoch": 0.97645,
      "grad_norm": 0.734375,
      "learning_rate": 7.100502512562814e-05,
      "loss": 2.0761,
      "step": 195290
    },
    {
      "epoch": 0.9765,
      "grad_norm": 0.60546875,
      "learning_rate": 7.085427135678392e-05,
      "loss": 2.0954,
      "step": 195300
    },
    {
      "epoch": 0.97655,
      "grad_norm": 0.6171875,
      "learning_rate": 7.07035175879397e-05,
      "loss": 2.0375,
      "step": 195310
    },
    {
      "epoch": 0.9766,
      "grad_norm": 0.65625,
      "learning_rate": 7.055276381909548e-05,
      "loss": 2.0542,
      "step": 195320
    },
    {
      "epoch": 0.97665,
      "grad_norm": 0.59375,
      "learning_rate": 7.040201005025126e-05,
      "loss": 2.0643,
      "step": 195330
    },
    {
      "epoch": 0.9767,
      "grad_norm": 0.69140625,
      "learning_rate": 7.025125628140704e-05,
      "loss": 2.0963,
      "step": 195340
    },
    {
      "epoch": 0.97675,
      "grad_norm": 0.7421875,
      "learning_rate": 7.010050251256282e-05,
      "loss": 2.0833,
      "step": 195350
    },
    {
      "epoch": 0.9768,
      "grad_norm": 0.62890625,
      "learning_rate": 6.99497487437186e-05,
      "loss": 2.0813,
      "step": 195360
    },
    {
      "epoch": 0.97685,
      "grad_norm": 0.59375,
      "learning_rate": 6.979899497487437e-05,
      "loss": 2.0895,
      "step": 195370
    },
    {
      "epoch": 0.9769,
      "grad_norm": 0.7109375,
      "learning_rate": 6.964824120603015e-05,
      "loss": 2.0825,
      "step": 195380
    },
    {
      "epoch": 0.97695,
      "grad_norm": 0.5625,
      "learning_rate": 6.949748743718593e-05,
      "loss": 2.0591,
      "step": 195390
    },
    {
      "epoch": 0.977,
      "grad_norm": 0.5859375,
      "learning_rate": 6.93467336683417e-05,
      "loss": 2.0933,
      "step": 195400
    },
    {
      "epoch": 0.97705,
      "grad_norm": 0.6484375,
      "learning_rate": 6.919597989949749e-05,
      "loss": 2.0985,
      "step": 195410
    },
    {
      "epoch": 0.9771,
      "grad_norm": 0.58984375,
      "learning_rate": 6.904522613065327e-05,
      "loss": 2.1114,
      "step": 195420
    },
    {
      "epoch": 0.97715,
      "grad_norm": 0.703125,
      "learning_rate": 6.889447236180905e-05,
      "loss": 2.0591,
      "step": 195430
    },
    {
      "epoch": 0.9772,
      "grad_norm": 0.6015625,
      "learning_rate": 6.874371859296482e-05,
      "loss": 2.1221,
      "step": 195440
    },
    {
      "epoch": 0.97725,
      "grad_norm": 0.640625,
      "learning_rate": 6.85929648241206e-05,
      "loss": 2.0875,
      "step": 195450
    },
    {
      "epoch": 0.9773,
      "grad_norm": 0.59765625,
      "learning_rate": 6.844221105527638e-05,
      "loss": 2.0736,
      "step": 195460
    },
    {
      "epoch": 0.97735,
      "grad_norm": 0.61328125,
      "learning_rate": 6.829145728643216e-05,
      "loss": 2.115,
      "step": 195470
    },
    {
      "epoch": 0.9774,
      "grad_norm": 0.63671875,
      "learning_rate": 6.814070351758794e-05,
      "loss": 2.056,
      "step": 195480
    },
    {
      "epoch": 0.97745,
      "grad_norm": 0.5546875,
      "learning_rate": 6.798994974874372e-05,
      "loss": 2.1237,
      "step": 195490
    },
    {
      "epoch": 0.9775,
      "grad_norm": 0.62890625,
      "learning_rate": 6.78391959798995e-05,
      "loss": 2.0352,
      "step": 195500
    },
    {
      "epoch": 0.97755,
      "grad_norm": 0.69921875,
      "learning_rate": 6.768844221105528e-05,
      "loss": 2.1308,
      "step": 195510
    },
    {
      "epoch": 0.9776,
      "grad_norm": 0.62109375,
      "learning_rate": 6.753768844221106e-05,
      "loss": 2.0726,
      "step": 195520
    },
    {
      "epoch": 0.97765,
      "grad_norm": 0.6171875,
      "learning_rate": 6.738693467336684e-05,
      "loss": 2.0971,
      "step": 195530
    },
    {
      "epoch": 0.9777,
      "grad_norm": 0.66015625,
      "learning_rate": 6.723618090452262e-05,
      "loss": 2.074,
      "step": 195540
    },
    {
      "epoch": 0.97775,
      "grad_norm": 0.60546875,
      "learning_rate": 6.70854271356784e-05,
      "loss": 2.0329,
      "step": 195550
    },
    {
      "epoch": 0.9778,
      "grad_norm": 0.63671875,
      "learning_rate": 6.693467336683418e-05,
      "loss": 2.1586,
      "step": 195560
    },
    {
      "epoch": 0.97785,
      "grad_norm": 0.5859375,
      "learning_rate": 6.678391959798996e-05,
      "loss": 2.0702,
      "step": 195570
    },
    {
      "epoch": 0.9779,
      "grad_norm": 0.6015625,
      "learning_rate": 6.663316582914573e-05,
      "loss": 2.1121,
      "step": 195580
    },
    {
      "epoch": 0.97795,
      "grad_norm": 0.625,
      "learning_rate": 6.648241206030151e-05,
      "loss": 2.0714,
      "step": 195590
    },
    {
      "epoch": 0.978,
      "grad_norm": 0.640625,
      "learning_rate": 6.633165829145729e-05,
      "loss": 2.119,
      "step": 195600
    },
    {
      "epoch": 0.97805,
      "grad_norm": 0.671875,
      "learning_rate": 6.618090452261307e-05,
      "loss": 2.0327,
      "step": 195610
    },
    {
      "epoch": 0.9781,
      "grad_norm": 0.5859375,
      "learning_rate": 6.603015075376885e-05,
      "loss": 2.1342,
      "step": 195620
    },
    {
      "epoch": 0.97815,
      "grad_norm": 0.578125,
      "learning_rate": 6.587939698492463e-05,
      "loss": 2.0827,
      "step": 195630
    },
    {
      "epoch": 0.9782,
      "grad_norm": 0.875,
      "learning_rate": 6.57286432160804e-05,
      "loss": 2.0745,
      "step": 195640
    },
    {
      "epoch": 0.97825,
      "grad_norm": 0.56640625,
      "learning_rate": 6.557788944723619e-05,
      "loss": 2.0922,
      "step": 195650
    },
    {
      "epoch": 0.9783,
      "grad_norm": 0.625,
      "learning_rate": 6.542713567839197e-05,
      "loss": 2.05,
      "step": 195660
    },
    {
      "epoch": 0.97835,
      "grad_norm": 0.5703125,
      "learning_rate": 6.527638190954773e-05,
      "loss": 2.0529,
      "step": 195670
    },
    {
      "epoch": 0.9784,
      "grad_norm": 0.62890625,
      "learning_rate": 6.512562814070351e-05,
      "loss": 2.1066,
      "step": 195680
    },
    {
      "epoch": 0.97845,
      "grad_norm": 0.57421875,
      "learning_rate": 6.497487437185929e-05,
      "loss": 2.1088,
      "step": 195690
    },
    {
      "epoch": 0.9785,
      "grad_norm": 0.62109375,
      "learning_rate": 6.482412060301507e-05,
      "loss": 2.0692,
      "step": 195700
    },
    {
      "epoch": 0.97855,
      "grad_norm": 0.6640625,
      "learning_rate": 6.467336683417085e-05,
      "loss": 2.0633,
      "step": 195710
    },
    {
      "epoch": 0.9786,
      "grad_norm": 0.53125,
      "learning_rate": 6.452261306532663e-05,
      "loss": 2.0881,
      "step": 195720
    },
    {
      "epoch": 0.97865,
      "grad_norm": 0.6484375,
      "learning_rate": 6.437185929648241e-05,
      "loss": 2.0878,
      "step": 195730
    },
    {
      "epoch": 0.9787,
      "grad_norm": 0.6484375,
      "learning_rate": 6.422110552763819e-05,
      "loss": 2.0973,
      "step": 195740
    },
    {
      "epoch": 0.97875,
      "grad_norm": 0.60546875,
      "learning_rate": 6.407035175879397e-05,
      "loss": 2.0905,
      "step": 195750
    },
    {
      "epoch": 0.9788,
      "grad_norm": 0.55859375,
      "learning_rate": 6.391959798994975e-05,
      "loss": 2.0879,
      "step": 195760
    },
    {
      "epoch": 0.97885,
      "grad_norm": 0.63671875,
      "learning_rate": 6.376884422110553e-05,
      "loss": 2.0914,
      "step": 195770
    },
    {
      "epoch": 0.9789,
      "grad_norm": 0.65625,
      "learning_rate": 6.361809045226131e-05,
      "loss": 2.0636,
      "step": 195780
    },
    {
      "epoch": 0.97895,
      "grad_norm": 0.578125,
      "learning_rate": 6.346733668341709e-05,
      "loss": 2.1091,
      "step": 195790
    },
    {
      "epoch": 0.979,
      "grad_norm": 0.58984375,
      "learning_rate": 6.331658291457287e-05,
      "loss": 2.0525,
      "step": 195800
    },
    {
      "epoch": 0.97905,
      "grad_norm": 0.5859375,
      "learning_rate": 6.316582914572865e-05,
      "loss": 2.0604,
      "step": 195810
    },
    {
      "epoch": 0.9791,
      "grad_norm": 0.609375,
      "learning_rate": 6.301507537688443e-05,
      "loss": 2.0758,
      "step": 195820
    },
    {
      "epoch": 0.97915,
      "grad_norm": 0.61328125,
      "learning_rate": 6.28643216080402e-05,
      "loss": 2.0839,
      "step": 195830
    },
    {
      "epoch": 0.9792,
      "grad_norm": 0.58203125,
      "learning_rate": 6.271356783919597e-05,
      "loss": 2.1228,
      "step": 195840
    },
    {
      "epoch": 0.97925,
      "grad_norm": 0.6171875,
      "learning_rate": 6.256281407035175e-05,
      "loss": 2.0687,
      "step": 195850
    },
    {
      "epoch": 0.9793,
      "grad_norm": 0.671875,
      "learning_rate": 6.241206030150753e-05,
      "loss": 2.0924,
      "step": 195860
    },
    {
      "epoch": 0.97935,
      "grad_norm": 0.67578125,
      "learning_rate": 6.226130653266331e-05,
      "loss": 2.0714,
      "step": 195870
    },
    {
      "epoch": 0.9794,
      "grad_norm": 0.5625,
      "learning_rate": 6.211055276381909e-05,
      "loss": 2.0957,
      "step": 195880
    },
    {
      "epoch": 0.97945,
      "grad_norm": 0.609375,
      "learning_rate": 6.195979899497487e-05,
      "loss": 2.0787,
      "step": 195890
    },
    {
      "epoch": 0.9795,
      "grad_norm": 0.625,
      "learning_rate": 6.180904522613065e-05,
      "loss": 2.053,
      "step": 195900
    },
    {
      "epoch": 0.97955,
      "grad_norm": 0.6796875,
      "learning_rate": 6.165829145728643e-05,
      "loss": 2.1153,
      "step": 195910
    },
    {
      "epoch": 0.9796,
      "grad_norm": 0.65234375,
      "learning_rate": 6.150753768844221e-05,
      "loss": 2.1045,
      "step": 195920
    },
    {
      "epoch": 0.97965,
      "grad_norm": 0.6640625,
      "learning_rate": 6.135678391959799e-05,
      "loss": 2.1306,
      "step": 195930
    },
    {
      "epoch": 0.9797,
      "grad_norm": 0.63671875,
      "learning_rate": 6.120603015075377e-05,
      "loss": 2.0628,
      "step": 195940
    },
    {
      "epoch": 0.97975,
      "grad_norm": 0.62109375,
      "learning_rate": 6.105527638190955e-05,
      "loss": 2.1002,
      "step": 195950
    },
    {
      "epoch": 0.9798,
      "grad_norm": 0.58984375,
      "learning_rate": 6.090452261306533e-05,
      "loss": 2.024,
      "step": 195960
    },
    {
      "epoch": 0.97985,
      "grad_norm": 0.63671875,
      "learning_rate": 6.075376884422111e-05,
      "loss": 2.0726,
      "step": 195970
    },
    {
      "epoch": 0.9799,
      "grad_norm": 0.66015625,
      "learning_rate": 6.060301507537689e-05,
      "loss": 2.121,
      "step": 195980
    },
    {
      "epoch": 0.97995,
      "grad_norm": 0.60546875,
      "learning_rate": 6.045226130653266e-05,
      "loss": 2.1008,
      "step": 195990
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.59765625,
      "learning_rate": 6.030150753768844e-05,
      "loss": 2.0839,
      "step": 196000
    },
    {
      "epoch": 0.98,
      "eval_loss": 2.0759713649749756,
      "eval_runtime": 47.6126,
      "eval_samples_per_second": 52.507,
      "eval_steps_per_second": 0.105,
      "step": 196000
    },
    {
      "epoch": 0.98005,
      "grad_norm": 0.64453125,
      "learning_rate": 6.015075376884422e-05,
      "loss": 2.0794,
      "step": 196010
    },
    {
      "epoch": 0.9801,
      "grad_norm": 0.640625,
      "learning_rate": 6e-05,
      "loss": 2.1077,
      "step": 196020
    },
    {
      "epoch": 0.98015,
      "grad_norm": 0.66015625,
      "learning_rate": 5.984924623115578e-05,
      "loss": 2.0886,
      "step": 196030
    },
    {
      "epoch": 0.9802,
      "grad_norm": 0.6015625,
      "learning_rate": 5.969849246231156e-05,
      "loss": 2.0309,
      "step": 196040
    },
    {
      "epoch": 0.98025,
      "grad_norm": 0.6328125,
      "learning_rate": 5.954773869346734e-05,
      "loss": 2.1103,
      "step": 196050
    },
    {
      "epoch": 0.9803,
      "grad_norm": 0.64453125,
      "learning_rate": 5.939698492462312e-05,
      "loss": 2.0824,
      "step": 196060
    },
    {
      "epoch": 0.98035,
      "grad_norm": 0.609375,
      "learning_rate": 5.92462311557789e-05,
      "loss": 2.1004,
      "step": 196070
    },
    {
      "epoch": 0.9804,
      "grad_norm": 0.6484375,
      "learning_rate": 5.909547738693468e-05,
      "loss": 2.0614,
      "step": 196080
    },
    {
      "epoch": 0.98045,
      "grad_norm": 0.62890625,
      "learning_rate": 5.894472361809045e-05,
      "loss": 2.0704,
      "step": 196090
    },
    {
      "epoch": 0.9805,
      "grad_norm": 0.62109375,
      "learning_rate": 5.879396984924623e-05,
      "loss": 2.0577,
      "step": 196100
    },
    {
      "epoch": 0.98055,
      "grad_norm": 0.55078125,
      "learning_rate": 5.864321608040201e-05,
      "loss": 2.0934,
      "step": 196110
    },
    {
      "epoch": 0.9806,
      "grad_norm": 0.55859375,
      "learning_rate": 5.849246231155779e-05,
      "loss": 2.087,
      "step": 196120
    },
    {
      "epoch": 0.98065,
      "grad_norm": 0.58984375,
      "learning_rate": 5.834170854271357e-05,
      "loss": 2.0758,
      "step": 196130
    },
    {
      "epoch": 0.9807,
      "grad_norm": 0.6328125,
      "learning_rate": 5.819095477386935e-05,
      "loss": 2.1256,
      "step": 196140
    },
    {
      "epoch": 0.98075,
      "grad_norm": 0.65234375,
      "learning_rate": 5.804020100502513e-05,
      "loss": 2.0906,
      "step": 196150
    },
    {
      "epoch": 0.9808,
      "grad_norm": 0.67578125,
      "learning_rate": 5.788944723618091e-05,
      "loss": 2.1194,
      "step": 196160
    },
    {
      "epoch": 0.98085,
      "grad_norm": 0.61328125,
      "learning_rate": 5.773869346733669e-05,
      "loss": 2.1182,
      "step": 196170
    },
    {
      "epoch": 0.9809,
      "grad_norm": 0.61328125,
      "learning_rate": 5.758793969849247e-05,
      "loss": 2.0369,
      "step": 196180
    },
    {
      "epoch": 0.98095,
      "grad_norm": 0.63671875,
      "learning_rate": 5.743718592964825e-05,
      "loss": 2.0983,
      "step": 196190
    },
    {
      "epoch": 0.981,
      "grad_norm": 0.640625,
      "learning_rate": 5.728643216080402e-05,
      "loss": 2.057,
      "step": 196200
    },
    {
      "epoch": 0.98105,
      "grad_norm": 0.6796875,
      "learning_rate": 5.71356783919598e-05,
      "loss": 2.1605,
      "step": 196210
    },
    {
      "epoch": 0.9811,
      "grad_norm": 0.5625,
      "learning_rate": 5.698492462311558e-05,
      "loss": 2.0482,
      "step": 196220
    },
    {
      "epoch": 0.98115,
      "grad_norm": 0.609375,
      "learning_rate": 5.683417085427136e-05,
      "loss": 2.101,
      "step": 196230
    },
    {
      "epoch": 0.9812,
      "grad_norm": 0.60546875,
      "learning_rate": 5.668341708542713e-05,
      "loss": 2.0819,
      "step": 196240
    },
    {
      "epoch": 0.98125,
      "grad_norm": 0.60546875,
      "learning_rate": 5.653266331658291e-05,
      "loss": 2.1506,
      "step": 196250
    },
    {
      "epoch": 0.9813,
      "grad_norm": 0.69140625,
      "learning_rate": 5.638190954773869e-05,
      "loss": 2.0771,
      "step": 196260
    },
    {
      "epoch": 0.98135,
      "grad_norm": 0.62890625,
      "learning_rate": 5.623115577889447e-05,
      "loss": 2.0462,
      "step": 196270
    },
    {
      "epoch": 0.9814,
      "grad_norm": 0.68359375,
      "learning_rate": 5.608040201005025e-05,
      "loss": 2.041,
      "step": 196280
    },
    {
      "epoch": 0.98145,
      "grad_norm": 0.57421875,
      "learning_rate": 5.592964824120603e-05,
      "loss": 2.0442,
      "step": 196290
    },
    {
      "epoch": 0.9815,
      "grad_norm": 0.578125,
      "learning_rate": 5.577889447236181e-05,
      "loss": 2.1056,
      "step": 196300
    },
    {
      "epoch": 0.98155,
      "grad_norm": 0.58203125,
      "learning_rate": 5.5628140703517586e-05,
      "loss": 2.0953,
      "step": 196310
    },
    {
      "epoch": 0.9816,
      "grad_norm": 0.62890625,
      "learning_rate": 5.5477386934673366e-05,
      "loss": 2.0819,
      "step": 196320
    },
    {
      "epoch": 0.98165,
      "grad_norm": 0.59765625,
      "learning_rate": 5.5326633165829146e-05,
      "loss": 2.0742,
      "step": 196330
    },
    {
      "epoch": 0.9817,
      "grad_norm": 0.59375,
      "learning_rate": 5.5175879396984926e-05,
      "loss": 2.0675,
      "step": 196340
    },
    {
      "epoch": 0.98175,
      "grad_norm": 0.6484375,
      "learning_rate": 5.50251256281407e-05,
      "loss": 2.1031,
      "step": 196350
    },
    {
      "epoch": 0.9818,
      "grad_norm": 0.62890625,
      "learning_rate": 5.487437185929648e-05,
      "loss": 2.0481,
      "step": 196360
    },
    {
      "epoch": 0.98185,
      "grad_norm": 0.578125,
      "learning_rate": 5.472361809045226e-05,
      "loss": 2.0754,
      "step": 196370
    },
    {
      "epoch": 0.9819,
      "grad_norm": 0.625,
      "learning_rate": 5.457286432160804e-05,
      "loss": 2.063,
      "step": 196380
    },
    {
      "epoch": 0.98195,
      "grad_norm": 0.66015625,
      "learning_rate": 5.442211055276382e-05,
      "loss": 2.0086,
      "step": 196390
    },
    {
      "epoch": 0.982,
      "grad_norm": 0.62109375,
      "learning_rate": 5.42713567839196e-05,
      "loss": 2.1062,
      "step": 196400
    },
    {
      "epoch": 0.98205,
      "grad_norm": 0.6171875,
      "learning_rate": 5.412060301507538e-05,
      "loss": 2.0755,
      "step": 196410
    },
    {
      "epoch": 0.9821,
      "grad_norm": 0.58203125,
      "learning_rate": 5.396984924623116e-05,
      "loss": 2.0847,
      "step": 196420
    },
    {
      "epoch": 0.98215,
      "grad_norm": 0.65234375,
      "learning_rate": 5.3819095477386936e-05,
      "loss": 2.0615,
      "step": 196430
    },
    {
      "epoch": 0.9822,
      "grad_norm": 0.59375,
      "learning_rate": 5.3668341708542716e-05,
      "loss": 2.0657,
      "step": 196440
    },
    {
      "epoch": 0.98225,
      "grad_norm": 0.63671875,
      "learning_rate": 5.351758793969849e-05,
      "loss": 2.0703,
      "step": 196450
    },
    {
      "epoch": 0.9823,
      "grad_norm": 0.65234375,
      "learning_rate": 5.336683417085427e-05,
      "loss": 2.0785,
      "step": 196460
    },
    {
      "epoch": 0.98235,
      "grad_norm": 0.64453125,
      "learning_rate": 5.321608040201005e-05,
      "loss": 2.0944,
      "step": 196470
    },
    {
      "epoch": 0.9824,
      "grad_norm": 0.62109375,
      "learning_rate": 5.306532663316583e-05,
      "loss": 2.1166,
      "step": 196480
    },
    {
      "epoch": 0.98245,
      "grad_norm": 0.609375,
      "learning_rate": 5.291457286432161e-05,
      "loss": 2.0733,
      "step": 196490
    },
    {
      "epoch": 0.9825,
      "grad_norm": 0.65625,
      "learning_rate": 5.276381909547739e-05,
      "loss": 2.0865,
      "step": 196500
    },
    {
      "epoch": 0.98255,
      "grad_norm": 0.63671875,
      "learning_rate": 5.261306532663317e-05,
      "loss": 2.0547,
      "step": 196510
    },
    {
      "epoch": 0.9826,
      "grad_norm": 0.63671875,
      "learning_rate": 5.246231155778895e-05,
      "loss": 2.0748,
      "step": 196520
    },
    {
      "epoch": 0.98265,
      "grad_norm": 0.57421875,
      "learning_rate": 5.231155778894473e-05,
      "loss": 2.0767,
      "step": 196530
    },
    {
      "epoch": 0.9827,
      "grad_norm": 0.58203125,
      "learning_rate": 5.2160804020100507e-05,
      "loss": 2.0999,
      "step": 196540
    },
    {
      "epoch": 0.98275,
      "grad_norm": 0.55859375,
      "learning_rate": 5.201005025125628e-05,
      "loss": 2.0671,
      "step": 196550
    },
    {
      "epoch": 0.9828,
      "grad_norm": 0.66796875,
      "learning_rate": 5.185929648241206e-05,
      "loss": 2.0822,
      "step": 196560
    },
    {
      "epoch": 0.98285,
      "grad_norm": 0.6484375,
      "learning_rate": 5.170854271356784e-05,
      "loss": 2.086,
      "step": 196570
    },
    {
      "epoch": 0.9829,
      "grad_norm": 0.68359375,
      "learning_rate": 5.155778894472362e-05,
      "loss": 2.0554,
      "step": 196580
    },
    {
      "epoch": 0.98295,
      "grad_norm": 0.6015625,
      "learning_rate": 5.14070351758794e-05,
      "loss": 2.1,
      "step": 196590
    },
    {
      "epoch": 0.983,
      "grad_norm": 0.625,
      "learning_rate": 5.125628140703518e-05,
      "loss": 2.0726,
      "step": 196600
    },
    {
      "epoch": 0.98305,
      "grad_norm": 0.65234375,
      "learning_rate": 5.110552763819096e-05,
      "loss": 2.1293,
      "step": 196610
    },
    {
      "epoch": 0.9831,
      "grad_norm": 0.546875,
      "learning_rate": 5.095477386934674e-05,
      "loss": 2.0746,
      "step": 196620
    },
    {
      "epoch": 0.98315,
      "grad_norm": 0.5625,
      "learning_rate": 5.080402010050252e-05,
      "loss": 2.0594,
      "step": 196630
    },
    {
      "epoch": 0.9832,
      "grad_norm": 0.58203125,
      "learning_rate": 5.06532663316583e-05,
      "loss": 2.0904,
      "step": 196640
    },
    {
      "epoch": 0.98325,
      "grad_norm": 0.59765625,
      "learning_rate": 5.050251256281408e-05,
      "loss": 2.0761,
      "step": 196650
    },
    {
      "epoch": 0.9833,
      "grad_norm": 0.5625,
      "learning_rate": 5.035175879396985e-05,
      "loss": 2.1237,
      "step": 196660
    },
    {
      "epoch": 0.98335,
      "grad_norm": 0.578125,
      "learning_rate": 5.020100502512563e-05,
      "loss": 2.0787,
      "step": 196670
    },
    {
      "epoch": 0.9834,
      "grad_norm": 0.5234375,
      "learning_rate": 5.005025125628141e-05,
      "loss": 2.0778,
      "step": 196680
    },
    {
      "epoch": 0.98345,
      "grad_norm": 0.59375,
      "learning_rate": 4.989949748743719e-05,
      "loss": 2.1079,
      "step": 196690
    },
    {
      "epoch": 0.9835,
      "grad_norm": 0.63671875,
      "learning_rate": 4.974874371859297e-05,
      "loss": 2.0348,
      "step": 196700
    },
    {
      "epoch": 0.98355,
      "grad_norm": 0.6015625,
      "learning_rate": 4.959798994974875e-05,
      "loss": 2.1061,
      "step": 196710
    },
    {
      "epoch": 0.9836,
      "grad_norm": 0.6953125,
      "learning_rate": 4.944723618090453e-05,
      "loss": 1.9764,
      "step": 196720
    },
    {
      "epoch": 0.98365,
      "grad_norm": 0.6484375,
      "learning_rate": 4.929648241206031e-05,
      "loss": 2.114,
      "step": 196730
    },
    {
      "epoch": 0.9837,
      "grad_norm": 0.56640625,
      "learning_rate": 4.914572864321609e-05,
      "loss": 2.049,
      "step": 196740
    },
    {
      "epoch": 0.98375,
      "grad_norm": 0.578125,
      "learning_rate": 4.899497487437187e-05,
      "loss": 2.1095,
      "step": 196750
    },
    {
      "epoch": 0.9838,
      "grad_norm": 0.6171875,
      "learning_rate": 4.884422110552764e-05,
      "loss": 2.0451,
      "step": 196760
    },
    {
      "epoch": 0.98385,
      "grad_norm": 0.60546875,
      "learning_rate": 4.869346733668342e-05,
      "loss": 2.057,
      "step": 196770
    },
    {
      "epoch": 0.9839,
      "grad_norm": 0.6484375,
      "learning_rate": 4.85427135678392e-05,
      "loss": 2.1034,
      "step": 196780
    },
    {
      "epoch": 0.98395,
      "grad_norm": 0.65625,
      "learning_rate": 4.839195979899498e-05,
      "loss": 2.095,
      "step": 196790
    },
    {
      "epoch": 0.984,
      "grad_norm": 0.56640625,
      "learning_rate": 4.824120603015076e-05,
      "loss": 2.0919,
      "step": 196800
    },
    {
      "epoch": 0.98405,
      "grad_norm": 0.64453125,
      "learning_rate": 4.809045226130654e-05,
      "loss": 2.0699,
      "step": 196810
    },
    {
      "epoch": 0.9841,
      "grad_norm": 0.65625,
      "learning_rate": 4.7939698492462305e-05,
      "loss": 2.0587,
      "step": 196820
    },
    {
      "epoch": 0.98415,
      "grad_norm": 0.62890625,
      "learning_rate": 4.7788944723618085e-05,
      "loss": 2.1074,
      "step": 196830
    },
    {
      "epoch": 0.9842,
      "grad_norm": 0.6875,
      "learning_rate": 4.7638190954773864e-05,
      "loss": 2.1207,
      "step": 196840
    },
    {
      "epoch": 0.98425,
      "grad_norm": 0.58984375,
      "learning_rate": 4.7487437185929644e-05,
      "loss": 2.1409,
      "step": 196850
    },
    {
      "epoch": 0.9843,
      "grad_norm": 0.5859375,
      "learning_rate": 4.7336683417085424e-05,
      "loss": 2.0303,
      "step": 196860
    },
    {
      "epoch": 0.98435,
      "grad_norm": 0.56640625,
      "learning_rate": 4.7185929648241204e-05,
      "loss": 2.0644,
      "step": 196870
    },
    {
      "epoch": 0.9844,
      "grad_norm": 0.578125,
      "learning_rate": 4.703517587939698e-05,
      "loss": 2.1051,
      "step": 196880
    },
    {
      "epoch": 0.98445,
      "grad_norm": 0.61328125,
      "learning_rate": 4.688442211055276e-05,
      "loss": 2.0325,
      "step": 196890
    },
    {
      "epoch": 0.9845,
      "grad_norm": 0.62890625,
      "learning_rate": 4.673366834170854e-05,
      "loss": 2.1289,
      "step": 196900
    },
    {
      "epoch": 0.98455,
      "grad_norm": 0.62890625,
      "learning_rate": 4.658291457286432e-05,
      "loss": 2.0915,
      "step": 196910
    },
    {
      "epoch": 0.9846,
      "grad_norm": 0.6640625,
      "learning_rate": 4.64321608040201e-05,
      "loss": 2.101,
      "step": 196920
    },
    {
      "epoch": 0.98465,
      "grad_norm": 0.70703125,
      "learning_rate": 4.628140703517588e-05,
      "loss": 2.0937,
      "step": 196930
    },
    {
      "epoch": 0.9847,
      "grad_norm": 0.59765625,
      "learning_rate": 4.613065326633166e-05,
      "loss": 2.0528,
      "step": 196940
    },
    {
      "epoch": 0.98475,
      "grad_norm": 0.6171875,
      "learning_rate": 4.597989949748744e-05,
      "loss": 2.0888,
      "step": 196950
    },
    {
      "epoch": 0.9848,
      "grad_norm": 0.69140625,
      "learning_rate": 4.582914572864322e-05,
      "loss": 2.0856,
      "step": 196960
    },
    {
      "epoch": 0.98485,
      "grad_norm": 0.6015625,
      "learning_rate": 4.5678391959798994e-05,
      "loss": 2.1018,
      "step": 196970
    },
    {
      "epoch": 0.9849,
      "grad_norm": 0.640625,
      "learning_rate": 4.5527638190954774e-05,
      "loss": 2.0805,
      "step": 196980
    },
    {
      "epoch": 0.98495,
      "grad_norm": 0.5859375,
      "learning_rate": 4.5376884422110554e-05,
      "loss": 2.0622,
      "step": 196990
    },
    {
      "epoch": 0.985,
      "grad_norm": 0.6171875,
      "learning_rate": 4.522613065326633e-05,
      "loss": 2.1054,
      "step": 197000
    },
    {
      "epoch": 0.98505,
      "grad_norm": 0.609375,
      "learning_rate": 4.507537688442211e-05,
      "loss": 2.0564,
      "step": 197010
    },
    {
      "epoch": 0.9851,
      "grad_norm": 0.5625,
      "learning_rate": 4.4924623115577886e-05,
      "loss": 2.0976,
      "step": 197020
    },
    {
      "epoch": 0.98515,
      "grad_norm": 0.703125,
      "learning_rate": 4.4773869346733666e-05,
      "loss": 2.0759,
      "step": 197030
    },
    {
      "epoch": 0.9852,
      "grad_norm": 0.6171875,
      "learning_rate": 4.4623115577889445e-05,
      "loss": 2.0996,
      "step": 197040
    },
    {
      "epoch": 0.98525,
      "grad_norm": 0.61328125,
      "learning_rate": 4.4472361809045225e-05,
      "loss": 2.0926,
      "step": 197050
    },
    {
      "epoch": 0.9853,
      "grad_norm": 0.5859375,
      "learning_rate": 4.4321608040201005e-05,
      "loss": 2.04,
      "step": 197060
    },
    {
      "epoch": 0.98535,
      "grad_norm": 0.5546875,
      "learning_rate": 4.4170854271356785e-05,
      "loss": 2.0374,
      "step": 197070
    },
    {
      "epoch": 0.9854,
      "grad_norm": 0.6015625,
      "learning_rate": 4.4020100502512564e-05,
      "loss": 2.0447,
      "step": 197080
    },
    {
      "epoch": 0.98545,
      "grad_norm": 0.64453125,
      "learning_rate": 4.3869346733668344e-05,
      "loss": 2.0761,
      "step": 197090
    },
    {
      "epoch": 0.9855,
      "grad_norm": 0.62109375,
      "learning_rate": 4.3718592964824124e-05,
      "loss": 2.0554,
      "step": 197100
    },
    {
      "epoch": 0.98555,
      "grad_norm": 0.53515625,
      "learning_rate": 4.3567839195979903e-05,
      "loss": 2.08,
      "step": 197110
    },
    {
      "epoch": 0.9856,
      "grad_norm": 0.62109375,
      "learning_rate": 4.3417085427135676e-05,
      "loss": 2.0395,
      "step": 197120
    },
    {
      "epoch": 0.98565,
      "grad_norm": 0.6640625,
      "learning_rate": 4.3266331658291456e-05,
      "loss": 2.0652,
      "step": 197130
    },
    {
      "epoch": 0.9857,
      "grad_norm": 0.64453125,
      "learning_rate": 4.3115577889447236e-05,
      "loss": 2.1522,
      "step": 197140
    },
    {
      "epoch": 0.98575,
      "grad_norm": 0.63671875,
      "learning_rate": 4.2964824120603016e-05,
      "loss": 2.0449,
      "step": 197150
    },
    {
      "epoch": 0.9858,
      "grad_norm": 0.57421875,
      "learning_rate": 4.2814070351758795e-05,
      "loss": 2.1092,
      "step": 197160
    },
    {
      "epoch": 0.98585,
      "grad_norm": 0.6328125,
      "learning_rate": 4.2663316582914575e-05,
      "loss": 2.0661,
      "step": 197170
    },
    {
      "epoch": 0.9859,
      "grad_norm": 0.578125,
      "learning_rate": 4.2512562814070355e-05,
      "loss": 2.0414,
      "step": 197180
    },
    {
      "epoch": 0.98595,
      "grad_norm": 0.58203125,
      "learning_rate": 4.2361809045226134e-05,
      "loss": 2.0434,
      "step": 197190
    },
    {
      "epoch": 0.986,
      "grad_norm": 0.60546875,
      "learning_rate": 4.2211055276381914e-05,
      "loss": 2.0304,
      "step": 197200
    },
    {
      "epoch": 0.98605,
      "grad_norm": 0.64453125,
      "learning_rate": 4.2060301507537694e-05,
      "loss": 2.0985,
      "step": 197210
    },
    {
      "epoch": 0.9861,
      "grad_norm": 0.609375,
      "learning_rate": 4.190954773869347e-05,
      "loss": 2.0659,
      "step": 197220
    },
    {
      "epoch": 0.98615,
      "grad_norm": 0.66015625,
      "learning_rate": 4.1758793969849247e-05,
      "loss": 2.0936,
      "step": 197230
    },
    {
      "epoch": 0.9862,
      "grad_norm": 0.609375,
      "learning_rate": 4.1608040201005026e-05,
      "loss": 2.1473,
      "step": 197240
    },
    {
      "epoch": 0.98625,
      "grad_norm": 0.64453125,
      "learning_rate": 4.1457286432160806e-05,
      "loss": 2.0692,
      "step": 197250
    },
    {
      "epoch": 0.9863,
      "grad_norm": 0.59375,
      "learning_rate": 4.130653266331658e-05,
      "loss": 2.1063,
      "step": 197260
    },
    {
      "epoch": 0.98635,
      "grad_norm": 0.6953125,
      "learning_rate": 4.115577889447236e-05,
      "loss": 2.1087,
      "step": 197270
    },
    {
      "epoch": 0.9864,
      "grad_norm": 0.63671875,
      "learning_rate": 4.100502512562814e-05,
      "loss": 2.0946,
      "step": 197280
    },
    {
      "epoch": 0.98645,
      "grad_norm": 0.5859375,
      "learning_rate": 4.085427135678392e-05,
      "loss": 2.0663,
      "step": 197290
    },
    {
      "epoch": 0.9865,
      "grad_norm": 0.546875,
      "learning_rate": 4.07035175879397e-05,
      "loss": 2.0611,
      "step": 197300
    },
    {
      "epoch": 0.98655,
      "grad_norm": 0.61328125,
      "learning_rate": 4.055276381909548e-05,
      "loss": 2.0882,
      "step": 197310
    },
    {
      "epoch": 0.9866,
      "grad_norm": 0.59765625,
      "learning_rate": 4.040201005025126e-05,
      "loss": 2.0365,
      "step": 197320
    },
    {
      "epoch": 0.98665,
      "grad_norm": 0.7265625,
      "learning_rate": 4.025125628140704e-05,
      "loss": 2.1022,
      "step": 197330
    },
    {
      "epoch": 0.9867,
      "grad_norm": 0.6015625,
      "learning_rate": 4.010050251256282e-05,
      "loss": 2.0655,
      "step": 197340
    },
    {
      "epoch": 0.98675,
      "grad_norm": 0.6171875,
      "learning_rate": 3.994974874371859e-05,
      "loss": 2.1174,
      "step": 197350
    },
    {
      "epoch": 0.9868,
      "grad_norm": 0.59375,
      "learning_rate": 3.979899497487437e-05,
      "loss": 2.1037,
      "step": 197360
    },
    {
      "epoch": 0.98685,
      "grad_norm": 0.546875,
      "learning_rate": 3.964824120603015e-05,
      "loss": 2.0535,
      "step": 197370
    },
    {
      "epoch": 0.9869,
      "grad_norm": 0.59375,
      "learning_rate": 3.949748743718593e-05,
      "loss": 2.1833,
      "step": 197380
    },
    {
      "epoch": 0.98695,
      "grad_norm": 0.64453125,
      "learning_rate": 3.934673366834171e-05,
      "loss": 2.0686,
      "step": 197390
    },
    {
      "epoch": 0.987,
      "grad_norm": 0.58203125,
      "learning_rate": 3.919597989949749e-05,
      "loss": 2.1,
      "step": 197400
    },
    {
      "epoch": 0.98705,
      "grad_norm": 0.59375,
      "learning_rate": 3.904522613065327e-05,
      "loss": 2.1173,
      "step": 197410
    },
    {
      "epoch": 0.9871,
      "grad_norm": 0.6484375,
      "learning_rate": 3.889447236180905e-05,
      "loss": 2.0447,
      "step": 197420
    },
    {
      "epoch": 0.98715,
      "grad_norm": 0.5859375,
      "learning_rate": 3.874371859296483e-05,
      "loss": 2.0845,
      "step": 197430
    },
    {
      "epoch": 0.9872,
      "grad_norm": 0.63671875,
      "learning_rate": 3.859296482412061e-05,
      "loss": 2.111,
      "step": 197440
    },
    {
      "epoch": 0.98725,
      "grad_norm": 0.58203125,
      "learning_rate": 3.844221105527639e-05,
      "loss": 2.1059,
      "step": 197450
    },
    {
      "epoch": 0.9873,
      "grad_norm": 0.59765625,
      "learning_rate": 3.829145728643216e-05,
      "loss": 2.113,
      "step": 197460
    },
    {
      "epoch": 0.98735,
      "grad_norm": 0.6171875,
      "learning_rate": 3.814070351758794e-05,
      "loss": 2.054,
      "step": 197470
    },
    {
      "epoch": 0.9874,
      "grad_norm": 0.65625,
      "learning_rate": 3.798994974874372e-05,
      "loss": 2.129,
      "step": 197480
    },
    {
      "epoch": 0.98745,
      "grad_norm": 0.625,
      "learning_rate": 3.78391959798995e-05,
      "loss": 2.0605,
      "step": 197490
    },
    {
      "epoch": 0.9875,
      "grad_norm": 0.56640625,
      "learning_rate": 3.768844221105528e-05,
      "loss": 2.1428,
      "step": 197500
    },
    {
      "epoch": 0.98755,
      "grad_norm": 0.64453125,
      "learning_rate": 3.753768844221106e-05,
      "loss": 2.0525,
      "step": 197510
    },
    {
      "epoch": 0.9876,
      "grad_norm": 0.56640625,
      "learning_rate": 3.738693467336684e-05,
      "loss": 2.1204,
      "step": 197520
    },
    {
      "epoch": 0.98765,
      "grad_norm": 0.58984375,
      "learning_rate": 3.723618090452262e-05,
      "loss": 2.0803,
      "step": 197530
    },
    {
      "epoch": 0.9877,
      "grad_norm": 0.61328125,
      "learning_rate": 3.70854271356784e-05,
      "loss": 2.0269,
      "step": 197540
    },
    {
      "epoch": 0.98775,
      "grad_norm": 0.55078125,
      "learning_rate": 3.693467336683417e-05,
      "loss": 2.0717,
      "step": 197550
    },
    {
      "epoch": 0.9878,
      "grad_norm": 0.625,
      "learning_rate": 3.678391959798995e-05,
      "loss": 2.0596,
      "step": 197560
    },
    {
      "epoch": 0.98785,
      "grad_norm": 0.5625,
      "learning_rate": 3.663316582914573e-05,
      "loss": 2.0916,
      "step": 197570
    },
    {
      "epoch": 0.9879,
      "grad_norm": 0.68359375,
      "learning_rate": 3.64824120603015e-05,
      "loss": 2.1083,
      "step": 197580
    },
    {
      "epoch": 0.98795,
      "grad_norm": 0.62890625,
      "learning_rate": 3.633165829145728e-05,
      "loss": 2.0566,
      "step": 197590
    },
    {
      "epoch": 0.988,
      "grad_norm": 0.65625,
      "learning_rate": 3.618090452261306e-05,
      "loss": 2.1027,
      "step": 197600
    },
    {
      "epoch": 0.98805,
      "grad_norm": 0.59375,
      "learning_rate": 3.603015075376884e-05,
      "loss": 2.0705,
      "step": 197610
    },
    {
      "epoch": 0.9881,
      "grad_norm": 0.58984375,
      "learning_rate": 3.587939698492462e-05,
      "loss": 2.1186,
      "step": 197620
    },
    {
      "epoch": 0.98815,
      "grad_norm": 0.65625,
      "learning_rate": 3.57286432160804e-05,
      "loss": 2.0659,
      "step": 197630
    },
    {
      "epoch": 0.9882,
      "grad_norm": 0.66796875,
      "learning_rate": 3.557788944723618e-05,
      "loss": 2.0765,
      "step": 197640
    },
    {
      "epoch": 0.98825,
      "grad_norm": 0.56640625,
      "learning_rate": 3.542713567839196e-05,
      "loss": 2.0738,
      "step": 197650
    },
    {
      "epoch": 0.9883,
      "grad_norm": 0.6953125,
      "learning_rate": 3.527638190954774e-05,
      "loss": 2.0617,
      "step": 197660
    },
    {
      "epoch": 0.98835,
      "grad_norm": 0.59375,
      "learning_rate": 3.512562814070352e-05,
      "loss": 2.135,
      "step": 197670
    },
    {
      "epoch": 0.9884,
      "grad_norm": 0.6640625,
      "learning_rate": 3.49748743718593e-05,
      "loss": 2.1217,
      "step": 197680
    },
    {
      "epoch": 0.98845,
      "grad_norm": 0.62890625,
      "learning_rate": 3.482412060301507e-05,
      "loss": 2.014,
      "step": 197690
    },
    {
      "epoch": 0.9885,
      "grad_norm": 0.65625,
      "learning_rate": 3.467336683417085e-05,
      "loss": 2.0521,
      "step": 197700
    },
    {
      "epoch": 0.98855,
      "grad_norm": 0.55859375,
      "learning_rate": 3.452261306532663e-05,
      "loss": 2.0853,
      "step": 197710
    },
    {
      "epoch": 0.9886,
      "grad_norm": 0.6484375,
      "learning_rate": 3.437185929648241e-05,
      "loss": 2.0589,
      "step": 197720
    },
    {
      "epoch": 0.98865,
      "grad_norm": 0.51171875,
      "learning_rate": 3.422110552763819e-05,
      "loss": 2.0451,
      "step": 197730
    },
    {
      "epoch": 0.9887,
      "grad_norm": 0.58984375,
      "learning_rate": 3.407035175879397e-05,
      "loss": 2.0725,
      "step": 197740
    },
    {
      "epoch": 0.98875,
      "grad_norm": 0.5625,
      "learning_rate": 3.391959798994975e-05,
      "loss": 2.1039,
      "step": 197750
    },
    {
      "epoch": 0.9888,
      "grad_norm": 0.6484375,
      "learning_rate": 3.376884422110553e-05,
      "loss": 2.0467,
      "step": 197760
    },
    {
      "epoch": 0.98885,
      "grad_norm": 0.5703125,
      "learning_rate": 3.361809045226131e-05,
      "loss": 2.0925,
      "step": 197770
    },
    {
      "epoch": 0.9889,
      "grad_norm": 0.5703125,
      "learning_rate": 3.346733668341709e-05,
      "loss": 2.0718,
      "step": 197780
    },
    {
      "epoch": 0.98895,
      "grad_norm": 0.55859375,
      "learning_rate": 3.3316582914572864e-05,
      "loss": 2.0313,
      "step": 197790
    },
    {
      "epoch": 0.989,
      "grad_norm": 0.66015625,
      "learning_rate": 3.3165829145728643e-05,
      "loss": 2.0885,
      "step": 197800
    },
    {
      "epoch": 0.98905,
      "grad_norm": 0.578125,
      "learning_rate": 3.301507537688442e-05,
      "loss": 2.0223,
      "step": 197810
    },
    {
      "epoch": 0.9891,
      "grad_norm": 0.6484375,
      "learning_rate": 3.28643216080402e-05,
      "loss": 2.0722,
      "step": 197820
    },
    {
      "epoch": 0.98915,
      "grad_norm": 0.63671875,
      "learning_rate": 3.271356783919598e-05,
      "loss": 2.009,
      "step": 197830
    },
    {
      "epoch": 0.9892,
      "grad_norm": 0.56640625,
      "learning_rate": 3.2562814070351756e-05,
      "loss": 2.0642,
      "step": 197840
    },
    {
      "epoch": 0.98925,
      "grad_norm": 0.55078125,
      "learning_rate": 3.2412060301507535e-05,
      "loss": 2.0428,
      "step": 197850
    },
    {
      "epoch": 0.9893,
      "grad_norm": 0.6484375,
      "learning_rate": 3.2261306532663315e-05,
      "loss": 2.0732,
      "step": 197860
    },
    {
      "epoch": 0.98935,
      "grad_norm": 0.5625,
      "learning_rate": 3.2110552763819095e-05,
      "loss": 2.0989,
      "step": 197870
    },
    {
      "epoch": 0.9894,
      "grad_norm": 0.62890625,
      "learning_rate": 3.1959798994974875e-05,
      "loss": 2.0533,
      "step": 197880
    },
    {
      "epoch": 0.98945,
      "grad_norm": 0.68359375,
      "learning_rate": 3.1809045226130654e-05,
      "loss": 2.0705,
      "step": 197890
    },
    {
      "epoch": 0.9895,
      "grad_norm": 0.6328125,
      "learning_rate": 3.1658291457286434e-05,
      "loss": 2.0934,
      "step": 197900
    },
    {
      "epoch": 0.98955,
      "grad_norm": 0.625,
      "learning_rate": 3.1507537688442214e-05,
      "loss": 2.0492,
      "step": 197910
    },
    {
      "epoch": 0.9896,
      "grad_norm": 0.6484375,
      "learning_rate": 3.135678391959799e-05,
      "loss": 2.146,
      "step": 197920
    },
    {
      "epoch": 0.98965,
      "grad_norm": 0.66796875,
      "learning_rate": 3.1206030150753766e-05,
      "loss": 2.0374,
      "step": 197930
    },
    {
      "epoch": 0.9897,
      "grad_norm": 0.6015625,
      "learning_rate": 3.1055276381909546e-05,
      "loss": 2.1278,
      "step": 197940
    },
    {
      "epoch": 0.98975,
      "grad_norm": 0.59375,
      "learning_rate": 3.0904522613065326e-05,
      "loss": 2.0381,
      "step": 197950
    },
    {
      "epoch": 0.9898,
      "grad_norm": 0.63671875,
      "learning_rate": 3.0753768844221106e-05,
      "loss": 2.0183,
      "step": 197960
    },
    {
      "epoch": 0.98985,
      "grad_norm": 0.6171875,
      "learning_rate": 3.0603015075376885e-05,
      "loss": 2.0817,
      "step": 197970
    },
    {
      "epoch": 0.9899,
      "grad_norm": 0.65625,
      "learning_rate": 3.0452261306532665e-05,
      "loss": 2.0401,
      "step": 197980
    },
    {
      "epoch": 0.98995,
      "grad_norm": 0.66015625,
      "learning_rate": 3.0301507537688445e-05,
      "loss": 2.1242,
      "step": 197990
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.625,
      "learning_rate": 3.015075376884422e-05,
      "loss": 2.1155,
      "step": 198000
    },
    {
      "epoch": 0.99,
      "eval_loss": 2.078287124633789,
      "eval_runtime": 47.1401,
      "eval_samples_per_second": 53.033,
      "eval_steps_per_second": 0.106,
      "step": 198000
    }
  ],
  "logging_steps": 10,
  "max_steps": 200000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 5.236496564591002e+18,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}