End of training

Browse files

Files changed (4) hide show

README.md +33 -47
all_results.json +5 -16
train_results.json +5 -5
trainer_state.json +189 -399

README.md CHANGED Viewed

@@ -20,8 +20,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the mbe dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7827
-- Accuracy: 0.5493
 ## Model description
@@ -49,56 +49,42 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.03
-- num_epochs: 3.0
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 1.5293        | 0.07  | 10   | 0.6504          | 0.3520   |
-| 0.6652        | 0.13  | 20   | 0.6469          | 0.3783   |
-| 0.6523        | 0.2   | 30   | 0.6430          | 0.3651   |
-| 0.613         | 0.27  | 40   | 0.6341          | 0.4079   |
-| 0.6586        | 0.33  | 50   | 0.6206          | 0.3882   |
-| 0.586         | 0.4   | 60   | 0.6269          | 0.4178   |
-| 0.594         | 0.47  | 70   | 0.6046          | 0.4276   |
-| 0.6063        | 0.53  | 80   | 0.6135          | 0.4178   |
-| 0.5988        | 0.6   | 90   | 0.6097          | 0.4276   |
-| 0.6217        | 0.67  | 100  | 0.6098          | 0.4539   |
-| 0.5817        | 0.73  | 110  | 0.6022          | 0.4539   |
-| 0.6219        | 0.8   | 120  | 0.5926          | 0.4572   |
-| 0.559         | 0.87  | 130  | 0.5816          | 0.4605   |
-| 0.5514        | 0.93  | 140  | 0.5783          | 0.4737   |
-| 0.59          | 1.0   | 150  | 0.5622          | 0.4868   |
-| 0.46          | 1.07  | 160  | 0.5868          | 0.4803   |
-| 0.4484        | 1.14  | 170  | 0.5667          | 0.4868   |
-| 0.4162        | 1.2   | 180  | 0.5820          | 0.4803   |
-| 0.4716        | 1.27  | 190  | 0.5904          | 0.4638   |
-| 0.4486        | 1.34  | 200  | 0.5777          | 0.5099   |
-| 0.4264        | 1.4   | 210  | 0.6482          | 0.4967   |
-| 0.4236        | 1.47  | 220  | 0.5741          | 0.5033   |
-| 0.4141        | 1.54  | 230  | 0.5608          | 0.5164   |
-| 0.4308        | 1.6   | 240  | 0.5539          | 0.5099   |
-| 0.4505        | 1.67  | 250  | 0.5495          | 0.5033   |
-| 0.3958        | 1.74  | 260  | 0.5594          | 0.5099   |
-| 0.4432        | 1.8   | 270  | 0.5492          | 0.5164   |
-| 0.4067        | 1.87  | 280  | 0.6024          | 0.5066   |
-| 0.3988        | 1.94  | 290  | 0.5607          | 0.5099   |
-| 0.3992        | 2.0   | 300  | 0.5670          | 0.5164   |
-| 0.2304        | 2.07  | 310  | 0.8200          | 0.5362   |
-| 0.1696        | 2.14  | 320  | 0.9087          | 0.5296   |
-| 0.2255        | 2.2   | 330  | 0.7566          | 0.5362   |
-| 0.1923        | 2.27  | 340  | 0.7020          | 0.5197   |
-| 0.281         | 2.34  | 350  | 0.6653          | 0.5033   |
-| 0.2311        | 2.4   | 360  | 0.6412          | 0.5132   |
-| 0.1523        | 2.47  | 370  | 0.8846          | 0.5230   |
-| 0.2451        | 2.54  | 380  | 0.9252          | 0.5164   |
-| 0.2022        | 2.6   | 390  | 0.7422          | 0.5197   |
-| 0.217         | 2.67  | 400  | 0.7558          | 0.5329   |
-| 0.165         | 2.74  | 410  | 0.7846          | 0.5428   |
-| 0.2025        | 2.8   | 420  | 0.7254          | 0.5230   |
-| 0.2201        | 2.87  | 430  | 0.6531          | 0.5296   |
-| 0.2037        | 2.94  | 440  | 0.7827          | 0.5493   |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the mbe dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5616
+- Accuracy: 0.5362
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.03
+- training_steps: 300
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 1.5245        | 0.07  | 10   | 0.6507          | 0.3355   |
+| 0.6666        | 0.13  | 20   | 0.6464          | 0.3816   |
+| 0.6527        | 0.2   | 30   | 0.6427          | 0.3684   |
+| 0.6168        | 0.27  | 40   | 0.6321          | 0.3980   |
+| 0.6584        | 0.33  | 50   | 0.6182          | 0.3914   |
+| 0.586         | 0.4   | 60   | 0.6244          | 0.4145   |
+| 0.5924        | 0.47  | 70   | 0.6034          | 0.4342   |
+| 0.6069        | 0.53  | 80   | 0.6096          | 0.4375   |
+| 0.5999        | 0.6   | 90   | 0.6096          | 0.4408   |
+| 0.6206        | 0.67  | 100  | 0.6070          | 0.4572   |
+| 0.5793        | 0.73  | 110  | 0.6016          | 0.4572   |
+| 0.6208        | 0.8   | 120  | 0.5902          | 0.4605   |
+| 0.5622        | 0.87  | 130  | 0.5775          | 0.4770   |
+| 0.5502        | 0.93  | 140  | 0.5761          | 0.4671   |
+| 0.5958        | 1.0   | 150  | 0.5606          | 0.4901   |
+| 0.4558        | 1.07  | 160  | 0.5840          | 0.4737   |
+| 0.4411        | 1.14  | 170  | 0.5631          | 0.4901   |
+| 0.4144        | 1.2   | 180  | 0.5745          | 0.5      |
+| 0.4647        | 1.27  | 190  | 0.5932          | 0.4605   |
+| 0.4504        | 1.34  | 200  | 0.5799          | 0.5099   |
+| 0.4299        | 1.4   | 210  | 0.6488          | 0.4934   |
+| 0.425         | 1.47  | 220  | 0.5704          | 0.5132   |
+| 0.4152        | 1.54  | 230  | 0.5582          | 0.5066   |
+| 0.425         | 1.6   | 240  | 0.5489          | 0.5329   |
+| 0.446         | 1.67  | 250  | 0.5479          | 0.5197   |
+| 0.3908        | 1.74  | 260  | 0.5564          | 0.5164   |
+| 0.443         | 1.8   | 270  | 0.5419          | 0.5033   |
+| 0.4081        | 1.87  | 280  | 0.5948          | 0.5066   |
+| 0.3944        | 1.94  | 290  | 0.5547          | 0.5395   |
+| 0.4005        | 2.0   | 300  | 0.5616          | 0.5362   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,18 +1,7 @@
 {
-    "epoch": 2.98,
-    "eval_accuracy": 0.8141509433962264,
-    "eval_f1_macro": 0.7097996478763092,
-    "eval_f1_micro": 0.8141509433962264,
-    "eval_loss": 1.1632015705108643,
-    "eval_precision_macro": 0.7222302630120379,
-    "eval_precision_micro": 0.8141509433962264,
-    "eval_recall_macro": 0.7125706602249756,
-    "eval_recall_micro": 0.8141509433962264,
-    "eval_runtime": 19.7133,
-    "eval_samples_per_second": 25.009,
-    "eval_steps_per_second": 1.573,
-    "train_loss": 0.43748926956381573,
-    "train_runtime": 1886.9121,
-    "train_samples_per_second": 3.809,
-    "train_steps_per_second": 0.237
 }

 {
+    "epoch": 2.0,
+    "train_loss": 0.5479170862833659,
+    "train_runtime": 1462.1781,
+    "train_samples_per_second": 3.283,
+    "train_steps_per_second": 0.205
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 2.98,
-    "train_loss": 0.43748926956381573,
-    "train_runtime": 1886.9121,
-    "train_samples_per_second": 3.809,
-    "train_steps_per_second": 0.237
 }

 {
+    "epoch": 2.0,
+    "train_loss": 0.5479170862833659,
+    "train_runtime": 1462.1781,
+    "train_samples_per_second": 3.283,
+    "train_steps_per_second": 0.205
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.984974958263773,
   "eval_steps": 10,
-  "global_step": 447,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,76 +11,76 @@
     {
       "epoch": 0.07,
       "learning_rate": 3e-05,
-      "loss": 1.5293,
       "step": 10
     },
     {
       "epoch": 0.07,
-      "eval_accuracy": 0.3519736842105263,
-      "eval_loss": 0.6503910422325134,
-      "eval_runtime": 16.3619,
-      "eval_samples_per_second": 18.58,
-      "eval_steps_per_second": 4.645,
       "step": 10
     },
     {
       "epoch": 0.13,
       "learning_rate": 3e-05,
-      "loss": 0.6652,
       "step": 20
     },
     {
       "epoch": 0.13,
-      "eval_accuracy": 0.3782894736842105,
-      "eval_loss": 0.6469289660453796,
-      "eval_runtime": 16.3596,
-      "eval_samples_per_second": 18.582,
-      "eval_steps_per_second": 4.646,
       "step": 20
     },
     {
       "epoch": 0.2,
       "learning_rate": 3e-05,
-      "loss": 0.6523,
       "step": 30
     },
     {
       "epoch": 0.2,
-      "eval_accuracy": 0.3651315789473684,
-      "eval_loss": 0.6429744362831116,
-      "eval_runtime": 16.3534,
-      "eval_samples_per_second": 18.589,
-      "eval_steps_per_second": 4.647,
       "step": 30
     },
     {
       "epoch": 0.27,
       "learning_rate": 3e-05,
-      "loss": 0.613,
       "step": 40
     },
     {
       "epoch": 0.27,
-      "eval_accuracy": 0.40789473684210525,
-      "eval_loss": 0.6341487765312195,
-      "eval_runtime": 16.4446,
-      "eval_samples_per_second": 18.486,
-      "eval_steps_per_second": 4.622,
       "step": 40
     },
     {
       "epoch": 0.33,
       "learning_rate": 3e-05,
-      "loss": 0.6586,
       "step": 50
     },
     {
       "epoch": 0.33,
-      "eval_accuracy": 0.3881578947368421,
-      "eval_loss": 0.6206462979316711,
-      "eval_runtime": 16.366,
-      "eval_samples_per_second": 18.575,
-      "eval_steps_per_second": 4.644,
       "step": 50
     },
     {
@@ -91,599 +91,389 @@
     },
     {
       "epoch": 0.4,
-      "eval_accuracy": 0.41776315789473684,
-      "eval_loss": 0.6268599033355713,
-      "eval_runtime": 16.3556,
-      "eval_samples_per_second": 18.587,
-      "eval_steps_per_second": 4.647,
       "step": 60
     },
     {
       "epoch": 0.47,
       "learning_rate": 3e-05,
-      "loss": 0.594,
       "step": 70
     },
     {
       "epoch": 0.47,
-      "eval_accuracy": 0.4276315789473684,
-      "eval_loss": 0.6045505404472351,
-      "eval_runtime": 16.3658,
-      "eval_samples_per_second": 18.575,
-      "eval_steps_per_second": 4.644,
       "step": 70
     },
     {
       "epoch": 0.53,
       "learning_rate": 3e-05,
-      "loss": 0.6063,
       "step": 80
     },
     {
       "epoch": 0.53,
-      "eval_accuracy": 0.41776315789473684,
-      "eval_loss": 0.6135305762290955,
-      "eval_runtime": 16.3648,
-      "eval_samples_per_second": 18.576,
-      "eval_steps_per_second": 4.644,
       "step": 80
     },
     {
       "epoch": 0.6,
       "learning_rate": 3e-05,
-      "loss": 0.5988,
       "step": 90
     },
     {
       "epoch": 0.6,
-      "eval_accuracy": 0.4276315789473684,
-      "eval_loss": 0.6097424626350403,
-      "eval_runtime": 16.3755,
-      "eval_samples_per_second": 18.564,
-      "eval_steps_per_second": 4.641,
       "step": 90
     },
     {
       "epoch": 0.67,
       "learning_rate": 3e-05,
-      "loss": 0.6217,
       "step": 100
     },
     {
       "epoch": 0.67,
-      "eval_accuracy": 0.45394736842105265,
-      "eval_loss": 0.6098220348358154,
-      "eval_runtime": 16.3674,
-      "eval_samples_per_second": 18.574,
-      "eval_steps_per_second": 4.643,
       "step": 100
     },
     {
       "epoch": 0.73,
       "learning_rate": 3e-05,
-      "loss": 0.5817,
       "step": 110
     },
     {
       "epoch": 0.73,
-      "eval_accuracy": 0.45394736842105265,
-      "eval_loss": 0.6021943092346191,
-      "eval_runtime": 16.3678,
-      "eval_samples_per_second": 18.573,
-      "eval_steps_per_second": 4.643,
       "step": 110
     },
     {
       "epoch": 0.8,
       "learning_rate": 3e-05,
-      "loss": 0.6219,
       "step": 120
     },
     {
       "epoch": 0.8,
-      "eval_accuracy": 0.45723684210526316,
-      "eval_loss": 0.5926041007041931,
-      "eval_runtime": 16.3627,
-      "eval_samples_per_second": 18.579,
-      "eval_steps_per_second": 4.645,
       "step": 120
     },
     {
       "epoch": 0.87,
       "learning_rate": 3e-05,
-      "loss": 0.559,
       "step": 130
     },
     {
       "epoch": 0.87,
-      "eval_accuracy": 0.4605263157894737,
-      "eval_loss": 0.5816267728805542,
-      "eval_runtime": 16.3673,
-      "eval_samples_per_second": 18.574,
-      "eval_steps_per_second": 4.643,
       "step": 130
     },
     {
       "epoch": 0.93,
       "learning_rate": 3e-05,
-      "loss": 0.5514,
       "step": 140
     },
     {
       "epoch": 0.93,
-      "eval_accuracy": 0.47368421052631576,
-      "eval_loss": 0.5783373713493347,
-      "eval_runtime": 16.368,
-      "eval_samples_per_second": 18.573,
-      "eval_steps_per_second": 4.643,
       "step": 140
     },
     {
       "epoch": 1.0,
       "learning_rate": 3e-05,
-      "loss": 0.59,
       "step": 150
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.4868421052631579,
-      "eval_loss": 0.5621668100357056,
-      "eval_runtime": 16.3648,
-      "eval_samples_per_second": 18.576,
-      "eval_steps_per_second": 4.644,
       "step": 150
     },
     {
       "epoch": 1.07,
       "learning_rate": 3e-05,
-      "loss": 0.46,
       "step": 160
     },
     {
       "epoch": 1.07,
-      "eval_accuracy": 0.48026315789473684,
-      "eval_loss": 0.5867581367492676,
-      "eval_runtime": 16.3579,
-      "eval_samples_per_second": 18.584,
-      "eval_steps_per_second": 4.646,
       "step": 160
     },
     {
       "epoch": 1.14,
       "learning_rate": 3e-05,
-      "loss": 0.4484,
       "step": 170
     },
     {
       "epoch": 1.14,
-      "eval_accuracy": 0.4868421052631579,
-      "eval_loss": 0.5666611194610596,
-      "eval_runtime": 16.3613,
-      "eval_samples_per_second": 18.58,
-      "eval_steps_per_second": 4.645,
       "step": 170
     },
     {
       "epoch": 1.2,
       "learning_rate": 3e-05,
-      "loss": 0.4162,
       "step": 180
     },
     {
       "epoch": 1.2,
-      "eval_accuracy": 0.48026315789473684,
-      "eval_loss": 0.5819750428199768,
-      "eval_runtime": 16.3725,
-      "eval_samples_per_second": 18.568,
-      "eval_steps_per_second": 4.642,
       "step": 180
     },
     {
       "epoch": 1.27,
       "learning_rate": 3e-05,
-      "loss": 0.4716,
       "step": 190
     },
     {
       "epoch": 1.27,
-      "eval_accuracy": 0.46381578947368424,
-      "eval_loss": 0.590432345867157,
-      "eval_runtime": 16.361,
-      "eval_samples_per_second": 18.581,
-      "eval_steps_per_second": 4.645,
       "step": 190
     },
     {
       "epoch": 1.34,
       "learning_rate": 3e-05,
-      "loss": 0.4486,
       "step": 200
     },
     {
       "epoch": 1.34,
       "eval_accuracy": 0.5098684210526315,
-      "eval_loss": 0.5777420997619629,
-      "eval_runtime": 16.354,
-      "eval_samples_per_second": 18.589,
-      "eval_steps_per_second": 4.647,
       "step": 200
     },
     {
       "epoch": 1.4,
       "learning_rate": 3e-05,
-      "loss": 0.4264,
       "step": 210
     },
     {
       "epoch": 1.4,
-      "eval_accuracy": 0.4967105263157895,
-      "eval_loss": 0.6482496857643127,
-      "eval_runtime": 16.3696,
-      "eval_samples_per_second": 18.571,
-      "eval_steps_per_second": 4.643,
       "step": 210
     },
     {
       "epoch": 1.47,
       "learning_rate": 3e-05,
-      "loss": 0.4236,
       "step": 220
     },
     {
       "epoch": 1.47,
-      "eval_accuracy": 0.5032894736842105,
-      "eval_loss": 0.5741015076637268,
-      "eval_runtime": 16.3648,
-      "eval_samples_per_second": 18.576,
-      "eval_steps_per_second": 4.644,
       "step": 220
     },
     {
       "epoch": 1.54,
       "learning_rate": 3e-05,
-      "loss": 0.4141,
       "step": 230
     },
     {
       "epoch": 1.54,
-      "eval_accuracy": 0.5164473684210527,
-      "eval_loss": 0.5607666373252869,
-      "eval_runtime": 16.3604,
-      "eval_samples_per_second": 18.581,
-      "eval_steps_per_second": 4.645,
       "step": 230
     },
     {
       "epoch": 1.6,
       "learning_rate": 3e-05,
-      "loss": 0.4308,
       "step": 240
     },
     {
       "epoch": 1.6,
-      "eval_accuracy": 0.5098684210526315,
-      "eval_loss": 0.5539161562919617,
-      "eval_runtime": 16.3597,
-      "eval_samples_per_second": 18.582,
-      "eval_steps_per_second": 4.646,
       "step": 240
     },
     {
       "epoch": 1.67,
       "learning_rate": 3e-05,
-      "loss": 0.4505,
       "step": 250
     },
     {
       "epoch": 1.67,
-      "eval_accuracy": 0.5032894736842105,
-      "eval_loss": 0.5494562387466431,
-      "eval_runtime": 16.3671,
-      "eval_samples_per_second": 18.574,
-      "eval_steps_per_second": 4.643,
       "step": 250
     },
     {
       "epoch": 1.74,
       "learning_rate": 3e-05,
-      "loss": 0.3958,
       "step": 260
     },
     {
       "epoch": 1.74,
-      "eval_accuracy": 0.5098684210526315,
-      "eval_loss": 0.5593812465667725,
-      "eval_runtime": 16.3598,
-      "eval_samples_per_second": 18.582,
-      "eval_steps_per_second": 4.646,
       "step": 260
     },
     {
       "epoch": 1.8,
       "learning_rate": 3e-05,
-      "loss": 0.4432,
       "step": 270
     },
     {
       "epoch": 1.8,
-      "eval_accuracy": 0.5164473684210527,
-      "eval_loss": 0.5492013096809387,
-      "eval_runtime": 16.3635,
-      "eval_samples_per_second": 18.578,
-      "eval_steps_per_second": 4.644,
       "step": 270
     },
     {
       "epoch": 1.87,
       "learning_rate": 3e-05,
-      "loss": 0.4067,
       "step": 280
     },
     {
       "epoch": 1.87,
       "eval_accuracy": 0.506578947368421,
-      "eval_loss": 0.6023809313774109,
-      "eval_runtime": 16.3658,
-      "eval_samples_per_second": 18.575,
-      "eval_steps_per_second": 4.644,
       "step": 280
     },
     {
       "epoch": 1.94,
       "learning_rate": 3e-05,
-      "loss": 0.3988,
       "step": 290
     },
     {
       "epoch": 1.94,
-      "eval_accuracy": 0.5098684210526315,
-      "eval_loss": 0.5606762766838074,
-      "eval_runtime": 16.3642,
-      "eval_samples_per_second": 18.577,
-      "eval_steps_per_second": 4.644,
       "step": 290
     },
     {
       "epoch": 2.0,
       "learning_rate": 3e-05,
-      "loss": 0.3992,
       "step": 300
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5164473684210527,
-      "eval_loss": 0.5669550895690918,
-      "eval_runtime": 16.3688,
-      "eval_samples_per_second": 18.572,
-      "eval_steps_per_second": 4.643,
-      "step": 300
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 3e-05,
-      "loss": 0.2304,
-      "step": 310
-    },
-    {
-      "epoch": 2.07,
-      "eval_accuracy": 0.5361842105263158,
-      "eval_loss": 0.8199814558029175,
-      "eval_runtime": 16.3644,
-      "eval_samples_per_second": 18.577,
-      "eval_steps_per_second": 4.644,
-      "step": 310
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 3e-05,
-      "loss": 0.1696,
-      "step": 320
-    },
-    {
-      "epoch": 2.14,
-      "eval_accuracy": 0.5296052631578947,
-      "eval_loss": 0.9087279438972473,
-      "eval_runtime": 16.362,
-      "eval_samples_per_second": 18.58,
-      "eval_steps_per_second": 4.645,
-      "step": 320
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 3e-05,
-      "loss": 0.2255,
-      "step": 330
-    },
-    {
-      "epoch": 2.2,
       "eval_accuracy": 0.5361842105263158,
-      "eval_loss": 0.7565640211105347,
-      "eval_runtime": 16.3681,
-      "eval_samples_per_second": 18.573,
-      "eval_steps_per_second": 4.643,
-      "step": 330
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 3e-05,
-      "loss": 0.1923,
-      "step": 340
-    },
-    {
-      "epoch": 2.27,
-      "eval_accuracy": 0.5197368421052632,
-      "eval_loss": 0.701989471912384,
-      "eval_runtime": 16.3692,
-      "eval_samples_per_second": 18.571,
-      "eval_steps_per_second": 4.643,
-      "step": 340
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 3e-05,
-      "loss": 0.281,
-      "step": 350
-    },
-    {
-      "epoch": 2.34,
-      "eval_accuracy": 0.5032894736842105,
-      "eval_loss": 0.6653422117233276,
-      "eval_runtime": 16.3703,
-      "eval_samples_per_second": 18.57,
-      "eval_steps_per_second": 4.643,
-      "step": 350
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 3e-05,
-      "loss": 0.2311,
-      "step": 360
-    },
-    {
-      "epoch": 2.4,
-      "eval_accuracy": 0.5131578947368421,
-      "eval_loss": 0.6411683559417725,
-      "eval_runtime": 16.3702,
-      "eval_samples_per_second": 18.57,
-      "eval_steps_per_second": 4.643,
-      "step": 360
-    },
-    {
-      "epoch": 2.47,
-      "learning_rate": 3e-05,
-      "loss": 0.1523,
-      "step": 370
-    },
-    {
-      "epoch": 2.47,
-      "eval_accuracy": 0.5230263157894737,
-      "eval_loss": 0.8846220970153809,
-      "eval_runtime": 16.3728,
-      "eval_samples_per_second": 18.567,
-      "eval_steps_per_second": 4.642,
-      "step": 370
-    },
-    {
-      "epoch": 2.54,
-      "learning_rate": 3e-05,
-      "loss": 0.2451,
-      "step": 380
-    },
-    {
-      "epoch": 2.54,
-      "eval_accuracy": 0.5164473684210527,
-      "eval_loss": 0.9251819252967834,
-      "eval_runtime": 16.379,
-      "eval_samples_per_second": 18.56,
-      "eval_steps_per_second": 4.64,
-      "step": 380
-    },
-    {
-      "epoch": 2.6,
-      "learning_rate": 3e-05,
-      "loss": 0.2022,
-      "step": 390
-    },
-    {
-      "epoch": 2.6,
-      "eval_accuracy": 0.5197368421052632,
-      "eval_loss": 0.7422206401824951,
-      "eval_runtime": 16.3727,
-      "eval_samples_per_second": 18.567,
-      "eval_steps_per_second": 4.642,
-      "step": 390
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 3e-05,
-      "loss": 0.217,
-      "step": 400
-    },
-    {
-      "epoch": 2.67,
-      "eval_accuracy": 0.5328947368421053,
-      "eval_loss": 0.7557851076126099,
-      "eval_runtime": 16.3638,
-      "eval_samples_per_second": 18.578,
-      "eval_steps_per_second": 4.644,
-      "step": 400
-    },
-    {
-      "epoch": 2.74,
-      "learning_rate": 3e-05,
-      "loss": 0.165,
-      "step": 410
-    },
-    {
-      "epoch": 2.74,
-      "eval_accuracy": 0.5427631578947368,
-      "eval_loss": 0.7846018075942993,
-      "eval_runtime": 16.3674,
-      "eval_samples_per_second": 18.574,
-      "eval_steps_per_second": 4.643,
-      "step": 410
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 3e-05,
-      "loss": 0.2025,
-      "step": 420
-    },
-    {
-      "epoch": 2.8,
-      "eval_accuracy": 0.5230263157894737,
-      "eval_loss": 0.725389301776886,
-      "eval_runtime": 16.3775,
-      "eval_samples_per_second": 18.562,
-      "eval_steps_per_second": 4.641,
-      "step": 420
-    },
-    {
-      "epoch": 2.87,
-      "learning_rate": 3e-05,
-      "loss": 0.2201,
-      "step": 430
-    },
-    {
-      "epoch": 2.87,
-      "eval_accuracy": 0.5296052631578947,
-      "eval_loss": 0.6530900001525879,
-      "eval_runtime": 16.3694,
-      "eval_samples_per_second": 18.571,
-      "eval_steps_per_second": 4.643,
-      "step": 430
     },
     {
-      "epoch": 2.94,
-      "learning_rate": 3e-05,
-      "loss": 0.2037,
-      "step": 440
-    },
-    {
-      "epoch": 2.94,
-      "eval_accuracy": 0.5493421052631579,
-      "eval_loss": 0.7827179431915283,
-      "eval_runtime": 16.3682,
-      "eval_samples_per_second": 18.573,
-      "eval_steps_per_second": 4.643,
-      "step": 440
-    },
-    {
-      "epoch": 2.98,
-      "step": 447,
-      "total_flos": 1.09848374069035e+17,
-      "train_loss": 0.43748926956381573,
-      "train_runtime": 1886.9121,
-      "train_samples_per_second": 3.809,
-      "train_steps_per_second": 0.237
     }
   ],
   "logging_steps": 10,
-  "max_steps": 447,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
-  "save_steps": 250,
-  "total_flos": 1.09848374069035e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.003338898163606,
   "eval_steps": 10,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.07,
       "learning_rate": 3e-05,
+      "loss": 1.5245,
       "step": 10
     },
     {
       "epoch": 0.07,
+      "eval_accuracy": 0.3355263157894737,
+      "eval_loss": 0.6506821513175964,
+      "eval_runtime": 16.9243,
+      "eval_samples_per_second": 17.962,
+      "eval_steps_per_second": 4.491,
       "step": 10
     },
     {
       "epoch": 0.13,
       "learning_rate": 3e-05,
+      "loss": 0.6666,
       "step": 20
     },
     {
       "epoch": 0.13,
+      "eval_accuracy": 0.3815789473684211,
+      "eval_loss": 0.6464425325393677,
+      "eval_runtime": 16.9195,
+      "eval_samples_per_second": 17.967,
+      "eval_steps_per_second": 4.492,
       "step": 20
     },
     {
       "epoch": 0.2,
       "learning_rate": 3e-05,
+      "loss": 0.6527,
       "step": 30
     },
     {
       "epoch": 0.2,
+      "eval_accuracy": 0.3684210526315789,
+      "eval_loss": 0.6426967978477478,
+      "eval_runtime": 16.9282,
+      "eval_samples_per_second": 17.958,
+      "eval_steps_per_second": 4.49,
       "step": 30
     },
     {
       "epoch": 0.27,
       "learning_rate": 3e-05,
+      "loss": 0.6168,
       "step": 40
     },
     {
       "epoch": 0.27,
+      "eval_accuracy": 0.3980263157894737,
+      "eval_loss": 0.6321499943733215,
+      "eval_runtime": 17.0092,
+      "eval_samples_per_second": 17.873,
+      "eval_steps_per_second": 4.468,
       "step": 40
     },
     {
       "epoch": 0.33,
       "learning_rate": 3e-05,
+      "loss": 0.6584,
       "step": 50
     },
     {
       "epoch": 0.33,
+      "eval_accuracy": 0.39144736842105265,
+      "eval_loss": 0.6181844472885132,
+      "eval_runtime": 16.9419,
+      "eval_samples_per_second": 17.944,
+      "eval_steps_per_second": 4.486,
       "step": 50
     },
     {
     },
     {
       "epoch": 0.4,
+      "eval_accuracy": 0.4144736842105263,
+      "eval_loss": 0.6244160532951355,
+      "eval_runtime": 16.9269,
+      "eval_samples_per_second": 17.96,
+      "eval_steps_per_second": 4.49,
       "step": 60
     },
     {
       "epoch": 0.47,
       "learning_rate": 3e-05,
+      "loss": 0.5924,
       "step": 70
     },
     {
       "epoch": 0.47,
+      "eval_accuracy": 0.4342105263157895,
+      "eval_loss": 0.6033625602722168,
+      "eval_runtime": 16.9236,
+      "eval_samples_per_second": 17.963,
+      "eval_steps_per_second": 4.491,
       "step": 70
     },
     {
       "epoch": 0.53,
       "learning_rate": 3e-05,
+      "loss": 0.6069,
       "step": 80
     },
     {
       "epoch": 0.53,
+      "eval_accuracy": 0.4375,
+      "eval_loss": 0.6096391677856445,
+      "eval_runtime": 16.9238,
+      "eval_samples_per_second": 17.963,
+      "eval_steps_per_second": 4.491,
       "step": 80
     },
     {
       "epoch": 0.6,
       "learning_rate": 3e-05,
+      "loss": 0.5999,
       "step": 90
     },
     {
       "epoch": 0.6,
+      "eval_accuracy": 0.4407894736842105,
+      "eval_loss": 0.6095999479293823,
+      "eval_runtime": 16.9342,
+      "eval_samples_per_second": 17.952,
+      "eval_steps_per_second": 4.488,
       "step": 90
     },
     {
       "epoch": 0.67,
       "learning_rate": 3e-05,
+      "loss": 0.6206,
       "step": 100
     },
     {
       "epoch": 0.67,
+      "eval_accuracy": 0.45723684210526316,
+      "eval_loss": 0.607021152973175,
+      "eval_runtime": 16.9304,
+      "eval_samples_per_second": 17.956,
+      "eval_steps_per_second": 4.489,
       "step": 100
     },
     {
       "epoch": 0.73,
       "learning_rate": 3e-05,
+      "loss": 0.5793,
       "step": 110
     },
     {
       "epoch": 0.73,
+      "eval_accuracy": 0.45723684210526316,
+      "eval_loss": 0.601601243019104,
+      "eval_runtime": 16.9375,
+      "eval_samples_per_second": 17.948,
+      "eval_steps_per_second": 4.487,
       "step": 110
     },
     {
       "epoch": 0.8,
       "learning_rate": 3e-05,
+      "loss": 0.6208,
       "step": 120
     },
     {
       "epoch": 0.8,
+      "eval_accuracy": 0.4605263157894737,
+      "eval_loss": 0.5902404189109802,
+      "eval_runtime": 16.924,
+      "eval_samples_per_second": 17.963,
+      "eval_steps_per_second": 4.491,
       "step": 120
     },
     {
       "epoch": 0.87,
       "learning_rate": 3e-05,
+      "loss": 0.5622,
       "step": 130
     },
     {
       "epoch": 0.87,
+      "eval_accuracy": 0.4769736842105263,
+      "eval_loss": 0.5775408744812012,
+      "eval_runtime": 16.9329,
+      "eval_samples_per_second": 17.953,
+      "eval_steps_per_second": 4.488,
       "step": 130
     },
     {
       "epoch": 0.93,
       "learning_rate": 3e-05,
+      "loss": 0.5502,
       "step": 140
     },
     {
       "epoch": 0.93,
+      "eval_accuracy": 0.46710526315789475,
+      "eval_loss": 0.57607102394104,
+      "eval_runtime": 16.9226,
+      "eval_samples_per_second": 17.964,
+      "eval_steps_per_second": 4.491,
       "step": 140
     },
     {
       "epoch": 1.0,
       "learning_rate": 3e-05,
+      "loss": 0.5958,
       "step": 150
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4901315789473684,
+      "eval_loss": 0.5606401562690735,
+      "eval_runtime": 16.929,
+      "eval_samples_per_second": 17.957,
+      "eval_steps_per_second": 4.489,
       "step": 150
     },
     {
       "epoch": 1.07,
       "learning_rate": 3e-05,
+      "loss": 0.4558,
       "step": 160
     },
     {
       "epoch": 1.07,
+      "eval_accuracy": 0.47368421052631576,
+      "eval_loss": 0.5839833617210388,
+      "eval_runtime": 16.9304,
+      "eval_samples_per_second": 17.956,
+      "eval_steps_per_second": 4.489,
       "step": 160
     },
     {
       "epoch": 1.14,
       "learning_rate": 3e-05,
+      "loss": 0.4411,
       "step": 170
     },
     {
       "epoch": 1.14,
+      "eval_accuracy": 0.4901315789473684,
+      "eval_loss": 0.5631235837936401,
+      "eval_runtime": 16.9238,
+      "eval_samples_per_second": 17.963,
+      "eval_steps_per_second": 4.491,
       "step": 170
     },
     {
       "epoch": 1.2,
       "learning_rate": 3e-05,
+      "loss": 0.4144,
       "step": 180
     },
     {
       "epoch": 1.2,
+      "eval_accuracy": 0.5,
+      "eval_loss": 0.5744868516921997,
+      "eval_runtime": 16.9382,
+      "eval_samples_per_second": 17.948,
+      "eval_steps_per_second": 4.487,
       "step": 180
     },
     {
       "epoch": 1.27,
       "learning_rate": 3e-05,
+      "loss": 0.4647,
       "step": 190
     },
     {
       "epoch": 1.27,
+      "eval_accuracy": 0.4605263157894737,
+      "eval_loss": 0.593177080154419,
+      "eval_runtime": 16.932,
+      "eval_samples_per_second": 17.954,
+      "eval_steps_per_second": 4.489,
       "step": 190
     },
     {
       "epoch": 1.34,
       "learning_rate": 3e-05,
+      "loss": 0.4504,
       "step": 200
     },
     {
       "epoch": 1.34,
       "eval_accuracy": 0.5098684210526315,
+      "eval_loss": 0.5798581838607788,
+      "eval_runtime": 16.9337,
+      "eval_samples_per_second": 17.952,
+      "eval_steps_per_second": 4.488,
       "step": 200
     },
     {
       "epoch": 1.4,
       "learning_rate": 3e-05,
+      "loss": 0.4299,
       "step": 210
     },
     {
       "epoch": 1.4,
+      "eval_accuracy": 0.4934210526315789,
+      "eval_loss": 0.64882493019104,
+      "eval_runtime": 16.9391,
+      "eval_samples_per_second": 17.947,
+      "eval_steps_per_second": 4.487,
       "step": 210
     },
     {
       "epoch": 1.47,
       "learning_rate": 3e-05,
+      "loss": 0.425,
       "step": 220
     },
     {
       "epoch": 1.47,
+      "eval_accuracy": 0.5131578947368421,
+      "eval_loss": 0.5704348683357239,
+      "eval_runtime": 16.9325,
+      "eval_samples_per_second": 17.954,
+      "eval_steps_per_second": 4.488,
       "step": 220
     },
     {
       "epoch": 1.54,
       "learning_rate": 3e-05,
+      "loss": 0.4152,
       "step": 230
     },
     {
       "epoch": 1.54,
+      "eval_accuracy": 0.506578947368421,
+      "eval_loss": 0.5582014322280884,
+      "eval_runtime": 16.9258,
+      "eval_samples_per_second": 17.961,
+      "eval_steps_per_second": 4.49,
       "step": 230
     },
     {
       "epoch": 1.6,
       "learning_rate": 3e-05,
+      "loss": 0.425,
       "step": 240
     },
     {
       "epoch": 1.6,
+      "eval_accuracy": 0.5328947368421053,
+      "eval_loss": 0.5488855838775635,
+      "eval_runtime": 16.9288,
+      "eval_samples_per_second": 17.958,
+      "eval_steps_per_second": 4.489,
       "step": 240
     },
     {
       "epoch": 1.67,
       "learning_rate": 3e-05,
+      "loss": 0.446,
       "step": 250
     },
     {
       "epoch": 1.67,
+      "eval_accuracy": 0.5197368421052632,
+      "eval_loss": 0.5479023456573486,
+      "eval_runtime": 16.9319,
+      "eval_samples_per_second": 17.954,
+      "eval_steps_per_second": 4.489,
       "step": 250
     },
     {
       "epoch": 1.74,
       "learning_rate": 3e-05,
+      "loss": 0.3908,
       "step": 260
     },
     {
       "epoch": 1.74,
+      "eval_accuracy": 0.5164473684210527,
+      "eval_loss": 0.5564107894897461,
+      "eval_runtime": 16.9414,
+      "eval_samples_per_second": 17.944,
+      "eval_steps_per_second": 4.486,
       "step": 260
     },
     {
       "epoch": 1.8,
       "learning_rate": 3e-05,
+      "loss": 0.443,
       "step": 270
     },
     {
       "epoch": 1.8,
+      "eval_accuracy": 0.5032894736842105,
+      "eval_loss": 0.5418796539306641,
+      "eval_runtime": 16.9208,
+      "eval_samples_per_second": 17.966,
+      "eval_steps_per_second": 4.492,
       "step": 270
     },
     {
       "epoch": 1.87,
       "learning_rate": 3e-05,
+      "loss": 0.4081,
       "step": 280
     },
     {
       "epoch": 1.87,
       "eval_accuracy": 0.506578947368421,
+      "eval_loss": 0.5948407053947449,
+      "eval_runtime": 16.9289,
+      "eval_samples_per_second": 17.957,
+      "eval_steps_per_second": 4.489,
       "step": 280
     },
     {
       "epoch": 1.94,
       "learning_rate": 3e-05,
+      "loss": 0.3944,
       "step": 290
     },
     {
       "epoch": 1.94,
+      "eval_accuracy": 0.5394736842105263,
+      "eval_loss": 0.554680347442627,
+      "eval_runtime": 16.9311,
+      "eval_samples_per_second": 17.955,
+      "eval_steps_per_second": 4.489,
       "step": 290
     },
     {
       "epoch": 2.0,
       "learning_rate": 3e-05,
+      "loss": 0.4005,
       "step": 300
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.5361842105263158,
+      "eval_loss": 0.5615983009338379,
+      "eval_runtime": 16.9277,
+      "eval_samples_per_second": 17.959,
+      "eval_steps_per_second": 4.49,
+      "step": 300
     },
     {
+      "epoch": 2.0,
+      "step": 300,
+      "total_flos": 7.380159778455552e+16,
+      "train_loss": 0.5479170862833659,
+      "train_runtime": 1462.1781,
+      "train_samples_per_second": 3.283,
+      "train_steps_per_second": 0.205
     }
   ],
   "logging_steps": 10,
+  "max_steps": 300,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
+  "save_steps": 150,
+  "total_flos": 7.380159778455552e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null