Model save

Files changed (7) hide show

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [docketanalyzer/docket-lm-xs](https://huggingface.co/docketanalyzer/docket-lm-xs) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0635
-- F1: 0.9828
 ## Model description
@@ -37,27 +37,27 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 4
 - eval_batch_size: 16
 - seed: 42
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.02
-- num_epochs: 10
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
-| 0.0787        | 1.42  | 60   | 0.0636          | 0.9739 |
-| 0.0053        | 2.84  | 120  | 0.0489          | 0.9828 |
-| 0.0029        | 4.26  | 180  | 0.0556          | 0.9828 |
-| 0.0019        | 5.68  | 240  | 0.0636          | 0.9828 |
-| 0.0014        | 7.1   | 300  | 0.0638          | 0.9828 |
-| 0.0012        | 8.52  | 360  | 0.0635          | 0.9828 |
-| 0.0012        | 9.94  | 420  | 0.0635          | 0.9828 |
 ### Framework versions

 This model is a fine-tuned version of [docketanalyzer/docket-lm-xs](https://huggingface.co/docketanalyzer/docket-lm-xs) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0363
+- F1: 0.9892
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.02
+- num_epochs: 6
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
+| 0.0334        | 0.61  | 60   | 0.0383          | 0.9928 |
+| 0.0077        | 1.22  | 120  | 0.0542          | 0.9786 |
+| 0.004         | 1.84  | 180  | 0.0340          | 0.9892 |
+| 0.0031        | 2.45  | 240  | 0.1027          | 0.9716 |
+| 0.0019        | 3.06  | 300  | 0.0067          | 0.9964 |
+| 0.0036        | 3.67  | 360  | 0.0076          | 0.9964 |
+| 0.0019        | 4.29  | 420  | 0.0472          | 0.9856 |
+| 0.1193        | 4.9   | 480  | 0.0503          | 0.9856 |
+| 0.0014        | 5.51  | 540  | 0.0350          | 0.9892 |
 ### Framework versions

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "eval_loss": 0.063520148396492,
-    "eval_f1": 0.9827586206896551,
-    "eval_runtime": 0.5302,
-    "eval_samples_per_second": 316.883,
-    "eval_steps_per_second": 20.748,
-    "epoch": 9.94
 }

 {
+    "eval_loss": 0.03632596880197525,
+    "eval_f1": 0.9891696750902527,
+    "eval_runtime": 1.1875,
+    "eval_samples_per_second": 327.572,
+    "eval_steps_per_second": 21.052,
+    "epoch": 6.0
 }

logs/events.out.tfevents.1707484442.nathan.87297.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bc341721618039a513aedfa54e62d15982df221b2567c0bfea6aa490b85a79f
+size 53839

logs/events.out.tfevents.1707484559.nathan.87297.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3f63791ccaf27577d3176b5bd7b3e603645b4027d72189812e6316d693bdba2
+size 405

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:775b6e2366b5a83c4357af857e43e4c1b0ee2fcbd6ae05e572b0eea078d1bc9f
 size 283347432

 version https://git-lfs.github.com/spec/v1
+oid sha256:d95c53f7217430e4e71a07498ef8eb0b8bf6873166aceb1d54205cf5e1475a5a
 size 283347432

run_config.json CHANGED Viewed

@@ -4,10 +4,10 @@
         "max_length": 256
     },
     "training_args": {
-        "num_train_epochs": 10,
-        "per_device_train_batch_size": 4,
         "per_device_eval_batch_size": 16,
-        "gradient_accumulation_steps": 4,
         "learning_rate": 5e-05,
         "weight_decay": 0.1,
         "warmup_ratio": 0.02,

         "max_length": 256
     },
     "training_args": {
+        "num_train_epochs": 6,
+        "per_device_train_batch_size": 16,
         "per_device_eval_batch_size": 16,
+        "gradient_accumulation_steps": 1,
         "learning_rate": 5e-05,
         "weight_decay": 0.1,
         "warmup_ratio": 0.02,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f32359f205619e9ab451ce60f0473430ad675ed490d4afde3895b1223c970e56
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:257fe51d7cf53fa40026935e0b9ddc3ee3878866616085e360f7c39fa63f0239
 size 4664