Model save

Browse files

Files changed (10) hide show

README.md +36 -19
config.json +1 -1
eval_results.json +6 -6
logs/events.out.tfevents.1721409006.nathan.71286.4 +3 -0
logs/events.out.tfevents.1721410911.nathan.71286.5 +3 -0
model.safetensors +1 -1
run_config.json +8 -8
tokenizer.json +4 -4
tokenizer_config.json +0 -4
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,4 +1,5 @@
 ---
 base_model: docketanalyzer/docket-lm-xs
 tags:
 - generated_from_trainer
@@ -16,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [docketanalyzer/docket-lm-xs](https://huggingface.co/docketanalyzer/docket-lm-xs) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0212
-- F1: 0.9938
 ## Model description
@@ -37,32 +38,48 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- lr_scheduler_warmup_ratio: 0.02
-- num_epochs: 6
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | F1     |
-|:-------------:|:-----:|:----:|:---------------:|:------:|
-| 0.0301        | 0.61  | 60   | 0.0452          | 0.9847 |
-| 0.1998        | 1.22  | 120  | 0.0193          | 0.9969 |
-| 0.003         | 1.84  | 180  | 0.0187          | 0.9938 |
-| 0.0022        | 2.45  | 240  | 0.0159          | 0.9938 |
-| 0.1395        | 3.06  | 300  | 0.0303          | 0.9908 |
-| 0.0017        | 3.67  | 360  | 0.0253          | 0.9908 |
-| 0.0013        | 4.29  | 420  | 0.0249          | 0.9908 |
-| 0.001         | 4.9   | 480  | 0.0222          | 0.9908 |
-| 0.001         | 5.51  | 540  | 0.0211          | 0.9938 |
 ### Framework versions
-- Transformers 4.37.1
-- Pytorch 2.1.2+cu121
 - Datasets 2.14.4
-- Tokenizers 0.15.1

 ---
+license: apache-2.0
 base_model: docketanalyzer/docket-lm-xs
 tags:
 - generated_from_trainer
 This model is a fine-tuned version of [docketanalyzer/docket-lm-xs](https://huggingface.co/docketanalyzer/docket-lm-xs) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0230
+- F1: 0.9915
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 8
 - eval_batch_size: 16
 - seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss | F1     |
+|:-------------:|:------:|:----:|:---------------:|:------:|
+| 0.0112        | 0.0418 | 300  | 0.0576          | 0.9771 |
+| 0.0551        | 0.0836 | 600  | 0.0362          | 0.9857 |
+| 0.2331        | 0.1254 | 900  | 0.0354          | 0.9839 |
+| 0.0009        | 0.1672 | 1200 | 0.0396          | 0.9868 |
+| 0.005         | 0.2090 | 1500 | 0.0526          | 0.9867 |
+| 0.0948        | 0.2508 | 1800 | 0.0434          | 0.9865 |
+| 0.016         | 0.2926 | 2100 | 0.0297          | 0.9876 |
+| 0.0047        | 0.3344 | 2400 | 0.0394          | 0.9882 |
+| 0.0007        | 0.3763 | 2700 | 0.0422          | 0.9864 |
+| 0.0037        | 0.4181 | 3000 | 0.0248          | 0.9910 |
+| 0.002         | 0.4599 | 3300 | 0.0271          | 0.9909 |
+| 0.0005        | 0.5017 | 3600 | 0.0283          | 0.9902 |
+| 0.0155        | 0.5435 | 3900 | 0.0227          | 0.9910 |
+| 0.0017        | 0.5853 | 4200 | 0.0290          | 0.9907 |
+| 0.0002        | 0.6271 | 4500 | 0.0264          | 0.9899 |
+| 0.0051        | 0.6689 | 4800 | 0.0294          | 0.9907 |
+| 0.0152        | 0.7107 | 5100 | 0.0253          | 0.9903 |
+| 0.0096        | 0.7525 | 5400 | 0.0232          | 0.9909 |
+| 0.1812        | 0.7943 | 5700 | 0.0295          | 0.9915 |
+| 0.0007        | 0.8361 | 6000 | 0.0235          | 0.9912 |
+| 0.0081        | 0.8779 | 6300 | 0.0247          | 0.9910 |
+| 0.0684        | 0.9197 | 6600 | 0.0236          | 0.9905 |
+| 0.0003        | 0.9615 | 6900 | 0.0230          | 0.9914 |
 ### Framework versions
+- Transformers 4.41.1
+- Pytorch 2.3.0+cu121
 - Datasets 2.14.4
+- Tokenizers 0.19.1

config.json CHANGED Viewed

@@ -37,7 +37,7 @@
   "relative_attention": true,
   "share_att_key": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.37.1",
   "type_vocab_size": 0,
   "vocab_size": 128100
 }

   "relative_attention": true,
   "share_att_key": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.41.1",
   "type_vocab_size": 0,
   "vocab_size": 128100
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "eval_loss": 0.021180542185902596,
-    "eval_f1": 0.9938271604938271,
-    "eval_runtime": 1.2119,
-    "eval_samples_per_second": 320.974,
-    "eval_steps_per_second": 20.628,
-    "epoch": 6.0
 }

 {
+    "eval_loss": 0.02304094284772873,
+    "eval_f1": 0.9915240152900117,
+    "eval_runtime": 20.4919,
+    "eval_samples_per_second": 294.848,
+    "eval_steps_per_second": 18.446,
+    "epoch": 1.0
 }

logs/events.out.tfevents.1721409006.nathan.71286.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18367122e39cb518947b6721477cabc8f895a2d188ff855c19f54389723e2a6a
+size 769622

logs/events.out.tfevents.1721410911.nathan.71286.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b4a89b1f0c4af0841718abb2ef789cd0207203d04ab0115e27d3cef3154b422
+size 405

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c78d75a907a27d97bc87d6cbd50ed9d784bdb707cf07239fd9e81fc382a53ea3
 size 283347432

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ac8f7621a8705102a81330b9a78f1b7b5db3a62768d9bf025d129ecc4655242
 size 283347432

run_config.json CHANGED Viewed

@@ -4,18 +4,18 @@
         "max_length": 256
     },
     "training_args": {
-        "num_train_epochs": 6,
-        "per_device_train_batch_size": 16,
         "per_device_eval_batch_size": 16,
-        "gradient_accumulation_steps": 1,
         "learning_rate": 5e-05,
         "weight_decay": 0.1,
-        "warmup_ratio": 0.02,
         "evaluation_strategy": "steps",
-        "eval_steps": 60,
-        "save_steps": 60,
-        "save_total_limit": 1
     },
-    "run_name": "complaint",
     "run_type": "ClassificationRoutine"
 }

         "max_length": 256
     },
     "training_args": {
+        "num_train_epochs": 1,
+        "per_device_train_batch_size": 8,
         "per_device_eval_batch_size": 16,
+        "gradient_accumulation_steps": 2,
         "learning_rate": 5e-05,
         "weight_decay": 0.1,
+        "warmup_steps": 100,
         "evaluation_strategy": "steps",
+        "eval_steps": 300,
+        "save_steps": 300,
+        "save_total_limit": 2
     },
+    "run_name": "initial_model",
     "run_type": "ClassificationRoutine"
 }

tokenizer.json CHANGED Viewed

@@ -90,8 +90,8 @@
       {
         "type": "Metaspace",
         "replacement": "▁",
-        "add_prefix_space": true,
-        "prepend_scheme": "always"
       }
     ]
   },
@@ -173,8 +173,8 @@
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
-    "add_prefix_space": true,
-    "prepend_scheme": "always"
   },
   "model": {
     "type": "Unigram",

       {
         "type": "Metaspace",
         "replacement": "▁",
+        "prepend_scheme": "always",
+        "split": true
       }
     ]
   },
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
+    "prepend_scheme": "always",
+    "split": true
   },
   "model": {
     "type": "Unigram",

tokenizer_config.json CHANGED Viewed

@@ -47,16 +47,12 @@
   "do_lower_case": false,
   "eos_token": "[SEP]",
   "mask_token": "[MASK]",
-  "max_length": 256,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "sp_model_kwargs": {},
   "split_by_punct": false,
-  "stride": 0,
   "tokenizer_class": "DebertaV2Tokenizer",
-  "truncation_side": "right",
-  "truncation_strategy": "longest_first",
   "unk_token": "[UNK]",
   "vocab_type": "spm"
 }

   "do_lower_case": false,
   "eos_token": "[SEP]",
   "mask_token": "[MASK]",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "sp_model_kwargs": {},
   "split_by_punct": false,
   "tokenizer_class": "DebertaV2Tokenizer",
   "unk_token": "[UNK]",
   "vocab_type": "spm"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:257fe51d7cf53fa40026935e0b9ddc3ee3878866616085e360f7c39fa63f0239
-size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:3656fcbc1832dd9c0867ba00d4106f7f2d6ac5ab8dfe75730fee3152c51822ce
+size 5112