eval 0.7235

Browse files

Files changed (9) hide show

README.md +4 -4
all_results.json +10 -10
config.json +1 -1
eval_results.json +6 -6
pytorch_model.bin +1 -1
tokenizer_config.json +1 -1
train_results.json +4 -4
trainer_state.json +26 -26
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,10 +13,10 @@ should probably proofread and complete it, then remove this comment. -->
 # test-mlm
-This model is a fine-tuned version of [ZZ99/deberta-v3-large-tapt](https://huggingface.co/ZZ99/deberta-v3-large-tapt) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.3692
-- Accuracy: 0.7180
 ## Model description
@@ -35,7 +35,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 1e-05
 - train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42

 # test-mlm
+This model is a fine-tuned version of [/root/autodl-tmp/nbme/tmp/test-mlm/deberta-v3-large-tapt](https://huggingface.co//root/autodl-tmp/nbme/tmp/test-mlm/deberta-v3-large-tapt) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.3436
+- Accuracy: 0.7235
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-06
 - train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.7180157954865308,
-    "eval_loss": 1.3691895008087158,
-    "eval_runtime": 47.8255,
     "eval_samples": 794,
-    "eval_samples_per_second": 16.602,
-    "eval_steps_per_second": 2.091,
-    "perplexity": 3.9321623891487576,
-    "train_loss": 1.0548812925209943,
-    "train_runtime": 7794.1827,
     "train_samples": 14828,
-    "train_samples_per_second": 5.707,
-    "train_steps_per_second": 1.427
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.7235127572561552,
+    "eval_loss": 1.3436471223831177,
+    "eval_runtime": 99.3125,
     "eval_samples": 794,
+    "eval_samples_per_second": 7.995,
+    "eval_steps_per_second": 1.007,
+    "perplexity": 3.8329974548301986,
+    "train_loss": 0.8344709603716365,
+    "train_runtime": 15660.631,
     "train_samples": 14828,
+    "train_samples_per_second": 2.84,
+    "train_steps_per_second": 0.71
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "ZZ99/deberta-v3-large-tapt",
   "architectures": [
     "NewDebertaV2ForMaskedLM"
   ],

 {
+  "_name_or_path": "/root/autodl-tmp/nbme/tmp/test-mlm/deberta-v3-large-tapt",
   "architectures": [
     "NewDebertaV2ForMaskedLM"
   ],

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.7180157954865308,
-    "eval_loss": 1.3691895008087158,
-    "eval_runtime": 47.8255,
     "eval_samples": 794,
-    "eval_samples_per_second": 16.602,
-    "eval_steps_per_second": 2.091,
-    "perplexity": 3.9321623891487576
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.7235127572561552,
+    "eval_loss": 1.3436471223831177,
+    "eval_runtime": 99.3125,
     "eval_samples": 794,
+    "eval_samples_per_second": 7.995,
+    "eval_steps_per_second": 1.007,
+    "perplexity": 3.8329974548301986
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbe4e67605ac34718bafb7684d144ba7006baf1dea461c31f4854256d610e2b7
 size 1740500457

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3dc582456ca4b83a1680e6ab80cd6af31b5edbff53b9f27f2d1e4ec4be9977a
 size 1740500457

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"do_lower_case": false, "bos_token": "[CLS]", "eos_token": "[SEP]", "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "split_by_punct": false, "vocab_type": "spm", "special_tokens_map_file": null, "name_or_path": "~~ZZ99~~/deberta-v3-large-tapt", "sp_model_kwargs": {}, "tokenizer_class": "DebertaV2Tokenizer"}

+ {"do_lower_case": false, "bos_token": "[CLS]", "eos_token": "[SEP]", "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "split_by_punct": false, "vocab_type": "spm", "special_tokens_map_file": null, "name_or_path": "/root/autodl-tmp/nbme/tmp/test-mlm/deberta-v3-large-tapt", "sp_model_kwargs": {}, "tokenizer_class": "DebertaV2Tokenizer"}

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 1.0548812925209943,
-    "train_runtime": 7794.1827,
     "train_samples": 14828,
-    "train_samples_per_second": 5.707,
-    "train_steps_per_second": 1.427
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.8344709603716365,
+    "train_runtime": 15660.631,
     "train_samples": 14828,
+    "train_samples_per_second": 2.84,
+    "train_steps_per_second": 0.71
 }

trainer_state.json CHANGED Viewed

@@ -9,78 +9,78 @@
   "log_history": [
     {
       "epoch": 0.27,
-      "learning_rate": 9.100800287743908e-06,
-      "loss": 1.1859,
       "step": 1000
     },
     {
       "epoch": 0.54,
-      "learning_rate": 8.201600575487818e-06,
-      "loss": 1.095,
       "step": 2000
     },
     {
       "epoch": 0.81,
-      "learning_rate": 7.3024008632317245e-06,
-      "loss": 1.0536,
       "step": 3000
     },
     {
       "epoch": 1.08,
-      "learning_rate": 6.403201150975632e-06,
-      "loss": 1.0394,
       "step": 4000
     },
     {
       "epoch": 1.35,
-      "learning_rate": 5.50400143871954e-06,
-      "loss": 1.0087,
       "step": 5000
     },
     {
       "epoch": 1.62,
-      "learning_rate": 4.604801726463448e-06,
-      "loss": 1.0179,
       "step": 6000
     },
     {
       "epoch": 1.89,
-      "learning_rate": 3.705602014207356e-06,
-      "loss": 1.0191,
       "step": 7000
     },
     {
       "epoch": 2.16,
-      "learning_rate": 2.806402301951264e-06,
-      "loss": 1.0278,
       "step": 8000
     },
     {
       "epoch": 2.43,
-      "learning_rate": 1.9072025896951715e-06,
-      "loss": 1.0345,
       "step": 9000
     },
     {
       "epoch": 2.7,
-      "learning_rate": 1.0080028774390793e-06,
-      "loss": 1.0502,
       "step": 10000
     },
     {
       "epoch": 2.97,
-      "learning_rate": 1.0880316518298715e-07,
-      "loss": 1.0697,
       "step": 11000
     },
     {
       "epoch": 3.0,
       "step": 11121,
       "total_flos": 4.147380631930061e+16,
-      "train_loss": 1.0548812925209943,
-      "train_runtime": 7794.1827,
-      "train_samples_per_second": 5.707,
-      "train_steps_per_second": 1.427
     }
   ],
   "max_steps": 11121,

   "log_history": [
     {
       "epoch": 0.27,
+      "learning_rate": 4.550400143871954e-06,
+      "loss": 0.8007,
       "step": 1000
     },
     {
       "epoch": 0.54,
+      "learning_rate": 4.100800287743909e-06,
+      "loss": 0.7477,
       "step": 2000
     },
     {
       "epoch": 0.81,
+      "learning_rate": 3.6512004316158623e-06,
+      "loss": 0.7351,
       "step": 3000
     },
     {
       "epoch": 1.08,
+      "learning_rate": 3.201600575487816e-06,
+      "loss": 0.746,
       "step": 4000
     },
     {
       "epoch": 1.35,
+      "learning_rate": 2.75200071935977e-06,
+      "loss": 0.7474,
       "step": 5000
     },
     {
       "epoch": 1.62,
+      "learning_rate": 2.302400863231724e-06,
+      "loss": 0.7849,
       "step": 6000
     },
     {
       "epoch": 1.89,
+      "learning_rate": 1.852801007103678e-06,
+      "loss": 0.8197,
       "step": 7000
     },
     {
       "epoch": 2.16,
+      "learning_rate": 1.403201150975632e-06,
+      "loss": 0.8639,
       "step": 8000
     },
     {
       "epoch": 2.43,
+      "learning_rate": 9.536012948475857e-07,
+      "loss": 0.91,
       "step": 9000
     },
     {
       "epoch": 2.7,
+      "learning_rate": 5.040014387195397e-07,
+      "loss": 0.9666,
       "step": 10000
     },
     {
       "epoch": 2.97,
+      "learning_rate": 5.4401582591493575e-08,
+      "loss": 1.0304,
       "step": 11000
     },
     {
       "epoch": 3.0,
       "step": 11121,
       "total_flos": 4.147380631930061e+16,
+      "train_loss": 0.8344709603716365,
+      "train_runtime": 15660.631,
+      "train_samples_per_second": 2.84,
+      "train_steps_per_second": 0.71
     }
   ],
   "max_steps": 11121,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cae7a945faaf8e89a4059074b4664e2594d2de7b82e3f3e0e2278326df623d1
 size 3119

 version https://git-lfs.github.com/spec/v1
+oid sha256:8532469d3355217ccf53348dfd3e151e9edea2eb783d867db01f826efa1689d0
 size 3119