jdorairaj
/

Adapters_run3

Model card Files Files and versions Community

jdorairaj commited on Jun 2

Commit

f2a1bed

•

1 Parent(s): 296cc80

completed la on sst2

Browse files

Files changed (26) hide show

outputs/args.json +1 -1
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/logfile_la.log +676 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/gpu_stats_la.json +130 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/gpu_stats_la.json +130 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/gpu_stats_la.json +130 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/all_results_la_kron_all_homo_mc_corr_1000.json +1 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/eval_res_la_kron_all_homo_mc_corr_1000.json +0 -0
outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/gpu_stats_la.json +130 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_1999/f_mu_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_1999/f_var_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_1999/prior_precision_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_3999/f_mu_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_3999/f_var_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_3999/prior_precision_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_5999/f_mu_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_5999/f_var_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_5999/prior_precision_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_7999/f_mu_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_7999/f_var_kron_all_homo_1000.pt +3 -0
outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_7999/prior_precision_kron_all_homo_1000.pt +3 -0

outputs/args.json CHANGED Viewed

@@ -17,7 +17,7 @@
     "num_warmup_steps": 0,
     "output_dir": "./outputs",
     "peft_method": null,
-    "seed": 42,
     "push_to_hub": false,
     "hub_model_id": null,
     "hub_token": null,

     "num_warmup_steps": 0,
     "output_dir": "./outputs",
     "peft_method": null,
+    "seed": 12345,
     "push_to_hub": false,
     "hub_model_id": null,
     "hub_token": null,

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/logfile_la.log CHANGED Viewed

@@ -251,3 +251,679 @@
 06/02/2024 09:30:51 - INFO - __main__ - Sample 27303 of the training set: {'input_ids': [0, 10273, 5971, 2650, 2156, 114, 3694, 2156, 29166, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
 06/02/2024 09:30:51 - INFO - __main__ - Sample 48017 of the training set: {'input_ids': [0, 2629, 2526, 9288, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': 0}.
 06/02/2024 09:30:51 - INFO - __main__ - Sample 666 of the training set: {'input_ids': [0, 26692, 45, 173, 479, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 0}.

 06/02/2024 09:30:51 - INFO - __main__ - Sample 27303 of the training set: {'input_ids': [0, 10273, 5971, 2650, 2156, 114, 3694, 2156, 29166, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
 06/02/2024 09:30:51 - INFO - __main__ - Sample 48017 of the training set: {'input_ids': [0, 2629, 2526, 9288, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': 0}.
 06/02/2024 09:30:51 - INFO - __main__ - Sample 666 of the training set: {'input_ids': [0, 26692, 45, 173, 479, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 13:56:18 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 13:56:19 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 13:56:20 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/adapter_config.json
+06/02/2024 13:56:20 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'sst2'.
+06/02/2024 13:56:20 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/pytorch_adapter.bin
+06/02/2024 13:56:20 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/head_config.json
+06/02/2024 13:56:20 - INFO - adapters.heads.model_mixin - Adding head 'sst2' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 13:56:20 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/pytorch_model_head.bin
+06/02/2024 13:56:20 - INFO - __main__ - Adapter Name = sst2
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.weight
+06/02/2024 13:56:20 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.bias
+06/02/2024 13:56:20 - INFO - __main__ - heads.sst2.1.weight
+06/02/2024 13:56:20 - INFO - __main__ - heads.sst2.1.bias
+06/02/2024 13:56:20 - INFO - __main__ - heads.sst2.4.weight
+06/02/2024 13:56:20 - INFO - __main__ - heads.sst2.4.bias
+06/02/2024 13:56:34 - INFO - __main__ - Sample 27303 of the training set: {'input_ids': [0, 10273, 5971, 2650, 2156, 114, 3694, 2156, 29166, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 13:56:34 - INFO - __main__ - Sample 48017 of the training set: {'input_ids': [0, 2629, 2526, 9288, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 13:56:34 - INFO - __main__ - Sample 666 of the training set: {'input_ids': [0, 26692, 45, 173, 479, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 14:27:41 - INFO - __main__ - f_mu shape : torch.Size([872, 2])
+06/02/2024 14:27:41 - INFO - __main__ - f_var shape :  torch.Size([872, 2, 2])
+06/02/2024 14:27:41 - INFO - __main__ - tensor([[-4.2414,  4.5040],
+        [ 0.6184, -0.4093],
+        [-2.2437,  2.3636],
+        ...,
+        [ 0.3875, -0.2475],
+        [ 2.0167, -1.9000],
+        [-2.6153,  2.8984]], device='cuda:0')
+06/02/2024 14:27:41 - INFO - __main__ - tensor([[[3.0718, 2.7085],
+         [2.7085, 3.0434]],
+        [[1.7573, 0.4796],
+         [0.4796, 1.7348]],
+        [[1.9210, 1.0496],
+         [1.0496, 1.9672]],
+        ...,
+        [[1.4768, 0.1399],
+         [0.1399, 1.5445]],
+        [[2.4637, 0.4742],
+         [0.4742, 2.3755]],
+        [[2.6679, 1.4382],
+         [1.4382, 2.7226]]], device='cuda:0')
+06/02/2024 14:27:41 - INFO - __main__ - ***** Completed training *****
+06/02/2024 14:27:44 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 14:27:45 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 14:27:46 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/adapter_config.json
+06/02/2024 14:27:46 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'sst2'.
+06/02/2024 14:27:46 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/pytorch_adapter.bin
+06/02/2024 14:27:46 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/head_config.json
+06/02/2024 14:27:46 - INFO - adapters.heads.model_mixin - Adding head 'sst2' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 14:27:46 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/pytorch_model_head.bin
+06/02/2024 14:27:46 - INFO - __main__ - Adapter Name = sst2
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.weight
+06/02/2024 14:27:46 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.bias
+06/02/2024 14:27:46 - INFO - __main__ - heads.sst2.1.weight
+06/02/2024 14:27:46 - INFO - __main__ - heads.sst2.1.bias
+06/02/2024 14:27:46 - INFO - __main__ - heads.sst2.4.weight
+06/02/2024 14:27:46 - INFO - __main__ - heads.sst2.4.bias
+06/02/2024 14:28:01 - INFO - __main__ - Sample 27303 of the training set: {'input_ids': [0, 10273, 5971, 2650, 2156, 114, 3694, 2156, 29166, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 14:28:01 - INFO - __main__ - Sample 48017 of the training set: {'input_ids': [0, 2629, 2526, 9288, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 14:28:01 - INFO - __main__ - Sample 666 of the training set: {'input_ids': [0, 26692, 45, 173, 479, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 15:00:21 - INFO - __main__ - f_mu shape : torch.Size([872, 2])
+06/02/2024 15:00:21 - INFO - __main__ - f_var shape :  torch.Size([872, 2, 2])
+06/02/2024 15:00:21 - INFO - __main__ - tensor([[-3.6767,  3.8599],
+        [ 1.2684, -1.2134],
+        [-1.9248,  1.9909],
+        ...,
+        [ 1.6397, -1.6343],
+        [ 2.6456, -2.6197],
+        [-2.3511,  2.5768]], device='cuda:0')
+06/02/2024 15:00:21 - INFO - __main__ - tensor([[[3.1317, 2.8936],
+         [2.8936, 3.0991]],
+        [[1.9052, 0.5840],
+         [0.5840, 1.8519]],
+        [[1.8741, 1.3538],
+         [1.3538, 1.9133]],
+        ...,
+        [[1.9867, 0.4452],
+         [0.4452, 1.9560]],
+        [[3.1267, 1.0338],
+         [1.0338, 2.9659]],
+        [[2.6059, 1.9332],
+         [1.9332, 2.6584]]], device='cuda:0')
+06/02/2024 15:00:21 - INFO - __main__ - ***** Completed training *****
+06/02/2024 15:00:23 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 15:00:24 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 15:00:24 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/adapter_config.json
+06/02/2024 15:00:24 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'sst2'.
+06/02/2024 15:00:24 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/pytorch_adapter.bin
+06/02/2024 15:00:24 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/head_config.json
+06/02/2024 15:00:24 - INFO - adapters.heads.model_mixin - Adding head 'sst2' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 15:00:25 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/pytorch_model_head.bin
+06/02/2024 15:00:25 - INFO - __main__ - Adapter Name = sst2
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:00:25 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:00:25 - INFO - __main__ - heads.sst2.1.weight
+06/02/2024 15:00:25 - INFO - __main__ - heads.sst2.1.bias
+06/02/2024 15:00:25 - INFO - __main__ - heads.sst2.4.weight
+06/02/2024 15:00:25 - INFO - __main__ - heads.sst2.4.bias
+06/02/2024 15:00:38 - INFO - __main__ - Sample 27303 of the training set: {'input_ids': [0, 10273, 5971, 2650, 2156, 114, 3694, 2156, 29166, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 15:00:38 - INFO - __main__ - Sample 48017 of the training set: {'input_ids': [0, 2629, 2526, 9288, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 15:00:38 - INFO - __main__ - Sample 666 of the training set: {'input_ids': [0, 26692, 45, 173, 479, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 15:33:12 - INFO - __main__ - f_mu shape : torch.Size([872, 2])
+06/02/2024 15:33:12 - INFO - __main__ - f_var shape :  torch.Size([872, 2, 2])
+06/02/2024 15:33:12 - INFO - __main__ - tensor([[-4.2006,  4.1726],
+        [ 1.0005, -0.9923],
+        [-2.3267,  2.3123],
+        ...,
+        [ 1.8610, -1.8978],
+        [ 2.0294, -2.0685],
+        [-2.7907,  2.8982]], device='cuda:0')
+06/02/2024 15:33:12 - INFO - __main__ - tensor([[[3.3278, 3.0577],
+         [3.0577, 3.2993]],
+        [[1.6975, 0.8979],
+         [0.8979, 1.6665]],
+        [[2.2034, 1.2772],
+         [1.2772, 2.2290]],
+        ...,
+        [[2.1030, 1.2174],
+         [1.2174, 2.0878]],
+        [[2.4436, 1.5252],
+         [1.5252, 2.3909]],
+        [[3.0498, 1.5716],
+         [1.5716, 3.0871]]], device='cuda:0')
+06/02/2024 15:33:12 - INFO - __main__ - ***** Completed training *****
+06/02/2024 15:33:14 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 15:33:15 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 15:33:16 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/adapter_config.json
+06/02/2024 15:33:16 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'sst2'.
+06/02/2024 15:33:16 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/pytorch_adapter.bin
+06/02/2024 15:33:16 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/head_config.json
+06/02/2024 15:33:16 - INFO - adapters.heads.model_mixin - Adding head 'sst2' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 15:33:16 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/pytorch_model_head.bin
+06/02/2024 15:33:16 - INFO - __main__ - Adapter Name = sst2
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.weight
+06/02/2024 15:33:16 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.bias
+06/02/2024 15:33:16 - INFO - __main__ - heads.sst2.1.weight
+06/02/2024 15:33:16 - INFO - __main__ - heads.sst2.1.bias
+06/02/2024 15:33:16 - INFO - __main__ - heads.sst2.4.weight
+06/02/2024 15:33:16 - INFO - __main__ - heads.sst2.4.bias
+06/02/2024 15:33:30 - INFO - __main__ - Sample 27303 of the training set: {'input_ids': [0, 10273, 5971, 2650, 2156, 114, 3694, 2156, 29166, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 15:33:30 - INFO - __main__ - Sample 48017 of the training set: {'input_ids': [0, 2629, 2526, 9288, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 15:33:30 - INFO - __main__ - Sample 666 of the training set: {'input_ids': [0, 26692, 45, 173, 479, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 16:06:18 - INFO - __main__ - f_mu shape : torch.Size([872, 2])
+06/02/2024 16:06:18 - INFO - __main__ - f_var shape :  torch.Size([872, 2, 2])
+06/02/2024 16:06:18 - INFO - __main__ - tensor([[-4.6010,  4.5464],
+        [ 0.8965, -0.9374],
+        [-2.6567,  2.6105],
+        ...,
+        [ 1.9415, -2.0003],
+        [ 2.2464, -2.3064],
+        [-2.7984,  2.8625]], device='cuda:0')
+06/02/2024 16:06:18 - INFO - __main__ - tensor([[[3.5315, 3.3129],
+         [3.3129, 3.4958]],
+        [[1.6473, 0.6023],
+         [0.6023, 1.6201]],
+        [[2.4584, 1.3256],
+         [1.3256, 2.4776]],
+        ...,
+        [[2.0444, 1.0625],
+         [1.0625, 2.0286]],
+        [[2.5821, 1.2764],
+         [1.2764, 2.5041]],
+        [[3.6194, 0.7417],
+         [0.7417, 3.6767]]], device='cuda:0')
+06/02/2024 16:06:18 - INFO - __main__ - ***** Completed training *****
+06/02/2024 16:06:20 - INFO - __main__ -  Number of labels detected = 2
+06/02/2024 16:06:21 - INFO - adapters.heads.model_mixin - Adding head 'default' with config {'head_type': 'masked_lm', 'vocab_size': 50265, 'embedding_size': 768, 'layers': 2, 'activation_function': 'gelu', 'layer_norm': True, 'bias': True, 'shift_labels': False, 'label2id': None}.
+06/02/2024 16:06:22 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_9999/adapter_config.json
+06/02/2024 16:06:22 - INFO - adapters.configuration.model_adapters_config - Adding adapter 'sst2'.
+06/02/2024 16:06:22 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_9999/pytorch_adapter.bin
+06/02/2024 16:06:22 - INFO - adapters.loading - Loading module configuration from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_9999/head_config.json
+06/02/2024 16:06:22 - INFO - adapters.heads.model_mixin - Adding head 'sst2' with config {'head_type': 'classification', 'num_labels': 2, 'layers': 2, 'activation_function': 'tanh', 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'use_pooler': False, 'bias': True, 'dropout_prob': None}.
+06/02/2024 16:06:22 - INFO - adapters.loading - Loading module weights from ./outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_9999/pytorch_model_head.bin
+06/02/2024 16:06:22 - INFO - __main__ - Adapter Name = sst2
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.0.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.0.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.1.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.1.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.2.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.2.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.3.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.3.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.4.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.4.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.5.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.5.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.6.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.6.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.7.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.7.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.8.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.8.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.9.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.9.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.10.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.10.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.11.attention.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_down.0.bias
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.weight
+06/02/2024 16:06:22 - INFO - __main__ - roberta.encoder.layer.11.output.adapters.sst2.adapter_up.bias
+06/02/2024 16:06:22 - INFO - __main__ - heads.sst2.1.weight
+06/02/2024 16:06:22 - INFO - __main__ - heads.sst2.1.bias
+06/02/2024 16:06:22 - INFO - __main__ - heads.sst2.4.weight
+06/02/2024 16:06:22 - INFO - __main__ - heads.sst2.4.bias
+06/02/2024 16:06:36 - INFO - __main__ - Sample 27303 of the training set: {'input_ids': [0, 10273, 5971, 2650, 2156, 114, 3694, 2156, 29166, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': 1}.
+06/02/2024 16:06:36 - INFO - __main__ - Sample 48017 of the training set: {'input_ids': [0, 2629, 2526, 9288, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1], 'labels': 0}.
+06/02/2024 16:06:36 - INFO - __main__ - Sample 666 of the training set: {'input_ids': [0, 26692, 45, 173, 479, 1437, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1], 'labels': 0}.

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_accuracy": 0.9197247706422018}

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_1999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 1038383104,
+    "max_memory_allocated": 5068723200,
+    "memory_reserved": 5362417664,
+    "max_memory_reserved": 15634268160,
+    "memory_stats": {
+        "active.all.allocated": 14684790,
+        "active.all.current": 1189,
+        "active.all.freed": 14683601,
+        "active.all.peak": 1441,
+        "active.large_pool.allocated": 2781857,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 2781573,
+        "active.large_pool.peak": 457,
+        "active.small_pool.allocated": 11902933,
+        "active.small_pool.current": 905,
+        "active.small_pool.freed": 11902028,
+        "active.small_pool.peak": 1107,
+        "active_bytes.all.allocated": 12184115120640,
+        "active_bytes.all.current": 1038383104,
+        "active_bytes.all.freed": 12183076737536,
+        "active_bytes.all.peak": 5068723200,
+        "active_bytes.large_pool.allocated": 7534776679424,
+        "active_bytes.large_pool.current": 1021138944,
+        "active_bytes.large_pool.freed": 7533755540480,
+        "active_bytes.large_pool.peak": 5044402176,
+        "active_bytes.small_pool.allocated": 4649338441216,
+        "active_bytes.small_pool.current": 17244160,
+        "active_bytes.small_pool.freed": 4649321197056,
+        "active_bytes.small_pool.peak": 137228800,
+        "allocated_bytes.all.allocated": 12184115120640,
+        "allocated_bytes.all.current": 1038383104,
+        "allocated_bytes.all.freed": 12183076737536,
+        "allocated_bytes.all.peak": 5068723200,
+        "allocated_bytes.large_pool.allocated": 7534776679424,
+        "allocated_bytes.large_pool.current": 1021138944,
+        "allocated_bytes.large_pool.freed": 7533755540480,
+        "allocated_bytes.large_pool.peak": 5044402176,
+        "allocated_bytes.small_pool.allocated": 4649338441216,
+        "allocated_bytes.small_pool.current": 17244160,
+        "allocated_bytes.small_pool.freed": 4649321197056,
+        "allocated_bytes.small_pool.peak": 137228800,
+        "allocation.all.allocated": 14684790,
+        "allocation.all.current": 1189,
+        "allocation.all.freed": 14683601,
+        "allocation.all.peak": 1441,
+        "allocation.large_pool.allocated": 2781857,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 2781573,
+        "allocation.large_pool.peak": 457,
+        "allocation.small_pool.allocated": 11902933,
+        "allocation.small_pool.current": 905,
+        "allocation.small_pool.freed": 11902028,
+        "allocation.small_pool.peak": 1107,
+        "inactive_split.all.allocated": 7296524,
+        "inactive_split.all.current": 161,
+        "inactive_split.all.freed": 7296363,
+        "inactive_split.all.peak": 232,
+        "inactive_split.large_pool.allocated": 1397712,
+        "inactive_split.large_pool.current": 42,
+        "inactive_split.large_pool.freed": 1397670,
+        "inactive_split.large_pool.peak": 98,
+        "inactive_split.small_pool.allocated": 5898812,
+        "inactive_split.small_pool.current": 119,
+        "inactive_split.small_pool.freed": 5898693,
+        "inactive_split.small_pool.peak": 146,
+        "inactive_split_bytes.all.allocated": 14518358885888,
+        "inactive_split_bytes.all.current": 161187840,
+        "inactive_split_bytes.all.freed": 14518197698048,
+        "inactive_split_bytes.all.peak": 1916622848,
+        "inactive_split_bytes.large_pool.allocated": 9706063452672,
+        "inactive_split_bytes.large_pool.current": 98740224,
+        "inactive_split_bytes.large_pool.freed": 9705964712448,
+        "inactive_split_bytes.large_pool.peak": 1881359360,
+        "inactive_split_bytes.small_pool.allocated": 4812295433216,
+        "inactive_split_bytes.small_pool.current": 62447616,
+        "inactive_split_bytes.small_pool.freed": 4812232985600,
+        "inactive_split_bytes.small_pool.peak": 103962112,
+        "max_split_size": -1,
+        "num_alloc_retries": 1,
+        "num_device_alloc": 465,
+        "num_device_free": 296,
+        "num_ooms": 0,
+        "num_sync_all_streams": 2,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 11927076483933,
+        "requested_bytes.all.current": 1027774812,
+        "requested_bytes.all.freed": 11926048709121,
+        "requested_bytes.all.peak": 5016531548,
+        "requested_bytes.large_pool.allocated": 7278340736064,
+        "requested_bytes.large_pool.current": 1010670088,
+        "requested_bytes.large_pool.freed": 7277330065976,
+        "requested_bytes.large_pool.peak": 4992349256,
+        "requested_bytes.small_pool.allocated": 4648735747869,
+        "requested_bytes.small_pool.current": 17104724,
+        "requested_bytes.small_pool.freed": 4648718643145,
+        "requested_bytes.small_pool.peak": 137155084,
+        "reserved_bytes.all.allocated": 17504927744,
+        "reserved_bytes.all.current": 5362417664,
+        "reserved_bytes.all.freed": 12142510080,
+        "reserved_bytes.all.peak": 15634268160,
+        "reserved_bytes.large_pool.allocated": 17213423616,
+        "reserved_bytes.large_pool.current": 5224005632,
+        "reserved_bytes.large_pool.freed": 11989417984,
+        "reserved_bytes.large_pool.peak": 15489564672,
+        "reserved_bytes.small_pool.allocated": 291504128,
+        "reserved_bytes.small_pool.current": 138412032,
+        "reserved_bytes.small_pool.freed": 153092096,
+        "reserved_bytes.small_pool.peak": 144703488,
+        "segment.all.allocated": 465,
+        "segment.all.current": 169,
+        "segment.all.freed": 296,
+        "segment.all.peak": 365,
+        "segment.large_pool.allocated": 326,
+        "segment.large_pool.current": 103,
+        "segment.large_pool.freed": 223,
+        "segment.large_pool.peak": 296,
+        "segment.small_pool.allocated": 139,
+        "segment.small_pool.current": 66,
+        "segment.small_pool.freed": 73,
+        "segment.small_pool.peak": 69
+    }
+}

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_accuracy": 0.930045871559633}

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_3999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 1039306752,
+    "max_memory_allocated": 5068723200,
+    "memory_reserved": 5366611968,
+    "max_memory_reserved": 15634268160,
+    "memory_stats": {
+        "active.all.allocated": 29369628,
+        "active.all.current": 1189,
+        "active.all.freed": 29368439,
+        "active.all.peak": 1441,
+        "active.large_pool.allocated": 5563712,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 5563428,
+        "active.large_pool.peak": 457,
+        "active.small_pool.allocated": 23805916,
+        "active.small_pool.current": 905,
+        "active.small_pool.freed": 23805011,
+        "active.small_pool.peak": 1107,
+        "active_bytes.all.allocated": 24356802661888,
+        "active_bytes.all.current": 1039306752,
+        "active_bytes.all.freed": 24355763355136,
+        "active_bytes.all.peak": 5068723200,
+        "active_bytes.large_pool.allocated": 15058125752832,
+        "active_bytes.large_pool.current": 1022062592,
+        "active_bytes.large_pool.freed": 15057103690240,
+        "active_bytes.large_pool.peak": 5044402176,
+        "active_bytes.small_pool.allocated": 9298676909056,
+        "active_bytes.small_pool.current": 17244160,
+        "active_bytes.small_pool.freed": 9298659664896,
+        "active_bytes.small_pool.peak": 137228800,
+        "allocated_bytes.all.allocated": 24356802661888,
+        "allocated_bytes.all.current": 1039306752,
+        "allocated_bytes.all.freed": 24355763355136,
+        "allocated_bytes.all.peak": 5068723200,
+        "allocated_bytes.large_pool.allocated": 15058125752832,
+        "allocated_bytes.large_pool.current": 1022062592,
+        "allocated_bytes.large_pool.freed": 15057103690240,
+        "allocated_bytes.large_pool.peak": 5044402176,
+        "allocated_bytes.small_pool.allocated": 9298676909056,
+        "allocated_bytes.small_pool.current": 17244160,
+        "allocated_bytes.small_pool.freed": 9298659664896,
+        "allocated_bytes.small_pool.peak": 137228800,
+        "allocation.all.allocated": 29369628,
+        "allocation.all.current": 1189,
+        "allocation.all.freed": 29368439,
+        "allocation.all.peak": 1441,
+        "allocation.large_pool.allocated": 5563712,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 5563428,
+        "allocation.large_pool.peak": 457,
+        "allocation.small_pool.allocated": 23805916,
+        "allocation.small_pool.current": 905,
+        "allocation.small_pool.freed": 23805011,
+        "allocation.small_pool.peak": 1107,
+        "inactive_split.all.allocated": 14557259,
+        "inactive_split.all.current": 145,
+        "inactive_split.all.freed": 14557114,
+        "inactive_split.all.peak": 232,
+        "inactive_split.large_pool.allocated": 2788999,
+        "inactive_split.large_pool.current": 41,
+        "inactive_split.large_pool.freed": 2788958,
+        "inactive_split.large_pool.peak": 102,
+        "inactive_split.small_pool.allocated": 11768260,
+        "inactive_split.small_pool.current": 104,
+        "inactive_split.small_pool.freed": 11768156,
+        "inactive_split.small_pool.peak": 172,
+        "inactive_split_bytes.all.allocated": 29014462114304,
+        "inactive_split_bytes.all.current": 153972736,
+        "inactive_split_bytes.all.freed": 29014308141568,
+        "inactive_split_bytes.all.peak": 1916622848,
+        "inactive_split_bytes.large_pool.allocated": 19380757452800,
+        "inactive_split_bytes.large_pool.current": 97816576,
+        "inactive_split_bytes.large_pool.freed": 19380659636224,
+        "inactive_split_bytes.large_pool.peak": 1881359360,
+        "inactive_split_bytes.small_pool.allocated": 9633704661504,
+        "inactive_split_bytes.small_pool.current": 56156160,
+        "inactive_split_bytes.small_pool.freed": 9633648505344,
+        "inactive_split_bytes.small_pool.peak": 103962112,
+        "max_split_size": -1,
+        "num_alloc_retries": 2,
+        "num_device_alloc": 868,
+        "num_device_free": 696,
+        "num_ooms": 0,
+        "num_sync_all_streams": 5,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 23854135931542,
+        "requested_bytes.all.current": 1027774812,
+        "requested_bytes.all.freed": 23853108156730,
+        "requested_bytes.all.peak": 5016531548,
+        "requested_bytes.large_pool.allocated": 14556664432768,
+        "requested_bytes.large_pool.current": 1010670088,
+        "requested_bytes.large_pool.freed": 14555653762680,
+        "requested_bytes.large_pool.peak": 4992349256,
+        "requested_bytes.small_pool.allocated": 9297471498774,
+        "requested_bytes.small_pool.current": 17104724,
+        "requested_bytes.small_pool.freed": 9297454394050,
+        "requested_bytes.small_pool.peak": 137155084,
+        "reserved_bytes.all.allocated": 34177286144,
+        "reserved_bytes.all.current": 5366611968,
+        "reserved_bytes.all.freed": 28810674176,
+        "reserved_bytes.all.peak": 15634268160,
+        "reserved_bytes.large_pool.allocated": 33661386752,
+        "reserved_bytes.large_pool.current": 5221908480,
+        "reserved_bytes.large_pool.freed": 28439478272,
+        "reserved_bytes.large_pool.peak": 15489564672,
+        "reserved_bytes.small_pool.allocated": 515899392,
+        "reserved_bytes.small_pool.current": 144703488,
+        "reserved_bytes.small_pool.freed": 371195904,
+        "reserved_bytes.small_pool.peak": 146800640,
+        "segment.all.allocated": 868,
+        "segment.all.current": 172,
+        "segment.all.freed": 696,
+        "segment.all.peak": 366,
+        "segment.large_pool.allocated": 622,
+        "segment.large_pool.current": 103,
+        "segment.large_pool.freed": 519,
+        "segment.large_pool.peak": 296,
+        "segment.small_pool.allocated": 246,
+        "segment.small_pool.current": 69,
+        "segment.small_pool.freed": 177,
+        "segment.small_pool.peak": 70
+    }
+}

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_accuracy": 0.9357798165137615}

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_5999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 1041354752,
+    "max_memory_allocated": 5068723200,
+    "memory_reserved": 5360320512,
+    "max_memory_reserved": 15634268160,
+    "memory_stats": {
+        "active.all.allocated": 44054516,
+        "active.all.current": 1189,
+        "active.all.freed": 44053327,
+        "active.all.peak": 1441,
+        "active.large_pool.allocated": 8345567,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 8345283,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 35708949,
+        "active.small_pool.current": 905,
+        "active.small_pool.freed": 35708044,
+        "active.small_pool.peak": 1107,
+        "active_bytes.all.allocated": 36540099486208,
+        "active_bytes.all.current": 1041354752,
+        "active_bytes.all.freed": 36539058131456,
+        "active_bytes.all.peak": 5068723200,
+        "active_bytes.large_pool.allocated": 22592084082688,
+        "active_bytes.large_pool.current": 1024110592,
+        "active_bytes.large_pool.freed": 22591059972096,
+        "active_bytes.large_pool.peak": 5044402176,
+        "active_bytes.small_pool.allocated": 13948015403520,
+        "active_bytes.small_pool.current": 17244160,
+        "active_bytes.small_pool.freed": 13947998159360,
+        "active_bytes.small_pool.peak": 137228800,
+        "allocated_bytes.all.allocated": 36540099486208,
+        "allocated_bytes.all.current": 1041354752,
+        "allocated_bytes.all.freed": 36539058131456,
+        "allocated_bytes.all.peak": 5068723200,
+        "allocated_bytes.large_pool.allocated": 22592084082688,
+        "allocated_bytes.large_pool.current": 1024110592,
+        "allocated_bytes.large_pool.freed": 22591059972096,
+        "allocated_bytes.large_pool.peak": 5044402176,
+        "allocated_bytes.small_pool.allocated": 13948015403520,
+        "allocated_bytes.small_pool.current": 17244160,
+        "allocated_bytes.small_pool.freed": 13947998159360,
+        "allocated_bytes.small_pool.peak": 137228800,
+        "allocation.all.allocated": 44054516,
+        "allocation.all.current": 1189,
+        "allocation.all.freed": 44053327,
+        "allocation.all.peak": 1441,
+        "allocation.large_pool.allocated": 8345567,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 8345283,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 35708949,
+        "allocation.small_pool.current": 905,
+        "allocation.small_pool.freed": 35708044,
+        "allocation.small_pool.peak": 1107,
+        "inactive_split.all.allocated": 21846975,
+        "inactive_split.all.current": 156,
+        "inactive_split.all.freed": 21846819,
+        "inactive_split.all.peak": 232,
+        "inactive_split.large_pool.allocated": 4200236,
+        "inactive_split.large_pool.current": 41,
+        "inactive_split.large_pool.freed": 4200195,
+        "inactive_split.large_pool.peak": 102,
+        "inactive_split.small_pool.allocated": 17646739,
+        "inactive_split.small_pool.current": 115,
+        "inactive_split.small_pool.freed": 17646624,
+        "inactive_split.small_pool.peak": 172,
+        "inactive_split_bytes.all.allocated": 43039525160448,
+        "inactive_split_bytes.all.current": 162410496,
+        "inactive_split_bytes.all.freed": 43039362749952,
+        "inactive_split_bytes.all.peak": 1916622848,
+        "inactive_split_bytes.large_pool.allocated": 28685771414528,
+        "inactive_split_bytes.large_pool.current": 95768576,
+        "inactive_split_bytes.large_pool.freed": 28685675645952,
+        "inactive_split_bytes.large_pool.peak": 1881359360,
+        "inactive_split_bytes.small_pool.allocated": 14353753745920,
+        "inactive_split_bytes.small_pool.current": 66641920,
+        "inactive_split_bytes.small_pool.freed": 14353687104000,
+        "inactive_split_bytes.small_pool.peak": 105467904,
+        "max_split_size": -1,
+        "num_alloc_retries": 3,
+        "num_device_alloc": 1296,
+        "num_device_free": 1128,
+        "num_ooms": 0,
+        "num_sync_all_streams": 8,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 35781195382187,
+        "requested_bytes.all.current": 1027774812,
+        "requested_bytes.all.freed": 35780167607375,
+        "requested_bytes.all.peak": 5016531548,
+        "requested_bytes.large_pool.allocated": 21834988129472,
+        "requested_bytes.large_pool.current": 1010670088,
+        "requested_bytes.large_pool.freed": 21833977459384,
+        "requested_bytes.large_pool.peak": 4992349256,
+        "requested_bytes.small_pool.allocated": 13946207252715,
+        "requested_bytes.small_pool.current": 17104724,
+        "requested_bytes.small_pool.freed": 13946190147991,
+        "requested_bytes.small_pool.peak": 137155084,
+        "reserved_bytes.all.allocated": 51510247424,
+        "reserved_bytes.all.current": 5360320512,
+        "reserved_bytes.all.freed": 46149926912,
+        "reserved_bytes.all.peak": 15634268160,
+        "reserved_bytes.large_pool.allocated": 50769952768,
+        "reserved_bytes.large_pool.current": 5224005632,
+        "reserved_bytes.large_pool.freed": 45545947136,
+        "reserved_bytes.large_pool.peak": 15489564672,
+        "reserved_bytes.small_pool.allocated": 740294656,
+        "reserved_bytes.small_pool.current": 136314880,
+        "reserved_bytes.small_pool.freed": 603979776,
+        "reserved_bytes.small_pool.peak": 146800640,
+        "segment.all.allocated": 1296,
+        "segment.all.current": 168,
+        "segment.all.freed": 1128,
+        "segment.all.peak": 366,
+        "segment.large_pool.allocated": 943,
+        "segment.large_pool.current": 103,
+        "segment.large_pool.freed": 840,
+        "segment.large_pool.peak": 296,
+        "segment.small_pool.allocated": 353,
+        "segment.small_pool.current": 65,
+        "segment.small_pool.freed": 288,
+        "segment.small_pool.peak": 70
+    }
+}

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/all_results_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eval_accuracy": 0.9334862385321101}

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/eval_res_la_kron_all_homo_mc_corr_1000.json ADDED Viewed

The diff for this file is too large to render. See raw diff

outputs/sst2/roberta-base_adapterstrain_val_0.0001_12345_8_10000/step_7999/gpu_stats_la.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+    "memory_allocated": 1039912960,
+    "max_memory_allocated": 5068723200,
+    "memory_reserved": 5358223360,
+    "max_memory_reserved": 15634268160,
+    "memory_stats": {
+        "active.all.allocated": 58739454,
+        "active.all.current": 1189,
+        "active.all.freed": 58738265,
+        "active.all.peak": 1441,
+        "active.large_pool.allocated": 11127422,
+        "active.large_pool.current": 284,
+        "active.large_pool.freed": 11127138,
+        "active.large_pool.peak": 482,
+        "active.small_pool.allocated": 47612032,
+        "active.small_pool.current": 905,
+        "active.small_pool.freed": 47611127,
+        "active.small_pool.peak": 1107,
+        "active_bytes.all.allocated": 48723611251200,
+        "active_bytes.all.current": 1039912960,
+        "active_bytes.all.freed": 48722571338240,
+        "active_bytes.all.peak": 5068723200,
+        "active_bytes.large_pool.allocated": 30126257326592,
+        "active_bytes.large_pool.current": 1022668800,
+        "active_bytes.large_pool.freed": 30125234657792,
+        "active_bytes.large_pool.peak": 5044402176,
+        "active_bytes.small_pool.allocated": 18597353924608,
+        "active_bytes.small_pool.current": 17244160,
+        "active_bytes.small_pool.freed": 18597336680448,
+        "active_bytes.small_pool.peak": 137228800,
+        "allocated_bytes.all.allocated": 48723611251200,
+        "allocated_bytes.all.current": 1039912960,
+        "allocated_bytes.all.freed": 48722571338240,
+        "allocated_bytes.all.peak": 5068723200,
+        "allocated_bytes.large_pool.allocated": 30126257326592,
+        "allocated_bytes.large_pool.current": 1022668800,
+        "allocated_bytes.large_pool.freed": 30125234657792,
+        "allocated_bytes.large_pool.peak": 5044402176,
+        "allocated_bytes.small_pool.allocated": 18597353924608,
+        "allocated_bytes.small_pool.current": 17244160,
+        "allocated_bytes.small_pool.freed": 18597336680448,
+        "allocated_bytes.small_pool.peak": 137228800,
+        "allocation.all.allocated": 58739454,
+        "allocation.all.current": 1189,
+        "allocation.all.freed": 58738265,
+        "allocation.all.peak": 1441,
+        "allocation.large_pool.allocated": 11127422,
+        "allocation.large_pool.current": 284,
+        "allocation.large_pool.freed": 11127138,
+        "allocation.large_pool.peak": 482,
+        "allocation.small_pool.allocated": 47612032,
+        "allocation.small_pool.current": 905,
+        "allocation.small_pool.freed": 47611127,
+        "allocation.small_pool.peak": 1107,
+        "inactive_split.all.allocated": 29030003,
+        "inactive_split.all.current": 152,
+        "inactive_split.all.freed": 29029851,
+        "inactive_split.all.peak": 233,
+        "inactive_split.large_pool.allocated": 5594529,
+        "inactive_split.large_pool.current": 44,
+        "inactive_split.large_pool.freed": 5594485,
+        "inactive_split.large_pool.peak": 102,
+        "inactive_split.small_pool.allocated": 23435474,
+        "inactive_split.small_pool.current": 108,
+        "inactive_split.small_pool.freed": 23435366,
+        "inactive_split.small_pool.peak": 189,
+        "inactive_split_bytes.all.allocated": 56363395568640,
+        "inactive_split_bytes.all.current": 165949440,
+        "inactive_split_bytes.all.freed": 56363229619200,
+        "inactive_split_bytes.all.peak": 1916622848,
+        "inactive_split_bytes.large_pool.allocated": 37278295778304,
+        "inactive_split_bytes.large_pool.current": 97210368,
+        "inactive_split_bytes.large_pool.freed": 37278198567936,
+        "inactive_split_bytes.large_pool.peak": 1881359360,
+        "inactive_split_bytes.small_pool.allocated": 19085099790336,
+        "inactive_split_bytes.small_pool.current": 68739072,
+        "inactive_split_bytes.small_pool.freed": 19085031051264,
+        "inactive_split_bytes.small_pool.peak": 106288128,
+        "max_split_size": -1,
+        "num_alloc_retries": 4,
+        "num_device_alloc": 1722,
+        "num_device_free": 1554,
+        "num_ooms": 0,
+        "num_sync_all_streams": 11,
+        "oversize_allocations.allocated": 0,
+        "oversize_allocations.current": 0,
+        "oversize_allocations.freed": 0,
+        "oversize_allocations.peak": 0,
+        "oversize_segments.allocated": 0,
+        "oversize_segments.current": 0,
+        "oversize_segments.freed": 0,
+        "oversize_segments.peak": 0,
+        "requested_bytes.all.allocated": 47708254835868,
+        "requested_bytes.all.current": 1027774812,
+        "requested_bytes.all.freed": 47707227061056,
+        "requested_bytes.all.peak": 5016531548,
+        "requested_bytes.large_pool.allocated": 29113311826176,
+        "requested_bytes.large_pool.current": 1010670088,
+        "requested_bytes.large_pool.freed": 29112301156088,
+        "requested_bytes.large_pool.peak": 4992349256,
+        "requested_bytes.small_pool.allocated": 18594943009692,
+        "requested_bytes.small_pool.current": 17104724,
+        "requested_bytes.small_pool.freed": 18594925904968,
+        "requested_bytes.small_pool.peak": 137155084,
+        "reserved_bytes.all.allocated": 68836917248,
+        "reserved_bytes.all.current": 5358223360,
+        "reserved_bytes.all.freed": 63478693888,
+        "reserved_bytes.all.peak": 15634268160,
+        "reserved_bytes.large_pool.allocated": 67876421632,
+        "reserved_bytes.large_pool.current": 5221908480,
+        "reserved_bytes.large_pool.freed": 62654513152,
+        "reserved_bytes.large_pool.peak": 15489564672,
+        "reserved_bytes.small_pool.allocated": 960495616,
+        "reserved_bytes.small_pool.current": 136314880,
+        "reserved_bytes.small_pool.freed": 824180736,
+        "reserved_bytes.small_pool.peak": 146800640,
+        "segment.all.allocated": 1722,
+        "segment.all.current": 168,
+        "segment.all.freed": 1554,
+        "segment.all.peak": 366,
+        "segment.large_pool.allocated": 1264,
+        "segment.large_pool.current": 103,
+        "segment.large_pool.freed": 1161,
+        "segment.large_pool.peak": 296,
+        "segment.small_pool.allocated": 458,
+        "segment.small_pool.current": 65,
+        "segment.small_pool.freed": 393,
+        "segment.small_pool.peak": 70
+    }
+}

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_1999/f_mu_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce635d68b7798b040f4ec0edc59e446d088dd8f31e35c11b71bc9cec49bc10a4
+size 8300

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_1999/f_var_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b4fe74f7ce87f6f0122d9f18263e74ec5497986ac4daa8f1bda00bfbf6c2ff3
+size 15281

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_1999/prior_precision_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f5feb68f3fc35ebf295efd00e93d39cc734af4f3796e7038248b7b9e101cbced
+size 1379

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_3999/f_mu_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92fc970e7bc3095e867ba4e3d34c08c2d36afed3b99d5086b216734b2b1dbee3
+size 8300

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_3999/f_var_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9de8d60d7b7f875bfdcbc414c5d7a081a0ae6986ff8b6710d15146d3415aad84
+size 15281

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_3999/prior_precision_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f53598b82dda52a645ea3bdf4e331516dd2f26dd9c9a6a0b88d241e21972d077
+size 1379

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_5999/f_mu_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b541322d8ee917ead84e1368c1a5a8140e7bd8712a3f26a174a1c44b015d654
+size 8300

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_5999/f_var_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:600295970e26039d7e3db6ff2090c0d3ac2480ea25cbabef47e87969d99e5f22
+size 15281

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_5999/prior_precision_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f48cb09e594e968710304e5e0b4ddb1d5ac1bff4b876d32e6b68886f4d94b0f
+size 1379

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_7999/f_mu_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c6b5ae4b07d2c86e7ecced4e97280ce2f596d562f7445ed9fd82210dc3d18ea
+size 8300

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_7999/f_var_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b29d305bd92f091984e11cd25e0cb93242e68d918f68f36a9ac2a704572d95cf
+size 15281

outputs_laplace/sst2/roberta-base_adapterstrain_val_0.0001_12345/step_7999/prior_precision_kron_all_homo_1000.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3daad801a0445717c8bcbc60c7377ad910fe65eea7694bf5cd53de5808d3e686
+size 1379