onlplab
/

alephbert-base

Inference Endpoints

Model card Files Files and versions Community

aseker00 commited on Mar 13, 2021

Commit

f103098

•

1 Parent(s): 8b36f5b

Update readme.

Files changed (1) hide show

README.md +5 -7

README.md CHANGED Viewed

@@ -14,7 +14,8 @@ datasets:
 ## Hebrew Language Model
-State-of-the-art language model for Hebrew. Based on BERT.
 #### How to use
@@ -29,10 +30,9 @@ alephbert.eval()
 ```
 ## Training data
-- OSCAR (10G text, 20M sentences)
-- Wikipedia dump (0.6G text, 3M sentences)
-- Tweets (7G text, 70M sentences)
 ## Training procedure
@@ -49,6 +49,4 @@ Each section was trained for 5 epochs with an initial learning rate set to 1e-4.
 Total training time was 5 days.
-## Eval

 ## Hebrew Language Model
+State-of-the-art language model for Hebrew.
+Based on Google's BERT architecture [(Devlin et al. 2018)](https://arxiv.org/abs/1810.04805).
 #### How to use
 ```
 ## Training data
+1. OSCAR [(Ortiz, 2019)](https://oscar-corpus.com/) Hebrew section (10GB text, 20M sentences).
+2. Hebrew dump of [Wikipedia](https://dumps.wikimedia.org/hewiki/latest/) (650 MB text, 3.8M sentences).
+3. Hebrew Tweets collected from the Twitter sample stream (7G text, 70M sentences).
 ## Training procedure
 Total training time was 5 days.