Pretraining Language Models Using Translationese

This repository contains the code for the paper published at EMNLP 2024

The dataset can be found on huggingface.co/datasets/cfilt/IITB-IndicMonoDoc

Install required libraries:

pip3 install -r requirements.txt

Getting started

In the models/ directory you will find the code for the decoder architecture.

In the data/ directory you will find the scripts to convert the data for pretraining.

In the eval/ directory you will find the code for evaluating various benchmarks.

In the hf/ directory you will find scripts for converting models to HF format.

configs_pt.py and configs_ft.py are configurations that change the architecture according to needs.

train.py and ft.py are the main files to run after configurations are set

ppl_scorer.py gives code for calculating perplexity using TinyLMs

regression.py and classification_*.py are codes to evaluate classification and regression tasks.

demo.py is a gradio demo file to evaluate the model, it supports pre and post-processing in all 22 languages.

Citation

@misc{doshi2024worrydatabuildingpretrained,
      title={Pretraining Language Models Using Translationese}, 
      author={Meet Doshi and Raj Dabre and Pushpak Bhattacharyya},
      year={2024},
      eprint={2403.13638},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2403.13638}, 
}

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data		data
eval		eval
hf		hf
models		models
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
classification.py		classification.py
classification.sh		classification.sh
classification_extended.sh		classification_extended.sh
classification_indic.py		classification_indic.py
classification_indic.sh		classification_indic.sh
classification_indic_gu.py		classification_indic_gu.py
classification_indic_gu.sh		classification_indic_gu.sh
clean_checkpoints.py		clean_checkpoints.py
cola.py		cola.py
configs_ft.py		configs_ft.py
configs_pt.py		configs_pt.py
demo.py		demo.py
flash.py		flash.py
flores.py		flores.py
ft.py		ft.py
ft.sh		ft.sh
install.sh		install.sh
normalise_punctuation.py		normalise_punctuation.py
perplexity.py		perplexity.py
ppl_scorer.py		ppl_scorer.py
ppl_scorer_hf.py		ppl_scorer_hf.py
prepare_data.sh		prepare_data.sh
regression.py		regression.py
regression.sh		regression.sh
requirements.txt		requirements.txt
run.sh		run.sh
test.py		test.py
train.py		train.py
wandb_setup.py		wandb_setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Pretraining Language Models Using Translationese

Install required libraries:

Getting started

Citation

About

Releases

Packages

Languages

meetdoshi90/TranslationesePretraining

Folders and files

Latest commit

History

Repository files navigation

Pretraining Language Models Using Translationese

Install required libraries:

Getting started

Citation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages