InfoNCE-Dialog

PyTorch implementation for Contrastive Predictive Coding (https://arxiv.org/pdf/1807.03748.pdf) for Dialogue Data (text modality).

TODO:

Verification
- Dataset + Dataloader
- Model: Transformer Encoder + CLS embedding
- Make sure train and validation loss are comparable. (proper normalization)
- Plot train vs valid loss

Requirements

gdown
wandb
transformers
datasets
pytorch

Files

├── corr.py
├── create_data.py
├── create_test.py
├── data_deb.py
├── data_json.py
├── data_persona.py
├── data_processed.py
├── datautils
│   ├── data_dialog.py
│   ├── data_swda.py
│   └── __init__.py
├── dialog_eval_refactor.py
├── dialog_train_deb_refactor.py
├── environ.yml
├── filter_wandb_runs.py
├── finetune_pipeline.sh
├── get_data.sh
├── Makefile
├── models
│   ├── core.py
│   ├── downstream.py
│   ├── __init__.py
│   └── legacy.py
├── pretrain.py
├── pull_ckpt.sh
├── README.md
├── run_finetune.py
├── search.yaml
├── summarize_wandb_runs.py
├── tests.sh
└── utils
    ├── func_utils.py
    ├── generate_run_id.py
    ├── __init__.py
    └── task_to_keys.py

Downstream Tasks [PROBING]

Types of tasks:

Single utterance classification (MLP(concat(x)))
Context-Response similarity
- Distance/Similarity between our representations (cosine(c, r)/L2...)
- MLP(concat(c, r))
Dual-utterance classification?
- MLP(concat(u, v))

GLUE

Adding GLUE tasks just because we can! :P

DD++

	(R->R, Sim)	(R->A, Sim)	(A->A, Sim)	(R+A->A, Sim)	(R->R, MLP)	(R->A, MLP)	(A->A, MLP)	(R+A->A, MLP)
RoBERTa
BERT
T5
GPT-2
DialoGPT
Blender
DEB
SMI

All

Models	DD++	DD++(Adversarial)	Mutual	Mutual++	Ubuntu-DSTC7
	Sim, MLP	Sim, MLP	Sim, MLP	Sim, MLP	Sim, MLP
RoBERTa
BERT
T5
GPT-2
DialoGPT
Blender
DEB
SMI

SWDA

Total number of utterances: 199740
Max utterance length: 132
Mean utterance length: 9.62
Total Number of dialogues: 1155
Max dialogue length: 457
Mean dialogue length: 172.94
Vocabulary size: 22301
Number of labels: 41
Number of speakers: 2

Train set

Number of dialogues: 1115
Max dialogue length: 457
Mean dialogue length: 172.55
Number of utterances: 192390

Test set

Number of dialogues: 19
Max dialogue length: 330
Mean dialogue length: 214.63
Number of utterances: 4078

Val set

Number of dialogues: 21
Max dialogue length: 299
Mean dialogue length: 155.81
Number of utterances: 3272

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
auto_eval		auto_eval
data		data
datautils		datautils
ds_configs		ds_configs
helter-skelter_error-analysis		helter-skelter_error-analysis
long_eval		long_eval
models		models
shell_scripts		shell_scripts
utils		utils
.gitignore		.gitignore
Makefile		Makefile
README.md		README.md
environ.yml		environ.yml
extract_pretraining_logs.py		extract_pretraining_logs.py
filter_wandb_runs.py		filter_wandb_runs.py
finetune_pipeline.sh		finetune_pipeline.sh
gen_wandb_baselines_table.py		gen_wandb_baselines_table.py
gen_wandb_results_table.py		gen_wandb_results_table.py
get_data.sh		get_data.sh
paa_adapter.py		paa_adapter.py
paa_downstream_adapter.py		paa_downstream_adapter.py
paa_finetune.py		paa_finetune.py
paa_nofinetune.py		paa_nofinetune.py
pretrain.py		pretrain.py
pull_ckpt.py		pull_ckpt.py
r1m-process.ipynb		r1m-process.ipynb
r727-reformat.py		r727-reformat.py
requirements_cpu.txt		requirements_cpu.txt
run_finetune.py		run_finetune.py
run_glue_no_trainer.py		run_glue_no_trainer.py
scratchpad_01_read_wandb.ipynb		scratchpad_01_read_wandb.ipynb
scratchpad_02_PAA_downstream.ipynb		scratchpad_02_PAA_downstream.ipynb
search.yaml		search.yaml
summarize_wandb_runs.py		summarize_wandb_runs.py
verify_pretrained_checkpoint.py		verify_pretrained_checkpoint.py
wds_loader.ipynb		wds_loader.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

InfoNCE-Dialog

TODO:

Requirements

Files

Downstream Tasks [PROBING]

Types of tasks:

GLUE

DD++

All

SWDA

About

Releases

Packages

Languages

bsantraigi/2022-DMI-Mirror

Folders and files

Latest commit

History

Repository files navigation

InfoNCE-Dialog

TODO:

Requirements

Files

Downstream Tasks [PROBING]

Types of tasks:

GLUE

DD++

All

SWDA

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages