[Bug]: causal_dataset separate_last_epoch处理的疑问 #9599

dynamicheart · 2024-12-10T08:14:27Z

软件环境

- paddlepaddle: develop
- paddlepaddle-gpu: develop
- paddlenlp: develop

重复问题

I have searched the existing issues

错误描述

Pretrain loss在最后一个"epoch"骤降

稳定复现步骤 & 代码

Pretrain loss在最后一个"epoch"骤降

run_pretrain.py的train_sampler的shuffle是设置为False的，因此数据集的shuffle完全是在causal_dataset里面处理的
当训练需要的samples数量大于数据集能提供的samples数量时，会对数据集进行重复选择，每一次重复选择叫作一次数据epoch。然而，训练需要的samples数量并不总是等于数据集samples数量的整数倍，最后一个数据epoch可能会进行特殊处理：

PaddleNLP/paddlenlp/data/causal_dataset.py

Lines 502 to 506 in 9f237b4

    
           # If we have less than 80% of the samples for the last epoch, 
        
           # seperate out the epoch and treat it differently. 
        
           # Note: the 80% number is just based on common sense and can 
        
           # be adjusted if needed. 
        
           separate_last_epoch = last_epoch_num_samples < int(0.80 * num_samples_per_epoch)

因此，数据集的samples排布会分成两部分[先前各个epoch的samples数据, 最后一个epoch的samples数据]。然而，causal_dataset对其是进行分别shuffle，导致两部分samples的数据分布规律不一致，进而导致loss会有骤降的现象：https://github.com/PaddlePaddle/PaddleNLP/blob/develop/paddlenlp/data/causal_dataset.py#L691-L711

参考PR:

The text was updated successfully, but these errors were encountered:

ZHUI · 2024-12-16T12:06:20Z

你好，建议您可以修改shuffle这部分的代码，合并一起shuffle。这样应该不会出现突变。

您可以去Megatron那边提问，我不太清楚为什么Megatron 需要设置Last epoch should not be globally shuffled。

dynamicheart added the bug Something isn't working label Dec 10, 2024

paddle-bot bot assigned DesmonDay Dec 10, 2024

dynamicheart changed the title ~~[Bug]: casual_dataset separate_last_epoch处理的疑问~~ [Bug]: causal_dataset separate_last_epoch处理的疑问 Dec 11, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Bug]: causal_dataset separate_last_epoch处理的疑问 #9599

[Bug]: causal_dataset separate_last_epoch处理的疑问 #9599

dynamicheart commented Dec 10, 2024 •

edited

Loading

ZHUI commented Dec 16, 2024 •

edited

Loading

[Bug]: causal_dataset separate_last_epoch处理的疑问 #9599

[Bug]: causal_dataset separate_last_epoch处理的疑问 #9599

Comments

dynamicheart commented Dec 10, 2024 • edited Loading

软件环境

重复问题

错误描述

稳定复现步骤 & 代码

ZHUI commented Dec 16, 2024 • edited Loading

dynamicheart commented Dec 10, 2024 •

edited

Loading

ZHUI commented Dec 16, 2024 •

edited

Loading