Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

--max_length 参数是否不对自定义数据集生效 #1297

Open
kratorado opened this issue Jul 4, 2024 · 7 comments
Open

--max_length 参数是否不对自定义数据集生效 #1297

kratorado opened this issue Jul 4, 2024 · 7 comments
Assignees

Comments

@kratorado
Copy link

我在加入自定义数据集训练的时候,发现会偶发性地爆显存,后来手动去除了较长的样本后,才正常,但是我是加了--max_length参数的,似乎没有生效
--max_length 参数是否不对自定义数据集生效?如果确实不生效,能不能增加这个选项呢?

@Jintao-Huang
Copy link
Collaborator

自定义数据集是指 --dataset {local_path} 这种嘛

@Jintao-Huang Jintao-Huang self-assigned this Jul 4, 2024
@kratorado
Copy link
Author

自定义数据集是指 --dataset {local_path} 这种嘛

是的

@fly-dragon211
Copy link

我在加入自定义数据集训练的时候,发现会偶发性地爆显存,后来手动去除了较长的样本后,才正常,但是我是加了--max_length参数的,似乎没有生效 --max_length 参数是否不对自定义数据集生效?如果确实不生效,能不能增加这个选项呢?

您好,我也遇到了这个问题,请问您怎么解决的呢

@kratorado
Copy link
Author

我在加入自定义数据集训练的时候,发现会偶发性地爆显存,后来手动去除了较长的样本后,才正常,但是我是加了--max_length参数的,似乎没有生效 --max_length 参数是否不对自定义数据集生效?如果确实不生效,能不能增加这个选项呢?

您好,我也遇到了这个问题,请问您怎么解决的呢

手动过滤呀

@Jintao-Huang Jintao-Huang added bug Something isn't working and removed bug Something isn't working labels Jul 8, 2024
@Jintao-Huang
Copy link
Collaborator

我这里测试LLM是没问题的, 你是多模态LLM嘛

@kratorado
Copy link
Author

我这里测试LLM是没问题的, 你是多模态LLM嘛

glm4-9b-chat

@Jintao-Huang
Copy link
Collaborator

那应该是会将超过max_length的去掉的
训练时,在命令行中会输出数据集的统计量,可否找一下看看呢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants