compare型数据集主观测评 #1575
Replies: 2 comments 7 replies
-
首先这里会有三个模型,一个是你需要测试他性能的模型,也就是config里的models变量,在demo的config里是chatglm3-6b。第二个是需要和它比较的模型,在alpacaeval的官方榜单里是某个版本的gpt4,这个是固定的不能更改的,所以在OC里隐藏起来了,不管哪个模型进来都是和它进行比较,如果需要改的话需要更改另一个地方的设置,但是你如果要和官方榜单比较的话不需要管这一点。第三个就是judge model了,利用judge model对刚刚前两个模型的结果进行比较,选出一个好的来,也就是config里的judgemodels。 你的第二个问题,如果你想要替换judge model,那么注意你的结果也是不能和榜单比较的(因为judge model也替换了,官方榜单的judge model是gpt4-turbo,只能变成相当于自己内部建立一个榜单进行比较了),如果要换judge model,直接和写一个model的config是一样的,这样即可
|
Beta Was this translation helpful? Give feedback.
-
opencompass/configs/eval_subjective.py Line 70 in 85a2887 还有一个问题忘了跟你说了,你这边用的是qwen做judgemodel的话,走不了这个official的config,因为那个只能用GPT做judge model,alpacaeval那边是这样的,alpacaeval的lc win rate用了logit prob,其他模型不确保能输出这个。所以我推荐你如果要换judge model的话,参考https://github.com/open-compass/opencompass/blob/main/configs/eval_subjective.py 这个config即可。 也就是写成下面这样就能跑了
把models和judge_models换成你需要的即可 |
Beta Was this translation helpful? Give feedback.
-
想用alpacaeval进行主观评测,参考了eval_subjective_alpacaeval_official.py,
有两个问题:
1、eval_subjective_alpacaeval_official.py文件里只有一个模型chatglm3-6b,还有一个gpt4-turbo作为judgemodel,这指的是chatglm3-6b和got4-turbo进行比较吗,如果不是的话怎么写入两个模型,并用gpt-turbo进行judge;
2、gpt4_judge = dict(
abbr='GPT4-Turbo',
path='gpt-4-1106-preview',
key='', # The key will be obtained from $OPENAI_API_KEY, but you can write down your key here as well
config='weighted_alpaca_eval_gpt4_turbo'
)
这个里面config是什么意思,如果想用别的API模型如qwen-max该怎么写
Beta Was this translation helpful? Give feedback.
All reactions