Hasty Briefsbeta

双语

OpenAI's new open-source model is basically Phi-5

9 months ago

#Synthetic Data
#AI Safety
#OpenAI

OpenAI发布了其首批开源大语言模型gpt-oss-120b和gpt-oss-20b，基准测试表现参差不齐。
这些模型在某些领域表现优异，但在SimpleQA等任务中表现欠佳，且缺乏领域外知识。
微软由Sebastien Bubeck开发的Phi系列模型采用合成数据训练，基准测试优异但实际任务表现不佳。
合成数据可精准控制训练内容，虽能提升模型安全性，但可能削弱泛化能力。
OpenAI采用合成数据很可能是出于安全考量，确保开源模型不会产生颠覆性行为并与基准对齐。
OpenAI的核心业务仍是闭源模型，因此其开源模型无需在现实应用中追求卓越表现。