据内部消息透露,OpenAI已先后完成了至少两轮大规模的数据训练尝试,旨在通过海量数据喂养来提升模型性能。然而,首轮训练进程较预期滞后,预示着更大规模的训练任务不仅耗时冗长,而且经济成本高昂。
尽管GPT-5相较于其前身展现出了一定程度的性能提升,但这些进步尚未达到能够充分论证其高昂运维成本的地步。
在数据获取策略上,OpenAI采取了多元化路径,不仅广泛利用公开数据与许可协议资源,还积极招募专业人员,通过编写新代码及解决复杂数学问题来创新数据内容。此外,OpenAI还利用其另一款模型o1生成合成数据,进一步丰富其数据集。
值得注意的是,OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)此前已公开承认,随着AI模型复杂度急剧上升,公司在多线程项目管理,尤其是计算资源的高效配置上,正面临前所未有的挑战。鉴于此,OpenAI已预计GPT-5将无缘下一年发布。
OpenAI首席产品官Kevin Weil进一步阐释了公司的当前战略重心,强调在推动视频模型Sora进入下一阶段重大升级之前,公司将全力以赴,致力于提升模型的安全性、模拟精准度以及计算规模的可扩展性,确保各项标准均达到行业顶尖水平。