Google联合研究:综合数据为八次下沉的推理功能
作者:365bet网页版日期:2025/04/11 浏览:
[TechWeb]最近,由Google,Carnegie Mellon University和Multion组成的联合研究团队发布了有关在大型模型培训中应用合成数据的研究的重要结果。 Epoch AI是一个致力于发展人工智能的研究组织,已教导说,目前有300万亿可向公众提供全球高质量的文本培训得分。但是,随着大型模型(例如ChatGpt)的快速发展,对培训数据的需求已大大增长,并且预计该现有数据将在2026年耗尽。在这种情况下,合成数据已成为主要选择。研究人员专注于探索两种类型的合成数据,尤其是正和阴性。远期数据是对大型模型性能(例如GPT-4和Gemini 1.5 Pro)产生的问题的正确解决方案,该问题提供了解决数学问题的示例模型。但是,有明确的培训限制通过仅依靠前向数据。首先,此方法可能不允许模型真正理解问题解决的逻辑,而只能通过与模式匹配来学习。其次,随着训练数据的价值的增加,该模型可能会确定错误的关系,从而导致处理新问题时一般概括的能力降低。在这方面,研究人员介绍了负数据,这是一个逐步的问题,被证明是错误。这将有助于模型识别并避免错误,从而增强逻辑推理能力。尽管存在使用负数据的挑战,但由于错误度量可能包含错误信息,但研究人员成功地获得了该模型,以从偏好直接优化(DPO)的帮助下从错误中确定,并强调了每个步骤在解决问题方面的重要性。 DPO过程在解决问题以证明其值A时在每个步骤中分配一个主要值与完美的解决方案相结合。研究发现,高级措施是正确解决问题的关键,而低优势步骤可能意味着模型推理存在问题。基于这些优势,该模型可能是一个更改,以调整加强概述中的技术以更好地学习和改进合成数据。为了验证由DeepSeek -Math -7b和Llama2-7b等研究团队选择的合成数据的骨头,以在GSM8K和MATH数据集中进行全面试验。结果令人惊讶,在数学识别活动中,先前受正合成数据训练的大型模型的性能提高了八次。这项研究完美地证明了合成数据在增强大型模型的逻辑推理能力方面具有巨大的潜力,并为开发大型模型开辟了新的方向。 (Suke)
相关文章