大模型优化是否影响链接生态的未来预测

大模型技术发展回顾和未来的展望(上)

大模型技术发展回顾和未来的展望(上)在近年来,大模型技术,特别是在GUI agent领域的发展,经历了从提示词工程到有监督训练,再到强化学习的显著转变。这一过程中,技术的演进不仅推动了GUI agent能力的提升,也为我们揭示了未来可能的发展方向。一、技术回顾提示词工程阶段背景:在2024年上半年,基础VLM(视觉语言模型)的能力尚不够强大,实现GUI agent主要依赖于提示词工程。腾讯、美团等公司都推出了通过定制化提示词和思维链等方式实现的GUI agent项目。特点:这一阶段的技术实现主要依赖于对提示词的精细设计和对模型理解能力的挖掘,但受限于模型本身的能力,GUI agent的智能化水平有限。有监督训练阶段技术革新:随着LoRA等高效调参技术的出现,微调模型的成本大大降低,SFT(有监督微调)开始流行。Google的Android团队发布了Android in the Wild数据集,为模型提供了从自然语言指令和屏幕状态预测下一步动作的训练数据。优势与挑战:SFT方法通过提高数据集质量和优化模型结构,显著提升了GUI agent的性能。然而,高质量轨迹数据的获取困难和模型泛化能力不足成为制约其发展的两大难题。这导致每次训练更新都需要重新构建数据集,成本高昂且难以扩展。强化学习阶段技术突破:2025年OpenAI-o1的发布展示了推理模型的强大能力,RFT(推理微调)进入视野。随后,Deepseek-R1的发布和GRPO强化学习算法的开源,为训练高质量推理模型提供了新方法。优势:强化学习相较于之前的方法具有数据收集成本低和泛化能力更强的优势。通过让模型自己探索正确路径进行训练,模型在出现OOD(分布外)情况时更能做出正确决策。这使得基于RL的GUI agent更易扩展和部署,效果也更好。应用案例:UI-R1、GUI-R1等文章利用RL算法取得了当时的SOTA性能,证明了强化学习在GUI agent领域的有效性。二、当前技术挑战与未来展望技术挑战数据更新问题:每次UI更新都会导致模型性能下降,这是当前基于RL的GUI agent面临的主要问题之一。虚拟环境和奖励建立:难以建立的虚拟环境和奖励、非标准化的工具带来了高昂成本,限制了这种技术模式的普及。模型能力限制:目前的模型仍存在长期记忆和从经验中持续学习的能力不足的问题。未来展望On-policy方向:未来GUI agent的发展方向可能是实现On-policy,让模型实时与模拟环境交互,利用验证器获得奖励并调整模型,以保证模型始终适应最新的UI逻辑。工具标准化与环境搭建:随着MCP的繁荣和越来越多项目支持环境搭建,未来可能会看到结合外部工具的强化微调技术模式的流行。这将有助于降低技术成本,推动技术的广泛应用。持续学习与记忆能力:未来的研究可能会更加关注模型的持续学习能力和长期记忆能力的提升,以应对复杂多变的实际应用场景。综上所述,大模型技术在GUI agent领域的发展经历了从提示词工程到有监督训练再到强化学习的显著转变。未来,随着技术的不断进步和成本的进一步降低,我们有理由相信GUI agent将实现更加智能化、高效化和普及化的应用。同时,我们也应持续关注并解决当前面临的技术挑战,为技术的进一步发展奠定坚实基础。


nginx