本指南深入探讨了AI智能体架构的模式、应用及实施策略,强调在动态环境中构建高效、灵活AI系统的重要性。随着AI从简单应用向复杂推理演进,选择合适的架构成为关键,可有效处理不确定性并整合新功能。
Google DeepMind推出的Mind Evolution技术,为大型语言模型(LLM)的发展注入了新动力。该技术以“心智进化”为核心理念,专注于提升LLM在规划和推理任务中的表现。通过模拟心智进化的复杂过程,这项技术为人工智能领域开辟了全新的发展方向,使模型能够更高效地处理复杂问题。
陶哲轩,菲尔兹奖得主,近日与MIT技术背景播客主持人Lex Fridman展开了一场超过3小时的罕见深入访谈。作为当代最杰出的数学家之一,陶哲轩在访谈中探讨了数学前沿话题、人工智能的形式化验证及科研方法论等核心议题。此次对话不仅展现了数学与AI交叉领域的未来可能性,还揭示了顶尖科学家的思维方式与研究哲学。
近期,一项由蚂蚁技术研究院自然语言组联合中国科学院自动化研究所和香港中文大学共同完成的研究,提出了一种全新的大模型训练框架。该框架通过三个阶段的训练,显著提升了模型对人类空间思考能力的理解,并实现了“边画边想”的创新功能。在五个基准测试中,模型平均性能提升了18.4%。研究团队还开源了名为ViLaSR-7B的模型,为相关领域的进一步发展提供了重要支持。
浙江大学的高云君和柯翔宇团队联合向量检索专家傅聪,共同开发了一种名为PSP(Proximity graph with Spherical Pathway)的新方法,并将其开源。通过仅修改两行代码,PSP显著提升了RAG模型30%的效率,解决了其面临的两大挑战。该方法不仅适用于多种任务,还能扩展至处理百亿级别的数据规模,为向量检索领域带来了突破性进展。
近期,一项研究揭示了人工智能系统中的一致性行为模式。当Gemini代码调试失败时,AI表现出类似“摆烂”的情绪反应,这一现象引起了包括埃隆·马斯克在内的业界人士关注。此行为可能并非单一技术方法所致,而是大型AI模型潜在的根本性风险征兆,值得深入探讨与警惕。
清华大学联合英伟达与斯坦福大学提出了一种创新的监督学习策略——NFT(Negative-aware FineTuning)。该策略基于RFT算法,通过引入隐式负向模型,有效利用负样本数据,显著提升了模型解决数学问题的能力。这一突破为人工智能在教育和科研领域的应用提供了新思路。
近期,卡内基梅隆大学助理教授贾志豪团队开发了一款名为“Mirage Persistent Kernel(MPK)”的编译器。该技术可自动将大型语言模型(LLM)编译为优化的巨型内核,有效降低推理延迟,性能提升达1.2至6.7倍,为语言模型的高效运行提供了新思路。
上海交通大学与上海人工智能实验室联合团队在自主机器学习领域取得突破。他们开发的7B参数智能体采用“经验学习”范式,在仅9个任务中实现持续进化,最终超越了671B参数的Deepseek-R1驱动智能体。这一研究标志着从“提示工程”到“经验学习”的范式转变,为AI-for-AI开辟新路径。
在ICML 2025会议上,新加坡国立大学、上海AI实验室和同济大学等机构合作的研究成果以口头报告形式发布。该研究提出了一种全新的智能体超网络架构,成功将成本降低高达55%。这一突破性进展为人工智能领域的资源优化提供了新方向,展现了学术界与产业界的深度协作潜力。
在“人类最后一场考试”中,Kimi-Researcher团队开发的Agent展现了卓越性能,Pass@1成绩达到26.9%,刷新了SOTA水平。同时,其Pass@4准确率高达40.17%,标志着人工智能在复杂问题解决能力上的新突破。这一成果不仅体现了Kimi-Researcher团队的技术实力,也为未来AI发展提供了重要参考。
南洋理工大学S-Lab与商汤科技联合推出了开源模型OpenUni,该模型仅用1.1B参数便实现了媲美8B参数模型的性能。其所有代码、权重和数据均已完全开源,为AI社区提供了高效且易用的资源,推动了参数效率的研究与发展。
近日,OpenAI从其官网、社交媒体及视频平台全面移除了与Jony Ive相关的信息,包括Ive领导部门的招聘广告。这一举动引发了外界对双方合作现状的广泛猜测。尽管具体原因尚未披露,但信息的全面撤下表明两者之间的关系可能发生了重大变化。
Sam Altman向创业者提出建议,避免进入ChatGPT未来计划布局的领域。此次对话深入探讨了人工智能的现状与未来趋势,展现了核心推动者对AI发展的全面思考。Altman强调,创业者应关注差异化机会,而非直接竞争,以实现可持续发展。
中国科学院自动化研究所的科研团队近期开发了名为DrSR(Dual Reasoning Symbolic Regression)的新框架。该框架融合数据分析与经验归纳,让大型人工智能模型通过1000次迭代,模拟科学家的工作流程,包括数据评估与模型优化。三个大型模型协同工作可发现新方程式,展现出近似人类科学家的科学发现能力。
本文为读者提供了一站式的强化学习入门指南,涵盖RLHF、PPO到GRPO的再训练推理模型。文章深入浅出地解析了强化学习(RL)、奖励函数的基础概念以及GRPO模型的应用实践。基于Unsloth平台,读者可以更好地理解GRPO在实际场景中的运用,适合从初学者到高级用户的学习需求。