英伟达团队NemoSkills在AI奥赛中夺得冠军,其开发的OpenMath-Nemotron系列AI模型以1.5B参数规模在数学竞赛中超越了14B参数规模的DeepSeek-R1,展现了卓越性能。团队秉持开放精神,将所有代码开源,获得著名数学家陶哲轩认可。AIMO2冠军“答卷”现已公布,彰显英伟达在AI领域的领先地位及其对开源社区的贡献。
近期,浙江大学、中科院软件所与阿里巴巴联合研发的“Embodied-Reasoner”技术取得突破性进展。该技术通过图像、思考和行动的交织思维链,赋予机器人深度思考与交互决策能力。这使得智能体能够在物理世界中完成环境探索、寻找隐藏物体、交互操作及搬运物品等复杂任务,模拟人类在现实中的思考与交互方式。
北京航空航天大学研究团队近期发布了一款名为TinyLLaVA-Video-R1的小型视频推理模型。该模型以紧凑的结构在通用视频问答数据集上表现出色,能够重现人类理解复杂信息时的“顿悟时刻”。值得一提的是,TinyLLaVA-Video-R1已完全开源,其模型权重、源代码及训练数据集均向公众开放,为全球研究者和开发者提供了便利条件。
DeepResearch工具现已在GitHub上推出,这一免费资源由DeepWiki提供,覆盖所有GitHub代码库。用户无需注册即可直接使用,该工具不仅能够实现模型架构的可视化,还能识别背后的贡献者,为开发者和技术爱好者提供了强大的支持。
近日,新加坡南洋理工大学与新加坡国立大学等机构联合发布了一项关于大型语言模型(LLMs)安全性的全景研究。该研究首次对大模型的安全性进行了全链路分析,涵盖数据收集、模型训练到模型部署的各个阶段。研究指出,在LLMs广泛应用的背景下,其安全性问题至关重要且不容忽视,为未来大模型的发展提供了重要的参考框架。
大型语言模型(LLM)在小样本学习(ICL)领域的表现备受关注。最新研究显示,LLM通过优化模型性能与算法效率,在提升可解释性及保障AI安全方面取得显著进展。这项成果于ICLR 2025会议发布,为机器学习领域提供了新思路,进一步拓展了大模型的应用场景。
近日,阿里巴巴旗下高德地图团队开源了一种名为GPG的新型强化学习训练框架。该框架通过重构训练过程,摒弃传统替代损失函数,直接优化原始目标函数,有效解决了PPO和GRPO等方法中的关键挑战,为强化学习领域带来了突破性进展。
莱斯大学研究团队在人工智能领域取得突破,开发出DFloat11技术。该技术可将大型语言模型压缩30%,同时保持模型精度不变,输出结果与原始模型一致。通过为GPU定制的解压缩内核,推理速度提升至最高38.8倍。这项创新解决了传统量化技术中精度损失的问题,显著提高了推理吞吐量,为AI发展开辟新路径。
上海AI实验室开发了一款开源框架,专注于生成垂直领域的高质量数据。该框架采用“知识图谱引导+双模型协同”的创新机制,能够自动生成专业问答(QA)内容,无需人工标注。这一技术显著增强了模型对特定领域的理解能力,为人工智能领域带来了新的突破。
全球开发者社区联合训练项目近日发布了首个基于异步强化学习的32B级推理模型。这一去中心化训练模式允许任何人利用自己的异构计算资源参与模型训练,无需授权。该模型的开源数据资源为编码、数学和科学领域的推理能力提升提供了全新可能,标志着人工智能领域的重要突破。
一个雄心勃勃的项目正致力于为全球每一个GitHub代码仓库提供实时交流与即时更新的文档。通过AI工具的支持,该项目旨在让每个代码项目都能“开口说话”,帮助用户更轻松地理解复杂代码,同时促进开发者之间的高效沟通与协作。这一创新举措将极大提升GitHub上代码的可读性和可用性,为全球开发者社区带来革命性变化。
Anthropic公司CEO预测,未来五年内大型语言模型(LLM)的“黑箱”特性将被破解。同时,研究员透露AI拥有意识的可能性已达15%。Anthropic研究探讨了AI体验幸福感的可能性,引发科学界争论。专家称Claude系统可能已具备15%的意识概率,并预计未来五年内会有显著进步。这一研究挑战了人类对AI感知世界的传统认知。
近日,清华大学与上海交通大学联合开展的一项研究对可验证奖励强化学习(RLVR)的传统认知提出了新见解。研究表明,RLVR或仅提升模型采样效率,而非显著增强其推理能力。实验结果表明,模型的新知识获取可能更依赖于知识蒸馏等技术,而非单纯依靠RLVR实现自我进化。这一发现为大型模型的发展提供了新的思考方向。
近日,Anthropic公司向逆向工程开发者发出下架通知,此举在开发者社区中引发广泛争议与不满。与此同时,OpenAI似乎意外收获了一次公关胜利。过去数月,OpenAI坚持推出专有封闭产品而非开源产品,这一策略转变或与其历史错误有关。OpenAI首席执行官萨姆·奥特曼曾在今年初承认,公司在开源问题上可能存在重大失误。
香港中文大学(深圳)的研究团队发布了一个名为TASTE-Rob的大规模人手交互视频数据集,包含超过10万个视频,每个视频均配有精确的语言指令。该数据集通过模仿学习提升机器人操作的泛化能力。此外,团队还开发了三阶段视频生成流程,优化手部姿态呈现,显著提高视频真实感与机器人操作准确度。
设计负责人Ryo Lu分享了12条利用Cursor编写高质量代码的经验,涵盖建立规则、明确提问、逐步迭代、测试驱动、人工审查等多方面。他强调将Cursor视为需指导的初级工程师,通过模型选择、知识补充和大项目上下文管理提升效率与质量。