香港科技大学(广州)与阿里巴巴通义实验室首次提出通用视频检索(General Video Retrieval)概念,并构建了涵盖16个数据集的综合性评测基准UVRB,全面覆盖多任务与多领域场景。研究团队合成了155万条高质量、多模态且任务多样化的视频-语言训练对,用于提升多模态大模型的性能。为优化训练过程,团队创新性地设计了任务金字塔课程训练策略,显著提高了模型的学习效率。该合作标志着视频检索领域向通用化和系统化迈出了关键一步。
北京大学与BeingBeyond联合团队提出了一种创新的机器人训练方法——“分层小脑+仿真分身”,成功实现G1机器人在无先前样本条件下快速投入实际工作。该方法基于“单仿真演示驱动泛化移动操作”机制,通过构建分层控制架构与高效数据生成流程,显著提升了人形机器人在复杂任务中的泛化能力与迁移效率,有效降低了训练成本。实验表明,仅需一次仿真演示,机器人即可完成多场景下的自适应操作,为机器人快速部署提供了全新解决方案。
Hulu-Med是由浙江大学、上海交通大学与伊利诺伊大学香槟分校联合研发的医学人工智能模型,致力于整合多模态医学数据,推动医学AI向全面化、透明化与高效能方向发展。该模型不仅在性能上表现卓越,更提供了一个开源的研究平台及完整的技术框架,支持全球研究者进行可重复、可扩展的医学AI研究。Hulu-Med的推出为医学人工智能的进一步创新与临床应用奠定了坚实基础。
ICLR 2026会议评审结果公布,引发学术界广泛关注。本届会议投稿量接近2万篇,创下历史新高,但论文平均得分却从往年的5.12分显著下降至4.2分,反映出整体质量下滑趋势。多位审稿人指出,部分论文存在结构松散、创新不足等问题,甚至怀疑其由AI生成。面对投稿数量激增与质量参差不齐的双重压力,DeepMind的研究团队分享了他们在评审中的应对策略,强调对方法论严谨性与实验可复现性的严格把关。这一现象折射出AI研究热潮背后的隐忧,也促使学界重新思考评审机制与学术标准的未来方向。
斯坦福博士Zelikman离开xAI公司,转而投身于人工通用智能(AGI)领域,引发对技术发展方向的深刻反思。尽管当前AI在语言生成与逻辑推理上已取得显著进展,但在共情力与情感模拟方面仍显不足。Zelikman的选择凸显了技术进步与人文关怀之间的张力:我们究竟需要运算更快的机器,还是更能理解人类情感的智能伙伴?随着资本逐渐关注AI的共情能力,核心问题正转向算法是否能真正实现“理解”而非仅“回应”。这一转向或将重塑AGI的发展路径,推动其向更具人性化的方向演进。
谷歌DeepMind团队在《自然》杂志发表最新研究成果,介绍其开发的数学模型AlphaProof在国际数学奥林匹克竞赛(IMO)中取得接近金牌的银牌成绩。该模型融合了大型语言模型的直觉推理、强化学习与Lean形式化证明系统,成功解决多道高难度数学问题,展现了人工智能在复杂数学推理领域的突破性进展。尽管在解题速度、题目阅读理解及泛化能力方面仍存在局限,AlphaProof的成就标志着AI辅助数学研究的新阶段,开启了人类数学家与人工智能协同探索理论前沿的可能性。
宾夕法尼亚大学教授指出,AI革命的核心并非算法本身,而在于使用者的思维差异。同样的AI工具,有人用于编写笑话,有人则用以撰写论文、运行模型与生成研究报告。20美元的成本成为衡量知识获取能力的新分界线,揭示了“思维鸿沟”的形成。在技术趋于平权的时代,AI正悄然催生一种隐形的社会分层——AI分层。真正的竞争已从掌握工具转向如何与AI共同思考,思维的深度决定个体在智能时代的位置。
昨日,LMArena正式发布新一代大模型编码评估系统——Code Arena,标志着编程大模型能力评测迈入新阶段。该系统通过更全面、动态的评测机制,显著提升了评估的公平性与准确性,为国产大模型提供了更具竞争力的展示平台。在最新榜单中,多个国产模型表现亮眼,首次登顶前列,充分展现了中国在大模型编码领域的技术进步与创新实力。Code Arena的推出不仅推动了全球编码模型的技术迭代,也为国内人工智能发展注入新动能。
在自然语言处理领域,结合RAE(Recurrent Autoencoder)与VAE(Variational Autoencoder)的预训练技术,显著提升了扩散模型中Tokenizer的性能。通过引入VFM-VAE模型,整合一个预先训练且冻结的基础视觉模型作为Tokenizer,不仅有效加速了模型的收敛过程,还显著提高了生成内容的质量。该方法标志着LDM Tokenizer正从传统的像素级压缩向更高层次的语义表征演进,增强了对上下文语义的理解与表达能力,为生成模型的发展提供了新的方向。
近日,IDEA研究院的研究团队推出了一款新型通用视觉感知模型Rex-Omni,该模型仅含3B(30亿)参数,却在多项视觉任务中实现了突破性进展。Rex-Omni首次在性能上超越了现有的Grounding DINO模型,展现出卓越的效率与泛化能力。该模型能够统一处理10种以上视觉任务,涵盖目标检测、实例分割、图文定位等多个领域,显著提升了多任务协同处理的可行性。凭借其轻量化架构与强大的通用感知能力,Rex-Omni为下一代目标检测技术的发展提供了全新路径,标志着通用视觉模型向高效、一体化方向迈出了关键一步。
NVIDIA与多伦多大学的研究团队提出了一种突破性的图像编辑技术,将图像编辑过程视为制作仅有两帧的微型电影。该方法通过引入时间维度模拟现实世界中的动态变化,有效提升了编辑结果在视觉与物理上的一致性。传统图像编辑常因忽略环境连续性而导致失真,而此项创新利用视频生成模型的优势,实现了更自然、连贯的图像修改。这一技术为图像处理领域带来了新的范式,有望广泛应用于数字内容创作、影视后期及虚拟现实等领域。
新浪微博推出的VibeThinker-1.5B小模型以不到8000美元的成本实现了显著的性能突破,展现了在成本控制方面的卓越能力。该1.5B参数规模的模型通过算法优化,在逻辑推理这一关键认知领域表现优异,甚至超越了部分接近万亿参数的大型模型。这一成果证明,通过精心设计的算法,小模型同样能在复杂任务中实现高性能,为人工智能模型的研发提供了更具经济效益的技术路径。
Character AI与耶鲁大学联合推出了名为Ovi的开源项目,致力于音画同步视频生成技术的突破。Ovi(Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation)采用创新的双主干跨模态融合架构,首次在统一框架内高效整合音频与视频信息,显著提升了生成内容的时序对齐精度与真实感。该项目聚焦于跨模态理解与生成,为虚拟人、智能教育和影视创作等领域提供了强有力的技术支持。作为开源项目,Ovi旨在推动音画同步研究的开放协作与持续创新。
FDA(Functional Dual Anchors for Model Merging)框架是一种创新的模型知识迁移方法,旨在通过在参数空间与输入空间之间建立双重锚定关系,提升模型融合的效果。该框架突破了传统模型合并仅依赖参数加权的局限,引入功能一致性作为优化目标,确保不同模型在语义层面保持对齐。实验表明,FDA在多个基准任务上显著优于现有模型融合技术,有效增强了知识迁移的稳定性与泛化能力。
本文提出一种新框架,旨在解决多模态大型模型在处理冲突信息时的模态选择难题。该框架将模态选择视为由“相对推理不确定性”和“固有模态偏好”共同驱动的动态过程。研究发现,模型选择某一模态的概率随其相对不确定性的升高而单调下降,揭示了一种稳健的规律性。此外,研究引入“平衡点”概念,为量化固有模态偏好提供了原则性方法,增强了模态决策的可解释性与可控性。
Hulu-Med是由浙江大学、上海交通大学与伊利诺伊大学香槟分校联合开发的医学领域大型模型,致力于全面理解各类医学数据,推动医学AI从单一专科辅助向全能型应用演进。该模型探索开源新范式,具备影像诊断、手术指导、多语言问诊及罕见病推理等多重能力,显著拓展了人工智能在医疗场景中的覆盖范围。通过开放架构设计,Hulu-Med为全球研究者提供可迭代、可扩展的技术平台,加速医学大模型的科研转化与临床实践,标志着开源医学AI迈向新阶段。


