近日,月之暗面与清华大学联合推出名为Seer的新型加速引擎,旨在显著提升大型语言模型(LLM)的训练效率。该引擎在不修改核心强化学习算法的前提下,实现了训练速度提升97%,同时将长尾延迟降低93%,有效解决了大规模模型训练中的性能瓶颈问题。Seer引擎的推出标志着产学研深度融合在人工智能基础设施领域的重大突破,为未来高效、低成本的语言模型训练提供了可靠技术路径。
南京理工大学、清华大学与南京大学联合研发了一款名为TCDiff++的端到端舞蹈生成模型,该技术在多人舞蹈生成领域实现重大突破。TCDiff++支持跨模态编舞,能够根据音乐或动作指令一键生成协调流畅、高质量且长时间的群体舞蹈序列,显著提升了群舞编排的自动化水平。该模型为虚拟演唱会、数字人集体演出等应用场景提供了完整的AIGC解决方案,推动了人工智能在艺术创作领域的深度融合与应用。
谷歌预测,在未来五年内,图像将能够像语言一样被当作序列进行学习,推动人工智能在视觉理解领域的进一步突破。当前,语言模型已成功利用序列学习处理文本信息,而图像序列的研究正逐步借鉴这一范式。通过将图像分解为有序的像素或特征块序列,模型可运用类似Transformer的架构进行训练,从而实现对图像内容的生成与推理。这一趋势不仅模糊了语言与视觉的边界,也为多模态学习提供了新的技术路径。随着计算能力的提升和数据规模的扩大,图像作为序列的学习方法有望在五年内取得实质性进展,成为继自然语言处理之后的下一个AI前沿领域。
腾讯混元大模型团队近日宣布,其最新研发的超轻量视频生成模型HunyuanVideo 1.5正式发布,核心部分已全面开源。该模型在视频生成效率与资源占用之间实现了显著突破,主要得益于创新性地引入稀疏注意力优化技术。这一技术有效降低了计算冗余,提升了生成速度与模型响应能力,使HunyuanVideo 1.5在保持高质量视频输出的同时,具备更强的部署灵活性和可扩展性。作为混元模型系列的重要进展,此次发布的版本为轻量化AI视频创作提供了新的技术路径,进一步推动了生成式AI在移动端与边缘设备的应用落地。
近日,由谢赛宁与Jaakkola团队联合开展的“AI 传心术”研究引发技术界广泛关注。该研究提出一种名为无数据Flow Map蒸馏的新型机器通信方法,首次实现无需语言交互的模型间高效沟通。通过直接传递前向计算中的Cache数据,该技术构建了Cache-to-Cache的通信新范式,显著提升信息传输效率并降低冗余开销。此项工作由清华大学、无问芯穹及香港中文大学等机构共同推进,突破传统依赖文本或符号的模型交互方式,展现出“去语言化”机器交流的巨大潜力,为未来AI系统协同提供了全新思路。
阿里巴巴集团近日推出名为ROCK的开源项目,旨在为人工智能智能体提供可大规模复制的实战演练环境。该项目有效解决了在真实场景中难以开展大规模AI训练的难题,通过标准化流程实现一键部署,显著降低开发门槛。借助ROCK,开发者能够高效训练AI执行复杂任务,无需手动构建训练环境,大幅提升研发效率。这一创新为AI智能体的迭代与应用提供了强有力的技术支持。
最近推出的面向令牌的对象表示法(TOON)作为一种新型数据格式,旨在显著降低大型语言模型(LLM)的运行成本。作为JSON的高效替代方案,TOON通过优化数据结构设计,有效减少令牌消耗,在保持与JSON相近精度的同时实现更高的传输与处理效率。基准测试表明,TOON在特定场景下可比JSON减少高达40%的令牌使用量,从而大幅降低模型推理和数据交互的成本。这一技术为大规模语言模型的应用提供了更具成本效益的数据交换解决方案,尤其适用于高频率、大数据量的AI服务场景。
无问芯穹公司近期完成近5亿元人民币的A+轮融资,资金将重点投向Agentic Infra基础设施建设。此举旨在推动云计算与终端基础设施的智能化升级,打造智能体技术应用的实验场,加速技术从概念展示迈向规模化生产。公司致力于构建如水电气般普惠的智能基础设施,使智能体技术广泛服务于各行各业及家庭场景,助力人工智能进入普适化应用新阶段。
在苹果平台上,开发者在集成语言模型时常面临生态分散的挑战,不同模型的接口差异增加了开发复杂度。为解决这一问题,AnyLanguageModel应运而生——一个全新的Swift语言包,旨在通过提供统一API接口,简化本地与云端语言模型的集成流程。该工具支持多种主流语言模型,使开发者能够以一致的方式调用功能,显著提升开发效率并降低维护成本。AnyLanguageModel不仅兼容iOS、macOS等苹果生态系统平台,还优化了内存使用与响应速度,适用于从轻量级应用到复杂AI驱动功能的广泛场景。
亚马逊公司近日宣布,其产品Amazon Bedrock AgentCore Runtime已成功集成A2A协议,标志着智能体技术在互操作性方面迈出关键一步。A2A协议支持基于不同框架构建的智能体实现高效通信与协作,打破技术孤岛,推动多智能体工作流环境的构建。该集成使开发者能够更灵活地设计、部署和管理跨平台智能体应用,显著提升自动化系统的协同效率。亚马逊此举旨在加速企业级AI应用的落地,为金融、制造、医疗等行业提供更加开放、可扩展的智能解决方案。
通过融合飞桨引擎与文心大模型两大AI技术,结合语音输入、手写订单拍摄及图片上传等功能,某销售场景实现了智能开单的突破性进展。以往为火锅店客户下单需耗时5分钟,如今缩短至几秒钟,效率提升近30倍,显著提升了业务响应速度与客户满意度。该案例充分展现了人工智能在实际商业应用中的巨大潜力,特别是在销售流程自动化和数据处理智能化方面的核心价值。
在当前复杂的数据环境中,获取应用资源使用情况的深入洞察已成为技术优化的关键。Grafana Labs 在 Grafana 10.3 版本中引入了 Span Profiles 功能,标志着持续剖析技术迈出了重要一步。该功能通过精细化追踪和分析分布式系统中的 Span 数据,帮助开发者更直观地理解应用在不同阶段的资源消耗情况,从而提升性能调优的效率与准确性。随着数据洞察需求的不断增长,持续剖析正成为可观测性领域不可或缺的能力。
本文介绍如何利用LangChain的表达式语言构建一个高效的人工智能系统,用于精准解读客户在Google评论中的情感倾向。该系统通过集成自然语言处理技术与LangChain框架,能够自动化提取评论中的关键信息,识别正面、负面及中性情绪,从而为企业提供有价值的用户反馈洞察。研究表明,结合LangChain的模块化设计,系统在处理中文评论时准确率提升至89.7%,显著优于传统分析方法。
AI PC是否代表革命性变革,抑或仅为营销策略,正引发广泛讨论。尽管当前AI PC在算力、能耗与软件生态方面仍面临挑战,其实现完全智能化尚需时日,但其技术潜力不容忽视。通过集成专用AI加速芯片,AI PC可实现本地化大模型运算,提升隐私保护与响应效率。据IDC预测,到2027年全球AI PC出货量将占PC总量的60%以上,表明其正逐步成为主流趋势。这一转型过程虽漫长,但随着软硬件协同优化与应用场景拓展,AI PC有望重塑人机交互模式,推动个人计算进入智能化新阶段。
随着脑电信号(EEG)解码技术的持续突破,脑机接口(BCI)正迈向通用化发展的关键阶段。近年来,EEG在医疗诊断、认知增强及神经康复等领域的应用不断拓展,已成功应用于癫痫发作预测、精神障碍识别、疲劳监测与情绪解码等场景。特别是跨尺度脑基础模型CSBrain的提出,实现了对多尺度脑电数据的高效建模,显著提升了信号解码的精度与泛化能力,为构建通用型BCI系统提供了核心技术支撑。该进展不仅推动了神经科学的基础研究,也为临床治疗与人机协同开辟了新路径,预示着通用脑机接口时代的临近。
NeurIPS 2025会议的奖项结果已正式公布,其中“Qwen”团队凭借其杰出研究荣获最佳论文奖。本届会议共评选出四篇最佳论文奖获奖作品,同时有三篇论文获得最佳论文亚军奖,彰显了学术界的多元创新与高水平研究。此外,“Faster R-CNN”因其在计算机视觉领域产生的深远影响,被授予时间检验奖,充分肯定了其长期学术价值与技术推动力。


