OpenAI近期推出了一款全新的智能体API,该API集成了网络搜索与文件检索功能,支持计算机使用。此工具旨在简化智能体的核心逻辑、编排和交互流程,为开发者提供更便捷的开发环境。通过这些新功能,开发者能够更加专注于智能体的创新与构建,而不必在复杂的底层逻辑上耗费过多精力。OpenAI致力于为开发者提供强大的工具,以促进人工智能领域的进步。
清华大学NLP实验室联合中南大学、北京邮电大学及腾讯微信AI实验室,共同提出了一种名为APB的序列并行推理框架。该框架在处理长文本时展现出卓越性能,速度比Flash Attention快10倍,实现了显著的性能提升。这一创新成果标志着多校合作在自然语言处理领域的又一重要突破。
第三届北京人工智能产业创新发展大会的召开,标志着中国人工智能产业步入“价值兑现期”。站在2025年的视角回顾,人工智能不仅实现了工具层面的创新,更催生了全新的文明形态。这一阶段的人工智能已超越传统工具范畴,成为推动社会变革的重要力量,引领产业创新与价值创造的新纪元。
近日,由香港中文大学、香港理工大学、清华大学等高校与云天励飞公司联合开发的大规模视频编辑数据集——Señorita-2M正式发布。该数据集包含200万个高质量的视频编辑样本,涵盖18种不同的视频编辑任务,为视频编辑技术的研究提供了宝贵资源。这一合作项目不仅促进了学术界与产业界的深度融合,也为视频编辑领域的创新发展奠定了坚实基础。
本文探讨了在受控和可解释的环境中,如何通过显式思维链(CoT)训练在Transformer模型中实现系统性组合泛化。研究揭示,思维链训练能显著增强模型的推理泛化能力,使模型在面对新任务时能够更有效地进行逻辑推理和知识迁移。实验结果表明,在特定条件下,经过思维链训练的Transformer模型展现出更高的准确性和稳定性,为人工智能领域的进一步发展提供了新的思路。
OpenAI在深夜举办了一场时长19分钟的线上发布会,期间推出了两款重要的Agent工具:自主研发的Agent SDK和Responses API。这两款工具旨在提升开发者构建智能应用的能力,为人工智能领域带来新的突破。
清华大学赵昊教授和赵行教授领导的团队与博世中央研究院RIX合作,在2025年国际机器人与自动化会议(ICRA)上发表了一项创新研究成果——Chameleon。该系统突破了传统方法的局限,提出了一种无需训练即可解析复杂道路拓扑的快慢双系统Chameleon。这一技术能够高效应对复杂多变的道路环境,为自动驾驶等领域提供了全新的解决方案。
X-CLR是一种新型对比损失函数,旨在显著提升图像识别能力。尽管AI驱动的图像识别技术已取得显著进步,但在理解和解释图像间关系方面仍存在挑战。传统方法依赖严格的分类框架,导致模型忽略了图像间细微的相似性,而这些相似性对于反映真实世界数据至关重要。X-CLR通过优化对比损失,使模型能够更好地捕捉图像间的细微差异,从而提高识别精度和理解能力。
OpenAI在深夜发布了一项重大更新,为开发者带来了全新的API和工具,极大地简化了智能体的开发流程。现在,开发者无需再从多个来源整合底层API,而是可以通过一个统一的API和三个内置工具,以及一个开源的SDK,轻松进入智能体开发的新阶段。只需四行代码,即可快速上手,OpenAI的这份深夜大礼,无疑为智能体开发带来了革命性的便利。
DeepSeek开源项目近期发布了其第四个版本——DualPipe,此版本由梁文峰主导编写。DualPipe引入了创新的双管道机制,显著提升了数据处理效率与模型训练速度。新版本不仅优化了原有功能,还增强了系统的稳定性和兼容性,为开发者提供了更灵活的选择。通过这一更新,DeepSeek进一步巩固了其在开源社区中的地位,成为更多企业和研究者首选的开发工具。
斯坦福大学近日发布了一款名为OctoTools的开源通用框架,该框架通过整合标准化工具卡和规划器,显著提升了大型语言模型(LLMs)在复杂任务处理中的效率。实验结果显示,在16项任务中,OctoTools的平均准确率比其他方法高出9.3%,尤其在多步推理和工具应用方面,性能提升达到了10%。这一创新无需额外训练即可实现性能提升,为语言模型的应用带来了新的突破。
DiffRhythm是一款创新的AI音乐生成模型,具备高效创作、简单架构、灵活定制和便捷部署的特点。它能在短短10秒内生成4分45秒的完整歌曲,包括人声和伴奏,仅需输入歌词和风格提示即可创作出个性化的音乐作品。该模型采用全diffusion架构,易于理解和实现,并支持本地部署,最低只需8GB显存,降低了硬件要求。DiffRhythm已登上Hugging Face趋势榜,显示出其受欢迎程度和影响力。
近日,Manus公司要求OpenAI开放其智能体框架,这一举动引发了广泛关注。据网友评论,OpenAI似乎已从行业领导者逐渐转变为跟随者。为应对变化,OpenAI新推出了名为Responses API的整合型API,该API融合了原有的Chat Completions API和工具使用功能。内置工具涵盖网页搜索、文件搜索及计算机操作,旨在提供更全面的服务体验。
本文为开发者提供在Ubuntu 22.04系统上部署vLLM的详细指南。通过结合RTX 4090显卡和Docker容器技术,文章逐步指导读者完成显卡驱动安装、CUDA环境配置及Docker环境搭建,最终实现vLLM的成功部署与运行。
上海浦东新区正加速发展人形机器人产业,致力于构建完整的产业生态系统。近年来,浦东新区凭借其优越的地理位置、完善的基础设施以及政策支持,吸引了众多国内外顶尖的人形机器人企业入驻。目前,该区域已初步形成涵盖研发、生产、销售及售后服务等环节的全产业链条,为推动我国人形机器人产业发展提供了强大动力。
新版本的AI系统在处理语言任务时展现了显著进步。特别是在推理阶段,KV缓存的存储需求减少了一半,有效降低了成本并保持了性能。LightTransfer技术进一步提高了效率并降低成本。此外,大型语言模型(LLM)展示了强大的长文本生成能力,新版本能够生成长达100K tokens的文本序列,对KV缓存提出了更高要求。