模型

该分类下最新 AI 动态。

MarkTechPost(RSS)1 小时前模型

微软研究院近日推出Fara1.5系列浏览器操作智能体,包含4B、9B和27B三种参数规模。其中最大模型Fara1.5-27B在Online-Mind2Web基准测试中达到72%的准确率,显著优于OpenAI Operator、Gemini 2.5 Computer Use等主流模型。此次发布同步推出FaraGen1.5合成数据流水线,可在受控环境中高效训练智能体,为自动化浏览器操作提供了新解决方案。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:小互 (@xiaohu)3 小时前模型

网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)3 小时前模型

美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)3 小时前模型

字节跳动开源了轻量级多模态模型Lance,其激活参数量为3B。该模型采用原生统一架构,在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术,平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段,数据规模约1.9T标记,计算预算控制在128张GPU内。基准测试表明,Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:karminski (@karminski3)6 小时前模型

智谱近期推出GLM-5.1-Highspeed模型,实测输出速度达300+ tokens/s,首token延迟约1秒,相较于标准版GLM-5.1的35 tps和9秒延迟,性能提升约10倍。技术上,智谱联合TileRT团队重构了推理链路,通过将整个推理流程编译为常驻GPU的大kernel,大幅减少CPU调度与数据搬运开销,并优化单卡内的计算、IO分配及多卡间任务协作,显著提升GPU利用效率。该模型单次激活40B参数,高性能运行需依托多卡并行,建议现有用户切换使用以获得更实时的生成体验。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:阿里云 / Alibaba Cloud (@alibaba_cloud)6 小时前模型

阿里云与Novita AI达成合作,在Novita AI平台首发推出Qwen3.7-Max模型,标志着双方共同推进Agent时代的发展。该模型专为智能体时代设计,强调从"回答"到"执行"的能力跃升。核心优势包括:强大的代码生成与软件工程工作流能力;可靠的智能体编排与多智能体系统协作能力;支持长周期、自主化的复杂任务执行;且具备框架与技术栈无关的兼容性,可适配多种主流开发环境。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:karminski (@karminski3)7 小时前模型

腾讯近期发布了三款翻译专用大模型(Hy-MT2系列)。其中,Hy-MT2-30B-A3B在金融、法律等专业领域的翻译基准测试中,性能超越了DeepSeek-V4-Pro。该系列模型具备强大的多语言翻译能力,可应用于包括特定内容在内的多种翻译场景。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)7 小时前模型

5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API"GLM-5.1-highspeed"。该版本输出速度达400 tokens/s,刷新了全球大模型API速度上限。关键突破在于,它首次在国产大模型中实现了旗舰级能力与低延迟的结合,打破了"高速模型即轻量模型"的传统。该版本由智谱GLM团队与TileRT团队合作,通过系统级优化确保了速度的生产级稳定性,适用于AI编程、实时语音交互等场景。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:karminski (@karminski3)8 小时前模型

腾讯推出了三款翻译专用大模型:Hy-MT2-1.8B、Hy-MT2-7B与Hy-MT2-30B-A3B。其中,30B-A3B版本在专攻金融、法律、医疗、技术等特定领域的 DomainMTBench 翻译能力测试中,其表现全面超越了通用大模型 DeepSeek-V4-Pro。这显示了专用模型在垂直领域的显著性能优势。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Berry Xia (@berryxia)9 小时前模型

Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
MarkTechPost(RSS)11 小时前模型

在2026年阿里云峰会上,阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口,并引入扩展思考模式,专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中,该模型获得56.6分,在所有专有模型中排名第五。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
Runway:News(网页)14 小时前模型

Runway于2026年5月21日发布了视频编辑模型Aleph 2.0及其新产品Edit Studio。Aleph 2.0支持编辑最长30秒的1080p视频,具备精准局部编辑能力,可只改变指定内容而完全保留原视频其余部分。该模型引入了基于单帧图像的精确控制,并支持一次性跨多个镜头应用编辑。Edit Studio是基于这些新能力构建的应用,旨在帮助用户高效地将现有视频素材转化为所需版本,例如更换产品、调整背景或修复拍摄瑕疵。该功能现已向所有付费Runway桌面网页端用户开放,使用优惠码可享受套餐折扣。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Runway (@runwayml)15 小时前模型

Aleph 2.0来了。现在你可以编辑视频中的单个帧,预览更改,然后Aleph 2.0会将该编辑应用到整个视频。 立即在下方链接的网页版新编辑工作室中尝试。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:阿里云 / Alibaba Cloud (@alibaba_cloud)15 小时前模型

Qwen3.7-Max已在@OpenRouter上线 https://x.com/OpenRouter/status/2057500097206976983?s=20

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:OpenRouter (@OpenRouter)17 小时前模型

阿里巴巴通义千问团队的全新Qwen3.7-Max现已登陆OpenRouter。 作为Qwen3.7系列的旗舰模型,专为以智能体为核心的工作场景打造:编程、办公与生产力任务,以及长周期自主执行。在编程和智能体基准测试中较Qwen3.6有显著提升,并支持显式提示缓存以处理重复上下文。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
The Decoder:AI News(RSS)18 小时前模型

加拿大AI公司Cohere以Apache 2.0许可证开源了其迄今最强语言模型Command A+。该公司宣称这是其最高性能的模型,此次开源标志着Cohere在开放AI生态中的重要布局。Command A+面向开发者与研究社区免费开放,旨在推动大模型技术的透明化与协同创新,为行业提供更高性能的基础模型选择。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:阿里云 / Alibaba Cloud (@alibaba_cloud)19 小时前模型

阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较上代预览版提升4.8分,是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强,其中模型的幻觉率大幅降低(从44.2%降至22.9%)是主要贡献因素。模型的上下文窗口已扩展至100万tokens,仍仅支持文本输入输出,具体定价尚未公布。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Kim (@kimmonismus)20 小时前模型

阿里云发布新旗舰模型Qwen3.7 Max,定位为"代理时代"的基础模型,强调其在端到端编码、办公自动化等实际任务中的执行能力。模型在一个内核优化任务中展示了35小时无人干预的自主运行能力,完成了超过1000次工具调用。但这并非模型的全面自我进化,而是针对特定优化目标的迭代改进。更值得关注的是,Qwen声称其代理能力能从多样化的训练环境中泛化,如同语言能力从文本中泛化。这一观点若成立,其意义将远超任何基准测试成绩。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:通义千问 / Qwen (@Alibaba_Qwen)20 小时前模型

阿里巴巴近期推出了新一代闭源旗舰模型Qwen3.7 Max。该模型在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升了4.8分,创下阿里系模型最接近全球前沿水平的记录。此次升级主要体现在科学推理、智能体能力和代码生成方面,同时显著降低了模型幻觉率。值得注意的是,其分数提升部分源于模型更倾向于拒绝回答,而非完全依靠事实准确率的提高。技术上,其上下文窗口已扩大至100万tokens,仍保持闭源权重。尽管如此,该模型在整体能力上仍落后于OpenAI、Anthropic和Google的同类产品。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:阿里云 / Alibaba Cloud (@alibaba_cloud)20 小时前模型

阿里云发布了通义千问系列的新旗舰模型Qwen3.7-Max,定位为面向智能体时代的通用基础模型。该模型旨在为"能真正完成任务"的智能体提供强大支撑,其核心能力包括:支持端到端的复杂编码任务,可作为集成多智能体协作的办公助手,并能执行超过35小时的长期自主任务。该模型具有框架无关的兼容性,可适配Claude Code、OpenClaw等多种工具链。目前,用户已可通过Model Studio平台调用其API。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:通义千问 / Qwen (@Alibaba_Qwen)20 小时前模型

Qwen3.7-Max是Qwen系列面向Agent时代推出的最新旗舰模型,旨在为能完成实际任务的智能体提供强大基础。其核心能力包括:可作为端到端编码智能体,处理前端原型与多文件重构;作为可靠的办公助手,通过MCP集成与多智能体编排协同工作;并支持超长时间(超过35小时)的自主运行,执行复杂任务链。该模型兼容Claude Code、OpenClaw等主流开发框架,现已上线阿里云模型工作室与Qwen Studio提供服务。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Testing Catalog (@testingcatalog)22 小时前模型

阿里巴巴发布了其最新的专有模型 Qwen 3.7 Max,专为智能体编码设计。 Qwen 3.7 Max 在人工智能分析智能指数上获得 56.6 分,超越了近期发布的 Gemini 3.5 Flash 和 Kimi K2.6。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)1 天前模型

腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
美团 LongCat:HuggingFace 新模型1 天前模型

美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Artificial Analysis (@ArtificialAnlys)1 天前模型

阿里云发布闭源旗舰模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升4.8分,与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是,本次评分提升很大程度上源于模型在"AA-Omniscience"基准上主动选择"不回答"的次数增多,从而将幻觉率从44.2%显著降至22.9%。此外,该模型的上下文窗口已扩大至100万token,但仍延续了Max系列的闭源策略。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
MarkTechPost(RSS)1 天前模型

字节跳动智能创作实验室发布了Lance,这是一款开源的原生统一多模态模型。它能够在单一框架内,同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数,实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Kim (@kimmonismus)1 天前模型

OpenAI即将推出通用型大语言模型,强调其并非为特定问题或数学领域专门训练。该模型通过增加测试时的计算资源,性能实现显著提升,展现了通用模型在扩展计算时的潜力。官方表示当前重点在于快速发布,供用户自主探索,暂未在开放问题上追求极限优化。这标志着大模型发展的一条新路径。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Google DeepMind (@GoogleDeepMind)1 天前模型

Gemini 3.5 Flash 已正式发布。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Gemini (@GeminiApp)1 天前模型

Gemini 3.5 Flash能快速提供整理好的结果,无论输入多么混乱。 看看Gemini如何将与客户的聊天和文本,转化为您小企业可用的文档。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Rohan Paul (@rohanpaul_ai)1 天前模型

商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Artificial Analysis (@ArtificialAnlys)1 天前模型

Cohere发布了开源权重模型Command A+,其在AI分析智能指数上的得分与Claude 4.5 Haiku持平。该模型核心优势为极低的幻觉率,在相关榜单上以86%领先,体现出模型"知其不知"的可靠性。在速度方面,其API输出速度超过GPT-5.4 nano等多款模型,但仍略逊于Gemini 3.1 Flash-Lite。模型在科学推理与代码生成等高难度任务上表现稍弱,但具备视觉推理能力,性能位于Claude 4.5 Haiku与GPT-5.4 nano之间。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
TechCrunch:AI(RSS)1 天前模型

Stability AI正式推出Stability Audio 3.0 small模型,该模型可在用户设备本地运行,生成时长最高达两分钟的音乐音轨。与此前云端生成较长音频的方案不同,此次更新强调了模型的轻量化与端侧部署能力,降低了对云计算资源的依赖。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
The Decoder:AI News(RSS)1 天前模型

Stability AI正式推出Stable Audio 3.0音频生成模型套件。该系列包含三个已开放模型权重的版本,能够生成最长六分钟的连贯音乐音轨。公司强调,所有模型均完全基于授权音乐数据集进行训练,确保了生成内容的合规性。此次发布标志着在AI音乐生成领域的技术进步,为音乐创作者和开发者提供了更长时长、更开放可用的工具。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
MarkTechPost(RSS)1 天前模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族,其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模,并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B,其8B参数版本在单次前向传播中能够生成多达6倍的Token数量,显著提升了吞吐效率。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
MarkTechPost(RSS)2 天前模型

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入,支持60种语言的输入和29种语言的语音输出,端到端延迟低至2.8秒。相比前代,新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解,以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中,性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务,采用 WebSocket 协议通信。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)2 天前模型

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种,输出音频语种从10种增加至29种。通过采用新的流式翻译技术,端到端字均延迟降低至2.8秒,同时支持实时音色克隆以保留说话人原声特征,并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
MarkTechPost(RSS)2 天前模型

Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本,同时运行速度提升四倍,推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性,特别面向需要快速响应和复杂任务处理的开发者场景。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Rohan Paul (@rohanpaul_ai)2 天前模型

商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)2 天前模型

阿里云千问大模型今日正式发布新一代旗舰智能体模型 Qwen3.7-Max,定位为全能的智能体基座。该模型在编程、办公自动化及长周期自主任务方面能力突出,其中在一项持续35小时、超过1000次工具调用的内核优化实验中验证了其稳定的推理与执行能力。基准测试显示,Qwen3.7-Max 在 SWE-Pro、MCP-Mark、GPQA Diamond 等多项评测中成绩领先,其编程、通用智能体及推理能力已达到业界顶尖水平。该模型即将通过阿里云百炼 API 提供服务。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Berry Xia (@berryxia)2 天前模型

Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55,较上一代大幅提升,超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著,输出速度超过 280 tokens/s。然而,其 API 定价相比前代模型上涨约 3 倍,运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现"更快更智能"的同时,也显著改变了 Flash 系列以往低成本的市场定位。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Rohan Paul (@rohanpaul_ai)2 天前模型

谷歌推出Gemini 3.5 Flash模型,其输出速度提升至四倍,在终端基准测试等多项高难度任务中超越了Gemini 3.1 Pro。该模型以高速度与低成本,成为适合日常工作的强大代理工具。它已登陆Gemini应用、搜索AI模式及企业级产品等平台。配合升级的Antigravity工具,Gemini 3.5 Flash可驱动协作子代理,大规模并行处理代码审查、重写与测试等复杂任务,实现高效自动化工作流。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)2 天前模型

字节跳动即将发布AI视频生成模型Seedance 2.1,其生成质量较当前2.0版本提升约20%,改进重点在于提升视频时间一致性与物理场景模拟效果。该模型预计将整合至剪映等字节系内容创作工具中。目前,Seedance系列已占据AI视频生成领域日均超80%的算力消耗份额,主要竞争对手包括可灵与万相。与此同时,谷歌于近期大会发布了Gemini Omni模型,加剧了该领域的竞争。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Demis Hassabis (@demishassabis)2 天前模型

Gemini 3.5 Flash 太棒了! - 在编码和智能体任务上表现优于 3.1 Pro - 速度比其他前沿模型快 4 倍 - 在 @antigravity 中快 12 倍 - 达到 800 tokens/sec! - 成本通常不到一半 Pro 版本即将到来… 在 @antigravity、@GeminiApp 等平台体验吧 - 享受吧!

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:邵猛 (@shao__meng)2 天前模型

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是"从任何东西创造任何东西",并从视频生成起步。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Rohan Paul (@rohanpaul_ai)2 天前模型

Google Gemini 3.5 Flash 是其类别中非常强大的模型。在众多基准测试中超越了 Gemini 3.1 Pro。 这是一个代理模型,每秒处理的令牌速度快4倍。 @aimlapi 刚刚将 Gemini 3.5 Flash 添加到其 API 中,并且在24小时内免费提供。 设置说明见评论。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Berry Xia (@berryxia)2 天前模型

Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出"从任何东西生成任何东西"的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的"世界素材"。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
Simon Willison 博客2 天前模型

谷歌在I/O大会上发布了Gemini 3.5 Flash模型,该模型跳过预览阶段直接正式发布,并已被集成到谷歌Gemini应用、搜索、开发者平台及企业解决方案等多项核心产品中。该模型价格显著上涨:输入价格为每百万令牌1.50美元,输出价格为9美元,分别是前代模型的3倍和6倍,已接近更高端的Gemini 3.1 Pro定价。技术上,它支持约100万输入令牌和约6.5万最大输出令牌。同时,谷歌推出了新的Interactions API测试版。这一价格上调趋势与OpenAI等公司近期策略相似,表明主要AI实验室正在试探API客户的价格承受能力。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:karminski (@karminski3)2 天前模型

在Google I/O大会上,Gemini-3.5-flash模型正式发布,其定价从上一代的$0.5/$3大幅上涨至$1.5/$9。实测显示,其性能介于Gemini-3.0-Pro与Gemini-3.1-Pro之间,但稳定性有所不足。此举被视为Google借鉴Anthropic的产品分层策略,计划用flash-lite、新flash和Pro形成梯队。其中新flash主打在百万级上下文内不设阶梯定价,以承接Pro模型溢出的用户。此次调价也可能旨在配合新发布的Antigravity CLI工具,定位类似Claude Code中的Sonnet模型,从而构建其开发生态。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Oran Ge (@oran_ge)2 天前模型

Gemini flash 3.5 昨晚发布,现已可用。 - 模型效果大幅超越 3.1 Pro,指标和 gpt 5.5 接近,比 gpt5.5 好的是 Agentic 和 多模态。 - 价格只要 gpt5.5 的三分之一,缓存价格只要六分之一。 - API 定价 $1.50 / $9.00 per 1M token(输入/输出),缓存 输入 $0.15。上下文窗口 1M token。 - 速度极快,是其他旗舰模型的4倍,非常适合 Agent 使用。 官方介绍地址: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Rohan Paul (@rohanpaul_ai)2 天前模型

谷歌近日推出Gemini Omni,这是一款能处理视频、图像、音频、文本及草图等多种输入的全能型视频AI模型。用户可通过自然语言指令对已有视频进行添加角色、替换物体、调整动作、改变风格、同步音效及移动镜头等操作,且多次编辑后仍能保持场景一致性。该模型具备更强的世界理解能力,能更真实地模拟重力、流体等物理交互,使视频编辑更接近导演创作。输出内容将附带SynthID水印与C2PA内容凭证,以明确标识其AI生成属性。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Jeff Dean (@JeffDean)2 天前模型

谷歌发布了新模型Gemini 3.5 Flash,该模型强调速度与性能的出色结合。与Gemini 3.1 Pro相比,3.5 Flash在几乎所有基准测试上表现更优,尤其在编程能力方面有巨大进步。其核心优势在于极快的推理速度,比其他前沿模型快4倍。在智能水平与输出速度的坐标图中,该模型凭借其卓越表现独占右上角优势区域,代表了速度与能力的新标杆。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
Google Developers Blog(RSS)2 天前模型

在2026年开发者大会上,Google宣布其AI战略核心从辅助工具转向开发独立智能体。大会重点发布了Gemini 3.5系列模型,并对"反重力"智能体优先平台进行了重大更新。面向移动开发者,推出了Android CLI工具、评估排行榜及能将多种框架代码快速迁移至原生Kotlin的智能体。Web开发领域也迎来变革,包括专为智能体设计的Chrome DevTools、HTML-in-Canvas API,以及旨在让浏览器内AI智能体执行复杂任务的开放标准WebMCP提案。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Demis Hassabis (@demishassabis)2 天前模型

Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃!它能处理照片、视频和音频,并构建全新的场景。随着时间的推移,它将能够处理任何输入和任何输出--从视频开始。 你甚至可以提供自己的视频,并在此基础上迭代你的想法:

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
Hacker News 热门(buzzing.cc 中文翻译)2 天前模型

Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力,旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞,显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
Hacker News 热门(buzzing.cc 中文翻译)2 天前模型

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:OpenRouter (@OpenRouter)2 天前模型

来自@GoogleDeepMind的Gemini 3.5 Flash现已登陆OpenRouter! 在编码、智能体任务和工具使用方面超越Gemini 3.1 Pro,同时保持Flash级别的价格和速度。 支持100万上下文、6.5万最大输出、多模态。输入$1.50/百万token,输出$9/百万token。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Google AI for Developers (@googleaidevs)2 天前模型

✨ 推出 Gemini 3.5,这是我们最新的模型家族,将前沿智能与行动能力相结合。 该系列为智能体模型树立了新标准,它们不仅能推理,更能执行。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:阿易 AI Notes (@AYi_AInotes)2 天前模型

Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
Ars Technica:AI(RSS)2 天前模型

Google发布了更高效的Gemini 3.5 Flash模型。该公司表示,这款模型的效率提升是实现智能体式AI未来的关键所在,意味着生成式AI的应用将更为便捷和实用。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Testing Catalog (@testingcatalog)2 天前模型

GOOGLE I/O 🔥:Gemini 3.5 Flash现已在AI Studio上开放测试! 你试过了吗?👀

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Google AI (@GoogleAI)2 天前模型

三年前,Gemini从理解世界开始。 随着Gemini 2,模型学会了思考和推理。 去年底,Gemini 3将任何想法变为现实。 今天,我们继续这段旅程,推出Gemini 3.5系列,首先发布Gemini 3.5 Flash,为智能体和编程提供前沿性能。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Sundar Pichai (@sundarpichai)2 天前模型

刚结束 #GoogleIO 活动,分享今早的一些亮点 🧵 Gemini 3.5 Flash 今日起面向所有用户开放,可在 @antigravity 及我们的产品和 API 中使用。 与 3.1 Pro 相比,3.5 Flash 在几乎所有基准测试中表现更优,编程能力大幅提升。它性能可比肩顶尖模型,但速度极快(每秒生成 token 数是其他前沿模型的 4 倍)。从智能水平与输出速度的综合表现来看,它在右上象限独占鳌头。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Artificial Analysis (@ArtificialAnlys)2 天前模型

谷歌发布新模型Gemini 3.5 Flash,其在智能指数上提升9分至55分,超越Grok 4.3和Claude Sonnet 4.6,尤其在代理任务和知识真实性(大幅减少幻觉)方面进步显著。输出速度超280 tokens/s,使其位于速度与智能的领先前沿。然而,模型运行成本相比前代增加5.5倍,主要由于输入令牌用量及定价上涨。此外,它在多模态评估MMMU-Pro中取得最高分,支持多模态输入,展现了谷歌的综合优势。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Jeff Dean (@JeffDean)2 天前模型

在Google I/O大会上,谷歌正式推出Gemini 3.5系列模型,首个发布的Gemini 3.5 Flash专为执行复杂、长周期的代理工作流而设计。该模型在Terminal-Bench和MCP Atlas等编程与代理基准测试中得分超越3.1 Pro,且运行速度可达其他前沿模型的4倍。若在Google Antigravity环境中使用,速度提升可高达12倍。它能高效部署协同工作的子代理,通过高频迭代循环来解决现实世界的大规模问题。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)2 天前模型

谷歌在2026年I/O开发者大会上推出了Gemini 3.5 Flash模型。该模型在多项基准测试中性能超越前代,并实现了每秒289 tokens的输出速度,较Claude Opus 4.7和GPT-5.5 xhigh快约4倍。此外,谷歌团队使用Antigravity工具,在12小时内启动93个子智能体,生成26亿tokens,成功构建出一个可运行的操作系统核心,展示了模型的强大能力。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
IT之家(RSS)2 天前模型

谷歌在2026年I/O开发者大会上宣布,新一代模型Gemini 3.5 Pro将于下月正式发布。该模型目前已在谷歌内部投入使用,官方表示其性能相比前代有显著提升。不过,具体的技术细节和性能指标尚未公开。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Kim (@kimmonismus)2 天前模型

一个Flash模型的评测结果太疯狂了!Gemini 3.5 Flash对于其尺寸来说真的非常出色!

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Testing Catalog (@testingcatalog)2 天前模型

谷歌I/O大会🔥:Gemini 3.5 Flash已发布! Gemini 3.5在人工智能分析智能基准测试中表现与Gemini 3.1 Pro相当,但速度更快。 【引用 @GeminiApp】:Gemini 3.5 Flash来了,这是我们迄今为止在快速高效完成任务方面最好的模型。 无论您需要日常任务帮助还是多步骤创意项目,Gemini 3.5 Flash都能应对现实世界的复杂性,助您采取行动。#GoogleIO

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Testing Catalog (@testingcatalog)2 天前模型

谷歌I/O 🔥:GEMINI 3.5 FLASH 已发布! Gemini 3.6 在人工智能分析智能基准测试中表现与 Gemini 3.1 Pro 相当,但速度更快。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Gemini (@GeminiApp)2 天前模型

Gemini 3.5 Flash现已推出,这是我们迄今为止在快速高效完成任务方面表现最佳的模型。 无论您需要处理日常任务还是多步骤创意项目,Gemini 3.5 Flash都能应对现实世界的复杂性,助您采取行动。#GoogleIO

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Google DeepMind (@GoogleDeepMind)2 天前模型

推出 Gemini 3.5:我们最新的模型系列,将前沿智能与现实行动相结合。 首个发布版本是 3.5 Flash,这是我们迄今为止在智能体和编码方面最强大的模型 🧵

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:Testing Catalog (@testingcatalog)2 天前模型

谷歌I/O 🔥:Gemini 3.5 Flash 已开始在 Gemini 和 API 上推出! 即将开始测试 👀

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
X:小互 (@xiaohu)2 天前模型

Google 全新Omni 模型 🫡

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model
The Decoder:AI News(RSS)2 天前模型

Odyssey 公司发布了世界模型 Agora-1,该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证,其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为,这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。

推荐理由:保留原始信息,等待后续模型处理或人工核对。

model