深度思考与多模态紧密结合,国产大模型率先拓宽AI能力边界。
4月10日,商汤科技在上海、深圳等地同步发布「日日新SenseNova V6」大模型体系,通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。

「日日新 V6」主要提升如下:
模型能力显著提升:在长思维链、推理、数理、全局记忆方面拥有显著优势,多模态推理能力国内第一,对标GPT-o1,数据分析能力大幅领先GPT-4o;
高效能与低成本完美结合:多模态训练整体效率对齐语言训练实现业内最优水平,推理成本亦实现业界最低;
轻量级的全模态交互模型升级:SenseNova V6 Omni拥有国内最强的多模态交互能力;
国内首个支持10分钟中长视频深度解析的大模型,对标Gemini 2.5 Turbo达到同类型最强。
商汤科技董事长兼首席执行官徐立表示:“AI之道,在于百姓之日用。商汤日日新V6将跨越多模态边界,释放推理与智能的无限可能。”
商汤科技董事长兼首席执行官徐立表示:“AI之道,在于百姓之日用。商汤日日新V6将跨越多模态边界,释放推理与智能的无限可能。”

如今,凭借单一模型就可以完成文本、多模态等各类任务。
来看看BenchMark的成绩:
【核心指标】纯文本任务综合性能优秀,比肩国际一线模型;多模态性能领先,各方面性能突出;纯文本推理与多模态推理能力均对标 GPT-4.5 和 Gemini 2.0 Pro 等国际一流模型的水平。

【强推理能力】日日新融合模型从 5.5 到 V6 / V6 Reasoner,推理能力显著提升,多模态和语言深度推理任务上同时超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平。

而具体表现如何?围绕日常生产生活高频出现的需求场景,我们分别从三个能力来呈现一下AI如何融入百姓之日用。
多模态推理能力
真实环境存在的复杂问题则更考验大模型对于混合图文的理解推理能力。
「日日新 V6」存在很强的扩展性,能够快速适配新业务场景,无需重新设计规则或调整流程。
例如保险理赔,下面这是商业医疗保险理赔材料,我们请「日日新 V6」判断提供材料是否符合理赔要求。传统方案通常高度依赖事先设定的规则,根据规则定向去找文档里面的关键信息,比如总金额、治疗开药日期。「日日新 V6」通过多模态数据的深度整合与强推理能力,能够更全面地捕捉全部文档的全量信息,以开放式的方式来推理并结合场景做深度。

「日日新 V6」比对处方金额与发票金额,判断处方单及发票药品明细,提取出中西医结合诊疗情况下西药处方单的缺失(因为发票中开具的地屈孕酮片属于处方药,必须有主治医生开具处方单佐证);更深度的理解是模型通过处方签的初步诊断“轻度贫血”自动匹配提供的理赔材料中是否有血液检查单,用于支撑诊断;能自动解析医疗票价中的隐匿关联,识别过度医疗的潜在风险。
现实生活中小额理赔的材料审核往往需要3-7天的时间,而交给AI只需要1分钟,还通过长思维链能力,自我梳理好材料逻辑冲突的地方。基于超过200B高质量多模态长思维链数据,商汤通过多智能体协作进行长思维链合成和验证,「日日新 V6」形成了突出的多模态推理能力,可以支持合成最长 64K 的多模态长思维链,支持模型长时间思考能力。同时,商汤也实现多模态强化学习技术突破,构建了面向多种图文任务的混合增强学习框架,基于不同难度分级和多奖励模型的强化学习训练。
多模态视频解析能力
凭借“全局记忆”能力,「日日新 V6」打破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析。
多维信息压缩是实现这一突破的重要技术,商汤自研技术可将视觉信息(画面)、听觉信息(语音、音效)、语言信息(字幕、口语)、时间轴逻辑进行对齐,形成多模态统一时序表征。在此基础上通过细粒度级联信息压缩和内容敏感的动态过滤,实现长视频的高比例压缩,10分钟视频可以压缩到 16K tokens,仍然保留关键语义。
实时音视频交互能力
伴随日日新SenseNova V6的发布,商汤日日新实时交互融合大模型升级至「SenseNova V6 Omni」,在角色扮演、翻译点读、文旅导游、讲解绘本、数学讲解等场景下进行了深度优化。
「SenseNova V6 Omni」更像人的感知和表达能力、情感理解能力,并已在具身智能等领域实现多行业、多场景落地,成为国内首个商业化的全模态实时交互模型。