7月27日,商汤科技发布全新「日日新SenseNovaV6.5」(简称“日日新V6.5”)大模型体系,多模态基座大模型迎来突破性升级,带来AI从“生产力工具”到“生产力”的跨越。商汤旗下核心产品商汤小浣熊也完成智能体升级。 商汤「日日新V6.5」多模态基座大模型带来三大突破性升级:强推理:图文交错多模态思维链,推理性能比肩Gemini2.5Pro、Claude-4Sonnet;高效率:多模态架构优化,性价比提升3倍以上;智能体:数据分析大幅领先,支持端到端的场景落地,实现价值闭环。通过多模态思维链数据进阶图文交错思维链数据合成,商汤「日日新V6.5」多模态推理与交互性能实现了大幅提升:【核心指标】文本推理能力和多模态推理大幅提升,超越Gemini2.5Pro、Claude-4Sonnet;多模态交互能力超越Gemini2.5Flash和GPT-4o,各方面性能突出。
商汤「日日新V6.5」率先突破图文交错思维链技术,在大模型中引入形象思维,成为国内首个实现图文交错思维的商业级大模型。在人类的思考中,形象思维和逻辑思维同等重要,两者有机结合才能形成全面的思维能力。所谓“一图胜千言”,一幅图往往比大段文字更能引发有效思考。当前,主流的多模态模型虽然已经实现了在输入端融合多种模态,但思考推理过程依然主要依赖语言推理,图形和空间推理仍存在短板。
多模态思维链构造的关键在于信息的图形化表达,相比纯文本思维链更具挑战,不仅要呈现文字思考过程,还需生成作为思考节点的图像,难以通过纯人工方式大规模实现。商汤研发团队先基于对思维过程的理解构造种子数据,经监督微调(SFT)训练让模型初步具备图文交错思考能力,再通过多轮强化学习显著提升多模态推理能力。
同时,商汤还改进了多模态模型的融合架构,促进跨模态早期融合。新的架构采用了显著变轻的视觉编码器,以及深而窄的主干模型,使得视觉表征在前馈计算早期就与语言进行对齐和交融,从而使感知更高效,模态融合更深。得益于模型架构的改进,商汤「日日新V6.5」在实现成本优化的同时,预训练吞吐量提升了20%以上,强化学习效率提升了40%,推理吞吐量提升了35%以上,取得性能和成本的完美平衡:相较「日日新V6.0」,「日日新V6.5」将性价比提升了3倍。