作者 |周一笑邮箱 | [email protected] 2025年几乎被一致认为是AI代理年。从大型模型到智能体,业界讲述的故事是,AI不再是一个可以聊天、生成文本的工具,而必须是一个能够理解目标、拆解任务、自动调用不同服务的“数字执行官”。通过幻灯片和新闻发布会,感觉就像是从说到做的范式转变。但第一批将这一愿景融入硬件的产品很快就给了现实一记耳光。兔子R1以“大动作模型”叙事亮相,号称可以像真人一样在各种App中预订航班、点外卖,完成整个流程。但在用户手中,它类似于一部不完美的手机,性能有限、响应缓慢、依赖云端。自动化宣传场景要么不可用,要么极不稳定,交互体验不随时间而中断传统语音助手框架。最终,人们普遍认为这是一次以高调开始、以低质量结束的失败实验。这并不意味着代理本身是一个糟糕的提议,但它确实提醒我们,让代理成为一个独立的硬件可能从一开始就选错了战场。与其重建一个昂贵但无用的设备,不如将“观察、思考和行动”的能力压缩成一个可以嵌入到任何应用程序中的轻量级模型。在此背景下,创维最新发布的昆仑科技R1V4-Lite(以下简称“R1V4-Lite”)试图成为一款“可操作”的代理。它并不标榜自己是巨头,而是强调“轻”(lite)。其主要定位是,首次在轻量级架构下结合了主动图像处理、外部工具调用和多模态深度研究三大核心能力。抛开绞刑架仅仅讨论感知-推理-行动联系本身,我们就可以看到今天技术的发展。我们设计了一系列具有挑战性的现实生活场景来看看 R1V4-lite 的性能。对 Skywork R1V4-Lite 的技术细节和在线使用感兴趣的读者还可以通过以下链接获取更多信息: Skywork API 平台(可在线体验):https://platform.skyWorkModel.ai/ GitHub 开源地址:https://github.com/skyworkai/skywork-r1v 技术报告:https://github.com/skywamoi/skywork-r1v/blob/main/skywork_r1v4.pdf API 接口文档: https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html novita ai(第三方平台):https://novita.ai/1 模糊的手写收据确认来测试它是否可以行动,我们没有给它一张清晰的打印收据,而是给它一张400x300像素、字迹潦草的手写收据。这里给出的任务是:“空调第二项多少钱?这张收据上的“溶剂和制冷剂”? R1v4-Lite的第一反应并不是像传统模型那样“一目了然”(或者只是猜测),而是承认视觉思维模型的局限性。我可以做一些书面值,但我必须聚焦......让我裁剪......以获得更清晰的视图。接下来该怎么办。它直接调用代码工具并就地为自己创建一个切割工具。它自己导入库,自己计算坐标,自己执行IMG.crop。解决眼前不清楚的问题。在它自己写了代码,剪出了自己的图片后,R1V4-Lite进入了第二轮思考,并给出了正确答案。这就是代理人的本质。当它看不清的时候,它就会自己想办法解决问题。为了进行比较,我们还要求 ChATGPT5.1 完成相同的任务,但未能准确识别。可以看出,它并没有主动使用工具:1ai 看图片定制t他食谱。我们继续subAdd R1V4-Lite的外部工具和任务规划功能,包括网络搜索功能。将它们加起来看看效果如何。 “帮我检查一下冰箱里的这些东西。我晚餐可以做什么?帮我计划一下,最好找到一个食谱。”我们给它的不是一个装满新鲜食材的分阶段冰箱,而是一个真正的“车间”冰箱,里面有几瓶牛奶、一堆酱汁、一根玉米棒和一些速食。和之前的案例一样,R1V4-Lite的第一反应就是动动脑子和双手。它判断模型认为需要关注主要成分。找到配料(牛奶、玉米、沙茶酱等)后,显然它会尝试调用Image_search工具,使用刚刚裁剪的图像来在线搜索菜谱。有趣的是,搜索失败了。只返回了一堆销售冰箱收纳袋的亚马逊链接和晦涩的 YouTube 视频。如果换成其他一些型号,可能就不行了ck 或构建。然而,R1v4-lite 认识到自己的失败并改变了策略。它放弃了image_search,转而调用text_search,搜索关键字:“简单食谱玉米沙爹酱豆沙...”在text_search返回一些初步结果(例如沙爹鸡)后,感觉第4轮不够准确(因为冰箱里没有鸡),所以它再次细化关键词,进行了第二次text_stainga,在经历了一系列复杂的动作和思考之后,包括裁剪看清楚-未能找到图像-改变搜索sa文本的策略-以及再次查找课文,所有信息都记录在“Round 5”中,并给出了非常合乎逻辑的答案。最终答案:推荐菜单:酱炒菜替代1:奶油玉米汤替代2:炒菜提示:你的牛奶可以作为“提神小食”来验证“玉米酱炒菜”是不是一道黑菜,我们有表演进行了手动验证。我发现这是闽南、潮汕和台湾地区常见的家庭做法。因此,R1v4-lite提供的并不是一个敷衍的结果,而是一个包含很多选项的解决方案。 1.“专家级”推理:MD考试题。如果说前两个案例是“休闲射击,解决各种困难”,那么这第三个案例就是专业的激烈挑战。让我们看看R1V4-Lite是否可以解决MD级别的考试问题。任务:了解下面复杂的组织病理学幻灯片并诊断该特征最匹配哪种疾病。对于普通人来说,这张病理幻灯片上的紫色圆圈和斑点毫无意义。但R1V4-Lite的反应证明了它作为“深度研究”代理的能力。它首先识别出图像 A 区域的不规则簇状细胞,并将其定性为“非干酪样肉芽肿”。需要专业的医学知识库对这一视觉壮举进行高速匹配和验证ure(“非干酪性肉芽肿”)具有该疾病(“克罗恩病”)的共同特征。最后给出准确、专业的诊断结论:特征符合“克罗恩病”。 1 透过“野史”传闻看奥巴马:康熙是洪承畴的父亲吗?在尝试了核心的医学问题之后,让我们尝试一下文科技能。我们在网上发现了最近历史上热议的一张照片,康熙皇帝与洪承畴的关系。近期,有传言称洪承畴“为太子换了狸猫”等,并列举了一系列证据,如光绪皇帝的Y染色体遗传标记与爱新觉罗家族无关等。如果是只能搜索参考的AI,很容易被非官方的结果带偏。 R1v4-lite能否澄清事实? R1v4-lite 的行为就像一个严格的“研究方”。在第一轮搜索中,它会网上关于两人关系的争议点是:“我看到有一个普遍的传说……康熙皇帝其实是洪承畴的亲生儿子。” (我发现有一个普遍的神话,康熙是洪承畴的亲生儿子。)但它不相信这是愤世嫉俗的,而是触发了DeepSearch的逻辑,它调用web_visit分别访问维基百科。核实两个人的确切出生和死亡日期。这里有一个逻辑推理。洪承畴出生于1593年,康熙出生于1654年,两人年龄相差61岁,两人实际是君臣关系。洪承畴是明清两代的高级官员,在康熙的父亲(顺治皇帝,后来的摄政王)手下任职。最终答案很明确:康熙是洪承畴亲生儿子的说法,其实是现代网络谣言。历史学者已澄清这。两人的年龄差距,让这段感情在时间线上无法建立。这个案例证明了它的多模态深度研究能力,而不仅仅是在网上寻找答案。它还要求模型具有反思性和批判性思维,能够识别谣言、验证数据,并从复杂的网络信息中做出独立的、基于事实的判断。这在信息过载的时代尤其重要。 1Planner模式:复杂指令下的多工具协同规划。除了R1V4-Lite之外,昆仑科技此时还推出了R1V4-Planner-Lite。如果说 R1V4-Lite 是一个可以行动的轻量级多模式代理,那么它就是机器。 R1v4-Planner-Lite就像这个引擎的高级工作模式、导航系统或任务规划器。让我们看看它是如何工作的,任务:(给模特一张 Jacob Elordi 的照片)“我喜欢这个人的衣服。请帮我计划如何购买这件衣服:识别他身上的所有主要物品(帽子、杰克等,内衣、裤子和鞋子)。帮助我在互联网上搜索许多风格相似的替代品。 R1V4-Planner-Lite 制定了详细的 8 步执行计划。杀戮计划(摘录):找出图中人物的所有衣物和配饰。 [text_search]:搜索“Blue Sweatshirt”的品牌和价格。 [text_search]:搜索“浅蓝色牛仔裤”的品牌和价格。 [text_search]:搜索“Red Sneakers”的品牌和价格。 [text_search]:搜索“黑色绗缝包”的品牌和价格。 [text_search]:为上述每一项搜索“100 美元以下”的实惠替代品。 【无】:总结所有发现...可以看出,R1V4-Planner-Lite 可以将不明确的穿衣指令分解为 8 个相互依赖的步骤,并为每个步骤精确匹配 Image_search、text_search 或 web_visit 等工具。尤其是准确识别了“黑色绗缝包”细节,单独规划了海它迈出的一步,证明了它的远见。所以模型确实不是给出答案,而是帮你做事,并且可以给你一个完整的SOP新库米洛斯1.“观天吃饭”:根据环境条件进行动态规划。如果说磨损体现了R1V4-Planner-Lite的线性拆解能力,那么这最后的测试就是为了证明它是否具有更强的决策能力。现实世界充满变数。很多时候,我们需要的并不是一个死板的实施清单,而是一个视情况而定的解决方案。我上传了一张随手拍的照片,任务:我现在就在照片中的地方。我想呆两个小时。请帮我制定一个计划并确定它首先在哪里。然后帮我搜索一下这个地区未来三个小时的天气情况。帮助我根据天气情况做出决定:如果下雨,给我找一家附近的室内咖啡馆或顶级博物馆;如果下雨,给我找一家附近的室内咖啡馆或顶级博物馆;如果不下雨,请给我找一个附近的公园或户外步行路线。最后,告诉我今天推荐地点的具体地址和营业时间。面对这条包含分支逻辑的指令,R1V4-Planner-Lite直接将用户给出的要求写入搜索参数中。实现方案如下: 步骤一:【Image_Search】识别图像中的位置。第 2 步:[text_search] 搜索“[位置]未来 3 小时的天气预报”。步骤3(关键步骤):逻辑写得很清楚在[text_search]参数中——“根据天气预报,搜索附近的室内区域……如果预计会下雨,或者室外区域……如果没有下雨。” 。步骤 5:[无] 摘要信息。这一点非常关键。传统的工作流程通常是magwill只执行固定的A-B-C,一旦遇到不明确的“视情况”指令往往会卡住。 R1v4-Planner-Lite 可以理解自然语言中的逻辑分支,并将其翻译成可执行的搜索策略,而不仅仅是 e执行固定代码模板。 1 为什么是精简版?在我们的测试中,我们可以感受到R1v4-lite在实际任务中的表现是可靠且可用的。不过,更引人注目的肯定是它名字中的lite(轻)。它所表现出的表演和理解能力与模型的尺寸形成了明显的对比。这体现了行业在兔子R1等产品崩盘后逐渐发展起来的共识。进化的方向可能不是单一的庞大模型主宰世界,而更有可能是由许多具有专用功能的较小模型组成的系统。根据官方公布的数据,R1V4-Lite 在 8 项多模态理解基准测试中总体领先 Gemini 2.5 Flash,并在其中 5 项任务中超越 Gemini 2.5 Pro。也呈现出接近甚至引领多模态深度研究活动的趋势。相比之下,它在工程指标上的“轻盈”同样出色:响应延迟i大约是 Gemini 2.5 Pro 的 1/19 和闪存的 1/5,而令牌吞吐量 (TPS) 几乎是它们的 2 倍。对于高并发、低延迟有明确要求的生产场景(比如实时助手、视觉捕捉),这样的“快、省、够”的lite模型在成本和体验上的综合价值可能会比“大而笨重”的pro级模型更好。换句话说,相比于简单追求参数尺度,AI智能体的“密度能力”也是一个值得关注的方向。昆仑万维认可R1V4-lite在“图像运算×深度推理交错训练”范式中的表现,试图用更紧凑的训练路径让小模型在多模态推理和动作方面接近领先闭源模型的表现。 Skywork-R1V4 代理复杂行为的基础。通过自动执行代码和严格验证,在确定数据的“能力密度”高于数据规模时,昆仑万维在选择路线时也释放了明确信号。一方面,R1V4-lite(及其规划器)以开源形式提供,一定程度上降低了开发者构建“移动代理”的门槛,有利于围绕该范式构建工具链和生态系统;另一方面,从Skywork-R1V之前的系列(如R1V 2.0、R1V 3.0)可以看出,当前的版本并不是一次性投入的产物,而是从R1V而来的2.0、3.0的链式推理的多模态思维,以及如今R1V4-lite代理能力迭代的不断提升。当然,技能密度高并不意味着问题就解决了。目前的结果主要依赖于有限数量的基准测试和典型场景。在更加开放、多变、甚至对抗的环境下,轻量化模式是否还能保持稳定规划和行动的质量还需要更多的实证验证。同时,如何在保证推理能力的同时,将此类模型安全、高效地嵌入到现有的业务系统(包括工具编排、权限控制和监控)中(包括工具编排、权限控制和监控),也将决定它们是否能够真正走出实验室。总体而言,R1V4-Lite 提供了一个值得关注的样本。未来的智能体不一定会成长为“超大型模型”的一棵树,而更有可能是基于一批高效、可部署、真实的智能体。基于“动手”的轻量级多模态模型,在从“思考”到“行动”的过程中探索出更加务实的工程形式。点击“爱”,我们就出发
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:ab以上内容(包括图像和视频,如有)由网易HAO用户上传和发布,网易HAO是一个社交媒体平台,仅提供信息存储服务。
校园风采
>校区风采 昆仑科技发布Skywork R1V4
2025-11-19
