你的位置：麻豆91 > 自拍偷拍图片 > 初中萝莉液液酱加强版Claude3.5持重上线，一句话操控电脑的时期确凿要来了

初中萝莉液液酱加强版Claude3.5持重上线，一句话操控电脑的时期确凿要来了

发布日期：2024-10-26 02:12 点击次数：168

夜里十少许初中萝莉液液酱，大洋此岸早上8点整。

Claude带着大货闪亮登场了。

升级版的Claude 3.5 Sonnet，新模子Claude 3.5 Haiku，还有全新的新功能：computer use，翻译过来后，我把他称为，“计较机操控”。

一个一个来说。

领先新模子升级版Claude 3.5 Sonnet。

Claude的模子一直分为三个尺寸，别离是Opus、Sonnet、Haiku。从大到小。

3月的时候，Claude持重推出Claude 3代的全系模子，从Opus到Haiku齐有。

然后6月的时候推出了Claude 3.5 Sonnet，只推了这一个，莫得3.5 Opus和Haiku，参见这篇著述：我体验完刚发布的Claude3.5，发现最强的是这个新功能。

其时候Claude 3.5 Sonnet的身手就吊打了旧的最大参数的模子。

而今天，推送的是升级版的Claude 3.5 Sonnet，还有新的Claude 3.5 Haiku。

意旨的是，Claude 3.5 Haiku照旧后训的，学问截止技巧是7月，而升级版Claude 3.5 Sonnet学问技巧并莫得变，也便是加了更多的强化学习的合成数据以及“计较机适度”的锻练。

而Claude 3.5 Sonnet的举座性能上，基本顾盼群雄。

无论是推理、照旧本科的学问、照旧编程身手啥的，齐是No.1，何况Claude的跑分不像好多模子那种刷榜，他的跑分是确凿确切的。

我信托6月Claude 3.5 Sonnet上线后，径直一波科技跃迁，带着cursor之类的A编程一波牺牲，就不会有任何东谈主会怀疑Claude的代码身手了吧。

最稀疏的评测基准其实是阿谁第七行的SWE-bench Verified，概况便是测试写代码措置问题的真实身手，这个评测基准是8月份OpenAI提的，然后这波Claude 3.5径直把这个基准加在我方的跑分里。

GPT4o在这项的跑分是33.2%，o1不知谈。

然则按Claude的话说，o1是个什么脏东西，不坚强。

而新版的Claude 3.5 Sonnet，目下也在Claude官网上上线了。

不错看到有了new的标签。

我径直发了最浅薄的一句话：给我生成一个尽头良好的俄罗斯方块游戏。

然后，升级版Claude 3.5 Sonnet，就开动嘟嘟嘟的生成。

径直一次性生成了280行代码初中萝莉液液酱，何况这个游戏，是确凿不错径直玩的。。

也不错径直让它生成一个随时可调可互动的动效模拟器，透彻改造学习阵势。

就，尽头的酷。

其次是Claude 3.5 Haiku。

这个其实就没太多可说的了，成例升级，然则是目下最快、性价比最高的模子。

在跟Claude 3 Haiku的交流老本和速率下，径直打败了参数目最大的Claude 3 Opus。

在编码任务上，竟然能径直打败没升级前的Claude 3.5 Sonnet，这个是最离谱的。

只可说，Anthropic的强化学习范式走的照旧太超前了，合成数据的质料实在是太高太高了。

那临了，亦然最重磅的少许，Claude的“computer use”，也便是新功能，计较机适度。

午夜伦理伦理片在线观

这个点就尽头的科幻，能够及时辰析用户计较机屏幕上的行径，并自主奉行在线任务，比如浏览、点击和输入。

我径直放一个官方case吧。

Anthropic是这样边幅这个“计较机适度”的功能的：“Claude 3.5 Sonnet不错按照用户的敕令在计较机屏幕上移动光标，点击关系位置，并通过假造键盘输入信息，模拟东谈主们与我方计较机的互动阵势。”

这，便是一个能瓦解用户意图，并帮他自主杀青的真实的Agent。

过去的Agent，说真话，看上去更像一个RPA，便是凭据预设好的职责流，一步一步的奉行下去，然则真实的Agent应该是什么样？

在我看来，他就应该跟东谈主相同，能瓦解你的复杂语义，把这个复杂语义具象成可奉行的步调，就像我说目下“凌晨3点半了我太困了，然则著述还莫得写完，你帮我望望近邻有莫得咖啡买，有的话帮我买一杯，莫得的话就算了。”

要是是个东谈主，那笃定是会掀开好意思团外卖或者饿了么，望望近邻有莫得咖啡店开着，要是有开着的，望望我最可爱喝的冰好意思式有莫得的，莫得冰好意思式的话问我一句要换什么口味？然后下单，恭候投递。

要是3点半近邻齐关门了，那也应该告诉我，近邻没卖的了，哥们你我方撑一撑吧，一会就能睡了。

这才是AI，这才是咱们身边，能插足到平素东谈主生计中的，最酷的AI助手。

而这种AI助手，它例必，需要学会操作手机或者电脑。

咱们不啻要让AI学会写著述，学会绘制，也要让他学会操作。

这样，才能有很强的，自主探索、措置问题的泛化身手。

而升级版Claude 3.5 ，仅仅在一些浅薄软件上进行了锻练，就有了操作一些不复杂软件的身手，以至还会自我纠错，不停重试，这又何尝不是一种强化学习、自我博弈呢？

Anthropic，确凿吧Self-Play玩出花了。

目下，在测试缔造者让模子使用计较机的一个基准评估（OSWorld）中，Claude 目下得分为 14.9%。

而东谈主类水平往往为 70-75%，诚然差距很大，还有一些路要走，但照旧远高于目下其他最佳AI模子的7.7%这个分数了。

不外目下这个功能平素用户还用不到，只对缔造者进行怒放，有API接入，Anthropic的本意是还在前期测试阶段，怕有危急，是以让缔造先襄理测试一下。

咱们也花了N久技巧，把API接入进来，作念了一些浅薄的测试。

先装了一个访佛于模拟系统的东西，一切算作齐会在这个模拟系统里运行，Anthropic照旧怕对你的系统会有一个不成逆转的毁伤影响。

我测了好多个case，然则说真话，一是速率实在太邋遢了...二是得手率，如实还有点低下。

比如这个案例：“掀开淘宝网站页面，找到小米手机官方旗舰店，找一个2000支配的手机，加到购物车。”

其实不算难，说真话。

然则Claude翻车了，翻车的点也很搞笑，是在输入店名上，东谈主明明叫小米官方旗舰店，它非要写“方店”，后头又试了一次，此次连两个字齐不写了，径直写了一个字“舰”，这能搜到才有鬼了...

何况，这个视频我照旧两倍速了，你们不错感受一下它有多慢。。

不外，让他玩2048，它玩的倒是尽头的忻悦。这一次，是三倍速。

玩的还挺好，我嗅觉在这放着，他一个东谈主能玩到天瘠土老。这倒亦然挺意旨的。

天然，也能作念一些很实质的事情，比如给我的浏览器装一个不错屏蔽告白的插件。

他竟然把插件地址背下来了，径直输入，给我搜索+装配一步到位。

升空。

诚然总体任务的得手率还比拟一般，然则还好，毕竟Claude我方也说了，得手率没那么高。

何况，这仅仅第一代。

他们确信，使模子适愚弄具，这是例必，而模子也不错融入咱们每天神用的环境里，成为咱们生计的方方面面。

他们的主义是让Claude使用现存的计较机软件，就像东谈主相同。就像东谈主相同。

真好。但愿这个愿景，能在不远的改日达成。

我确凿，很思领有一个我方的。

贾维斯。

开端：数字生命卡兹克初中萝莉液液酱，原文标题：《加强版Claude3.5持重上线，一句话操控电脑的时期确凿要来了》

风险请示及免责条目商场有风险，投资需严慎。本文不组成个东谈主投资提议，也未探求到个别用户很是的投资主义、财务情状或需要。用户应试虑本文中的任何主见、不雅点或论断是否顺应其特定情状。据此投资，职守景色。

下一篇：初中萝莉液液酱好意思国防部再将禾赛科技列入所谓“清单”，禾赛科技：将告状上一篇：勾引户外 10月23日宏发转债上升0.29%，转股溢价率84.81%

麻豆91

麻豆91

初中萝莉液液酱加强版Claude3.5持重上线，一句话操控电脑的时期确凿要来了

相关资讯

栏目分类

麻豆91

麻豆91

初中萝莉液液酱 加强版Claude3.5持重上线，一句话操控电脑的时期确凿要来了

相关资讯

栏目分类

初中萝莉液液酱加强版Claude3.5持重上线，一句话操控电脑的时期确凿要来了