你的位置:kaiyun登录官网 > 新闻中心 > kaiyun登录官网测试任务包含 v1 和 v2 版块-kaiyun登录官网

kaiyun登录官网测试任务包含 v1 和 v2 版块-kaiyun登录官网

时间:2025-10-28 08:36 点击:115 次

kaiyun登录官网测试任务包含 v1 和 v2 版块-kaiyun登录官网

马斯克的Grok 5暗暗藏不住了kaiyun登录官网。

刚刚 ARC-AGI 榜单官宣出现新SOTA,用的照旧Grok 4+ 标准合成技能微调。

好小汁,啥时期驱动 Grok 齐弯谈超车了?OpenAI、Anthropic、谷歌一众明星模子齐被压一头。

一石激起千层浪,网友纷纷提问,那等Grok5出来,岂不是……

马斯克也立地出往复复:

我当今以为 Grok 5 能达到 AGI。

趁机附赠了一堆联系 Grok 5 的爆料。

马斯克落拓剧透 Grok 5

这事还得从 Grok 4 杰出预期的进展提及,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize 发布了两个最新的ARC-AGI榜单 SOTA 有计算:

齐是开源的。

齐使用的是 Grok 4 手脚基础模子。

齐杀青了带测试自相宜的标准合成外轮回。

先浅易先容一下 ARC-AGI 排名榜,其旨在评估 AI 管理复杂贫苦的能力,近似于东谈主类的才调测试,从而反馈 LLM 的推理能力。

测试任务包含 v1 和 v2 版块,v2 需要 LLM 完成更多的多顺次推理,一般来说,即使是最优秀的 LLM 也只可在 v2 中获取16%的准确率。

GPT-5在二者上的得分瓜代是 65.7% 和 9.9%,Claude Opus 4的得分是 35.7% 和 8.6%,而Grok 4则是 66.7% 和 16%。

Jeremy Berman 的新有计算则是在 Grok 4 基础上,用英语替代了传统的 Python,最终得分来到 79.6% 和 29.44%。

Eric Pang 则在 Jeremy 的职责上,联想了一个受DreamCoder启发、LLM 辅助的标准合成系统,能够通过从不休延迟的标准库中学习来管理越来越难的任务。

固然得分莫得进一步升高(77.1% 和 26%),关联词顺利让每个任务的平均用度得以下落(v1:8.42 好意思元→ 2.56 好意思元;v2:30.4 好意思元→ 3.97 好意思元)。

当问及两位作家遴荐 Grok 4 的意义,他们均暗示,这是他们测试下来后果最佳的模子。

当中所体现出的 AGI 后劲,也让马斯克感到自重,立地裸露了一系列联系Grok 5的音信。

老马暗示,这才只是 Grok 4,而 Grok 5 将很有可能达成AGI。

而这个可能性也许能达到 10% 或者更高,要知谈他此前并不以为 Grok 版块会出现 AGI。

与此同期,他暗示Grok 5 将会在几周之内驱动查考。

加上此前他曾暗示 Grok 5 将在本年年底前推出,或者咱们将在不久后见证新的" LLM 怪物"出身。

是以为什么老马能对 Grok 5 抱以如斯利害的信心呢?

查考数据及硬件资源的干涉

归根结底,是马斯克在 Grok 查考中干涉之深。

据悉,Grok 5 将领有较之前代更多的查考数据。

Grok 4 的查考量是 Grok 2 的 100 倍、Grok 3 的 10 倍,而 Grok 5 则只会更多。

马斯克领有一整套的最新确切数据网罗体系,其中xAI不错为其提供最新的径直数据,特斯拉不错按期专揽 FSD 和录像头拿获图像从而生成数据,而擎天柱机器东谈主也能从试验寰宇中生成无数数据。

不错说,马斯克在当下数据为王的时期,最不缺的即是数据。

此外,xAI 在硬件资源上也干涉颇多,指标在 5 年内完成尽头于 5000 万台 H100 GPU 同等算力的部署。

其专诚为 Grok 系列打造的超等缱绻集群Colossus,依然部署了约 23 万张 GPU。其中包括 3 万张 NVIDIA GB200(基于 Nvidia 的 Blackwell 架构),将会握续为 Grok 提供无边的算力接济。

不外 Grok 5 究竟能否确切杀青 AGI,网友们对此也忽视了质疑:毕竟要成为 AGI 靠的可不单是是数据和马斯克的声明,一切还得看制品。

是以究竟谁才是能吃到第一只 AGI 螃蟹的 AI 公司,且让咱们静瞻念其变。

参考交流:

[ 1 ] https://x.com/elonmusk/status/1968196086193066365  

[ 2 ] https://jeremyberman.substack.com/p/how-i-got-the-highest-score-on-arc-agi-again

[ 3 ] https://ctpang.substack.com/p/e760eba7-c8b3-4fda-b631-61b89dd0d0fd

[ 4 ] https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-says-xai-is-targeting-50-million-h100-equivalent-ai-gpus-in-five-years-230k-gpus-including-30k-gb200s-already-reportedly-operational-for-training-grok

一键三连「点赞」「转发」「留神心」

接待在驳倒区留住你的思法!

—  完  —

� �  年度科技风向标「2025 东谈主工智能年度榜单」评比报名开启啦!咱们正在寻找 AI+ 时期领航者  点击了解细则

❤️‍� �   企业、居品、东谈主物 3 大维度,共开采了 5 类奖项,接待企业报名参与   � �  

一键心机 � � 点亮星标

科技前沿进展逐日见kaiyun登录官网

2月25日,胡润盘考院发布《2024胡润中国500强》,列出了中国500强非国有企业,按照企业价值进行排行。 榜单流露,胡润中国500强企业总价值高潮6.6万亿元(13%),达到56万亿元。 台积电以6.98万亿元蝉联中国价值最高的民营企业;腾讯以3.42万亿元稳居第二;字节卓越以1.63万亿元升至第三;华为重返前十,以6800亿元位列第十。 从城市散布来看,北京仍是稳居榜首,是领有胡润中国500强企业最多的城市,共有65家。上海以50家的数目保握第二位,深圳则以49家的数目紧随后来,位列第三
记者2月25日从上海市文化和旅游局获悉开云kaiyun体育,上海市旅游资源开采质地评定委员会发布了新一批上海市级旅游悠闲街区的公告,6家街区位于杨浦、普陀、宝山和嘉定,离别是大学路街区、莫干山路特质街区、好意思兰湖小镇街区、南翔双塔旅游悠闲街区、州桥老街旅游悠闲街区和西云楼文化悠闲街区。 此外,上海市旅游资源开采质地评定委员会2月24日发布公告称开云kaiyun体育,上海滴水湖旅游度假区获评上海市级旅游度假区。
上海市市集监督贬责局官网流露,昕诺飞(中国)投资有限公司调回飞利浦牌LED电板灯,触及数目8316件。调答信息流露,昕诺飞(中国)投资有限公司坐褥的飞利浦牌LED电板灯(型号/规格66180 4800mAH;坐褥批号/批次2328、2331)被调回,据先容开云kaiyun体育,在过度充放电的情况下可能变成电板里面短路,电板里面短路可能导致泄压阀被冲开引燃外壳。
18岁小伙“鳌太线”失联十天后获救开云kaiyun官方网站,自述靠吃雪和牙膏撑了4天,“和送死没分歧,我仅仅运谈好”,命令寰宇别去未种植的场地
当地技术2月13日,韩国首尔,韩国总统尹锡悦出席标谤案庭审第八场公开申辩。 因涉嫌内乱罪而被拘留告状的韩国总统尹锡悦20日上昼抵达首尔中央地法子院,准备出席定于本日10时举行的拘留取消必要性庭审以及内乱罪庭审估量打算庭。 若法院不禁受拘留取消恳求,尹锡悦将在拘谅解状中禁受审判 尹锡悦方面本月4日向首尔中央地法子院建议了取消拘留恳求,根据韩国关系法律,淌若莫得稀奇情况,法院应自接到取消拘留恳求之日起7日内作念出决定;然则法院方面为了谨慎起见,定于20日10时对此进行开庭审理,听取辩控两边的态度。
新华社莫斯科2月19日电(记者 包诺敏)俄罗斯搪塞部长拉夫罗夫19日在俄国度杜马(议会下院)发表说话说,俄好意思安全与策略平定计划的条款可被创造,两国联系平日化的程度正在运转。 拉夫罗夫默示,俄好意思两国的国度利益不统长入致,“但在它们一致的方位,应尽一切勉力驱散互利最大化”。“不仅要处置乌克兰危急,还要为规复和建树俄好意思两国在买卖、经济和地缘政事边界的伙伴联系创造条款。” 俄罗斯搪塞部发言东说念主扎哈罗娃19日默示,俄罗斯和好意思国均以为两边日前在沙特阿拉伯王人门利雅得举行的会谈是积极且具

网址:www.sanheqihua.com

邮箱:7f30575a@outlook.com

电话:32530630950

Powered by kaiyun登录官网 RSS地图 HTML地图


kaiyun登录官网-kaiyun登录官网测试任务包含 v1 和 v2 版块-kaiyun登录官网