当前位置: 首页 > news >正文

全新的大语言模型Grok-2,最新测评!!

埃隆·马斯克再次引发轰动,他旗下的xAI公司推出了全新的大语言模型Grok-2!

最新的Grok-2测试版已经发布,用户可以在𝕏平台上体验小版本的Grok-2 mini。

马斯克还通过一种谜语般的方式揭开了困扰大模型社区一个多月的谜团:Lmsys大模型竞技场上那个神秘的匿名模型sus-column-r,实际上就是Grok-2的化身。

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册


 

sus-column-r在排行榜上积累了超过一万次的人类投票,目前它已经与GPT-4o的API版并列第三。

如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:WildCard

在xAI的内部测试中,Grok-2在常识(如MMLU、MMLU-Pro)、数学竞赛问题(MATH)以及研究生水平科学知识(GPQA)等多个领域表现出色,与其他前沿模型不相上下。

此外,Grok-2在视觉任务方面尤为擅长,尤其是在视觉数学推理(MathVista)方面达到了SOTA(State of the Art)的水平。

不过,有趣的是,在展示这些结果时,xAI刻意将Grok-2与分数最高的GPT-4o和Claude-3.5-Sonnet分开,似乎试图在图表上制造一些心理影响。

然而,分数只是数字,更关键的是实际测试效果。

接下来进入Grok-2的一手实测环节。

如果你是𝕏/推特平台的付费用户,可以直接进入Grok频道进行试玩!

即便不付费,也可以在Lmsys大模型竞技场上选择sus-column-r进行体验。

值得一提的是,付费用户只能玩到小杯mini版,而免费用户则能体验更大的版本,这一点相当厚道。

由于Grok-2能够访问𝕏上的实时数据,因此它可以总结当天的新闻,并在开启趣味模式后附加一些幽默的评论。

此外,付费版本还接入了最新的开源AI生图模型Flux.1,该模型能够将中文提示词翻译成英文来理解。

用户可以在Grok-2上继续使用中文提问,它甚至在这款尚未发售的游戏《黑神话:悟空》之前就了解。

Grok-2不仅能准确指出该游戏的预定发售日期为8月20日,还能识别游戏使用的虚幻5引擎,并总结𝕏平台上网友的讨论内容。

然而,由于𝕏平台上提供的只是Grok-2的mini版本,强度测试还需要在大模型竞技场上进行。在这个竞技场中,用户可以直接让Grok-2(即sus-column-r)与GPT-4o进行对比。

在最近热门的智商测试问题“9.9和9.11哪个更大”中,Grok-2的表现明显超越了ChatGPT的最新版本。

然而,在另一项流行的测试“strawberry中有几个r”中,两者表现都不尽如人意(虽然多次尝试后,两者都有可能答对,但这种情况较为罕见)。

不过,特斯拉的股东们对此并不满意。据《华尔街日报》报道,马斯克一直在将人才、数据和GPU资源从特斯拉转移至xAI。

目前,xAI已经雇佣了至少11名曾在特斯拉工作的员工,其中六人曾在Autopilot团队工作。此外,马斯克还要求英伟达优先为xAI供应GPU资源,原本这些资源是为特斯拉保留的。

他还公开表示,特斯拉收集的大量视觉数据可以用来训练xAI的模型。

这一举动引发了股东们的不满,至少三名特斯拉股东因马斯克将资源转移到xAI而对他提起诉讼,指控他损害了特斯拉投资者的利益。

目前,此案件正在特拉华州法院审理。

这个新推出的Grok-2模型在业界掀起了不小的波澜,尤其是马斯克为其投入的巨大资源和战略转移,引发了广泛的关注和争议。

随着Grok-2继续扩展其应用场景,尤其是在大模型领域与其他顶级模型的竞争中,其未来的发展前景值得密切关注。


如何使用WildCard正确方式打开Claude,目前 WildCard 支持的服务非常齐全!

官网有更详细介绍:​​​​​​WildCard

推荐阅读:

Claude 3.5 Sonnet引入了LaTeX公式渲染功能!!
 

【最新版】手把手Claude 3.5 Sonnet 详细步骤注册方法!_claude 3.5 sonnet 注册


http://www.mrgr.cn/news/11922.html

相关文章:

  • android openGL ES详解——剔除
  • Golang 中的 String、rune 和 byte
  • XDMA - AXI4 Memory Mapped
  • 【C++ Primer Plus习题】6.2
  • 模型 PMI思考法
  • 等保测评(三级)服务器和终端-测评项及整改措施(详细)
  • 《第二十八章:性能优化 - 电量优化》
  • 《机器学习》 决策树 ID3算法
  • 节省 60% 成本还能加速业务扩展,ScraperAPI 在云基础设施上的多年实践
  • 一文弄懂MySQL中的锁
  • 关于thinkPHP3.2中的rewrite不严谨问题会导致网站被注入以及nginx配置中的if多条件判断问题-阿里云阻止指host访问
  • .NET Razor类库 - 生成NuGet包
  • 网络安全售前入门03——审计类产品了解
  • 万象公文常见问题的处理方法
  • Linux简单介绍(2)
  • vue 组件通信的解决方案
  • 分享一个基于python的抖音短视频流量数据分析与可视化系统Hive大数据源码(源码、调试、LW、开题、PPT)
  • 大数据系统测试——大数据系统解析(下)
  • 数据结构【顺序结构二叉树:堆】(1)
  • 代码生成:自动化开发