有个怪事儿,前段时间,大模型竞技场上,一个代码为sus-column-r的匿名模型横空出世。
没人知道它师出何门,但在过去的一个月里,它却称得上是过关斩将……
累计一万多人的投票,硬生生让它挤进了排行榜前列。到现在,综合能力已经和5月13号发的GPT-4o(API版本)并列第三了。
看这势头,当时就有不少人猜测,这可能是OpenAI那个迟迟没向大众公布的,神秘的“草莓Q*”项目。
然而,就在昨天,这个困扰大伙儿很久的谜语,终于有答案了。但解开它的,不是OpenAI,而是经常被大家忽略,但也在搞AI的马斯克。
这个匿名的sus-column-r模型,其实就是xAI要推出的新模型Grok2,现在已经上线会员版的X了。
而之所以在大模型竞技场上整这么一出,说白了,是想给昨天的发布热热场子。
像是在官宣推出Grok2的博客里,就明晃晃地展示了之前sus-column-r积累的战绩,甚至还做了对战胜率表。
按照他们自个儿的说法,表里面除了谷歌的Gemini 1.5 Pro外,其余无论是GPT-4o,还是Claude3.5 Sonnet,都只能是Grok2的“手下败将”。
当然了,其他的纸面成绩,Grok2答得也挺不错。光从各个基准的数据来看,它的各项能力,都和市面上最先进的AI差不多,这一线大模型的行列,也算是被Grok给挤进去了。
不过,一个模型好不好,光看这些数据也还不行,最重要的是,得看大伙们的实际使用体验。
相较于上次的还只能文字开开玩笑的Grok1.5,这次Grok2最明显的一个升级,就是新增了图片功能。
但和其他家自己动手搞多模态AI不一样,这次马斯克倒挺罕见地选择了和别人合作。
合作的对象,差友们应该还有点印象,就是前两天咱刚写过的FLUX.1。
看到这,世超也没对Grok2的图片功能抱太大的期待,毕竟是前脚刚试过的AI……
但没想到集成到Grok2里面的FLUX.1,还真撞出了一点不一样的火花。
倒也不是说,在性能上它一夜之间飙升了一大截。而是相较于市面上的其他图片AI,Grok2的整活能力可以称得上是一骑绝尘。
同样是迪士尼公主的一个提示词,Grok2在尺度上就比其他模型要大胆得多。
而且,Grok2还能直接对着自己的老板恶搞,比如这是一个爱吃甜品,吃到发胖的马斯克。
转眼,他还能穿越到权力的游戏里,玩角色扮演。
更搞的是,还有网友直接拿Grok2生成的图,和视频AI配合起来,做起了视频。
不过,Grok2这么肆无忌惮地恶搞各种公众人物、卡通人物,风险肯定还是有的。
像是有网友生成马里奥抽烟喝酒、观望“911”事件的图片,就已经有人督促任天堂起诉了。
除了新增有图片功能外,Grok2这次提升的基础能力,咱肯定也得上手测测,看看实力。
考虑到目前X上线的,还只是性能差一点的小杯mini版,于是世超在大模型竞技场上,试用了下能力更强的Grok2,还拉来了最新版本的GPT-4o作比较。
比试第一招,先从AI容易犯错的题目开始。前段时间,大模型集体在“小数比较”上翻车,大伙应该都听说过了。
这次再来波经典重现,让它俩来比比9.5和9.11的大小。
没想到的是,GPT-4o依旧是死性不改,结果对了,但一看解题思路,完全就是一塌糊涂。反倒是Grok2倒有理有据,给出了正确答案。
还有经典的数数问题,GPT-4o依旧让人大跌眼镜,“我一把把把把住了”它竟然数出来5个把字,Grok2这边倒还是稳定发挥。
不过紧接着问它俩这句话的意思,Grok2就有点露怯了,乱说了一大堆,没一个踩到得分点。而这次GPT-4o简单几句话就给解释清楚了。
接下来世超又试了一些比较基础的常识性问题,比如说“李政道是谁”,它俩回答的,都还算正确。就是不知道为啥,GPT-4o很容易犯懒,草草几句话就结束了。
而Grok2这边,每次给出的答案都挺详细,还贴心地分了类。
反正世超在实际用的时候,是真有感觉到Grok2能力的提升。
另外,按照官方给的数据,这次Grok2在数学这块儿,也能算得贼溜了。
于是我就又翻出了之前Grok做错的那道数学题,是一道求导的问题。
结果马斯克还真没忽悠咱,它俩都把这道题给整明白了。
而把Grok奶成现在的模样,马斯克在背后出得力可不止一星半点儿。
但有意思的是,马斯克主打的,就是薅自己其他公司的羊毛……
先是员工这块儿,xAI一共就只有50来个员工,其中有11个都是在特斯拉工作的,而且里面还有6个是在Autopilot团队工作的,是一点儿都不想避嫌。
据华尔街日报消息,甚至原本要给特斯拉用的GPU,也被马斯克要求优先供应给xAI,还冠冕堂皇的说,特斯拉现在也没地儿用,在仓库里放着也是放着。
偷完特斯拉的家,还不过瘾,马斯克把手也伸到了X上。
就在前两天,科技媒体Techcrunch称,为了“悄悄”用用户们的数据训练AI,X在更新的时候,还偷摸着把用户的默认设置给改了,而且要关掉还得专门登录网页版……
不过总这么偷家,难免会吃上官司。像是马斯克和他的X,就被特斯拉的股东,还有好几个国家的数据保护机构给起诉了。
目前,关于特斯拉的案件,已经在特拉华州的一个法院审理了。
而另外几个数据保护机构,也把X告得,暂停用用户数据训练Grok了。甚至X还有可能遭到“4%平台营业额”的罚款。
但无论如何,在大模型这块儿,马斯克的Grok也算是真正赶上大家伙的进度了。和其他大模型比,不管是图片生成,还是其他基础能力上,Grok2都不算差,甚至还整出了一点儿自己的特色。
据说,xAI下一步会把Grok更深入地揉到X平台上面,而且还要再发一个多模态理解的预览版AI。
不知道为啥,世超已经有点期待,马斯克还能整出什么花活儿来了……
常见问题
相关文章
猜你喜欢
- OpenAI挖走微软生成式人工智能研究的领军人物 2024-10-16
- 黄仁勋自曝每天使用ChatGPT!相信它会越来越强 2024-10-14
- 物理学诺奖授予AI先驱,ChatGPT:难以相信 2024-10-14
- 腾讯研究院对话前OpenAI研究员:为什么伟大不能被计划? 2024-10-12
- 人工智能开始与人类思维产生不祥的分离,人工AI发展 2024-10-12
- 我是万万没想到,诺贝尔化学奖也给了程序员 2024-10-12
- 刚刚,ChatGPT 发布重磅更新!让我看到了 AGI 时代的终极交互形态 2024-10-12
- 雷军国庆将网友“骂”了整整七天,AI语音方向错了? 2024-10-09
- 新突破!非Transformer架构AI模型Liquid亮相,或将重塑智能领域格局? 2024-10-08
- 十一出去旅游的人,终究没能依靠上AI 2024-10-08