马斯克旗下的xAI公司,在2023年11月5日通过官网发布了旗下首款Gtrok AI产品,并公布了其Model Card

在新闻稿中,关键信息要点已经被整理为表格。

一张表格看懂马斯克xAI发布的Grok
风格幽默略带叛逆。即便面对其他模型的辛辣问题,也能够以幽默调侃的方式回答。
信息获取实时性访问X平台(原推特)获取实时资讯。
模型大小初代模型Grok 0大小为33B。Grok 1是当前的Grok AI提供服务的基础模型,大小未披露。
使用权限现阶段仅对少量用户开放,经过短期测试后将会对X Premium Plus用户开放。
上下文长度Grok 1的基础模型上下文长度为8192 token。
训练时间Grok 1训练用时2个月。
模型构建工具基于Kubernetes、Rust和JAX构建了一个自定义的训练和推理堆栈。
模型能力Grok 0 33B的能力与LLaMA 2 70B相当,Grok 1的能力相较于Claude2、GPT 4有差距,但已经超过了GPT 3.5。
多模态Grok 1目前仅有文字支持,暂不支持图片、语音。
转载请注明来自【笔记本电脑评测网】,https://laptopreview.club/

相信用户最为关心的是模型的能力什么时候能够用上Grok

在能力方面,xAI公布了两张表格。

其中一张是GSM8K、MMLU、Human Eval、Math测试项下的比较表格。可以看出,Claude 2和GPT 4仍然是一路领先,Grok 1仍然有一定的差距,但是已经全面超过了GPT 3.5。

BenchmarkGrok-0 (33B)LLaMa 2 70BInflection-1GPT-3.5Grok-1Palm 2Claude 2GPT-4
GSM8k56.8%
8-shot
56.8%
8-shot
62.9%
8-shot
57.1%
8-shot
62.9%
8-shot
80.7%
8-shot
88.0%
8-shot
92.0%
8-shot
MMLU65.7%
5-shot
68.9%
5-shot
72.7%
5-shot
70.0%
5-shot
73.0%
5-shot
78.0%
5-shot
75.0%
5-shot + CoT
86.4%
5-shot
HumanEval39.7%
0-shot
29.9%
0-shot
35.4%
0-shot
48.1%
0-shot
63.2%
0-shot
70%
0-shot
67%
0-shot
MATH15.7%
4-shot
13.5%
4-shot
16.0%
4-shot
23.5%
4-shot
23.9%
4-shot
34.6%
4-shot
42.5%
4-shot

而由于上述测试集已经为网络公开测试集,因此xAI还进行了一个没有包含在数据集内的测试。在这样一个测试当中,Grok介于Claude 2和GPT 4之间。

Human-graded evaluationGrok-0GPT-3.5Claude 2Grok-1GPT-4
Hungarian National High School Math Exam (May 2023)37%
1-shot
41%
1-shot
55%
1-shot
59%
1-shot
68%
1-shot

同时xAI还特别强调Grok没有针对这些测试做专门的“优化”,更能够体现模型在自然状态下的真实能力。

关于什么时候能够用上模型,xAI并没有给出明确的时间表

xAI表示,目前模型已经向美国地区的少部分用户推出,正在收集反馈过程当中,等待列表可以通过这里加入

不过马斯克在X推特上明确表示,内测结束之后模型将会对X Premium Plus推出。

Loading

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注