马斯克旗下的xAI公司,在2023年11月5日通过官网发布了旗下首款Gtrok AI产品,并公布了其Model Card。
在新闻稿中,关键信息要点已经被整理为表格。
一张表格看懂马斯克xAI发布的Grok | |
风格 | 幽默略带叛逆。即便面对其他模型的辛辣问题,也能够以幽默调侃的方式回答。 |
信息获取实时性 | 访问X平台(原推特)获取实时资讯。 |
模型大小 | 初代模型Grok 0大小为33B。Grok 1是当前的Grok AI提供服务的基础模型,大小未披露。 |
使用权限 | 现阶段仅对少量用户开放,经过短期测试后将会对X Premium Plus用户开放。 |
上下文长度 | Grok 1的基础模型上下文长度为8192 token。 |
训练时间 | Grok 1训练用时2个月。 |
模型构建工具 | 基于Kubernetes、Rust和JAX构建了一个自定义的训练和推理堆栈。 |
模型能力 | Grok 0 33B的能力与LLaMA 2 70B相当,Grok 1的能力相较于Claude2、GPT 4有差距,但已经超过了GPT 3.5。 |
多模态 | Grok 1目前仅有文字支持,暂不支持图片、语音。 |
转载请注明来自【笔记本电脑评测网】,https://laptopreview.club/ |
相信用户最为关心的是模型的能力和什么时候能够用上Grok。
在能力方面,xAI公布了两张表格。
其中一张是GSM8K、MMLU、Human Eval、Math测试项下的比较表格。可以看出,Claude 2和GPT 4仍然是一路领先,Grok 1仍然有一定的差距,但是已经全面超过了GPT 3.5。
Benchmark | Grok-0 (33B) | LLaMa 2 70B | Inflection-1 | GPT-3.5 | Grok-1 | Palm 2 | Claude 2 | GPT-4 |
---|---|---|---|---|---|---|---|---|
GSM8k | 56.8% 8-shot | 56.8% 8-shot | 62.9% 8-shot | 57.1% 8-shot | 62.9% 8-shot | 80.7% 8-shot | 88.0% 8-shot | 92.0% 8-shot |
MMLU | 65.7% 5-shot | 68.9% 5-shot | 72.7% 5-shot | 70.0% 5-shot | 73.0% 5-shot | 78.0% 5-shot | 75.0% 5-shot + CoT | 86.4% 5-shot |
HumanEval | 39.7% 0-shot | 29.9% 0-shot | 35.4% 0-shot | 48.1% 0-shot | 63.2% 0-shot | – | 70% 0-shot | 67% 0-shot |
MATH | 15.7% 4-shot | 13.5% 4-shot | 16.0% 4-shot | 23.5% 4-shot | 23.9% 4-shot | 34.6% 4-shot | – | 42.5% 4-shot |
而由于上述测试集已经为网络公开测试集,因此xAI还进行了一个没有包含在数据集内的测试。在这样一个测试当中,Grok介于Claude 2和GPT 4之间。
Human-graded evaluation | Grok-0 | GPT-3.5 | Claude 2 | Grok-1 | GPT-4 |
---|---|---|---|---|---|
Hungarian National High School Math Exam (May 2023) | 37% 1-shot | 41% 1-shot | 55% 1-shot | 59% 1-shot | 68% 1-shot |
同时xAI还特别强调Grok没有针对这些测试做专门的“优化”,更能够体现模型在自然状态下的真实能力。
关于什么时候能够用上模型,xAI并没有给出明确的时间表
xAI表示,目前模型已经向美国地区的少部分用户推出,正在收集反馈过程当中,等待列表可以通过这里加入。
不过马斯克在X推特上明确表示,内测结束之后模型将会对X Premium Plus推出。