马斯克旗下 xAI 发布 Grok AI

马斯克旗下的xAI公司，在2023年11月5日通过官网发布了旗下首款Gtrok AI产品，并公布了其Model Card。

在新闻稿中，关键信息要点已经被整理为表格。

	一张表格看懂马斯克xAI发布的Grok
风格	幽默略带叛逆。即便面对其他模型的辛辣问题，也能够以幽默调侃的方式回答。
信息获取实时性	访问X平台（原推特）获取实时资讯。
模型大小	初代模型Grok 0大小为33B。Grok 1是当前的Grok AI提供服务的基础模型，大小未披露。
使用权限	现阶段仅对少量用户开放，经过短期测试后将会对X Premium Plus用户开放。
上下文长度	Grok 1的基础模型上下文长度为8192 token。
训练时间	Grok 1训练用时2个月。
模型构建工具	基于Kubernetes、Rust和JAX构建了一个自定义的训练和推理堆栈。
模型能力	Grok 0 33B的能力与LLaMA 2 70B相当，Grok 1的能力相较于Claude2、GPT 4有差距，但已经超过了GPT 3.5。
多模态	Grok 1目前仅有文字支持，暂不支持图片、语音。
	转载请注明来自【笔记本电脑评测网】，https://laptopreview.club/

相信用户最为关心的是模型的能力和什么时候能够用上Grok。

在能力方面，xAI公布了两张表格。

其中一张是GSM8K、MMLU、Human Eval、Math测试项下的比较表格。可以看出，Claude 2和GPT 4仍然是一路领先，Grok 1仍然有一定的差距，但是已经全面超过了GPT 3.5。

Benchmark	Grok-0 (33B)	LLaMa 2 70B	Inflection-1	GPT-3.5	Grok-1	Palm 2	Claude 2	GPT-4
GSM8k	56.8% 8-shot	56.8% 8-shot	62.9% 8-shot	57.1% 8-shot	62.9% 8-shot	80.7% 8-shot	88.0% 8-shot	92.0% 8-shot
MMLU	65.7% 5-shot	68.9% 5-shot	72.7% 5-shot	70.0% 5-shot	73.0% 5-shot	78.0% 5-shot	75.0% 5-shot + CoT	86.4% 5-shot
HumanEval	39.7% 0-shot	29.9% 0-shot	35.4% 0-shot	48.1% 0-shot	63.2% 0-shot	–	70% 0-shot	67% 0-shot
MATH	15.7% 4-shot	13.5% 4-shot	16.0% 4-shot	23.5% 4-shot	23.9% 4-shot	34.6% 4-shot	–	42.5% 4-shot

而由于上述测试集已经为网络公开测试集，因此xAI还进行了一个没有包含在数据集内的测试。在这样一个测试当中，Grok介于Claude 2和GPT 4之间。

Human-graded evaluation	Grok-0	GPT-3.5	Claude 2	Grok-1	GPT-4
Hungarian National High School Math Exam (May 2023)	37% 1-shot	41% 1-shot	55% 1-shot	59% 1-shot	68% 1-shot

同时xAI还特别强调Grok没有针对这些测试做专门的“优化”，更能够体现模型在自然状态下的真实能力。

xAI表示，目前模型已经向美国地区的少部分用户推出，正在收集反馈过程当中，等待列表可以通过这里加入。

不过马斯克在X推特上明确表示，内测结束之后模型将会对X Premium Plus推出。