英特尔在2023年8月,找了一堆媒体去开了一个AI应用的发布会,主要介绍了用英特尔的CPU和GPU跑AI应用的优势。不过纵观媒体后续产出的内容,都是依赖英特尔给的一键包,给个简单评测而已,甚至都没讲清楚普通用户如果想用的话,环境到底该怎么部署。
实际上,英特尔能够在CPU上跑大语言模型,主要依靠的是英特尔的BigDL开源项目下的LLM子项目,将大语言模型量化到int 4,内存占用和CPU性能需求都到了一个可以接受的范围内。
英特尔对于市面上常见的大语言模型LLaMA 2、chatGLM都进行了适配和测试,对于6-7B大小的模型经过量化后,16G内存的轻薄本就能跑,一秒钟输出token数量在8-10个,已经是一个完全能用的状态了。换句话说,在个人电脑端侧部署部署大语言模型,英特尔现在就已经能实现了。
等我过几天有空写个文章,详细介绍一下。不知道大家有兴趣吗?