提示工程技术(Prompt Engineering Techniques)
谷歌女程序员Justine Tunney创新突破,Llama推理速度飙升500%!
来源: | 作者:DE.News | 发布时间: 2024-04-07 | 426 次浏览 | 分享到:


关键字:Justine Tunney - Llama - 矩阵乘法内核 - 推理速度 - 性能提升 - LLM(大型语言模型) - Llamafile - Mozilla团队 - Cosmopolitan Libc - 跨平台 - AMD64和ARM64 - 操作系统 - FP16和BF16 - 内存占用 - Raspberry Pi - TinyLlama - TensorFlow - Bazel - Nomulus - 谷歌 - 程序员 - 硬件平台 - AVX512 - ARMv8.2+ - Intel - MKL(Math Kernel Library) - 开源项目 - BLIS(Basic Linear Algebra Subprograms) - 性能优化 - 计算机架构 - 苹果Mac Studio - AMD Ryzen Threadripper PRO 7995WX - Zen4架构 - 互联网技术 - 软件工程


谷歌的资深程序员Justine Tunney最近取得了一项显著的技术成就,她通过编写84个新的矩阵乘法内核,成功地将Llama的推理速度提高了500%。

这一改进对于Llamafile项目来说是一个巨大的突破,Llamafile是一个本地化的LLM(大型语言模型)项目,由Justine Tunney和Mozilla团队合作开发。


Justine Tunney的这项工作不仅提升了Llamafile在CPU上的推理速度,特别是在ARMv8.2+、Intel和AVX512等架构上的提升尤为显著,

而且还使得新的内核在处理适合L2缓存的矩阵时,速度比MKL(Math Kernel Library)快了两倍。

这一成就不仅展示了Justine Tunney在编程领域的卓越才能,也为开源项目在性能上超越商业软件树立了新的标杆。


Llamafile项目的目标是让大型语言模型能够在各种硬件平台上高效运行,而不需要依赖昂贵的CUDA内核。

这意味着即使是性能适中的旧CPU,只要有足够的RAM,也能够运行Llamafile。


Justine Tunney的这项工作还包括对新的数据格式的支持,比如FP16和BF16,这有助于进一步减少内存占用。


她的这些改进在各种硬件平台上都取得了显著的性能提升,包括在Raspberry Pi上成功运行TinyLlama。


Justine Tunney的职业生涯充满了卓越的成就,她从14岁开始编程,并开发了多个跨平台项目。

她在谷歌工作期间,为TensorFlow、Bazel和Nomulus等知名项目做出了重要贡献。

Justine Tunney的工作不仅提升了Llamafile的性能,也为整个编程社区提供了宝贵的资源和灵感。


友情链接