Hasty Briefsbeta

双语

How Taalas "prints" LLM onto a chip?

3 months ago

#ASIC
#LLM
#Hardware

Taalas公司开发了一款ASIC芯片，能以每秒17,000个token的速度运行Llama 3.1 8B模型，其性能显著超越基于GPU的系统且能效更高。
该芯片将模型权重直接固化到硅晶圆上，消除了从内存持续读取数据的需要，从而突破了内存带宽瓶颈。
Taalas采用'魔法乘法器'技术，仅用单个晶体管即可实现4位数据乘法运算，大幅提升能效。
芯片未使用外部DRAM/HBM存储器，而是通过片上SRAM实现KV缓存和LoRA适配器，规避了DRAM相关的供应链问题。
Taalas设计了具有通用逻辑门阵列的基础芯片，可通过定制顶层结构适配不同模型，显著缩短开发周期。
Llama 3.1 8B芯片的开发耗时两个月，在定制芯片行业属于快速迭代，但相比AI软件开发周期仍显缓慢。