How Taalas "prints" LLM onto a chip?
5 days ago
- #ASIC
- #LLM
- #Hardware
- Taalas公司开发了一款ASIC芯片,能以每秒17,000个token的速度运行Llama 3.1 8B模型,其性能显著超越基于GPU的系统且能效更高。
- 该芯片将模型权重直接固化到硅晶圆上,消除了从内存持续读取数据的需要,从而突破了内存带宽瓶颈。
- Taalas采用'魔法乘法器'技术,仅用单个晶体管即可实现4位数据乘法运算,大幅提升能效。
- 芯片未使用外部DRAM/HBM存储器,而是通过片上SRAM实现KV缓存和LoRA适配器,规避了DRAM相关的供应链问题。
- Taalas设计了具有通用逻辑门阵列的基础芯片,可通过定制顶层结构适配不同模型,显著缩短开发周期。
- Llama 3.1 8B芯片的开发耗时两个月,在定制芯片行业属于快速迭代,但相比AI软件开发周期仍显缓慢。