Hasty Briefsbeta

双语

How Taalas "prints" LLM onto a chip?

5 days ago
  • #ASIC
  • #LLM
  • #Hardware
  • Taalas公司开发了一款ASIC芯片,能以每秒17,000个token的速度运行Llama 3.1 8B模型,其性能显著超越基于GPU的系统且能效更高。
  • 该芯片将模型权重直接固化到硅晶圆上,消除了从内存持续读取数据的需要,从而突破了内存带宽瓶颈。
  • Taalas采用'魔法乘法器'技术,仅用单个晶体管即可实现4位数据乘法运算,大幅提升能效。
  • 芯片未使用外部DRAM/HBM存储器,而是通过片上SRAM实现KV缓存和LoRA适配器,规避了DRAM相关的供应链问题。
  • Taalas设计了具有通用逻辑门阵列的基础芯片,可通过定制顶层结构适配不同模型,显著缩短开发周期。
  • Llama 3.1 8B芯片的开发耗时两个月,在定制芯片行业属于快速迭代,但相比AI软件开发周期仍显缓慢。