摘要:为了提高人工智能加速器的运算效率和功耗效率,提出了一种新的卷积神经网络(CNN)加速器结构,并实现了神经网 络存算一体的方法。 首先,设计出一种神经网络架构,其具有高度并行计算以及乘加器(MAC)单元高效运行的特性。 其次,为 了降低功耗和面积,采用了对称的静态随机存储器(SRAM)阵列和可调数据流向结构,实现多层网络在 SRAM 中高效计算,减 少了访问外部存储器次数,降低了功耗,提高运算效率。 通过中芯国际 40 nm 工艺,完成了系统芯片( SoC)设计、流片与测试。 结果表明运算速度在 500 MHz 下,算力可达 288 GOPS;全速运行功耗 89. 4 mW;面积 1. 514 mm 2 ;算力功耗比 3. 22 TOPS / W; 40 nm 算力面积比为 95. 1 GOPS / mm 2 。 与已有文献的相比,算力功耗至少提升 4. 54% ,算力面积至少提升 134% ,对于嵌入式场 景应用较适合。