华泰证券研报表示,模型压缩技术是实现AI大模型在边/端部署的核心技术。当前,谷歌、微软、腾讯等厂商在该领域均有布局,将加速AI技术与智能终端融合,国内SoC设计公司有望深度受益。模型压缩技术可在保有大模型原有性能和精度基本不变前提下降低对推理算力的需求:1)量化:将浮点计算转成低比特定点计算;2)网络剪枝:去除神经网络中冗余的通道、神经元节点等;3)知识蒸馏:将大模型作为教师模型,用其输出训练性能接近、结构更简的学生模型。