邮件订阅
2023年 第45卷 第9期
2023, 45(9): 3057-3068.
doi: 10.11999/JEIT230323
摘要:
新型工艺下芯片集成度的提高和尺寸的缩小导致了器件内部电场和电流密度的不断增加,使得老化问题日趋严重,当前针对老化主要的防护思路依然是采取保护带和预留时序裕量的方式,但该方法会导致过度设计。近年来,多项研究工作从实验的角度证明了芯片的主要老化机制具有一定的可恢复性,恢复过程且可被加速,从而大幅降低设计初期的时序裕量,由此启发了主动加速恢复的设计思路。该文回顾了老化防护的已有设计方法和主动加速恢复的相关进展,分析了主动加速恢复的潜在优势,并讨论了从模型、电路设计以及系统设计等角度进行片上实现所面临的瓶颈问题和相应的解决方法,提出了以感知-主动加速恢复为核心的自适应老化防护设计概念。
新型工艺下芯片集成度的提高和尺寸的缩小导致了器件内部电场和电流密度的不断增加,使得老化问题日趋严重,当前针对老化主要的防护思路依然是采取保护带和预留时序裕量的方式,但该方法会导致过度设计。近年来,多项研究工作从实验的角度证明了芯片的主要老化机制具有一定的可恢复性,恢复过程且可被加速,从而大幅降低设计初期的时序裕量,由此启发了主动加速恢复的设计思路。该文回顾了老化防护的已有设计方法和主动加速恢复的相关进展,分析了主动加速恢复的潜在优势,并讨论了从模型、电路设计以及系统设计等角度进行片上实现所面临的瓶颈问题和相应的解决方法,提出了以感知-主动加速恢复为核心的自适应老化防护设计概念。
2023, 45(9): 3069-3082.
doi: 10.11999/JEIT230266
摘要:
在摩尔定律的推动下,工艺节点在不断演进,集成电路设计复杂度也在不断增加,电子设计自动化(EDA)技术面临着来自运行时间与计算资源等诸多方面的挑战。为了缓解这些挑战,机器学习方法已被纳入EDA工具的设计流程中。与此同时,鉴于电路网表作为图形数据的本质,图神经网络(GNN)在EDA流程中的应用正变得越来越普遍,为复杂问题的建模以及最优问题的求解带来了新思路。该文首先对GNN与EDA技术的概念内涵进行了简要的概述,详细地梳理了GNN在高层次综合(HLS)、逻辑综合、布图规划与布局、布线、反向工程、硬件木马检测以及测试点插入等不同EDA设计流程中的主要作用,以及当前基于GNN的EDA技术的一些重要探索。以希望为集成电路设计自动化以及相关领域的研究人员提供参考,为我国先进集成电路产业的发展提供技术支持。
在摩尔定律的推动下,工艺节点在不断演进,集成电路设计复杂度也在不断增加,电子设计自动化(EDA)技术面临着来自运行时间与计算资源等诸多方面的挑战。为了缓解这些挑战,机器学习方法已被纳入EDA工具的设计流程中。与此同时,鉴于电路网表作为图形数据的本质,图神经网络(GNN)在EDA流程中的应用正变得越来越普遍,为复杂问题的建模以及最优问题的求解带来了新思路。该文首先对GNN与EDA技术的概念内涵进行了简要的概述,详细地梳理了GNN在高层次综合(HLS)、逻辑综合、布图规划与布局、布线、反向工程、硬件木马检测以及测试点插入等不同EDA设计流程中的主要作用,以及当前基于GNN的EDA技术的一些重要探索。以希望为集成电路设计自动化以及相关领域的研究人员提供参考,为我国先进集成电路产业的发展提供技术支持。
2023, 45(9): 3083-3097.
doi: 10.11999/JEIT230370
摘要:
近年来,物联网和人工智能等技术的发展对片上存储与智能计算的能效、密度以及性能提出了更高的要求。面对传统CMOS处理器的能效与密度瓶颈,以及传统冯·诺伊曼架构的“存储墙”瓶颈,以铁电晶体管 (FeFET)为代表的新型非易失存储器 (NVM)提供了新的机遇。FeFET具有非易失、高能效、高开关比等特点,非常适合低功耗、高密度场景下的存储与存算一体 (CiM)应用,为数据密集型应用在边缘端的部署提供支持。该文回顾了FeFET的发展历程、结构、特性以及建模相关的工作,概述了FeFET存储器在电路结构和访存机制上的探索与优化。进一步地,该文还探讨了FeFET CiM在非易失计算、存内逻辑计算、矩阵向量乘法以及内容可寻址存储器上的应用。最后,该文从不同方面分析并展望了基于FeFET的存储与CiM电路的前景与挑战。
近年来,物联网和人工智能等技术的发展对片上存储与智能计算的能效、密度以及性能提出了更高的要求。面对传统CMOS处理器的能效与密度瓶颈,以及传统冯·诺伊曼架构的“存储墙”瓶颈,以铁电晶体管 (FeFET)为代表的新型非易失存储器 (NVM)提供了新的机遇。FeFET具有非易失、高能效、高开关比等特点,非常适合低功耗、高密度场景下的存储与存算一体 (CiM)应用,为数据密集型应用在边缘端的部署提供支持。该文回顾了FeFET的发展历程、结构、特性以及建模相关的工作,概述了FeFET存储器在电路结构和访存机制上的探索与优化。进一步地,该文还探讨了FeFET CiM在非易失计算、存内逻辑计算、矩阵向量乘法以及内容可寻址存储器上的应用。最后,该文从不同方面分析并展望了基于FeFET的存储与CiM电路的前景与挑战。
2023, 45(9): 3098-3108.
doi: 10.11999/JEIT230352
摘要:
深度学习已经成为当前人工智能技术中最为重要的算法之一。随着应用场景不断扩展,深度学习硬件规模越来越大,计算复杂度呈现数量级提升趋势,对加速系统提出了极高能效需求。后摩尔时代,新型计算范式逐渐取代工艺微缩成为提升能效的有效方案,近似计算以牺牲部分精度的代价换取大幅能效提升,成为最具前景的设计方法之一。该文以深度学习加速系统的不同设计层次为切入,首先介绍了深度学习网络模型的算法特征,围绕算法层的近似计算方案介绍了量化方法的研究进展;其次,围绕硬件架构和电路层调研了当前深度学习加速在图像、语音等多个方向采用的近似电路和架构方案,围绕层次化的设计方法调研了当前近似计算的系统设计方法学及EDA领域的关键问题和研究进展;最后,对该领域方向进行展望,旨在推动近似计算新范式在深度学习加速系统中的应用。
深度学习已经成为当前人工智能技术中最为重要的算法之一。随着应用场景不断扩展,深度学习硬件规模越来越大,计算复杂度呈现数量级提升趋势,对加速系统提出了极高能效需求。后摩尔时代,新型计算范式逐渐取代工艺微缩成为提升能效的有效方案,近似计算以牺牲部分精度的代价换取大幅能效提升,成为最具前景的设计方法之一。该文以深度学习加速系统的不同设计层次为切入,首先介绍了深度学习网络模型的算法特征,围绕算法层的近似计算方案介绍了量化方法的研究进展;其次,围绕硬件架构和电路层调研了当前深度学习加速在图像、语音等多个方向采用的近似电路和架构方案,围绕层次化的设计方法调研了当前近似计算的系统设计方法学及EDA领域的关键问题和研究进展;最后,对该领域方向进行展望,旨在推动近似计算新范式在深度学习加速系统中的应用。
2023, 45(9): 3109-3117.
doi: 10.11999/JEIT230295
摘要:
侧信道能量分析攻击技术以其计算复杂度低和通用性强等优势,给各类密码产品带来了严峻的安全挑战。抗能量分析攻击能力的评估已经成为密码产品安全性测评的重要环节。测试向量泄漏评估(TVLA)是一种基于假设检验的能量信息泄漏评估方法,具有简单高效和可操作性强等特点,目前被广泛应用于密码产品的安全性评估实验中。为全面把握TVLA技术机理及研究现状,该文首先对TVLA技术进行了概述,阐述了其实现原理并介绍了其实施过程,紧接着对特定和非特定两种TVLA的优势与不足进行了对比,随后参考已有研究,对TVLA的局限性进行了深入分析和归纳,在此基础上重点介绍并分析了已有的TVLA的改进方法,最后对TVLA未来可能的发展方向进行了展望。
侧信道能量分析攻击技术以其计算复杂度低和通用性强等优势,给各类密码产品带来了严峻的安全挑战。抗能量分析攻击能力的评估已经成为密码产品安全性测评的重要环节。测试向量泄漏评估(TVLA)是一种基于假设检验的能量信息泄漏评估方法,具有简单高效和可操作性强等特点,目前被广泛应用于密码产品的安全性评估实验中。为全面把握TVLA技术机理及研究现状,该文首先对TVLA技术进行了概述,阐述了其实现原理并介绍了其实施过程,紧接着对特定和非特定两种TVLA的优势与不足进行了对比,随后参考已有研究,对TVLA的局限性进行了深入分析和归纳,在此基础上重点介绍并分析了已有的TVLA的改进方法,最后对TVLA未来可能的发展方向进行了展望。
2023, 45(9): 3118-3131.
doi: 10.11999/JEIT230387
摘要:
该文提出一个面向大规模可编辑逻辑门阵列(FPGA)的开源布局布线框架OpenPARF。该框架基于深度学习工具包PyTorch实现,支持GPU大规模并行计算求解。在布局算法方面,该文设计了一种新型非对称多静电场系统,对FPGA布局问题进行建模。在布线算法方面,该文支持对FPGA可编程逻辑块(CLB)内部布线资源进行准确建模,并在大规模不规则布线资源图上进行布线,提高了异构FPGA芯片布线器的性能和效率。该文在ISPD 2016和2017 FPGA竞赛数据集和工业标准级FPGA数据集上进行了实验,结果表明该框架可减少0.4%~12.7%的布线线长,并实现两倍以上布局效率提升。
该文提出一个面向大规模可编辑逻辑门阵列(FPGA)的开源布局布线框架OpenPARF。该框架基于深度学习工具包PyTorch实现,支持GPU大规模并行计算求解。在布局算法方面,该文设计了一种新型非对称多静电场系统,对FPGA布局问题进行建模。在布线算法方面,该文支持对FPGA可编程逻辑块(CLB)内部布线资源进行准确建模,并在大规模不规则布线资源图上进行布线,提高了异构FPGA芯片布线器的性能和效率。该文在ISPD 2016和2017 FPGA竞赛数据集和工业标准级FPGA数据集上进行了实验,结果表明该框架可减少0.4%~12.7%的布线线长,并实现两倍以上布局效率提升。
2023, 45(9): 3132-3140.
doi: 10.11999/JEIT230325
摘要:
飞速发展的神经网络已经在目标检测等领域取得了巨大的成功,通过神经网络推理框架将网络模型高效地自动部署在各类边缘端设备上是目前重要的研究方向。针对以上问题,该文设计一个针对边缘端FPGA的神经网络推理框架NN-EdgeBuilder,能够利用基于多目标贝叶斯优化的设计空间探索算法充分探索网络每层的并行度因子和量化位宽,接着调用高性能且通用的硬件加速算子来生成低延迟、低功耗的神经网络加速器。该文使用NN-EdgeBuilder在Ultra96-V2 FPGA上部署了UltraNet和VGG网络,生成的UltraNet-P1加速器与最先进的UltraNet定制加速器相比,功耗和能效比表现分别提升了17.71%和21.54%。与主流的推理框架相比,NN-EdgeBuilder生成的VGG加速器能效比提升了4.40倍,数字信号处理器(DSP)的计算效率提升了50.65%。
飞速发展的神经网络已经在目标检测等领域取得了巨大的成功,通过神经网络推理框架将网络模型高效地自动部署在各类边缘端设备上是目前重要的研究方向。针对以上问题,该文设计一个针对边缘端FPGA的神经网络推理框架NN-EdgeBuilder,能够利用基于多目标贝叶斯优化的设计空间探索算法充分探索网络每层的并行度因子和量化位宽,接着调用高性能且通用的硬件加速算子来生成低延迟、低功耗的神经网络加速器。该文使用NN-EdgeBuilder在Ultra96-V2 FPGA上部署了UltraNet和VGG网络,生成的UltraNet-P1加速器与最先进的UltraNet定制加速器相比,功耗和能效比表现分别提升了17.71%和21.54%。与主流的推理框架相比,NN-EdgeBuilder生成的VGG加速器能效比提升了4.40倍,数字信号处理器(DSP)的计算效率提升了50.65%。
2023, 45(9): 3141-3149.
doi: 10.11999/JEIT230480
摘要:
为了避免处理器受到指令缺陷的威胁,该文提出基于指令生成约束的RISC-V测试序列生成方法,构建测试指令序列生成框架,实现测试指令生成及指令缺陷检测,解决现有测试指令序列生成方法约束定义困难和收敛速度慢的问题。在该方法中,首先,根据指令集架构规范和指令验证需求定义指令生成约束,包括指令格式约束、通用功能覆盖约束和特殊功能覆盖约束,以解决随着指令数量增多约束定义的困难,提高可复用性;然后,定义启发式搜索策略,通过统计覆盖信息,加快覆盖率收敛速度;最后,基于启发式搜索策略构造求解算法,实现满足指令生成约束的测试序列生成。实验结果表明,与现有方法相比,在覆盖所有指令验证需求的前提下,结构覆盖率和数值覆盖率的收敛时间分别减少了85.62%和57.64%。利用该框架对开源处理器进行检测,可以定位到在处理器译码和执行阶段引入的指令缺陷,为处理器指令缺陷检测提供了有效的方法。
为了避免处理器受到指令缺陷的威胁,该文提出基于指令生成约束的RISC-V测试序列生成方法,构建测试指令序列生成框架,实现测试指令生成及指令缺陷检测,解决现有测试指令序列生成方法约束定义困难和收敛速度慢的问题。在该方法中,首先,根据指令集架构规范和指令验证需求定义指令生成约束,包括指令格式约束、通用功能覆盖约束和特殊功能覆盖约束,以解决随着指令数量增多约束定义的困难,提高可复用性;然后,定义启发式搜索策略,通过统计覆盖信息,加快覆盖率收敛速度;最后,基于启发式搜索策略构造求解算法,实现满足指令生成约束的测试序列生成。实验结果表明,与现有方法相比,在覆盖所有指令验证需求的前提下,结构覆盖率和数值覆盖率的收敛时间分别减少了85.62%和57.64%。利用该框架对开源处理器进行检测,可以定位到在处理器译码和执行阶段引入的指令缺陷,为处理器指令缺陷检测提供了有效的方法。
2023, 45(9): 3150-3156.
doi: 10.11999/JEIT230382
摘要:
在后摩尔时代,3D芯粒(Chiplet)通常利用硅通孔(TSV)进行异构集成,其复杂的工艺流程会提高芯片制造的难度和成本。针对背照式(BSI)CMOS图像传感器(CIS)的倒置封装结构,该文提出了一种低成本、低工艺复杂度的3D Chiplet非接触互联技术,利用电感耦合构建了数据源、载波源和接收机3层分布式收发机结构。基于华润上华(CSMC)0.25 μm CMOS工艺和东部高科(DB HiTek)0.11 μm CIS工艺,通过仿真和流片测试验证了所提出的互联技术的有效性。测试结果表明,该3D Chiplet非接触互联链路采用20 GHz载波频率,收发机通信距离为5~20 μm,在数据速率达到200 Mbit/s时,误码率小于10–8,接收端功耗为1.09 mW,能效为5.45 pJ/bit。
在后摩尔时代,3D芯粒(Chiplet)通常利用硅通孔(TSV)进行异构集成,其复杂的工艺流程会提高芯片制造的难度和成本。针对背照式(BSI)CMOS图像传感器(CIS)的倒置封装结构,该文提出了一种低成本、低工艺复杂度的3D Chiplet非接触互联技术,利用电感耦合构建了数据源、载波源和接收机3层分布式收发机结构。基于华润上华(CSMC)0.25 μm CMOS工艺和东部高科(DB HiTek)0.11 μm CIS工艺,通过仿真和流片测试验证了所提出的互联技术的有效性。测试结果表明,该3D Chiplet非接触互联链路采用20 GHz载波频率,收发机通信距离为5~20 μm,在数据速率达到200 Mbit/s时,误码率小于10–8,接收端功耗为1.09 mW,能效为5.45 pJ/bit。
2023, 45(9): 3157-3165.
doi: 10.11999/JEIT230287
摘要:
应用于硬件安全领域的多态电路对于除金属氧化物半导体场效应晶体管(MOSFET)外的新器件的研究较少,往往只有少数几个设计实例,缺乏一般化的研究方法和多态门设计平台。面向铁电场效应晶体管(FeFET)器件,该文提出一种多态门设计方法。该方法利用免疫算法,将基于FeFET的多态门电路生成问题归结为生物代际演化过程。该文利用C++语言平台和Hspice仿真工具实现了完整的FeFET多态门设计算法,结合具体的工艺和电路模型搭建了多态门的设计平台。实验结果表明,该设计方法可有效地生成出基于FeFET的多态电路,其所生成的多态门电路可实现温度、电源电压和外部信号多种控制方式。
应用于硬件安全领域的多态电路对于除金属氧化物半导体场效应晶体管(MOSFET)外的新器件的研究较少,往往只有少数几个设计实例,缺乏一般化的研究方法和多态门设计平台。面向铁电场效应晶体管(FeFET)器件,该文提出一种多态门设计方法。该方法利用免疫算法,将基于FeFET的多态门电路生成问题归结为生物代际演化过程。该文利用C++语言平台和Hspice仿真工具实现了完整的FeFET多态门设计算法,结合具体的工艺和电路模型搭建了多态门的设计平台。实验结果表明,该设计方法可有效地生成出基于FeFET的多态电路,其所生成的多态门电路可实现温度、电源电压和外部信号多种控制方式。
2023, 45(9): 3166-3174.
doi: 10.11999/JEIT230359
摘要:
功耗已成为电路设计的关键性能目标之一,现有商业工具PrimeTime PX(PTPX)的功耗预精度高,但是运行时间长,且仅面向已经生成网表的逻辑综合或者物理实现阶段。因此,降低功耗分析时间,且前移功耗预测在芯片设计中的环节变得尤为重要。该文提出一种面向千万门级专用集成电路(ASIC)的寄存器传输级(RTL)功耗预估方法,可在RTL设计阶段实现快速且准确的周期级功耗预测:根据输入信号的功耗相关性原则使用基于平滑截断绝对偏差惩罚项(SCAD)的嵌入法对输入信号自动筛选,从而解决大信号特征输入数量对预估性能的影响;通过时序对准方法对仿真波形数据进行校正,解决了sign-off级功耗与RTL级仿真波形之间的时序偏差问题,有效提升了模型预测的精度;建立了仅拥有两个卷积层和1个全连接层的浅层卷积神经网络模型,学习相邻位置和相邻时间上的信号活动与功耗的相关性信息,充分降低部署开销,使训练速度得到显著提高。该文使用开源数据集、28 nm工艺节点的3×107门级工业级芯片电路作为测试对象,实验结果表明,功耗预测结果和物理设计后PTPX分析结果相比,平均绝对百分比误差(MAPE)小于1.71%,11k时钟周期的功耗曲线预测耗时不到1.2 s。在场景交叉验证实验中,模型的预测误差小于4.5%。
功耗已成为电路设计的关键性能目标之一,现有商业工具PrimeTime PX(PTPX)的功耗预精度高,但是运行时间长,且仅面向已经生成网表的逻辑综合或者物理实现阶段。因此,降低功耗分析时间,且前移功耗预测在芯片设计中的环节变得尤为重要。该文提出一种面向千万门级专用集成电路(ASIC)的寄存器传输级(RTL)功耗预估方法,可在RTL设计阶段实现快速且准确的周期级功耗预测:根据输入信号的功耗相关性原则使用基于平滑截断绝对偏差惩罚项(SCAD)的嵌入法对输入信号自动筛选,从而解决大信号特征输入数量对预估性能的影响;通过时序对准方法对仿真波形数据进行校正,解决了sign-off级功耗与RTL级仿真波形之间的时序偏差问题,有效提升了模型预测的精度;建立了仅拥有两个卷积层和1个全连接层的浅层卷积神经网络模型,学习相邻位置和相邻时间上的信号活动与功耗的相关性信息,充分降低部署开销,使训练速度得到显著提高。该文使用开源数据集、28 nm工艺节点的3×107门级工业级芯片电路作为测试对象,实验结果表明,功耗预测结果和物理设计后PTPX分析结果相比,平均绝对百分比误差(MAPE)小于1.71%,11k时钟周期的功耗曲线预测耗时不到1.2 s。在场景交叉验证实验中,模型的预测误差小于4.5%。
2023, 45(9): 3175-3183.
doi: 10.11999/JEIT221142
摘要:
模块化片上系统(MSoC)包含多个独立的IP组件及多个可能的子网络,这种异构集成的方式往往为片上网络(NoC)引入潜在的死锁。该文基于模块化异构系统MSoC研究了使用高级可扩展接口(AXI)协议的片上网络中3种类型的死锁。MSoC包含多种常见的异构组件,以及由多个独立子网络集成的片上网络,能够充分反映真实芯片的复杂性和不规则性。该文发现除环形通道导致的死锁外,基于AXI的片上网络还涉及双重路径死锁和桥接死锁。该文还提出一种两阶段算法检测片上网络中可能存在的这3种死锁。相比于通用验证方法学(UVM)随机验证,使用该算法可以将检测时长从几个月缩短到几个小时,提高片上网络的可靠性和鲁棒性。
模块化片上系统(MSoC)包含多个独立的IP组件及多个可能的子网络,这种异构集成的方式往往为片上网络(NoC)引入潜在的死锁。该文基于模块化异构系统MSoC研究了使用高级可扩展接口(AXI)协议的片上网络中3种类型的死锁。MSoC包含多种常见的异构组件,以及由多个独立子网络集成的片上网络,能够充分反映真实芯片的复杂性和不规则性。该文发现除环形通道导致的死锁外,基于AXI的片上网络还涉及双重路径死锁和桥接死锁。该文还提出一种两阶段算法检测片上网络中可能存在的这3种死锁。相比于通用验证方法学(UVM)随机验证,使用该算法可以将检测时长从几个月缩短到几个小时,提高片上网络的可靠性和鲁棒性。
2023, 45(9): 3184-3192.
doi: 10.11999/JEIT230365
摘要:
隧穿磁阻(TMR)传感器相比于其他类型磁阻传感器功耗更低、灵敏度更高、可靠性更好,在军事和民用等领域有着广阔的应用前景。该文针对TMR传感器的微弱信号检测和安全防护等问题,提出一种高精度TMR传感器读取专用集成电路(ASIC)和提取传感器物理不可克隆函数(PUF)特性的设计方案。该方案通过设计前端低噪声仪表放大器和高精度模数转换器,并结合斩波技术和纹波抑制技术,实现高精度信号读取和模数转换;利用具备数字输出功能的TMR磁强计比较不同传感器零位偏差,采用多位随机平衡算法完成TMR磁强计的软PUF设计,可产生128 bit PUF响应。TMR传感器读取ASIC利用上海华虹0.35 μm CMOS工艺完成流片,并测试磁强计功能和TMR-PUF性能。实验结果表明,在5V电源电压下,TMR磁强计系统功耗约10 mW,噪底可达–140 dBV,3次谐波失真–107 dB;TMR-PUF的唯一性达到47.8%,稳定性为97.85%,与相关文献比较性能优异。
隧穿磁阻(TMR)传感器相比于其他类型磁阻传感器功耗更低、灵敏度更高、可靠性更好,在军事和民用等领域有着广阔的应用前景。该文针对TMR传感器的微弱信号检测和安全防护等问题,提出一种高精度TMR传感器读取专用集成电路(ASIC)和提取传感器物理不可克隆函数(PUF)特性的设计方案。该方案通过设计前端低噪声仪表放大器和高精度模数转换器,并结合斩波技术和纹波抑制技术,实现高精度信号读取和模数转换;利用具备数字输出功能的TMR磁强计比较不同传感器零位偏差,采用多位随机平衡算法完成TMR磁强计的软PUF设计,可产生128 bit PUF响应。TMR传感器读取ASIC利用上海华虹0.35 μm CMOS工艺完成流片,并测试磁强计功能和TMR-PUF性能。实验结果表明,在5V电源电压下,TMR磁强计系统功耗约10 mW,噪底可达–140 dBV,3次谐波失真–107 dB;TMR-PUF的唯一性达到47.8%,稳定性为97.85%,与相关文献比较性能优异。
2023, 45(9): 3193-3199.
doi: 10.11999/JEIT230371
摘要:
图计算广泛应用于社交网络分析、推荐系统等诸多关键领域,然而,传统的大规模图计算系统面临冯诺依曼架构下访存带来的性能瓶颈。新型存内计算架构成为加速大规模图计算非常有前景的方案,尤其是非易失自旋磁存储器(MRAM)具备超高耐擦写性和超快写入等优点,可使图计算的存内实现更为高效。实现这种潜力的关键挑战之一是如何优化存内计算架构下的图算法设计。该文的前期工作表明,三角形计数算法和图连通分量计算算法可以通过按位运算实现,从而高效地部署在自旋存内处理核中加速。该文探索了更多图算法的优化实现,例如单源最短路径、K-core、链路预测,并提出了面向新型存内计算架构的图算法优化设计模型。该研究对于突破冯诺依曼架构下大规模图计算的内存访问瓶颈具有关键意义。
图计算广泛应用于社交网络分析、推荐系统等诸多关键领域,然而,传统的大规模图计算系统面临冯诺依曼架构下访存带来的性能瓶颈。新型存内计算架构成为加速大规模图计算非常有前景的方案,尤其是非易失自旋磁存储器(MRAM)具备超高耐擦写性和超快写入等优点,可使图计算的存内实现更为高效。实现这种潜力的关键挑战之一是如何优化存内计算架构下的图算法设计。该文的前期工作表明,三角形计数算法和图连通分量计算算法可以通过按位运算实现,从而高效地部署在自旋存内处理核中加速。该文探索了更多图算法的优化实现,例如单源最短路径、K-core、链路预测,并提出了面向新型存内计算架构的图算法优化设计模型。该研究对于突破冯诺依曼架构下大规模图计算的内存访问瓶颈具有关键意义。
2023, 45(9): 3200-3209.
doi: 10.11999/JEIT230388
摘要:
网络空间测绘的核心问题是准确识别和动态跟踪设备。然而,随着匿名化技术的发展,设备可以拥有多个IP地址和MAC地址。这使得通过传统的测绘技术将多个虚拟属性映射到同一个物理设备上变得更加困难。该文提出一种基于物理不可克隆函数(PUF)的测绘框架。该框架可以主动检测网络空间中的物理资源,并根据物理指纹构建资源画像来动态跟踪设备。同时,该文提出一种在配备第四代双倍速率(DDR4)内存的个人电脑(PC)上实现基于Rowhammer的动态随机存取存储器物理不可克隆函数(DRAM PUF)的方法。性能评估表明,该方法在PC上提取的Rowhammer PUF的响应是唯一且可靠的,并可以作为设备的唯一物理指纹。实验结果表明,即使目标设备修改了MAC地址、IP地址或重装了操作系统,该文提出的框架仍然可以通过构建一个用于设备匹配的物理指纹数据库,对目标设备进行准确的标识。
网络空间测绘的核心问题是准确识别和动态跟踪设备。然而,随着匿名化技术的发展,设备可以拥有多个IP地址和MAC地址。这使得通过传统的测绘技术将多个虚拟属性映射到同一个物理设备上变得更加困难。该文提出一种基于物理不可克隆函数(PUF)的测绘框架。该框架可以主动检测网络空间中的物理资源,并根据物理指纹构建资源画像来动态跟踪设备。同时,该文提出一种在配备第四代双倍速率(DDR4)内存的个人电脑(PC)上实现基于Rowhammer的动态随机存取存储器物理不可克隆函数(DRAM PUF)的方法。性能评估表明,该方法在PC上提取的Rowhammer PUF的响应是唯一且可靠的,并可以作为设备的唯一物理指纹。实验结果表明,即使目标设备修改了MAC地址、IP地址或重装了操作系统,该文提出的框架仍然可以通过构建一个用于设备匹配的物理指纹数据库,对目标设备进行准确的标识。
2023, 45(9): 3210-3217.
doi: 10.11999/JEIT230267
摘要:
为应对量子计算对传统公钥密码的安全威胁,后量子密码(PQC)已逐渐成为新一代密码技术。虽然后量子密码通过数学理论保证了算法的安全性,但在密码实现运算过程中易发生侧信道信息泄漏。该文提出一种针对格基PQC的能量侧信道分析攻击框架,利用秘密多项式系数与能耗之间的关系创建侧信道攻击模板,实现了对Kyber算法的侧信道攻击。该文还首次提出一种高阶选择密文攻击方法,成功实现了对Kyber算法的能量侧信道分析,与现有工作相比该方法恢复Kyber512和Kyber768的密钥所需密文条数分别降低了58.48%和47.5%。实验结果表明了该文构建的能量侧信道分析框架的可行性,验证了高阶选择密文攻击方法的有效性,可为后续PQC算法实现侧信道安全风险评估提供方法与工具支撑。
为应对量子计算对传统公钥密码的安全威胁,后量子密码(PQC)已逐渐成为新一代密码技术。虽然后量子密码通过数学理论保证了算法的安全性,但在密码实现运算过程中易发生侧信道信息泄漏。该文提出一种针对格基PQC的能量侧信道分析攻击框架,利用秘密多项式系数与能耗之间的关系创建侧信道攻击模板,实现了对Kyber算法的侧信道攻击。该文还首次提出一种高阶选择密文攻击方法,成功实现了对Kyber算法的能量侧信道分析,与现有工作相比该方法恢复Kyber512和Kyber768的密钥所需密文条数分别降低了58.48%和47.5%。实验结果表明了该文构建的能量侧信道分析框架的可行性,验证了高阶选择密文攻击方法的有效性,可为后续PQC算法实现侧信道安全风险评估提供方法与工具支撑。
2023, 45(9): 3218-3227.
doi: 10.11999/JEIT230300
摘要:
类脑芯片中的脉冲神经网络(SNNs)具有高稀疏性和低功耗的特点,在视觉分类任务中存在应用优势,但仍面临对抗攻击的威胁。现有研究缺乏对网络部署到硬件的量化过程中鲁棒性损失的度量方法。该文研究硬件映射阶段的SNN权重量化方法及其对抗鲁棒性。建立基于反向传播和替代梯度的监督训练算法,并在CIFAR-10数据集上生成快速梯度符号法(FGSM)对抗攻击样本。创新性地提出一种感知量化的权重量化方法,并建立与对抗攻击的训练与推理相融合的评估框架。实验结果表明,在VGG9网络下,直接编码对抗鲁棒性最差。在权重量化前后,4种编码和4种结构参数组合方式下,推理精度损失差与层间脉冲活动的平均变化幅度分别增大73.23%和51.5%。该文指出稀疏性因素对鲁棒性的影响相关度为:阈值增加大于权重量化bit降低大于稀疏编码,所提对抗鲁棒性分析框架与权重量化方法在PIcore类脑芯片中得到了硬件验证。
类脑芯片中的脉冲神经网络(SNNs)具有高稀疏性和低功耗的特点,在视觉分类任务中存在应用优势,但仍面临对抗攻击的威胁。现有研究缺乏对网络部署到硬件的量化过程中鲁棒性损失的度量方法。该文研究硬件映射阶段的SNN权重量化方法及其对抗鲁棒性。建立基于反向传播和替代梯度的监督训练算法,并在CIFAR-10数据集上生成快速梯度符号法(FGSM)对抗攻击样本。创新性地提出一种感知量化的权重量化方法,并建立与对抗攻击的训练与推理相融合的评估框架。实验结果表明,在VGG9网络下,直接编码对抗鲁棒性最差。在权重量化前后,4种编码和4种结构参数组合方式下,推理精度损失差与层间脉冲活动的平均变化幅度分别增大73.23%和51.5%。该文指出稀疏性因素对鲁棒性的影响相关度为:阈值增加大于权重量化bit降低大于稀疏编码,所提对抗鲁棒性分析框架与权重量化方法在PIcore类脑芯片中得到了硬件验证。
2023, 45(9): 3228-3233.
doi: 10.11999/JEIT230306
摘要:
随着互补金属氧化物半导体技术的特征尺寸的不断缩小,其面临的静态功耗问题缩越来越突出。自旋磁随机存储器(MRAM)由于其非易失性、高速读写能力、高集成密度和CMOS兼容性等良好特性,受到了学术界的广泛关注和研究。该文采用电压调控的自旋轨道矩随机存储器设计了一个存内计算可重构逻辑阵列,能够实现全部布尔逻辑功能和高度并行计算。在此基础上设计了存内计算全加器并在40 nm工艺下进行了仿真验证。结果表明,与当前先进研究相比,该文提出的全加器具有更高的并行度,能够实现更快的计算速度(约1.11 ns/bit)和更低的计算功耗(约5.07 fJ/bit)。
随着互补金属氧化物半导体技术的特征尺寸的不断缩小,其面临的静态功耗问题缩越来越突出。自旋磁随机存储器(MRAM)由于其非易失性、高速读写能力、高集成密度和CMOS兼容性等良好特性,受到了学术界的广泛关注和研究。该文采用电压调控的自旋轨道矩随机存储器设计了一个存内计算可重构逻辑阵列,能够实现全部布尔逻辑功能和高度并行计算。在此基础上设计了存内计算全加器并在40 nm工艺下进行了仿真验证。结果表明,与当前先进研究相比,该文提出的全加器具有更高的并行度,能够实现更快的计算速度(约1.11 ns/bit)和更低的计算功耗(约5.07 fJ/bit)。
2023, 45(9): 3234-3243.
doi: 10.11999/JEIT230378
摘要:
为了满足高可靠星载在轨实时舰船目标检测的应用需求,该文针对基于神经网络的合成孔径雷达(SAR)舰船检测提出了一种容错加固设计方法。该方法以轻量级网络MobilenetV2为检测模型框架,对模型在现场可编程逻辑阵列(FPGA)的加速处理进行实现,基于空间单粒子翻转(SEU)对网络的错误模型进行分析,将并行化加速设计思想与高可靠三模冗余(TMR)思想进行融合,优化设计了基于动态重配置的部分三模容错架构。该容错架构通过多个粗粒度计算单元进行多图像同时处理,多单元表决进行单粒子翻转自检与恢复,经实际图像回放测试,FPGA实现的帧率能有效满足在轨实时处理需求。通过模拟单粒子翻转进行容错性能测试,相对原型网络该容错设计方法在资源消耗仅增加不到20%的情况下,抗单粒子翻转检测精度提升了8%以上,相较传统容错设计方式更适合星载在轨应用。
为了满足高可靠星载在轨实时舰船目标检测的应用需求,该文针对基于神经网络的合成孔径雷达(SAR)舰船检测提出了一种容错加固设计方法。该方法以轻量级网络MobilenetV2为检测模型框架,对模型在现场可编程逻辑阵列(FPGA)的加速处理进行实现,基于空间单粒子翻转(SEU)对网络的错误模型进行分析,将并行化加速设计思想与高可靠三模冗余(TMR)思想进行融合,优化设计了基于动态重配置的部分三模容错架构。该容错架构通过多个粗粒度计算单元进行多图像同时处理,多单元表决进行单粒子翻转自检与恢复,经实际图像回放测试,FPGA实现的帧率能有效满足在轨实时处理需求。通过模拟单粒子翻转进行容错性能测试,相对原型网络该容错设计方法在资源消耗仅增加不到20%的情况下,抗单粒子翻转检测精度提升了8%以上,相较传统容错设计方式更适合星载在轨应用。
2023, 45(9): 3244-3252.
doi: 10.11999/JEIT230211
摘要:
差分功耗分析(DPA)攻击不仅威胁加密硬件,对加密软件的安全性也构成严重挑战。将波动动态差分逻辑(WDDL)技术应用在RISC-V指令集的处理器芯核上可减少功耗信息的泄露。但是,WDDL技术会给电路引入巨大的功耗开销。该文针对基于WDDL的RISC-V处理器芯核提出两种功耗抑制方法。虽然随机预充电使能技术与指令无关,而预充电使能指令技术需要扩充指令集,但这两种方法都是属于轻量级的设计改进。仿真结果表明,采用了随机预充电使能技术和预充电使能指令技术的Rocket 芯核的电路功耗分别是原始的WDDL Rocekt 芯核功耗的42%和36.4%。
差分功耗分析(DPA)攻击不仅威胁加密硬件,对加密软件的安全性也构成严重挑战。将波动动态差分逻辑(WDDL)技术应用在RISC-V指令集的处理器芯核上可减少功耗信息的泄露。但是,WDDL技术会给电路引入巨大的功耗开销。该文针对基于WDDL的RISC-V处理器芯核提出两种功耗抑制方法。虽然随机预充电使能技术与指令无关,而预充电使能指令技术需要扩充指令集,但这两种方法都是属于轻量级的设计改进。仿真结果表明,采用了随机预充电使能技术和预充电使能指令技术的Rocket 芯核的电路功耗分别是原始的WDDL Rocekt 芯核功耗的42%和36.4%。
2023, 45(9): 3253-3262.
doi: 10.11999/JEIT221201
摘要:
集成电路(IC)供应链的全球化已经将大多数设计、制造和测试过程从单一的可信实体转移到世界各处各种不可信的第三方实体。使用不可信的第三方知识产权(3PIP)可能面临着设计被对手植入硬件特洛伊木马(HTs)的巨大风险。这些硬件木马可能会使原有设计出现性能降低、信息泄露甚至发生物理层面不可逆的破坏,严重危害消费者的隐私、安全和公司的信誉。现有文献中提出的多种硬件木马检测方法,具有以下缺陷:对黄金参考电路的依赖、测试向量覆盖率的要求甚至是手动代码审查的需要,同时随着集成电路规模的增大,低触发率的硬件木马更加难以被检测。因此针对上述问题,该文提出一种基于图神经网络硬件木马的检测方法,在无需黄金参考电路以及逻辑测试的情况下实现了对门级硬件木马的检测。该方法利用图采样聚合算法(GraphSAGE)学习门级网表中的高维图特征以及相应节点特征,并采用有监督学习进行检测模型的训练。该方法探索了不同聚合方式以及数据平衡方法下的模型的检测能力。该模型在信任库(Trust-Hub)中基于新思90 nm通用库(SAED)的基准训练集的评估下,实现了92.9%的平均召回率以及86.2%的平均F1分数(平均聚合,权重平衡),相比目前最先进的学习模型F1分数提高了8.4%。而应用于基于系统250 nm库(LEDA)的数据量更大的数据集时,分别在组合逻辑类型硬件木马检测中获得平均83.6%的召回率、70.8%的F1,在时序逻辑类型硬件木马检测工作中获得平均95.0%的召回率以及92.8%的F1分数。
集成电路(IC)供应链的全球化已经将大多数设计、制造和测试过程从单一的可信实体转移到世界各处各种不可信的第三方实体。使用不可信的第三方知识产权(3PIP)可能面临着设计被对手植入硬件特洛伊木马(HTs)的巨大风险。这些硬件木马可能会使原有设计出现性能降低、信息泄露甚至发生物理层面不可逆的破坏,严重危害消费者的隐私、安全和公司的信誉。现有文献中提出的多种硬件木马检测方法,具有以下缺陷:对黄金参考电路的依赖、测试向量覆盖率的要求甚至是手动代码审查的需要,同时随着集成电路规模的增大,低触发率的硬件木马更加难以被检测。因此针对上述问题,该文提出一种基于图神经网络硬件木马的检测方法,在无需黄金参考电路以及逻辑测试的情况下实现了对门级硬件木马的检测。该方法利用图采样聚合算法(GraphSAGE)学习门级网表中的高维图特征以及相应节点特征,并采用有监督学习进行检测模型的训练。该方法探索了不同聚合方式以及数据平衡方法下的模型的检测能力。该模型在信任库(Trust-Hub)中基于新思90 nm通用库(SAED)的基准训练集的评估下,实现了92.9%的平均召回率以及86.2%的平均F1分数(平均聚合,权重平衡),相比目前最先进的学习模型F1分数提高了8.4%。而应用于基于系统250 nm库(LEDA)的数据量更大的数据集时,分别在组合逻辑类型硬件木马检测中获得平均83.6%的召回率、70.8%的F1,在时序逻辑类型硬件木马检测工作中获得平均95.0%的召回率以及92.8%的F1分数。
2023, 45(9): 3263-3271.
doi: 10.11999/JEIT220975
摘要:
随着电子设备向小型化、高密度和高速的趋势发展,集成电路作为电子设备的基本核心单元也朝着这一方向发展,由此带来了越来越严重的电磁兼容问题。其中静电放电问题越来越引起设计者、制作者和使用者的重视。该文利用传输线脉冲(TLP)方法对芯片进行测试,获取了器件在应对静电放电干扰时的伏安特性数据。基于TLP测试数据应用分段线性建模方法构建了芯片应对静电放电干扰的模型。该文还根据二极管的等效电路及其数据手册的伏安特性数据构建了瞬态电压抑制(TVS)二极管模型,并通过TLP测试进行验证。同时,结合上述两个模型,开展了芯片静电放电干扰的协同防护设计方法研究,并应用实例验证了芯片的协同防护设计方法的可行性。该方法实现了用仿真模拟的方式进行芯片的协同防护设计,能够节约设计成本和时间。
随着电子设备向小型化、高密度和高速的趋势发展,集成电路作为电子设备的基本核心单元也朝着这一方向发展,由此带来了越来越严重的电磁兼容问题。其中静电放电问题越来越引起设计者、制作者和使用者的重视。该文利用传输线脉冲(TLP)方法对芯片进行测试,获取了器件在应对静电放电干扰时的伏安特性数据。基于TLP测试数据应用分段线性建模方法构建了芯片应对静电放电干扰的模型。该文还根据二极管的等效电路及其数据手册的伏安特性数据构建了瞬态电压抑制(TVS)二极管模型,并通过TLP测试进行验证。同时,结合上述两个模型,开展了芯片静电放电干扰的协同防护设计方法研究,并应用实例验证了芯片的协同防护设计方法的可行性。该方法实现了用仿真模拟的方式进行芯片的协同防护设计,能够节约设计成本和时间。
2023, 45(9): 3272-3283.
doi: 10.11999/JEIT230114
摘要:
随着纳米级CMOS集成电路的不断发展,锁存器极易受恶劣的辐射环境影响,由此引发的多节点翻转问题越来越严重。该文提出一种基于双联互锁存储单元(DICE)和2级C单元的3节点翻转(TNU)容忍锁存器,该锁存器包括5个传输门、2个DICE和3个C单元。该锁存器具有较小的晶体管数量,大大减小了电路的硬件开销,实现低成本。每个DICE单元可用来容忍并恢复单节点翻转,而C单元具有错误拦截特性,可屏蔽由DICE单元传来的错误值。当任意3个节点翻转后,借助DICE单元和C单元,该锁存器可容忍该错误。基于集成电路仿真程序(HSPICE)的仿真结果表明,与先进的TNU加固锁存器设计相比,该锁存器的延迟平均降低了64.65%,延迟功耗面积积平均降低了65.07%。
随着纳米级CMOS集成电路的不断发展,锁存器极易受恶劣的辐射环境影响,由此引发的多节点翻转问题越来越严重。该文提出一种基于双联互锁存储单元(DICE)和2级C单元的3节点翻转(TNU)容忍锁存器,该锁存器包括5个传输门、2个DICE和3个C单元。该锁存器具有较小的晶体管数量,大大减小了电路的硬件开销,实现低成本。每个DICE单元可用来容忍并恢复单节点翻转,而C单元具有错误拦截特性,可屏蔽由DICE单元传来的错误值。当任意3个节点翻转后,借助DICE单元和C单元,该锁存器可容忍该错误。基于集成电路仿真程序(HSPICE)的仿真结果表明,与先进的TNU加固锁存器设计相比,该锁存器的延迟平均降低了64.65%,延迟功耗面积积平均降低了65.07%。
2023, 45(9): 3284-3294.
doi: 10.11999/JEIT221503
摘要:
为提高高清彩色图像超分辨率重建效果,该文提出了一种基于边缘对比度的新型自适应图像插值算法。使用边缘对比度检测和不同尺度的感受野来自适应选择Lanczos插值的系数,自适应性和不同感受野可以进一步提升图像放大质量,图像质量相比于双线性插值平均峰值信噪比(PSNR)提高1.1 dB,结构相似度(SSIM)提高0.025,图像感知相似度(LPIPS)提高0.051,相比于双三次插值平均PSNR提高0.34 dB,SSIM提高0.01,LPIPS提高0.033。同时为减少硬件资源以及提高存储效率协同设计了一种高并行、高能效的加速插值引擎架构,通过两级数据重用和系数脉动机制极大提高计算访存比。加速引擎在16 nm工艺库的综合结果达到2 GHz时钟频率;在Xilinx Zynq Ultra scale+ xczu15eg FPGA上工作频率达到200 MHz,帧速度(fps)达到60的实时性能。
为提高高清彩色图像超分辨率重建效果,该文提出了一种基于边缘对比度的新型自适应图像插值算法。使用边缘对比度检测和不同尺度的感受野来自适应选择Lanczos插值的系数,自适应性和不同感受野可以进一步提升图像放大质量,图像质量相比于双线性插值平均峰值信噪比(PSNR)提高1.1 dB,结构相似度(SSIM)提高0.025,图像感知相似度(LPIPS)提高0.051,相比于双三次插值平均PSNR提高0.34 dB,SSIM提高0.01,LPIPS提高0.033。同时为减少硬件资源以及提高存储效率协同设计了一种高并行、高能效的加速插值引擎架构,通过两级数据重用和系数脉动机制极大提高计算访存比。加速引擎在16 nm工艺库的综合结果达到2 GHz时钟频率;在Xilinx Zynq Ultra scale+ xczu15eg FPGA上工作频率达到200 MHz,帧速度(fps)达到60的实时性能。
2023, 45(9): 3295-3301.
doi: 10.11999/JEIT230304
摘要:
真随机数生成器(TRNG)是安全应用中的关键构建模块,能够为数据加密、随机数和初始化向量提供高质量的随机位。环形振荡器(RO)TRNG是一种广泛的应用设计,以支持各种与安全相关的应用。但是,在FPGA中实现RO TRNG时通常会产生很高的硬件开销。因此,一种基于双输出异或门单元的低开销RO TRNG在该文中被提出,仅使用单个可配置逻辑块即可构建TRNG的熵源。通过多相位细粒度采样机制,将电路抖动有效地采集捕捉到。所提RO TRNG在AMD Xilinx Viretx-6和Artix-7两款FPGA上进行实现与验证,实验结果表明,所提RO TRNG硬件开销低,能够产生质量满意的随机序列。
真随机数生成器(TRNG)是安全应用中的关键构建模块,能够为数据加密、随机数和初始化向量提供高质量的随机位。环形振荡器(RO)TRNG是一种广泛的应用设计,以支持各种与安全相关的应用。但是,在FPGA中实现RO TRNG时通常会产生很高的硬件开销。因此,一种基于双输出异或门单元的低开销RO TRNG在该文中被提出,仅使用单个可配置逻辑块即可构建TRNG的熵源。通过多相位细粒度采样机制,将电路抖动有效地采集捕捉到。所提RO TRNG在AMD Xilinx Viretx-6和Artix-7两款FPGA上进行实现与验证,实验结果表明,所提RO TRNG硬件开销低,能够产生质量满意的随机序列。
2023, 45(9): 3302-3310.
doi: 10.11999/JEIT230349
摘要:
全同态加密(FHE)由于其可以实现隐私数据的计算,大大提高了数据的安全性而在医疗诊断、云计算、机器学习等领域取得了广泛的关注。但是全同态密码高昂的计算代价阻碍了其广泛应用。即使经过算法和软件设计优化,FHE全同态加密中一个整数明文的密文数据规模可以达到56 MByte,端侧生成的密钥最大都会达到11 k Byte。密文以及密钥数据规模过大引起严重的计算和访存瓶颈。存内计算(PIM)是一个解决该问题的有效方案,其完全消除了内存墙的延迟和功耗问题,在端侧计算大规模数据时更具优势。利用存内计算加速全同态计算的工作已经被广泛研究,但是全同态加密端侧的执行过程由于耗时的模运算也面临着执行时间的瓶颈。该文分析了BFV方案加密、解密、密钥生成操作中各个关键算子的计算开销,发现模计算的计算开销平均占比达到了41%,延迟占比中访存占97%,因此,该文提出一个名为魔方派(M2PI)的基于静态随机存取存储器(SRAM)存内计算的模运算加速器设计。实验结果表明,该文所提加速器相比CPU中模计算有1.77倍的计算速度提升以及32.76倍能量的节省。
全同态加密(FHE)由于其可以实现隐私数据的计算,大大提高了数据的安全性而在医疗诊断、云计算、机器学习等领域取得了广泛的关注。但是全同态密码高昂的计算代价阻碍了其广泛应用。即使经过算法和软件设计优化,FHE全同态加密中一个整数明文的密文数据规模可以达到56 MByte,端侧生成的密钥最大都会达到11 k Byte。密文以及密钥数据规模过大引起严重的计算和访存瓶颈。存内计算(PIM)是一个解决该问题的有效方案,其完全消除了内存墙的延迟和功耗问题,在端侧计算大规模数据时更具优势。利用存内计算加速全同态计算的工作已经被广泛研究,但是全同态加密端侧的执行过程由于耗时的模运算也面临着执行时间的瓶颈。该文分析了BFV方案加密、解密、密钥生成操作中各个关键算子的计算开销,发现模计算的计算开销平均占比达到了41%,延迟占比中访存占97%,因此,该文提出一个名为魔方派(M2PI)的基于静态随机存取存储器(SRAM)存内计算的模运算加速器设计。实验结果表明,该文所提加速器相比CPU中模计算有1.77倍的计算速度提升以及32.76倍能量的节省。
2023, 45(9): 3311-3320.
doi: 10.11999/JEIT221059
摘要:
传统电力电子变换器设计多采用顺序设计法,依赖人工经验。近年来,电力电子自动化设计可通过计算机快速优化设计电力电子系统而备受关注。该文以有源中点钳位(ANPC)逆变器的效率优化设计为例,提出一种基于深度强化学习(DRL)的电力电子自动化设计方法,可实现在变换器设计需求变化时,根据设计目标快速得到最优的设计参数。首先介绍了基于DRL的逆变器效率优化整体框架;然后建立了逆变器的效率模型;接着通过深度确定性策略梯度(DDPG)算法的自学习不断训练智能体,获得了最小化功率损耗的优化策略,该策略能够快速响应设计规格变化提供最大化效率的设计变量;最后,搭建了140 kW的实验样机,实验结果验证了所提方法的有效性,相比于遗传算法和强化学习(RL),实测效率分别提高了0.025 %和0.025 %。
传统电力电子变换器设计多采用顺序设计法,依赖人工经验。近年来,电力电子自动化设计可通过计算机快速优化设计电力电子系统而备受关注。该文以有源中点钳位(ANPC)逆变器的效率优化设计为例,提出一种基于深度强化学习(DRL)的电力电子自动化设计方法,可实现在变换器设计需求变化时,根据设计目标快速得到最优的设计参数。首先介绍了基于DRL的逆变器效率优化整体框架;然后建立了逆变器的效率模型;接着通过深度确定性策略梯度(DDPG)算法的自学习不断训练智能体,获得了最小化功率损耗的优化策略,该策略能够快速响应设计规格变化提供最大化效率的设计变量;最后,搭建了140 kW的实验样机,实验结果验证了所提方法的有效性,相比于遗传算法和强化学习(RL),实测效率分别提高了0.025 %和0.025 %。
2023, 45(9): 3321-3330.
doi: 10.11999/JEIT221168
摘要:
连续微流控生物芯片通常需要构建复杂交错的流路径来支持样本/试剂的运输,也需要大量的流端口来推动液体的有序流动,这阻碍了生物芯片的进一步发展。因此,该文考虑了有限流端口驱动下的流路径规划问题,并提出一个流路径驱动下的连续微流控生物芯片的架构综合设计流程。首先采用基于列表调度算法实现操作的绑定与调度,通过时间窗对调度进行调整,从而满足给定的流端口数量约束;然后采用基于序列对表示的遗传算法求得芯片的布局设计,通过考虑并行任务之间的冲突以及组件之间的连接关系,进一步优化了布局解的质量;最后采用基于A*寻路的优化布线算法规划所需的流路径,以有效减少流通道总长度和交叉点数量,生成具有高执行效率的芯片架构。实验结果表明,该方法在严格满足给定的流端口数量约束条件下,极大地避免了各种液体运输任务的冲突,同时也优化了流通道的总长度以及交叉点的数量,降低了芯片的构造成本。
连续微流控生物芯片通常需要构建复杂交错的流路径来支持样本/试剂的运输,也需要大量的流端口来推动液体的有序流动,这阻碍了生物芯片的进一步发展。因此,该文考虑了有限流端口驱动下的流路径规划问题,并提出一个流路径驱动下的连续微流控生物芯片的架构综合设计流程。首先采用基于列表调度算法实现操作的绑定与调度,通过时间窗对调度进行调整,从而满足给定的流端口数量约束;然后采用基于序列对表示的遗传算法求得芯片的布局设计,通过考虑并行任务之间的冲突以及组件之间的连接关系,进一步优化了布局解的质量;最后采用基于A*寻路的优化布线算法规划所需的流路径,以有效减少流通道总长度和交叉点数量,生成具有高执行效率的芯片架构。实验结果表明,该方法在严格满足给定的流端口数量约束条件下,极大地避免了各种液体运输任务的冲突,同时也优化了流通道的总长度以及交叉点的数量,降低了芯片的构造成本。
2023, 45(9): 3331-3339.
doi: 10.11999/JEIT221086
摘要:
物理不可克隆函数(PUF)作为硬件安全原语,广泛应用于众多领域。针对传统硅基类PUF电路可靠性差和易受建模攻击等问题,该文提出一种基于忆阻器的“毛刺”型物理不可克隆函数电路(Glitch-PUF)。该方案首先利用忆阻器的非易失性和阻变效应,实现二值逻辑完备集;然后,利用完备集和竞争冒险现象设计忆阻毛刺产生模块,通过选通信号控制流经忆阻交叉阵列路径的延时大小,改变“毛刺”宽度获得稳定“毛刺”输出;最后,利用忆阻器的存算一体特性和施密特回滞效应设计忆阻采样模块,并测试Glitch-PUF性能。实验结果表明,所设计的Glitch-PUF电路相比文献,抗攻击性提高4.9%~14.3%,随机性达到98.2%,误码率(BER)为0.08%,具有优异的鲁棒性和稳定性。
物理不可克隆函数(PUF)作为硬件安全原语,广泛应用于众多领域。针对传统硅基类PUF电路可靠性差和易受建模攻击等问题,该文提出一种基于忆阻器的“毛刺”型物理不可克隆函数电路(Glitch-PUF)。该方案首先利用忆阻器的非易失性和阻变效应,实现二值逻辑完备集;然后,利用完备集和竞争冒险现象设计忆阻毛刺产生模块,通过选通信号控制流经忆阻交叉阵列路径的延时大小,改变“毛刺”宽度获得稳定“毛刺”输出;最后,利用忆阻器的存算一体特性和施密特回滞效应设计忆阻采样模块,并测试Glitch-PUF性能。实验结果表明,所设计的Glitch-PUF电路相比文献,抗攻击性提高4.9%~14.3%,随机性达到98.2%,误码率(BER)为0.08%,具有优异的鲁棒性和稳定性。
2023, 45(9): 3340-3349.
doi: 10.11999/JEIT221146
摘要:
针对将传统的复数多重信号分类(MUSIC)算法直接嵌入现场可编程门阵列(FPGA)将消耗大量硬件资源和计算时间的问题,该文提出基于极化敏感阵列的实数化的MUSIC算法的FPGA实现方案。利用圆形分布极化敏感阵列的中心对称特性,提出一种实数化预处理方法,该方法直接对接收信号做线性变换,从而简化极化MUSIC算法的后续计算。该FPGA方案通过协方差矩阵模块并行计算、特征值分解模块采用多级清扫的并行Jacobi算法、多尺度谱峰搜索和各个模块的流水线工作来减少算法耗时。试验结果表明,与复数极化MUSIC算法相比,该方案大大降低了硬件资源消耗和时间消耗。
针对将传统的复数多重信号分类(MUSIC)算法直接嵌入现场可编程门阵列(FPGA)将消耗大量硬件资源和计算时间的问题,该文提出基于极化敏感阵列的实数化的MUSIC算法的FPGA实现方案。利用圆形分布极化敏感阵列的中心对称特性,提出一种实数化预处理方法,该方法直接对接收信号做线性变换,从而简化极化MUSIC算法的后续计算。该FPGA方案通过协方差矩阵模块并行计算、特征值分解模块采用多级清扫的并行Jacobi算法、多尺度谱峰搜索和各个模块的流水线工作来减少算法耗时。试验结果表明,与复数极化MUSIC算法相比,该方案大大降低了硬件资源消耗和时间消耗。
2023, 45(9): 3350-3358.
doi: 10.11999/JEIT221257
摘要:
基于存算一体(CIM)架构的激活函数模拟实现方式使得神经网络变得更加接近非线性模型,针对其中Tanh函数负值难处理的问题,该文提出一种高速、高精度绝对值运算电路。该电路将输入电压经过比较器结果判断选择是否输出,利用反相比例取反电路控制负压输入并转换为正压通过开关输出,实现了离散输出功能的绝对值运算处理。与传统利用二极管全波整流绝对值电路相比,该电路有效避免了二极管难集成的问题,且速度快、功耗低、整体面积小。基于55 nm CMOS工艺进行设计,结果表明,在50 ns工作时钟周期下,经过绝对值电路转化后的输出电压与输入电压误差控制在1%以内,比较器的输出延时为5 ns,零点区域放大电压误差小于400 µV。在1.2 V电源电压下,功耗为670 µW,版图面积为4 447 µm2。
基于存算一体(CIM)架构的激活函数模拟实现方式使得神经网络变得更加接近非线性模型,针对其中Tanh函数负值难处理的问题,该文提出一种高速、高精度绝对值运算电路。该电路将输入电压经过比较器结果判断选择是否输出,利用反相比例取反电路控制负压输入并转换为正压通过开关输出,实现了离散输出功能的绝对值运算处理。与传统利用二极管全波整流绝对值电路相比,该电路有效避免了二极管难集成的问题,且速度快、功耗低、整体面积小。基于55 nm CMOS工艺进行设计,结果表明,在50 ns工作时钟周期下,经过绝对值电路转化后的输出电压与输入电压误差控制在1%以内,比较器的输出延时为5 ns,零点区域放大电压误差小于400 µV。在1.2 V电源电压下,功耗为670 µW,版图面积为4 447 µm2。
2023, 45(9): 3359-3369.
doi: 10.11999/JEIT221493
摘要:
不同的神经元之间具有异质性,动力学特性也有很大不同,因此异质神经元之间的耦合是一个有价值的研究方向。该文利用Fitzhugh-Nagumo (FN)神经元和Hindmarsh-Rose (HR)神经元构造一个局部有源忆阻耦合异质神经元。对局部有源忆阻耦合异质神经元的分岔图、谱熵和3参数李雅普诺夫指数图等进行分析,该异质神经元存在多周期窗等丰富的动力学特性。为增强图像传输的安全性设计一种基于局部有源忆阻耦合异质神经元的DNA编码图像加密算法。对加密图像的噪声和裁剪分析表明该图像加密算法具有较强的鲁棒性。
不同的神经元之间具有异质性,动力学特性也有很大不同,因此异质神经元之间的耦合是一个有价值的研究方向。该文利用Fitzhugh-Nagumo (FN)神经元和Hindmarsh-Rose (HR)神经元构造一个局部有源忆阻耦合异质神经元。对局部有源忆阻耦合异质神经元的分岔图、谱熵和3参数李雅普诺夫指数图等进行分析,该异质神经元存在多周期窗等丰富的动力学特性。为增强图像传输的安全性设计一种基于局部有源忆阻耦合异质神经元的DNA编码图像加密算法。对加密图像的噪声和裁剪分析表明该图像加密算法具有较强的鲁棒性。
2023, 45(9): 3370-3379.
doi: 10.11999/JEIT230021
摘要:
粗粒度可重构密码逻辑阵列(CGRCA)难以兼容细粒度序列密码算法,且在编码环节功能单元容易出现竞争冲突,进而导致阵列的资源利用率低和延迟大等问题。为此,利用与-异或-非图(AXIG)双逻辑表达的优势,该文提出一种混合粒度的可重构的多功能密码运算单元,并在晶体管级进行了实现验证,可兼容现有序列密码算法中非线性布尔函数,在延迟和面积-延迟积(ADP)方面均有提升。设计了可重构与、异或、与非(RAXN)逻辑元件,可同时重构“And, Xor, Nand”等逻辑功能,并提出了RAXN的晶体管级实现方法和版图结构;提出了基于RAXN的功能扩展方法,实现了全加器功能、与/异或3输入逻辑功能以及乘法部分积生成功能,并作为基本功能单元(RAXN_U);结合动态配置和动态调度的思想,利用阵列中互联资源和RAXN_U,设计一种可同时实现32 bit加法、8 bit乘法、CF(28)有限域乘法,以及包括S盒在内的复杂非线性布尔函数的混合粒度多功能密码运算单元(RHMCA)。在CMOS 40 nm工艺进行后端定制化设计,实验结果表明,该文提出的多功能单元较传统的实现方法,延迟最好情况优化1.27 ns,面积-延迟积(ADP)值最大提升44.8%。
粗粒度可重构密码逻辑阵列(CGRCA)难以兼容细粒度序列密码算法,且在编码环节功能单元容易出现竞争冲突,进而导致阵列的资源利用率低和延迟大等问题。为此,利用与-异或-非图(AXIG)双逻辑表达的优势,该文提出一种混合粒度的可重构的多功能密码运算单元,并在晶体管级进行了实现验证,可兼容现有序列密码算法中非线性布尔函数,在延迟和面积-延迟积(ADP)方面均有提升。设计了可重构与、异或、与非(RAXN)逻辑元件,可同时重构“And, Xor, Nand”等逻辑功能,并提出了RAXN的晶体管级实现方法和版图结构;提出了基于RAXN的功能扩展方法,实现了全加器功能、与/异或3输入逻辑功能以及乘法部分积生成功能,并作为基本功能单元(RAXN_U);结合动态配置和动态调度的思想,利用阵列中互联资源和RAXN_U,设计一种可同时实现32 bit加法、8 bit乘法、CF(28)有限域乘法,以及包括S盒在内的复杂非线性布尔函数的混合粒度多功能密码运算单元(RHMCA)。在CMOS 40 nm工艺进行后端定制化设计,实验结果表明,该文提出的多功能单元较传统的实现方法,延迟最好情况优化1.27 ns,面积-延迟积(ADP)值最大提升44.8%。
2023, 45(9): 3380-3392.
doi: 10.11999/JEIT230284
摘要:
针对基于不同困难问题格基密码算法中的多项式乘法参数各异且实现架构不统一的现状,该文提出一种基于预处理型数论变换(PtNTT)算法的可重构架构。首先进行多项式乘法运算特征分析,综合了多项式参数(项数、模数及模多项式)对可重构架构的影响。其次,针对不同项数和模多项式设计了4×4串并行可转换型运算单元架构,可满足实现不同位宽基k-数论变换的可扩展设计。其中具体针对不同模数设计了可扩展实现16 bit模乘和32 bit乘法的可重构单元。在数据需求分析过程中,通过构建以系数地址生成、Bank划分以及实际与虚拟地址对应逻辑为主体的分配机制,设计了一种满足基k-数论变换的多Bank存储结构。实验结果表明,该文支持实现Kyber, Saber, Dilithium与NTRU等4种类型算法中的多项式乘法,与其余可重构架构相比,可采用统一架构实现4种算法中的多项式乘法。基于Xilinx Artix-7 FPGA 1.599 μs完成一组项数为256,模数为3329的多项式乘法运算,花费243个时钟。
针对基于不同困难问题格基密码算法中的多项式乘法参数各异且实现架构不统一的现状,该文提出一种基于预处理型数论变换(PtNTT)算法的可重构架构。首先进行多项式乘法运算特征分析,综合了多项式参数(项数、模数及模多项式)对可重构架构的影响。其次,针对不同项数和模多项式设计了4×4串并行可转换型运算单元架构,可满足实现不同位宽基k-数论变换的可扩展设计。其中具体针对不同模数设计了可扩展实现16 bit模乘和32 bit乘法的可重构单元。在数据需求分析过程中,通过构建以系数地址生成、Bank划分以及实际与虚拟地址对应逻辑为主体的分配机制,设计了一种满足基k-数论变换的多Bank存储结构。实验结果表明,该文支持实现Kyber, Saber, Dilithium与NTRU等4种类型算法中的多项式乘法,与其余可重构架构相比,可采用统一架构实现4种算法中的多项式乘法。基于Xilinx Artix-7 FPGA 1.599 μs完成一组项数为256,模数为3329的多项式乘法运算,花费243个时钟。
2023, 45(9): 3393-3400.
doi: 10.11999/JEIT230852
摘要:
为了降低集成电路中测试成本,提高测试质量,该文提出一种低测试逃逸率的晶圆级适应性测试方法。该方法根据历史测试数据中测试项检测故障晶粒的有效性筛选测试集,降低待测晶圆的测试成本。同时,分析晶粒邻域参数波动程度,将存在波动晶粒的参数差异进行放大并建模,提高该类晶粒质量预测模型的分类准确率;无波动的晶粒使用有效测试集建模的方法进行质量预测,减少测试逃逸的风险。根据实际晶圆生产数据的实验结果表明,该方法可以明显降低晶圆的测试项成本40.13%,并保持较低的测试逃逸率0.0091%。
为了降低集成电路中测试成本,提高测试质量,该文提出一种低测试逃逸率的晶圆级适应性测试方法。该方法根据历史测试数据中测试项检测故障晶粒的有效性筛选测试集,降低待测晶圆的测试成本。同时,分析晶粒邻域参数波动程度,将存在波动晶粒的参数差异进行放大并建模,提高该类晶粒质量预测模型的分类准确率;无波动的晶粒使用有效测试集建模的方法进行质量预测,减少测试逃逸的风险。根据实际晶圆生产数据的实验结果表明,该方法可以明显降低晶圆的测试项成本40.13%,并保持较低的测试逃逸率0.0091%。
2023, 45(9): 3401-3409.
doi: 10.11999/JEIT221155
摘要:
为了提高连续微流控生物芯片(CFMBs)中的流层物理协同设计质量和效率,该文分3阶段实现布局布线协同设计。(1) 布局预处理阶段:通过提出的逻辑布局和组件方向布局调整方法,得到组件优异的逻辑位置和逻辑方向。(2) 组件映射和包围盒间隙布局调整阶段:基于包围盒策略,把布局预处理结果映射到实际物理设计空间中,并通过包围盒间隙布局调整,获得最佳包围盒间隙。(3) 收缩布局调整阶段:基于组件间的连通图关系,提出了沿流通道收缩和多图收缩两种新的布局调整方法。实验结果表明,与现有最佳的启发式算法对比,该文算法在芯片流层整体面积、流通道交叉点数和流通道总长度上分别优化20.22%, 54.66%和71.62%,加速比为177.12,显著提升了设计质量和效率。
为了提高连续微流控生物芯片(CFMBs)中的流层物理协同设计质量和效率,该文分3阶段实现布局布线协同设计。(1) 布局预处理阶段:通过提出的逻辑布局和组件方向布局调整方法,得到组件优异的逻辑位置和逻辑方向。(2) 组件映射和包围盒间隙布局调整阶段:基于包围盒策略,把布局预处理结果映射到实际物理设计空间中,并通过包围盒间隙布局调整,获得最佳包围盒间隙。(3) 收缩布局调整阶段:基于组件间的连通图关系,提出了沿流通道收缩和多图收缩两种新的布局调整方法。实验结果表明,与现有最佳的启发式算法对比,该文算法在芯片流层整体面积、流通道交叉点数和流通道总长度上分别优化20.22%, 54.66%和71.62%,加速比为177.12,显著提升了设计质量和效率。
2023, 45(9): 3410-3419.
doi: 10.11999/JEIT221420
摘要:
由于传统的单斜式模数转换器(SS ADC)以及改进的各种架构串行两步式SS ADC普遍存在速度瓶颈问题,均无法满足工业界高帧率CMOS图像传感器的发展需求,该文提出一种应用于高帧率CMOS图像传感器的高速全差分两步式ADC设计方法。该ADC设计方法基于差动斜坡与时间数字转换(TDC)技术,将差动量化嵌套在两步式的量化中,形成了区别于串行量化的并行量化模式,不仅提升了数据量化的速率,而且保证了系统的一致性和鲁棒性;针对传统TDC技术与单斜式ADC的匹配性问题,提出了一种基于电平编码的TDC技术,在ADC量化的最后一个时钟周期内,在不提升系统时钟的情况下,完成时间数字转换,实现了更高精度的量化。该文基于55 nm 1P4M CMOS实验平台完成了所提方法的电路设计、版图设计和测试验证。在模拟电压3.3 V、数字电压1.2 V、时钟频率100 MHz、动态输入范围1.6 V的设计环境下,该文ADC设计精度为12 bit,转换时间仅有480 ns,列级功耗低至62 μW,DNL以最低有效位(LSB)计为+0.6/–0.6,INL以最低有效位(LSB)计为+1.2/–1.4,信噪失真比(SNDR)达到70.08 dB,与现有的先进单斜式ADC相比,ADC转换速度提高了52%以上,可以有效压缩行处理时间,为高帧率大面阵CMOS图像传感器的实现提供了有效的解决方案。
由于传统的单斜式模数转换器(SS ADC)以及改进的各种架构串行两步式SS ADC普遍存在速度瓶颈问题,均无法满足工业界高帧率CMOS图像传感器的发展需求,该文提出一种应用于高帧率CMOS图像传感器的高速全差分两步式ADC设计方法。该ADC设计方法基于差动斜坡与时间数字转换(TDC)技术,将差动量化嵌套在两步式的量化中,形成了区别于串行量化的并行量化模式,不仅提升了数据量化的速率,而且保证了系统的一致性和鲁棒性;针对传统TDC技术与单斜式ADC的匹配性问题,提出了一种基于电平编码的TDC技术,在ADC量化的最后一个时钟周期内,在不提升系统时钟的情况下,完成时间数字转换,实现了更高精度的量化。该文基于55 nm 1P4M CMOS实验平台完成了所提方法的电路设计、版图设计和测试验证。在模拟电压3.3 V、数字电压1.2 V、时钟频率100 MHz、动态输入范围1.6 V的设计环境下,该文ADC设计精度为12 bit,转换时间仅有480 ns,列级功耗低至62 μW,DNL以最低有效位(LSB)计为+0.6/–0.6,INL以最低有效位(LSB)计为+1.2/–1.4,信噪失真比(SNDR)达到70.08 dB,与现有的先进单斜式ADC相比,ADC转换速度提高了52%以上,可以有效压缩行处理时间,为高帧率大面阵CMOS图像传感器的实现提供了有效的解决方案。
2023, 45(9): 3420-3429.
doi: 10.11999/JEIT221032
摘要:
存储器作为片上系统(SoC)中最大和最重要的模块之一,它的稳定性和可靠性关乎着整个芯片能否正常工作。为了提高存储器的测试效率,该文提出一种新型动态March算法——Dynamic-RAWC。相比经典的March RAW算法,Dynamic-RAWC算法有着更良好的故障检测效果:动态故障覆盖率提高了31.3%。这个可观的效果得益于所提算法以经典的March RAW算法为基础进行优化,融入了Hammer, March C+算法的测试元素和一些新的测试元素。不同于普通March型算法的固定元素,所提算法支持用户自定义算法的执行顺序以适应不同的故障检测需求,能够动态地控制算法元素,在时间复杂度和故障覆盖率之间进行调整从而达到良好的平衡。
存储器作为片上系统(SoC)中最大和最重要的模块之一,它的稳定性和可靠性关乎着整个芯片能否正常工作。为了提高存储器的测试效率,该文提出一种新型动态March算法——Dynamic-RAWC。相比经典的March RAW算法,Dynamic-RAWC算法有着更良好的故障检测效果:动态故障覆盖率提高了31.3%。这个可观的效果得益于所提算法以经典的March RAW算法为基础进行优化,融入了Hammer, March C+算法的测试元素和一些新的测试元素。不同于普通March型算法的固定元素,所提算法支持用户自定义算法的执行顺序以适应不同的故障检测需求,能够动态地控制算法元素,在时间复杂度和故障覆盖率之间进行调整从而达到良好的平衡。
2023, 45(9): 3430-3438.
doi: 10.11999/JEIT221158
摘要:
时分复用(Time-Division Multiplexing, TDM)技术被广泛地运用于解决IO瓶颈问题,以提高现场可编程门阵列(Field Programmable Gate Array, FPGA)系统的可布线性,但TDM比率的增大会导致系统时延的显著增加。因此,为了优化FPGA系统时延以及可布线性,该文提出一种用于时分复用技术的多阶段协同优化FPGA布线(Multi-Stage Co-Optimization FPGA Routing, MSCOFRouting)方法。首先,设计自适应布线算法,以减少布线拥塞情况,提高可布线性,解决FPGA间的布线优化问题,为后续的TDM比率分配提供高质量的布线结果。其次,为了避免因大规模线网组的TDM比率过大而导致系统时延劣化的情况,提出基于拉格朗日松弛(Lagrangian Relaxation, LR)的TDM比率分配算法,为布线图的边分配系统时延更小的初始TDM比率。此外,为了进一步减小最大线网组的TDM比率,通过一种多层次的TDM比率优化算法,缩减线网组和FPGA连接对的TDM比率。同时,为了提高MSCOFRouter的运行效率,在上述3个算法中使用多线程并行化方法,有效缩减运行时间。实验结果表明,MSCOFRouting可以获得满足TDM比率约束的结果,取得同类工作中最佳的布线优化结果和TDM比率分配结果。
时分复用(Time-Division Multiplexing, TDM)技术被广泛地运用于解决IO瓶颈问题,以提高现场可编程门阵列(Field Programmable Gate Array, FPGA)系统的可布线性,但TDM比率的增大会导致系统时延的显著增加。因此,为了优化FPGA系统时延以及可布线性,该文提出一种用于时分复用技术的多阶段协同优化FPGA布线(Multi-Stage Co-Optimization FPGA Routing, MSCOFRouting)方法。首先,设计自适应布线算法,以减少布线拥塞情况,提高可布线性,解决FPGA间的布线优化问题,为后续的TDM比率分配提供高质量的布线结果。其次,为了避免因大规模线网组的TDM比率过大而导致系统时延劣化的情况,提出基于拉格朗日松弛(Lagrangian Relaxation, LR)的TDM比率分配算法,为布线图的边分配系统时延更小的初始TDM比率。此外,为了进一步减小最大线网组的TDM比率,通过一种多层次的TDM比率优化算法,缩减线网组和FPGA连接对的TDM比率。同时,为了提高MSCOFRouter的运行效率,在上述3个算法中使用多线程并行化方法,有效缩减运行时间。实验结果表明,MSCOFRouting可以获得满足TDM比率约束的结果,取得同类工作中最佳的布线优化结果和TDM比率分配结果。