文章摘要
张华亮,黄启印,吴少校.基于龙芯3A2000处理器的高性能Goto BLAS库的实现[J].高技术通讯(中文),2016,26(10-11):
基于龙芯3A2000处理器的高性能Goto BLAS库的实现
  
DOI:
中文关键词: Goto BLAS, 性能优化, Linpack, 矩阵运算, 数据预取
英文关键词: 
基金项目:
作者单位
张华亮  
黄启印  
吴少校  
摘要点击次数: 2589
全文下载次数: 2027
中文摘要:
      用Linpack测试集测试了计算机系统浮点性能,测试用函数运算库为Goto BLAS库。该库对Linpach的测试结果有很大影响。为了提高Goto BLAS性能,观察了Goto BLAS库在龙芯3A2000处理器平台的性能表现,分析了测试软件的执行流程、数据的处理方法,根据处理器的结构特点,合理配置矩阵分块参数,优化核心循环的实现方案,同时采用软硬件数据预取技术及优化的内核TLB配置策略。在这些优化方法的共同作用下,仿真平台上核心函数的浮点部件效率超过90%。优化方案在本实验中取得了显著的效果。
英文摘要:
      
查看全文   查看/发表评论  下载PDF阅读器
关闭

分享按钮