MindStudio模型训练场景精度比对全流程和结果分析( 二 )


MindStudio模型训练场景精度比对全流程和结果分析

文章插图
然后执行:wq!命令保存文件并退出 。
最后执行source ~/.bashrc命令使其立即生效 。
关于MindStudio的具体安装流程可以参考Windows安装MindStudio(点我跳转),MindStudio环境搭建指导视频(点我跳转) 。MindStudio官方下载地址:点我跳转 。
本文教程基于MindStudio5.0.RC2 x64 , CANN版本5.1.RC2实现 。
三、准备基于GPU运行生成的原始训练网络npy数据文件3.1 获取项目代码本样例选择resnet50模型 , 利用git克隆代码(git clone -b r1.13.0 https://github.com/tensorflow/models.git),下载成功后如下图所示:
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
3.2 生成数据前处理数据比对前,需要先检查并去除训练脚本内部使用到的随机处理,避免由于输入数据不一致导致数据比对结果不可用 。
编辑resnet_run_loop.py文件,修改如下(以下行数仅为示例,请以实际为准):
注释掉第83、85行
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
注释掉第587~594行
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
第607行,修改为“return None”
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
编辑cifar10_main.py文件,将train_epochs的值改为1 。
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
3.3 生成npy文件进入训练脚本所在目录(如“~/models/official/resnet”) , 修改训练脚本,添加tfdbg的hook 。编辑resnet_run_loop.py文件,添加如下加粗字体的信息 。
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
配置环境变量
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
执行训练脚本
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
训练任务停止后,在命令行输入run,训练会往下执行一个step 。
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
执行lt>gpu_dump命令将所有tensor的名称暂存到自定义名称的gpu_dump文件里 。命令行中会有如下回显 。
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
另外开启一个终端,在linux命令行下进入gpu_dump文件所在目录,执行下述命令,用以生成在tfdbg命令行执行的命令 。
timestamp=$[$(date +%s%N)/1000] ; cat gpu_dump | awk '{print "pt",$4,$4}' | awk '{gsub("/", "_", $3);gsub(":", ".", $3);print($1,$2,"-n 0 -w "$3".""'$timestamp'"".npy")}'>dump.txt
将上一步生成的dump.txt文件中所有tensor存储的命令复制(所有以“pt”开头的命令),然后回到tfdbg命令行(刚才执行训练脚本的控制台)粘贴执行,即可存储所有的npy文件,存储路径为训练脚本所在目录 。
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
退出tfdbg命令行,将生成的npy文件保存到tf_resnet50_gpu_dump_data(用户可自定义)目录下 。
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
四、准备基于NPU运行生成的训练网络dump数据和计算图文件4.1 分析迁移单击菜单栏“File > New > Project...”弹出“New Project”窗口 。
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
在New Project窗口中,选择Ascend Training 。输入项目的名称、CANN远程地址以及本地地址 。点击Change配置CANN,如下图所示:
MindStudio模型训练场景精度比对全流程和结果分析

文章插图
  • Name:工程名称,可自定义 。
  • Description:工程描述,可按需补充关于工程的详细信息 。
  • CANN Version:CANN软件包版本,如未识别或想要更换使用的版本 , 可单击“Change”,在弹出界面中选择Ascend-cann-toolkit开发套件包的安装路径(注意需选择到版本号一级) 。
  • Project Location:工程目录,默认在“$HOME/AscendProjects”下创建 。
点击右侧 + 进行配置远程服务器,如下图所示:
MindStudio模型训练场景精度比对全流程和结果分析

文章插图

推荐阅读