深度学习之resnet Rs

2022-04-19 开发深度学习字数统计: 370字阅读时长: 1分

尝试google的tpu

resnet-rs

https://cloud.google.com/tpu/docs/tutorials/resnet-rs-2.x?hl=zh-CN

gcloud config set project cloud-function-344710
gcloud config set compute/zone     asia-east1-c

//连接tpu，修改机器名称，这里是tpu 虚拟机模式，这里不能用
gcloud alpha compute tpus tpu-vm ssh  resnet-rs-tutorial --zone=asia-east1-c

pip3 install tensorflow-text==2.8.1 --no-deps
### 连接vm
gcloud compute ssh resnet-rs-tutorial --zone=asia-east1-c

### 不能用本地存储

尝试vm方式

gcloud compute tpus execution-groups create \
 --vm-only \
 --name=resnet-rs-tutorial \
 --zone=asia-east1-c \
 --disk-size=40 \
 --machine-type=n1-standard-8 \
 --tf-version=2.8.0 \
 --preemptible

gcloud compute tpus execution-groups create \
 --tpu-only \
 --accelerator-type=v2-8  \
 --name=resnet-rs-tutorial \
 --zone=asia-east1-c \
 --tf-version=2.8.0 \
  --preemptible

export STORAGE_BUCKET=gs://tpubucket6577
export MODEL_DIR=${STORAGE_BUCKET}/resnet-rs-2x
export IMAGENET_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
export PYTHONPATH=/usr/share/models
export TPU_NAME=resnet-rs-tutorial
### 安装必须的包
pip3 install tensorflow-text==2.8.1 --no-deps

python3 /usr/share/models/official/vision/beta/train.py \
--experiment=resnet_rs_imagenet \
--mode=train_and_eval \
--model_dir=$MODEL_DIR \
--tpu=$TPU_NAME \
--config_file=/usr/share/models/official/vision/beta/configs/experiments/image_classification/imagenet_resnetrs50_i160.yaml \
--params_override="task.train_data.input_path=$IMAGENET_DIR/train*, task.validation_data.input_path=$IMAGENET_DIR/valid*, trainer.train_steps=100"

总结：
1.代码在vm虚拟机上，而不是在tpu的vm上。
2.结果存储必须要在存储桶中，而不能在本地
3.export 修改后需要将后面的export 同步修改
4.虚拟机元数据增加了。
5.重新修改需要改代码，所以要删除gs存储桶的数据。

修改VM的可抢占性。

gcloud compute tpus execution-groups create \
 --vm-only \
 --name=resnet-rs-tutorial \
 --zone=asia-east1-c \
 --disk-size=40 \
 --machine-type=n1-standard-16 \
 --tf-version=2.8.0 \
 --preemptible

好像不能连接，看下情况

I tensorflow/core/grappler/devices.cc:75] Number of eligible GPUs (core count >= 8, compute capability >= 0.0): 0 (Note: TensorFlow was not compiled with CUDA or ROCm support)

可能是能用n1-standard-16的虚拟机

TPU性能分析

https://cloud.google.com/tpu/docs/cloud-tpu-tools?hl=zh-cn

Resnet 成功

本文链接: https://blog.fengidea.com/2022/04/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B9%8Bresnet-rs/
License: CC BY 4.0 CN

彭峰idea

Good Good Study, Day Day Up~