Page tree
Skip to end of metadata
Go to start of metadata

这里提供的是一系列常见的VTD Scale使用案例。


用户的基本情景

1. 使用Scale泛化来模板化具体仿真

请查看Jupyter笔记本教程-1.1:01.1 泛化

2. 在本地机器和Scale之间传输数据

使用Jupyter

注意:如果你的home目录是空的,那么进入终端,然后运行:

/home/root/user-init.sh

Scale使用已经挂载的Azure存储文件系统。

用户可以在/storage/user/$USER/中存储他们的文件。

每个用户的home目录中都有一个指向这个存储目录的链接。

这个链接与集群外的一个文件系统相连。

如果集群被删除,/storage内的文件将不会被删除。


还有一个高性能的文件系统(/hdfs)。

这个文件系统应该用于研究。

这个文件系统上有Demo和测试数据。


若要浏览文件:

  1. 进入管理仪表盘的用户组件页面,点击“Jupyter”链接,然后登录至Jupyter
  2. 如果存储链接的目录不存在,你将需要建立一个目录
  3. 点击存储链接


若要上传文件:

  1. 使用文件资源管理器,找到你想要上传的文件
  2. 将文件从文件资源管理器拖拽到Jupyter


若要下载文件:

  1. 勾选想要下载文件的复选框,然后点击“下载”按钮

使用Azure存储管理器

要想直接访问Azure存储,建议使用Azure存储管理器。

这个工具提供文件夹的上传/下载功能。

请联系你的管理员,看看你是否有访问权限。

如果有的话,他们将提供在Scale中使用的Azure存储的凭证和位置。

3. 设置Demo数据

注意:

用来登录至Jupyter的用户名/密码:admin/scale

请查看Jupyter笔记本教程-1:01 Demo数据

4. 部署工作节点

请查看Jupyter笔记本教程-2:02 部署

5. 运行开环研究

请查看Jupyter笔记本教程-3:03 开环研究

6. 评价

请查看Jupyter笔记本教程-4:04 评价

7. 运行闭环研究

请查看Jupyter笔记本教程-5:05 闭环研究

8. 运行基于GPU的研究

请查看Jupyter笔记本教程-6:06 基于GPU的具体研究

9. 运行带有边车的研究

请查看Jupyter笔记本教程-7:07 带有边车的具体研究

10. 回顾所有教程

更多的教程以Jupyter笔记本的形式提供。

管理员的基本情景

1. 移除所有工作节点

请注意,移除节点可能会移除活动的工作舱(Pod)。

这可能会导致数据丢失。


在Python/Jupyter中:

print(ScaleGroup.query())

# 检查活动的部署
# 以下命令将解除所有ScaleGroup的部署,然后移除所有工作节点
ScaleGroup.remove_all_nodes()

2. 移除某些工作节点

请注意,移除节点可能会移除活动的工作舱(Pod)。

这可能会导致数据丢失。

Scale并没有提供一个API来做这件事情。

管理员将需要直接缩减节点或移除节点分组。

AWS示例

相关命令:

$ eksctl get clusters
$ eksctl get nodegroup --cluster *** --name ***
$ eksctl scale nodegroup --cluster *** --name ***
$ eksctl delete nodegroup --cluster *** --name ***

Azure示例

列出Kubernetes集群。

az aks list -o table


例如:

Name       Location    ResourceGroup              KubernetesVersion    ProvisioningState    Fqdn
---------  ----------  ----------------------     -------------------  -------------------  ----------------------------------------
scale2020  eastus      scale-installer-scale2020  1.14.8               Succeeded            gen-unique-deb1efd7.hcp.eastus.azmk8s.io


列出Kubernetes集群中的节点池。

az aks nodepool list -g scale-installer-scale2020 --cluster-name scale2020 -o table


例如:

Name     OsType    KubernetesVersion    VmSize           Count    MaxPods    ProvisioningState
-------  --------  -------------------  ---------------  -------  ---------  -------------------
core     Linux     1.14.8               Standard_DS2_v2  6        110        Succeeded
cpu0     Linux     1.14.8               Standard_DS2_v2  13       110        Succeeded
hdfs     Linux     1.14.8               Standard_DS2_v2  5        110        Succeeded
logging  Linux     1.14.8               Standard_DS2_v2  6        110        Succeeded
system   Linux     1.14.8               Standard_DS2_v2  4        110        Succeeded


缩放Kubernetes集群中的节点池。

az aks nodepool scale -g scale-installer-scale2020 --cluster-name scale2020 --name cpu0 --node-count 10


删除Kubernetes集群中的节点池。

az aks nodepool delete -g scale-installer-scale2020 --cluster-name scale2020 --name cpu0

3. 获得kubectl访问权限

Kubectl提供了对集群的完全访问权限。这包括容器日志,以及登录特定容器的能力。


Kubectl访问权限非常大,可能会破坏Scale的安装,也可能会导致数据丢失。

请谨慎使用。


对于AWS来说,相关的命令是:

$ aws eks update-kubeconfig --name ***


对于Azure来说,相关的过程是安装az命令行工具。

在Ubuntu或Debian中,执行以下命令:

curl -sL https://aka.ms/InstallAzureCLIDeb | sudo bash

登录进你的Azure账号:

az login

列出Kubernetes集群:

az aks list -o table

例如:

Name       Location    ResourceGroup              KubernetesVersion    ProvisioningState    Fqdn
---------  ----------  ----------------------     -------------------  -------------------  -------------------------------------------
scale2020  eastus      scale-installer-scale2020  1.14.8               Succeeded            gen-unique-deb1efd7.hcp.eastus.azmk8s.io

最后,获取你的Kubernetes集群的访问凭证:

az aks get-credentials -g scale-installer-scale2020 -n scale2020

4. 访问Kubernetes仪表盘

对于AWS来说,请按照此处提供的说明进行操作。


对于Azure来说,执行以下命令:

az aks browse -g scale-installer-scale2020 -n scale2020

5. 初始化Gitea

Gitea是一个类似于GitHub的网络服务器,用于演示目的。

它在Jupyter教程的“01 Demo数据”中被提及。


在全新安装Scale之后,需要进行一次准备工作。

  1. 从管理仪表盘的用户组件页面导航至Gitea
  2. 点击登录(右上方)
  3. 保持默认值,除了:
  4. Gitea的基础URL –> https://gitea.<domain>.com/ <– 必须正确填写<domain>域名
  5. 展开“管理员账户设置”
  6. 管理员用户名 –> scale
  7. 密码 –> scale2020
  8. 确认密码 –> scale2020
  9. 邮箱地址 –>  scale@scale-hexagon.com
  10. 点击安装Gitea
  11. 等待几分钟,让服务器重新启动
  12. 确认你可以登录

6. 向Jupyter添加新用户

Jupyter连接至OpenID Connect。

新用户会被自动添加。

他们的home目录会自动填入以下内容:

  • 教程笔记本
  • 指向HDFS和存储目录(例如:Azure文件共享)的符号链接

1 Comment

  1. 还需要查找Jupyter笔记本教程,可能在VTD Scale集群中能够导出!

Write a comment...