智一面快讯:AIStation首次海外深度评测全记录

近日,海外权威产品测评机构STH评测体验了企业级人工智能开发平台AIStation,并给予高度评价。这是AIStation首次在海外市场进行深度产品体验。

体验文章从管理员和用户两个维度全面展示了AIStation。管理员维度动手体验了管理集群、创建用户、分配资源、资源监控等;用户维度动手体验了创建训练任务,启动并完成任务的完整过程。

STH认为“做好AI集群运营可能并不像发现一种解决深度学习问题的新方法那样振奋人心,但对于在组织内扩展共享资源至关重要。”

附STH评测体验AIStation全记录

在深入了解【用户系统】前,我们先对【管理员系统】进行了体验。基于Kubernetes容器引擎的AIStation,与许多传统的GPU/HPC/AI调度系统比较,不管是系统本身还是界面设计,都更具领先性。

01. 管理员视角

后台的管理:AIStation在后台开始运行后,大部分日常管理工作都可以使用脚本或通过Web GUI完成。管理员可以深入查看各个节点的负载、硬件配置,甚至可以追踪从用户到容器、硬件,再到单个GPU的整个流程。

AIStation管理/GPU监控&节点监控

AIStation管理/存储监控

资源组的创建:尽管我们的测试集群只有几个节点,但我们听说AIStation已经部署了数百个节点和上千个节点的集群。随着节点数量的增加,创建资源组变得更加重要。AIStation可以创建多个资源组,将其指定用于开发、训练或通用,也可以为该组设置一些更高级别的管理和预留权限。

AIStation管理员/新建资源组

用户及用户组的创建:除了创建资源组之外,创建用户和用户组可能更重要。AIStation可以创建用户或与现有的用户目录工具集成,然后为用户授予访问不同资源、存储配额、GPU配额等的权限。

比如,一家公司可能不会让一个实习生100%使用整个集群或访问敏感的训练数据/模型,而会把优先权给到深度学习专家组成的内部咨询小组。AIStation的主要价值主张是通过单个系统进行全面管理。

AIStation/Admin系统管理/用户管理

管理员的其他权限:管理员还可以根据权限访问整个集群。例如,遇到作业运行缓慢的问题,管理员可以使用监控工具查找他们的作业以及有问题的容器,甚至可以直接进入硬件查看是否有潜在的硬件问题。

AIStation开发平台/容器监控

AIStation还具有相当全面的可视化界面,用于监控集群,界面上可以看到CPU、GPU和内存的利用率等信息。在集群生命周期管理方面,这类数据可帮助管理员查看资源配置情况以及系统容量。

例如,如果集群以50%的CPU、60%的GPU、95%的内存运行,这就充分说明下一代节点需要更多的内存容量。

AIStation管理员/报告管理/资源数据

管理员用户还可以查看已完成的任务,以查看用户先前运行的内容,包括作业是否成功。在某些情况下,人们会在公司GPU集群上挖掘加密货币。此类功能可根据已运行的内容进行审核跟踪,这项功能非常重要。

AIStation管理员/训练管理/已完成任务

除了上述功能之外,另一个重要功能是管理用户在系统中拥有的资源。接下来,我们会从用户的角度进行详细阐述。

02. 用户视角

登录AIStation时可以看到这个界面。这里面许多使用限制是通过管理板块中显示的用户、组和资源组功能定义的。 每个用户都可以访问到一组资源。

AIStation用户界面

镜像查看:开发人员如果要开始训练任务,可以查看可训练的镜像。 这些镜像很重要,因为在系统中创建任务时,它们就是可能正在使用的镜像。它可以是来自NVIDIA GPU Cloud的镜像或更加标准的镜像。AIStation还具有组镜像甚至用户镜像的功能,让用户可以更轻松地选择容器镜像。

用户可以看到个人、组和公共镜像。管理员可以将镜像定义为个人镜像或公共镜像,将敏感镜像的查看权限仅开放给特定组或员工,这点也非常重要。

AIStation用户/镜像管理

框架选择与任务设置:浪潮AIStation支持多种框架,用户可以使用tensorflow、pytorch、paddlepaddle或其他框架。

注:开发用户通过界面化的方式选择所需要的镜像和资源配置,系统秒级完成资源配置,快速创建开发环境。平台内置juputer和webshll开发工具,保证用户快速进入模型开发。

数据管理:数据管理在AI集群中极为重要,AIStation能够定义和存储数据集。

从用户的角度来看,他们可以查看哪些数据集可供使用。用户能够将容器图像、节点/物理资源和训练数据相关联。而管理员可以对这些数据集设置权限。这一点很重要,因为有些数据集只有指定用户才能查阅、使用和下载。

在AIStation中还可以加载Jupyter笔记本,直接编辑python文件,并且可以将笔记本保存在集群的存储后台,并轻松与其他用户共享。

AIStation用户平台/开发平台/Jupyter

AIStation/训练任务设置

注:用户可以图形化的方式提交分布式训练任务,快速在K8S系统中展开分布式训练,并通过优化调度策略保证分布式训练资源快速准确分配。

可视化操作:启动任务后,AIStation平台将集成许多可视化工具。例如,您可以启动Tensorboard、Visdom或Netscope等工具,从下拉菜单中显示可视化效果;用户可以直接从Web GUI进入容器的终端。

训练作业可能要花数小时或数天,用户可随时查看当前作业状态进度、检查结果以及待处理的作业及其历史。

AIStation用户开发平台可视化Tensorboard

 1
 0
 分享
评论图片
评论