From b13305591543f379a35a744a0bc0a487c50ac3da Mon Sep 17 00:00:00 2001 From: m-yamanashi Date: Thu, 28 Nov 2024 10:36:16 +0900 Subject: [PATCH 1/3] Make corrections for the 3rd division --- v3/en/docs/system-overview.md | 17 ++++++++--------- v3/ja/docs/system-overview.md | 17 ++++++++--------- 2 files changed, 16 insertions(+), 18 deletions(-) diff --git a/v3/en/docs/system-overview.md b/v3/en/docs/system-overview.md index b53e1847..b230fb03 100644 --- a/v3/en/docs/system-overview.md +++ b/v3/en/docs/system-overview.md @@ -2,7 +2,7 @@ ## System Architecture -The ABCI system consists of 766 compute nodes with 6,128 NVIDIA H200 GPU accelerators and other computing resources, shared file systems with total capacity of approximately 74 PB, InfiniBand network that connects these elements at high speed, firewall, and so on. It also includes software to make the best use of these hardware. And, the ABCI system uses SINET6, the Science Information NETwork, to connect to the Internet at 100 Gbps. +The ABCI system consists of 766 compute nodes with 6,128 NVIDIA H200 GPU accelerators and other computing resources, 75PB of physical storage, InfiniBand network that connects these elements at high speed, firewall, and so on. It also includes software to make the best use of these hardware. And, the ABCI system uses SINET6, the Science Information NETwork, to connect to the Internet at 100 Gbps. ## Computing Resources @@ -19,8 +19,8 @@ Below is a list of the computational resources of the ABCI system. !!! note Due to operational and maintenance reasons, some computing resources may not be provided. -Among them, each interactive node and compute node are equipped with InfiniBand HDR and are connected to Storage Systems described later by InfiniBand switch group. -Also, each compute node is equipped with 8 port of InfiniBand NDR and the compute nodes are connected by InfiniBand switch. +Among them, each interactive node and compute node are equipped with InfiniBand HDR (200 Gbps) and are connected to Storage Systems described later by InfiniBand switch group. +Also, each compute node is equipped with 8 port of InfiniBand NDR (200 Gbps) and the compute nodes are connected by InfiniBand switch. Below are the details of these nodes. @@ -34,12 +34,11 @@ The specifications of the interactive node are shown below: | Item| Description | # | |:--|:--|:--| | CPU | Intel Xeon Platinum 8468 Processor 2.1 GHz, 48 Cores | 2 | -| Memory | 68 GB DDR5-4800 | 16 | +| Memory | 64 GB DDR5-4800 | 16 | | SSD | SAS SSD 960 GB | 2 | | SSD | NVMe SSD 3.2 TB | 4 | | Interconnect | InfiniBand HDR (200 Gbps) | 2 | | | 10GBASE-SR | 1 | -| | 1GBASE-SR | 1 | Users can login to the interactive node, the frontend of the ABCI system, using SSH tunneling via the access server. @@ -66,7 +65,7 @@ The specifications of the compute node are shown below: |:--|:--|:--| | CPU | Intel Xeon Platinum 8558 2.1GHz, 48cores | 2 | | GPU | NVIDIA H200 SXM 141GB | 8 | -| Memory | 68 GB DDR5-5600 4400 MHz | 32 | +| Memory | 4 GB DDR5-5600 4400 MHz | 32 | | SSD | NVMe SSD 7.68 TB | 2 | | Interconnect | InfiniBand NDR (200 Gbps) | 8 | | | InfiniBand HDR (200 Gbps) | 1 | @@ -75,7 +74,7 @@ The specifications of the compute node are shown below: ## Storage Systems -The ABCI system has three storage systems for storing large amounts of data used for AI and Big Data applications, and these are used to provide shared file systems. The total effective capacity is up to approximately 74 PB. +The ABCI system has three storage systems for storing large amounts of data used for AI and Big Data applications, and these are used to provide shared file systems. Combined, /home, /groups, and /groups_s3 have an effective capacity of approximately 74 PB. | # | Storage System | Media | Usage | |:--|:--|:--|:--| @@ -85,7 +84,7 @@ The ABCI system has three storage systems for storing large amounts of data used Below is a list of shared file systems provided by the ABCI system using the above storage systems. -| Usage | Mount point | Capacity | File system | Notes | +| Usage | Mount point | Effective capacity | File system | Notes | |:--|:--|:--|:--|:--| | Home area | /home | 10 PB | Lustre | | | Group area | /groups | 63 PB | Lustre | | @@ -125,7 +124,7 @@ The software available on the ABCI system is shown below. Details on the version | File System | DDN Lustre | | | | | BeeOND | | | | Object Storage | DDN S3 API | | | -| Container | Singularity-CE | | | +| Container | SingularityCE | | | | MPI | Intel MPI | | | | Library | cuDNN | | | | | NCCL | | | diff --git a/v3/ja/docs/system-overview.md b/v3/ja/docs/system-overview.md index 556af10e..e70225fc 100644 --- a/v3/ja/docs/system-overview.md +++ b/v3/ja/docs/system-overview.md @@ -2,7 +2,7 @@ ## システム全体概要 {#system-architecture} -ABCIシステムは、合計6,128基のNVIDIA H200 GPUアクセラレーターを備えた766台の計算ノードを始めとする計算リソース、合算で約74PBの容量を有する共有ファイルシステム、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、ABCIシステムは学術情報ネットワークSINET6を利用して、100 Gbpsでインターネットに接続しています。 +ABCIシステムは、合計6,128基のNVIDIA H200 GPUアクセラレーターを備えた766台の計算ノードを始めとする計算リソース、物理容量75PBのストレージ、これらを高速に結合するInfiniBandネットワーク、ファイアウォールなどからなるハードウェアと、これらを最大限活用するためのソフトウェアから構成されます。また、ABCIシステムは学術情報ネットワークSINET6を利用して、100 Gbpsでインターネットに接続しています。 ## 計算リソース {#computing-resources} @@ -19,8 +19,8 @@ ABCIシステムの計算リソースの一覧を以下に示します。 !!! note 運用・保守上の合理的理由により、計算リソースの一部が提供されない場合があります。 -このうち、インタラクティブノードと計算ノードは、それぞれInfiniBand HDRを備えており、後述のストレージシステムにInfiniBandスイッチを介して接続されます。 -また、計算ノードは追加でInfiniBand NDRを8ポート備えており、計算ノード間がInfiniBandスイッチにより接続されます。 +このうち、インタラクティブノードと計算ノードは、それぞれInfiniBand HDR (200 Gbps)を備えており、後述のストレージシステムにInfiniBandスイッチを介して接続されます。 +また、計算ノードは追加でInfiniBand NDR (200 Gbps)を8ポート備えており、計算ノード間がInfiniBandスイッチにより接続されます。 以下ではこれらのノードの詳細を示します。 @@ -34,12 +34,11 @@ Intel Xeon Platinum 8468プロセッサーを2基搭載し、約1100 GBのメイ | 項目 | 説明 | 個数 | |:--|:--|:--| | CPU | Intel Xeon Platinum 8468 Processor 2.1 GHz, 48 Cores | 2 | -| Memory | 68 GB DDR5-4800 | 16 | +| Memory | 64 GB DDR5-4800 | 16 | | SSD | SAS SSD 960 GB | 2 | | SSD | NVMe SSD 3.2 TB | 4 | | Interconnect | InfiniBand HDR (200 Gbps) | 2 | | | 10GBASE-SR | 1 | -| | 1GBASE-SR | 1 | ABCIシステムのフロントエンドであるインタラクティブノードには、アクセスサーバを経由したSSHトンネリングを用いてログインします。インタラクティブノードではコマンドの対話的実行が可能であり、プログラムの作成・編集、ジョブ投入・表示などを行います。インタラクティブノードにはGPUが搭載されていませんが、インタラクティブノードで計算ノード向けのプログラム開発も可能です。 @@ -64,7 +63,7 @@ ABCIシステムのフロントエンドであるインタラクティブノー |:--|:--|:--| | CPU | Intel Xeon Platinum 8558 2.1GHz, 48cores | 2 | | GPU | NVIDIA H200 SXM 141GB | 8 | -| Memory | 68 GB DDR5-5600 4400 MHz | 32 | +| Memory | 64 GB DDR5-5600 4400 MHz | 32 | | SSD | NVMe SSD 7.68 TB | 2 | | Interconnect | InfiniBand NDR (200 Gbps) | 8 | | | InfiniBand HDR (200 Gbps) | 1 | @@ -73,7 +72,7 @@ ABCIシステムのフロントエンドであるインタラクティブノー ## ストレージシステム {#storage-systems} -ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを3基備えており、これらを用いて共有ファイルシステムを提供しています。合算で最大約74 PBの実効容量があります。 +ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを3基備えており、これらを用いて共有ファイルシステムを提供しています。下記の/home, /groups, /groups_s3の合算で約74 PBの実効容量があります。 | 構成 | ストレージシステム | メディア | 用途 | |:--|:--|:--|:--| @@ -83,7 +82,7 @@ ABCIシステムは、人工知能やビッグデータ応用に用いる大容 上記のストレージシステムを用いて、ABCIシステムが提供している共有ファイルシステムの一覧を以下に示します。 -| 用途 | マウントポイント | 容量 | ファイルシステム | 備考 | +| 用途 | マウントポイント | 実行容量 | ファイルシステム | 備考 | |:--|:--|:--|:--|:--| | ホーム領域 | /home | 10 PB | Lustre | | | グループ領域 | /groups | 63 PB | Lustre | | @@ -123,7 +122,7 @@ ABCIシステムで利用可能なソフトウェア一覧を以下に示しま | File System | DDN Lustre | | | | | BeeOND | | | | Object Storage | DDN S3 API | | | -| Container | Singularity-CE | | | +| Container | SingularityCE | | | | MPI | Intel MPI | | | | Library | cuDNN | | | | | NCCL | | | From 8e4e8c8bc98c5534ac5026e50f3f08bd7550c626 Mon Sep 17 00:00:00 2001 From: m-yamanashi Date: Thu, 28 Nov 2024 13:35:28 +0900 Subject: [PATCH 2/3] Interactive Node name change --- v3/en/docs/getting-started.md | 14 +++++++------- v3/en/docs/job-execution.md | 28 ++++++++++++++-------------- v3/en/docs/system-overview.md | 2 +- v3/ja/docs/getting-started.md | 12 ++++++------ v3/ja/docs/job-execution.md | 28 ++++++++++++++-------------- v3/ja/docs/system-overview.md | 2 +- 6 files changed, 43 insertions(+), 43 deletions(-) diff --git a/v3/en/docs/getting-started.md b/v3/en/docs/getting-started.md index 51ffc3ef..ed8c326b 100644 --- a/v3/en/docs/getting-started.md +++ b/v3/en/docs/getting-started.md @@ -2,10 +2,10 @@ ## Connecting to Interactive Node -To connect to the interactive node (*int*), the ABCI frontend, two-step SSH public key authentication is required. +To connect to the interactive node (*login*), the ABCI frontend, two-step SSH public key authentication is required. -1. Login to the access server (*as.v3.abci.ai*) with SSH public key authentication, so as to create an *SSH tunnel* between your computer and *int*. -2. Login to the interactive node (*int*) with SSH public key authentication via the SSH tunnel. +1. Login to the access server (*as.v3.abci.ai*) with SSH public key authentication, so as to create an *SSH tunnel* between your computer and *login*. +2. Login to the interactive node (*login*) with SSH public key authentication via the SSH tunnel. In this document, ABCI server names are written in *italics*. @@ -33,7 +33,7 @@ In this section, we will describe two methods to login to the interactive node u Login to the access server (*as.v3.abci.ai*) with following command: ``` -[yourpc ~]$ ssh -i /path/identity_file -L 10022:int:22 -l username as.v3.abci.ai +[yourpc ~]$ ssh -i /path/identity_file -L 10022:login:22 -l username as.v3.abci.ai The authenticity of host 'as.v3.abci.ai (0.0.0.1)' can't be established. RSA key fingerprint is XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX. <- Display only at the first login Are you sure you want to continue connecting (yes/no)? <- Enter "yes" @@ -61,7 +61,7 @@ RSA key fingerprint is XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX. <- Displ Are you sure you want to continue connecting (yes/no)? <- Enter "yes" Warning: Permanently added 'localhost' (RSA) to the list of known hosts. Enter passphrase for key '/path/identity_file': <- Enter passphrase -[username@int1 ~]$ +[username@login1 ~]$ ``` #### ProxyJump @@ -72,7 +72,7 @@ First, add the following configuration to your ``$HOME/.ssh/config``: ``` Host abci - HostName int + HostName login User username ProxyJump %r@as.v3.abci.ai IdentityFile /path/to/identity_file @@ -92,7 +92,7 @@ ProxyJump does not work with OpenSSH_for_Windows_7.7p1 which is bundled with Win ``` Host abci - HostName int + HostName login User username ProxyCommand C:\WINDOWS\System32\OpenSSH\ssh.exe -W %h:%p %r@as.v3.abci.ai IdentityFile C:\path\to\identity_file diff --git a/v3/en/docs/job-execution.md b/v3/en/docs/job-execution.md index 03679528..56cd2e17 100644 --- a/v3/en/docs/job-execution.md +++ b/v3/en/docs/job-execution.md @@ -127,7 +127,7 @@ $ qsub -I -P group -q resource_type -l select=num [options] Example) Executing an interactive job (On-demand service) ``` -[username@int1 ~]$ qsub -I -P grpname -q rt_HF -l select=1 +[username@login1 ~]$ qsub -I -P grpname -q rt_HF -l select=1 [username@hnode001 ~]$ ``` @@ -180,7 +180,7 @@ $ qsub job_script Example) Submission job script run.sh as a batch job (Spot service) ``` -[username@int1 ~]$ qsub run.sh +[username@login1 ~]$ qsub run.sh 1234.pbs1 ``` @@ -210,7 +210,7 @@ The major options of the `qstat` command are follows. Example) ``` -[username@int1 ~]$ qstat +[username@login1 ~]$ qstat Job id Name User Time Use S Queue --------------------- ---------------- ---------------- -------- - ----- 12345.pbs1 run.sh username 00:01:23 R rt_HF @@ -236,12 +236,12 @@ $ qdel job_ID Example) Delete a batch job ``` -[username@int1 ~]$ qstat +[username@login1 ~]$ qstat Job id Name User Time Use S Queue --------------------- ---------------- ---------------- -------- - ----- 12345.pbs1 run.sh username 00:01:23 R rt_HF -[username@int1 ~]$ qdel 12345.pbs1 -[username@int1 ~]$ +[username@login1 ~]$ qdel 12345.pbs1 +[username@login1 ~]$ ``` @@ -296,7 +296,7 @@ $ qrsub options Example) Make a reservation 4 compute nodes from 2024/07/05 to 1 week (7 days) ``` -[username@int1 ~]$ qrsub -a 20240705 -d 7 -P grpname -n 4 -N "Reserve_for_AI" +[username@login1 ~]$ qrsub -a 20240705 -d 7 -P grpname -n 4 -N "Reserve_for_AI" Your advance reservation 12345 has been granted ``` @@ -318,7 +318,7 @@ To show the current status of reservations, use the `qrstat` command. Example) ``` -[username@int1 ~]$ qrstat +[username@login1 ~]$ qrstat ar-id name owner state start at end at duration sr ---------------------------------------------------------------------------------------------------- 12345 Reserve_fo root w 07/05/2024 10:00:00 07/12/2024 09:30:00 167:30:00 false @@ -339,7 +339,7 @@ If you want to show the number of nodes that can be reserved, use`qrstat` comman Checking the Number of Reservable Nodes for Compute Nodes ``` -[username@int1 ~]$ qrstat --available +[username@login1 ~]$ qrstat --available 06/27/2024 441 07/05/2024 432 07/06/2024 434 @@ -359,7 +359,7 @@ To cancel a reservation, use the `qrdel` command. When canceling reservation wit Example) Cancel a reservation ``` -[username@int1 ~]$ qrdel 12345,12346 +[username@login1 ~]$ qrdel 12345,12346 ``` ### How to use reserved node @@ -369,14 +369,14 @@ To run a job using reserved compute nodes, specify reservation ID with the `-ar` Example) Execute an interactive job on compute node reserved with reservation ID `12345`. ``` -[username@int1 ~]$ qrsh -g grpname -ar 12345 -l rt_HF=1 -l h_rt=1:00:00 +[username@login1 ~]$ qrsh -g grpname -ar 12345 -l rt_HF=1 -l h_rt=1:00:00 [username@hnode001 ~]$ ``` Example) Submit a batch job on compute node reserved with reservation ID `12345`. ``` -[username@int1 ~]$ qsub -P grpname -ar 12345 run.sh +[username@login1 ~]$ qsub -P grpname -ar 12345 run.sh Your job 12345 ("run.sh") has been submitted ``` @@ -403,9 +403,9 @@ Advance Reservation does not guarantee the health of the compute node for the du Example) hnode001 is available, hnode002 is unavailable ``` -[username@int1 ~]$ qrsub -a 20240705 -d 7 -P grpname -n 2 -N "Reserve_for_AI" +[username@login1 ~]$ qrsub -a 20240705 -d 7 -P grpname -n 2 -N "Reserve_for_AI" Your advance reservation 12345 has been granted -[username@int1 ~]$ qrstat -ar 12345 +[username@login1 ~]$ qrstat -ar 12345 (snip) message reserved queue gpu@hnode002 is disabled message reserved queue gpu@hnode002 is unknown diff --git a/v3/en/docs/system-overview.md b/v3/en/docs/system-overview.md index b230fb03..2979794b 100644 --- a/v3/en/docs/system-overview.md +++ b/v3/en/docs/system-overview.md @@ -11,7 +11,7 @@ Below is a list of the computational resources of the ABCI system. | Node Type | Hostname | Description | # | |:--|:--|:--|:--| | Access Server | *as.v3.abci.ai* | SSH server for external access | 2 | -| Interactive Node | *int* | Login server, the frontend of the ABCI system | 5 | +| Interactive Node | *login* | Login server, the frontend of the ABCI system | 5 | | Compute Node | *hnode001*-*hnode108*[^1] | Server w/ NVIDIA H200 GPU accelerators | 108 | [^1]: 766 compute nodes will become available around January 2025. diff --git a/v3/ja/docs/getting-started.md b/v3/ja/docs/getting-started.md index ab221371..28556fb7 100644 --- a/v3/ja/docs/getting-started.md +++ b/v3/ja/docs/getting-started.md @@ -2,10 +2,10 @@ ## インタラクティブノードへの接続 {#connecting-to-interactive-node} -ABCIシステムのフロントエンドであるインタラクティブノード(ホスト名: *int*)に接続するには、二段階のSSH公開鍵認証による接続を行います。 +ABCIシステムのフロントエンドであるインタラクティブノード(ホスト名: *login*)に接続するには、二段階のSSH公開鍵認証による接続を行います。 1. SSH公開鍵認証を用いてアクセスサーバ(ホスト名: *as.v3.abci.ai*)にログインして、ローカルPCとインタラクティブノードの間にSSHポートフォワーディングによるトンネリング(以下「SSHトンネル」という)を作成 -2. SSHトンネルを介して、SSH公開鍵認証を用いてインタラクティブノード(*int*)にログイン +2. SSHトンネルを介して、SSH公開鍵認証を用いてインタラクティブノード(*login*)にログイン なお本章では、ABCIのサーバ名は *イタリック* で表記します。 @@ -33,7 +33,7 @@ ABCIシステムのフロントエンドであるインタラクティブノー 以下のコマンドでアクセスサーバ(*as.v3.abci.ai*)にログインし、SSHトンネルを作成します。 ``` -[yourpc ~]$ ssh -i /path/identity_file -L 10022:int:22 -l username as.v3.abci.ai +[yourpc ~]$ ssh -i /path/identity_file -L 10022:login:22 -l username as.v3.abci.ai The authenticity of host 'as.v3.abci.ai (0.0.0.1)' can't be established. RSA key fingerprint is XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX. <- 初回ログイン時のみ表示 Are you sure you want to continue connecting (yes/no)? <- yesを入力 @@ -61,7 +61,7 @@ RSA key fingerprint is XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX:XX. <- 初 Are you sure you want to continue connecting (yes/no)? <- yesを入力 Warning: Permanently added 'localhost' (RSA) to the list of known hosts. Enter passphrase for key '-i /path/identity_file': <- パスフレーズ入力 -[username@int1 ~]$ +[username@login1 ~]$ ``` #### ProxyJumpの使用 {#proxyjump} @@ -72,7 +72,7 @@ Enter passphrase for key '-i /path/identity_file': <- パスフレーズ入力 ``` Host abci - HostName int + HostName login User username ProxyJump %r@as.v3.abci.ai IdentityFile /path/to/identity_file @@ -92,7 +92,7 @@ Windows 10 バージョン 1803 以降に標準でバンドルされている Op ``` Host abci - HostName int + HostName login User username ProxyCommand C:\WINDOWS\System32\OpenSSH\ssh.exe -W %h:%p %r@as.v3.abci.ai IdentityFile C:\path\to\identity_file diff --git a/v3/ja/docs/job-execution.md b/v3/ja/docs/job-execution.md index c39c9ee1..b7e6126a 100644 --- a/v3/ja/docs/job-execution.md +++ b/v3/ja/docs/job-execution.md @@ -128,7 +128,7 @@ $ qsub -I -P group -q resource_type -l select=num [options] 例) インタラクティブジョブを実行 (On-demandサービス) ``` -[username@int1 ~]$ qsub -I -P grpname -q rt_HF -l select=1 +[username@login1 ~]$ qsub -I -P grpname -q rt_HF -l select=1 [username@hnode001 ~]$ ``` @@ -182,7 +182,7 @@ $ qsub script_name 例) ジョブスクリプトrun.shをバッチジョブとして投入 (Spotサービス) ``` -[username@int1 ~]$ qsub run.sh +[username@login1 ~]$ qsub run.sh 1234.pbs1 ``` @@ -212,7 +212,7 @@ $ qstat [options] 例) ``` -[username@int1 ~]$ qstat +[username@login1 ~]$ qstat Job id Name User Time Use S Queue --------------------- ---------------- ---------------- -------- - ----- 12345.pbs1 run.sh username 00:01:23 R rt_HF @@ -239,12 +239,12 @@ $ qdel job_id 例) バッチジョブを削除 ``` -[username@int1 ~]$ qstat +[username@login1 ~]$ qstat Job id Name User Time Use S Queue --------------------- ---------------- ---------------- -------- - ----- 12345.pbs1 run.sh username 00:01:23 R rt_HF -[username@int1 ~]$ qdel 12345.pbs1 -[username@int1 ~]$ +[username@login1 ~]$ qdel 12345.pbs1 +[username@login1 ~]$ ``` @@ -304,7 +304,7 @@ $ qrsub options 例) 2024年7月5日から1週間 (7日間) 計算ノード4台を予約 ``` -[username@int1 ~]$ qrsub -a 20240705 -d 7 -P grpname -n 4 -N "Reserve_for_AI" +[username@login1 ~]$ qrsub -a 20240705 -d 7 -P grpname -n 4 -N "Reserve_for_AI" Your advance reservation 12345 has been granted ``` @@ -326,7 +326,7 @@ Your advance reservation 12345 has been granted 例) ``` -[username@int1 ~]$ qrstat +[username@login1 ~]$ qrstat ar-id name owner state start at end at duration sr ---------------------------------------------------------------------------------------------------- 12345 Reserve_fo root w 07/05/2024 10:00:00 07/12/2024 09:30:00 167:30:00 false @@ -347,7 +347,7 @@ ar-id name owner state start at end at 計算ノードの予約可能ノード数の確認 ``` -[username@int1 ~]$ qrstat --available +[username@login1 ~]$ qrstat --available 06/27/2024 441 07/05/2024 432 07/06/2024 434 @@ -367,7 +367,7 @@ ar-id name owner state start at end at 例) 予約を取り消し ``` -[username@int1 ~]$ qrdel 12345,12346 +[username@login1 ~]$ qrdel 12345,12346 ``` ### 予約ノードの使い方 {#how-to-use-reserved-node} @@ -377,14 +377,14 @@ ar-id name owner state start at end at 例) 予約ID`12345`で予約された計算ノードでインタラクティブジョブを実行 ``` -[username@int1 ~]$ qrsh -g grpname -ar 12345 -l rt_HF=1 -l h_rt=1:00:00 +[username@login1 ~]$ qrsh -g grpname -ar 12345 -l rt_HF=1 -l h_rt=1:00:00 [username@hnode001 ~]$ ``` 例) ジョブスクリプトrun.shを予約ID`12345`で予約された計算ノードにバッチジョブとして投入 ``` -[username@int1 ~]$ qsub -P grpname -ar 12345 run.sh +[username@login1 ~]$ qsub -P grpname -ar 12345 run.sh Your job 12345 ("run.sh") has been submitted ``` @@ -411,9 +411,9 @@ Your job 12345 ("run.sh") has been submitted 例) hnode001は利用可能、hnode002は利用不可 ``` -[username@int1 ~]$ qrsub -a 20240705 -d 7 -P grpname -n 2 -N "Reserve_for_AI" +[username@login1 ~]$ qrsub -a 20240705 -d 7 -P grpname -n 2 -N "Reserve_for_AI" Your advance reservation 12345 has been granted -[username@int1 ~]$ qrstat -ar 12345 +[username@login1 ~]$ qrstat -ar 12345 (snip) message reserved queue gpu@hnode002 is disabled message reserved queue gpu@hnode002 is unknown diff --git a/v3/ja/docs/system-overview.md b/v3/ja/docs/system-overview.md index e70225fc..664bd467 100644 --- a/v3/ja/docs/system-overview.md +++ b/v3/ja/docs/system-overview.md @@ -11,7 +11,7 @@ ABCIシステムの計算リソースの一覧を以下に示します。 | 項目 | ホスト名 | 説明 | ノード数 | |:--|:--|:--|:--| | アクセスサーバ | *as.v3.abci.ai* | 外部からアクセスするためのSSHサーバ | 2 | -| インタラクティブノード | *int* | ABCIシステムのフロントエンドとなるログインサーバ | 5 | +| インタラクティブノード | *login* | ABCIシステムのフロントエンドとなるログインサーバ | 5 | | 計算ノード | *hnode001*-*hnode108*[^1] | NVIDIA H200 GPUを搭載するサーバ | 108 | [^1]: 2025年1月頃に766台の計算ノードが利用可能となります。 From 027d04e15057ed41c146724ab8e040687bfbfa02 Mon Sep 17 00:00:00 2001 From: m-yamanashi Date: Fri, 29 Nov 2024 16:52:21 +0900 Subject: [PATCH 3/3] Make corrections based on the improvement requests --- v3/en/docs/system-overview.md | 4 ++-- v3/ja/docs/system-overview.md | 4 ++-- 2 files changed, 4 insertions(+), 4 deletions(-) diff --git a/v3/en/docs/system-overview.md b/v3/en/docs/system-overview.md index daef05f5..4eea4a6a 100644 --- a/v3/en/docs/system-overview.md +++ b/v3/en/docs/system-overview.md @@ -27,7 +27,7 @@ Below are the details of these nodes. ### Interactive Node The interactive node of ABCI system consists of HPE ProLiant DL380 Gen11. -The interactive node is equipped with two Intel Xeon Platinum 8468 Processors and approximately 1100 GB of main memory available. +The interactive node is equipped with two Intel Xeon Platinum 8468 Processors and approximately 1024 GB of main memory available. The specifications of the interactive node are shown below: @@ -65,7 +65,7 @@ The specifications of the compute node (H) are shown below: |:--|:--|:--| | CPU | Intel Xeon Platinum 8558 2.1GHz, 48cores | 2 | | GPU | NVIDIA H200 SXM 141GB | 8 | -| Memory | 4 GB DDR5-5600 4400 MHz | 32 | +| Memory | 64 GB DDR5-5600 4400 MHz | 32 | | SSD | NVMe SSD 7.68 TB | 2 | | Interconnect | InfiniBand NDR (200 Gbps) | 8 | | | InfiniBand HDR (200 Gbps) | 1 | diff --git a/v3/ja/docs/system-overview.md b/v3/ja/docs/system-overview.md index f84c1fae..d246e6af 100644 --- a/v3/ja/docs/system-overview.md +++ b/v3/ja/docs/system-overview.md @@ -27,7 +27,7 @@ ABCIシステムの計算リソースの一覧を以下に示します。 ### インタラクティブノード {#interactive-node} ABCIシステムのインタラクティブノードは、HPE ProLiant DL380 Gen11で構成されています。 -Intel Xeon Platinum 8468プロセッサーを2基搭載し、約1100 GBのメインメモリが利用可能です。 +Intel Xeon Platinum 8468プロセッサーを2基搭載し、約1024 GBのメインメモリが利用可能です。 インタラクティブノードの構成を以下に示します。 @@ -72,7 +72,7 @@ ABCIシステムのフロントエンドであるインタラクティブノー ## ストレージシステム {#storage-systems} -ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを3基備えており、これらを用いて共有ファイルシステムを提供しています。下記の/home, /groups, /groups_s3の合算で約74 PBの実効容量があります。 +ABCIシステムは、人工知能やビッグデータ応用に用いる大容量データを格納するためのストレージシステムを3基備えており、これらを用いて共有ファイルシステムを提供しています。下記の/home、 /groups、 /groups_s3の合算で約74 PBの実効容量があります。 | 構成 | ストレージシステム | メディア | 用途 | |:--|:--|:--|:--|