[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
#menu(LABO/MenuBar)
* LABO/RockyOHPC [#a02dfd8c]
#contents
** 一行メモ [#kbe38b35]
- https://docs.redhat.com/ja/documentation/red_hat_enterp...
- anacondaによるpython仮想環境の利用 -- &new{2024-10-22 ...
hydrangea$ source /opt/apps/anaconda3.bash_conda #py370
hydrangea$ source /opt/apps/anaconda3.bash_conda; conda ...
- ohpcパッケージの展開後のファイルに、gangliaの設定ファイ...
- 現在、ファイヤーウォールで最小限に閉じている。開けると...
-- sudo firewall-cmd --add-port=8801/tcp --zone=external...
#comment
//-------------------------------------------------------...
** 用語・備忘録 [#n27489ff]
用語:
BOS base operating system, OSのこと
SMS system management server, 管理サーバー(計算ノー...
VNFS virtual node file system, 物理的な計算ノードをS...
MBC baseboard management controller, サーバー用マザ...
IPMI Intelligent Platform Management Interface, MBC...
フロントエンド 計算ノードにバッチ処理をさせるための...
以下ではフロントエンドでもバッチ処理...
Nouveau(ヌーヴォー): LinuxカーネルのオープンソースN...
[cf] https://slurm.schedmd.com/configurator.html slurm.co...
でない。何かの参考になる?)
フロントエンド Rocky Linux release 9.3 と 計算ノード rele...
ライブラリなどとして ohpcパッケージを使っている場合、フロ...
動くものそのまま計算ノード動くだろう。ohpc以外を使ってい...
食い違ってエラーが起こる可能性がある。
** NICのWOL確認 [#r950c56a]
(これはhydrangea)
$ sudo pdsh -w c101,c102,hydrangea "ethtool enp4s0 | gre...
$ sudo ethtool enpo1 | grep Wake
** clush [#x4c87f45]
$ clush -g compute -L 'hostname; uptime' #計算ノードのみ
$ clush -g all -L 'hostname; uptime' #フロントエン...
$ pdsh -w 'c10[1,2],hydrangea ' 'hostname; uptime'
** wwsh [#ca08708c]
$ sudo wwsh #wwshプロンプトで作業する場合
Warewulf> file list
Warewulf> node help
Warewulf> pxe help
Warewulf> quit
wwsh provisionのオプションも、複数に分けて設定実行できる。
** module [#n4e1f82c]
module avail #利用可能なモジュールを表示(ロード状態...
module overview #モジュール名と数(ver違い)だけ表示
module show gnu13 #モジュールのロードで、どのように環...
module list #読み込んでいるモジュール
module load gnu13 #モジュールのロード
module unload gnu13 #読み込んだモジュールの破棄
module purge #読み込んだすべてのモジュールの破棄
** slurmの使い方 [#ve2b05af]
パーティション・ノード数など表示
$ sinfo -s
$ sinfo -al
他のオプション
--help や --usage
-V バージョン
-a 全てのパーティション
-l もっと情報表示
ノードをshutdownしてもupのまま(STATEを見よ)。
/etc/slurm/slurm.conf の SlurmdTimeout=300 により、shutd...
5分後に down* になるようだ。*付きは何かの特別な状態を表...
ノードを立ち上げると downになる。(down*のときに、フロン...
自動的には簡単に idelにはならない?ので明示的に指定する...
$ sudo scontrol update NodeName=c10[1-2] state=RESUME
[ref] https://lists.openhpc.community/g/users/topic/srun...
slurm.confで State=UNKNOWN にしているからか?
$ sudo scontrol update NodeName=c10[1-2],hydrangea state...
$ sinfo -R #ダウン等にあるノードを表示、理由も表示
$ scontrol show partition [パーティション名] #...
$ scontrol show nodes [ノード名(計算ノードホスト名)] #...
サブミットする
$ sbatch [-p キュー(パーティション)] [-N ノード数] [-n ...
ジョブスクリプト
他のオプション
--help や --usage
-w ノードリスト, e.g. sbatch -p na -w 'c10[1-2]' ...
-J JOBNAME ジョブ名指定(デフォルトはスクリプト名)
Gresプラグインが追加されていると、GPUリソースのス...
-Nのノード数は指定しなくても自動的に決められるよう...
例) sbatch -p na --nodelist=c101 jobscript.sh #これ...
sbatch --nodelist=c101 jobscript.sh #c101...
sbatch -d afterany:25 run-H2m.inp #ジョブID 25...
$ squeue #キューの状態表示
$ alias si="squeue; sinfo -s; sinfo -al"
$ scancel JOBID #キャンセル
$ salloc #対話ジョブ(mpirunなども可)
次はsbatch,salloc内で使用可、sbatch,sallocでリソース...
mpirun PROGRAM
prun PROGRAM #主にMPI用、mpirunよりもこちらを推奨...
srun PROGRAM #ネイティブコマンドらしい(さらに高機...
[ref]~
https://www.hpc.co.jp/support/wp-content/uploads/sites/9/...
https://qiita.com/daikumatan/items/fa6e2069adf828b3428c~
https://slurm.schedmd.com/sstat.html~
/var/log/messagesに appears to have a different slurm.co...
slurm.confの不一致のため。
$ sudo systemctl restart slurmctld
$ sudo pdsh -w 'c10[1,2],hydrangea "systemctl restart s...
で直る。scontrol update NodeName=c10[1-2],note200 state=...
→これでOKのようだ。
または、
$ sudo scontrol reconfigure #本来必要なものではない(デ...
でもよいらしい。
https://slurm-dev.schedmd.narkive.com/tcGB0g5P/error-nod...
slurm.confの変更を反映させるのは、これでよさげ。
$ sudo systemctl restart slurmctld
$ sudo pdsh -w 'c10[1,2],hydrangea "systemctl restart s...
$ sudo scontrol show config
GroupUpdateTime = 600 sec
HealthCheckInterval = 300 sec
JobAcctGatherFrequency = 30
など情報表示
$ sudo scontrol show node
$ sudo scontrol show partition
*** sinfoとsqueueのオプション [#c7a5389b]
このへんが便利か。
$ sinfo -o "%.9P %5a %13C %.5D %10N %.9T |%38E"; squeu...
PARTITION AVAIL CPUS(A/I/O/T) NODES NODELIST STA...
compute.p up 0/10/0/10 2 c[101-102] id...
all.p up 8/0/0/8 1 hydrangea allocat...
all.p up 0/10/0/10 2 c[101-102] id...
JOBID PARTITION NAME ST TIME N...
63 all.p ppZn_Hoptvpaog128c.inp R 15:47:24 ...
61 all.p ppZn_Hoptvpaog128a.inp R 1-00:06:17 ...
終了行:
#menu(LABO/MenuBar)
* LABO/RockyOHPC [#a02dfd8c]
#contents
** 一行メモ [#kbe38b35]
- https://docs.redhat.com/ja/documentation/red_hat_enterp...
- anacondaによるpython仮想環境の利用 -- &new{2024-10-22 ...
hydrangea$ source /opt/apps/anaconda3.bash_conda #py370
hydrangea$ source /opt/apps/anaconda3.bash_conda; conda ...
- ohpcパッケージの展開後のファイルに、gangliaの設定ファイ...
- 現在、ファイヤーウォールで最小限に閉じている。開けると...
-- sudo firewall-cmd --add-port=8801/tcp --zone=external...
#comment
//-------------------------------------------------------...
** 用語・備忘録 [#n27489ff]
用語:
BOS base operating system, OSのこと
SMS system management server, 管理サーバー(計算ノー...
VNFS virtual node file system, 物理的な計算ノードをS...
MBC baseboard management controller, サーバー用マザ...
IPMI Intelligent Platform Management Interface, MBC...
フロントエンド 計算ノードにバッチ処理をさせるための...
以下ではフロントエンドでもバッチ処理...
Nouveau(ヌーヴォー): LinuxカーネルのオープンソースN...
[cf] https://slurm.schedmd.com/configurator.html slurm.co...
でない。何かの参考になる?)
フロントエンド Rocky Linux release 9.3 と 計算ノード rele...
ライブラリなどとして ohpcパッケージを使っている場合、フロ...
動くものそのまま計算ノード動くだろう。ohpc以外を使ってい...
食い違ってエラーが起こる可能性がある。
** NICのWOL確認 [#r950c56a]
(これはhydrangea)
$ sudo pdsh -w c101,c102,hydrangea "ethtool enp4s0 | gre...
$ sudo ethtool enpo1 | grep Wake
** clush [#x4c87f45]
$ clush -g compute -L 'hostname; uptime' #計算ノードのみ
$ clush -g all -L 'hostname; uptime' #フロントエン...
$ pdsh -w 'c10[1,2],hydrangea ' 'hostname; uptime'
** wwsh [#ca08708c]
$ sudo wwsh #wwshプロンプトで作業する場合
Warewulf> file list
Warewulf> node help
Warewulf> pxe help
Warewulf> quit
wwsh provisionのオプションも、複数に分けて設定実行できる。
** module [#n4e1f82c]
module avail #利用可能なモジュールを表示(ロード状態...
module overview #モジュール名と数(ver違い)だけ表示
module show gnu13 #モジュールのロードで、どのように環...
module list #読み込んでいるモジュール
module load gnu13 #モジュールのロード
module unload gnu13 #読み込んだモジュールの破棄
module purge #読み込んだすべてのモジュールの破棄
** slurmの使い方 [#ve2b05af]
パーティション・ノード数など表示
$ sinfo -s
$ sinfo -al
他のオプション
--help や --usage
-V バージョン
-a 全てのパーティション
-l もっと情報表示
ノードをshutdownしてもupのまま(STATEを見よ)。
/etc/slurm/slurm.conf の SlurmdTimeout=300 により、shutd...
5分後に down* になるようだ。*付きは何かの特別な状態を表...
ノードを立ち上げると downになる。(down*のときに、フロン...
自動的には簡単に idelにはならない?ので明示的に指定する...
$ sudo scontrol update NodeName=c10[1-2] state=RESUME
[ref] https://lists.openhpc.community/g/users/topic/srun...
slurm.confで State=UNKNOWN にしているからか?
$ sudo scontrol update NodeName=c10[1-2],hydrangea state...
$ sinfo -R #ダウン等にあるノードを表示、理由も表示
$ scontrol show partition [パーティション名] #...
$ scontrol show nodes [ノード名(計算ノードホスト名)] #...
サブミットする
$ sbatch [-p キュー(パーティション)] [-N ノード数] [-n ...
ジョブスクリプト
他のオプション
--help や --usage
-w ノードリスト, e.g. sbatch -p na -w 'c10[1-2]' ...
-J JOBNAME ジョブ名指定(デフォルトはスクリプト名)
Gresプラグインが追加されていると、GPUリソースのス...
-Nのノード数は指定しなくても自動的に決められるよう...
例) sbatch -p na --nodelist=c101 jobscript.sh #これ...
sbatch --nodelist=c101 jobscript.sh #c101...
sbatch -d afterany:25 run-H2m.inp #ジョブID 25...
$ squeue #キューの状態表示
$ alias si="squeue; sinfo -s; sinfo -al"
$ scancel JOBID #キャンセル
$ salloc #対話ジョブ(mpirunなども可)
次はsbatch,salloc内で使用可、sbatch,sallocでリソース...
mpirun PROGRAM
prun PROGRAM #主にMPI用、mpirunよりもこちらを推奨...
srun PROGRAM #ネイティブコマンドらしい(さらに高機...
[ref]~
https://www.hpc.co.jp/support/wp-content/uploads/sites/9/...
https://qiita.com/daikumatan/items/fa6e2069adf828b3428c~
https://slurm.schedmd.com/sstat.html~
/var/log/messagesに appears to have a different slurm.co...
slurm.confの不一致のため。
$ sudo systemctl restart slurmctld
$ sudo pdsh -w 'c10[1,2],hydrangea "systemctl restart s...
で直る。scontrol update NodeName=c10[1-2],note200 state=...
→これでOKのようだ。
または、
$ sudo scontrol reconfigure #本来必要なものではない(デ...
でもよいらしい。
https://slurm-dev.schedmd.narkive.com/tcGB0g5P/error-nod...
slurm.confの変更を反映させるのは、これでよさげ。
$ sudo systemctl restart slurmctld
$ sudo pdsh -w 'c10[1,2],hydrangea "systemctl restart s...
$ sudo scontrol show config
GroupUpdateTime = 600 sec
HealthCheckInterval = 300 sec
JobAcctGatherFrequency = 30
など情報表示
$ sudo scontrol show node
$ sudo scontrol show partition
*** sinfoとsqueueのオプション [#c7a5389b]
このへんが便利か。
$ sinfo -o "%.9P %5a %13C %.5D %10N %.9T |%38E"; squeu...
PARTITION AVAIL CPUS(A/I/O/T) NODES NODELIST STA...
compute.p up 0/10/0/10 2 c[101-102] id...
all.p up 8/0/0/8 1 hydrangea allocat...
all.p up 0/10/0/10 2 c[101-102] id...
JOBID PARTITION NAME ST TIME N...
63 all.p ppZn_Hoptvpaog128c.inp R 15:47:24 ...
61 all.p ppZn_Hoptvpaog128a.inp R 1-00:06:17 ...
ページ名: