はじめに
国立遺伝学研究所・スーパーコンピュータシステムを用いたデータ解析では Apptainer* という Linux コンテナに収納されたプログラムを使用することが一般です。
Apptainer という Linux コンテナを用いることの利点は、様々なプログラムをユーザ自らが初期設定をする必要もなくプログラムを使用することが可能であり、また異なるバージョンのプログラムを利用することが可能であるということです。
そのため、プログラムのインストールなどの煩雑な作業を行う必要がなく、また同じ(旧)バージョンのプログラムの使用することで以前の研究結果を確認できることは非常に有用です。
一方で、スーパーコンピュータシステムや Linux コンテナを利用したことのないユーザにとって、プログラムの提供元で記載されているコマンドやインターネット上で記載されているコマンドだけではプログラムが動かない場合もあり、その原因を調べることに多くの時間を費やしたりすることがあります。
research protocol では、それらの障壁を少しでも取り除くことを願い、私がこれまでの研究で実際に試し動作した状況、私が直面した問題点やその回避法を踏まえつつ、その利用方法を紹介していきたいと思います。
* Linux Foundation への移行に伴って生じ名称が Singularity から Apptainer へと変更されました。 Singularity との整合性は保つ方針のようです。
(参考)
- Singularity という Linux コンテナについての簡単な説明・イメージは HPC systems のここで紹介されています。
- Singularity から Apptainer への変更についてはここで紹介されています。
- 国立遺伝学研究所で導入されたスーパーコンピュータシステムの概要はここで紹介されています。
- 国立遺伝学研究所・スーパーコンピュータシステムの利用申請についてはここを参照してください。
国立遺伝学研究所・スーパーコンピュータシステムへのログイン
国立遺伝学研究所・スーパーコンピュータシステムを利用するには ssh を用いてログインします。またIDとパスワードを入力しログインするのではなく、公開鍵認証を利用してログインすることになります。様々な情報セキュリティ・インシデントが発生する今日、IDとパスワードによる認証ではリスクが高いため、より安全な公開鍵認証方式が採用されています。
公開鍵の作成および登録方法については、ここに紹介されていいますので参照してください。また ssh を用いてログインしてもゲートウェイノードにアクセスしただけで、そこで解析作業は行いません。さらに qlogin というコマンドを入力することで、実際に解析を行う数多くの計算能力が装備されている計算機ノードへアクセスすることができます。
qlogin で計算機ノードにアクセスした場合は 4GB のメモリが割り当てられます。後にみるように qsub というジョブを投入するコマンドを用い Apptainer などで準備されているプログラムを実行する場合、各ジョブを投入する段階で解析に必要なメモリを要求できるので、 デフォルトの 4GB のメモリの設定でログイン、すなわち qlogin と入力するだけで十分です。ただし、自らプログラムを開発しそれらのプログラムを直接動作する場合(インタラクティブジョブの場合)など、より多くのメモリを必要とする場合は qlogin 時にメモリ量を予め設定しログインする必要があります。
(参考)
- 国立遺伝学研究所・スーパーコンピュータシステムの各ノードについてはここ(システム概要)を参照してください。
- 国立遺伝学研究所・スーパーコンピュータシステムのログインについてはここ(ログイン方法 一般解析区画)を参照してください。
- 国立遺伝学研究所・スーパーコンピュータシステムでのインタラクティブジョブの実行についてはここ(インタラクティブジョブ)を参照してください。
国立遺伝学研究所・スーパーコンピュータシステムへのファイルのアップロードあるいはファイルのダウンロード
国立遺伝学研究所・スーパーコンピュータシステムを利用する多くの場面で、ファイルをシステムへアップロードしたり、解析結果をダウンロードすることが生じます。特に国立遺伝学研究所・スーパーコンピュータシステムのリソースにも限度がある一方(初期の設定では 1TB のディスク容量が割り当てるのみ)、NGSデータの解析結果で得られたファイルのサイズは非常に大きく、それらを長期間スーパーコンピュータシステムに保存しておくことができません。また不要なデータを保存しておくことは、他のユーザの利用を妨げることになりかねません。さらに国立遺伝学研究所のスーパーコンピュータシステムの管理者がユーザーのデータのバックアップを行っていないので、各人の研究で得られた解析結果はそれぞれが個人で所有する記憶媒体(NASやハードディスクなど)にダウンロードして保管することが重要です。
国立遺伝学研究所・スーパーコンピュータシステムへのファイルのアップロードあるいはファイルのダウンロードには、scp コマンドや sftp コマンドが利用可能です。これらも ssh ログイン方法と同じように公開鍵認証を利用しています。また大容量のファイル転送を効率的に行う商用ソフトウェア Aspera も導入されているため、大容量のファイルをアップロード・ダウンロードする場合(および、ご所属の機関からの回線に十分な帯域幅が準備されている場合)には Aspera も利用可能です。
さらに国立遺伝学研究所 DDBJ のデータベースで登録されているデータやアメリカ国立衛生研究所 NCBI で公開されているデータを国立遺伝学研究所・スーパーコンピュータシステムにダウンロードするには sftp や ftp (ユーザー名 anonymous パスワードは無、すなわちリターンキーを押すだけ)や Linux OS上で wget や curl コマンドが利用できます。
(参考)
- 国立遺伝学研究所・スーパーコンピュータシステムへのファイルのアップロード・ダウンロードについてはここ(データ転送 一般解析区画)を参照してください。
- 国立遺伝学研究所・スーパーコンピュータシステムでの Aspera の利用についてはここ(Aspera の使い方)を参照してください。
- 国立遺伝学研究所・スーパーコンピュータシステムでの各ユーザーに対して使用可能なストレージ容量の制限についてはここ(Quotaの確認方法)を参照してください。