申請表 上下載資料 提問

 

ALPS 大型主機分析基因體序列之使用說明

內容

使用須知

主機位址

alps1.nchc.org.tw

連線主機名稱,請使用 ssh 相容的連線程式

使用者可使用的空間

使用者可使用的空間如下:

  • /home 每個使用者 10 GB 使用空間,如果不夠用,請向我們反映
  • /work3 總容量為 42 TB,不針對使用者使用空間設限
  • /pkg/biology

說明:

  • /home  建議放置使用者撰寫的 code, 自行準備的程式等, 系統不會刪除此區檔案
  • /work3 放置較佔記憶體的資料檔
    •     使用者如需使用,請先在該目錄下建置一個與帳號相同的目錄
    •     目錄下由各使用者自行管理
    •     將制定定期清空政策
  • /pkg/biology 由系統管理員準備的生物相關程式區,使用者可以使用但不能修改新增刪除等

什麼是 queue?

Queue 就是針對工作所設立的虛擬的運算單元,一個 queue 可以負擔一個運算工作。如果一臺機器被指定兩個 queue,意味這台機器可能同時運行兩個工作。Queue 的設計是用來管理計算資源 。

目前可以使用的 Queue

  • 所有的工作必須透過 queuing system 執行
  • 目前提供Test, 4G, 16G, 48G, 128G,192core,384core, 1T 共有 五 種 queue
  • 工作優先順序以Test> 4G>16G>48G>128G>192core>384core> 1T
  • 記憶體使用大於上限者,將會被中斷運算
  • 可先使用1T queue試運算,決定記憶體用量後再選擇使用何種 queue
  • 使用queue時的限制與規則如下:
Queue Name Test[註一] 4G 16G 48G 128G 192core 384core 1T
使用記憶體上限 (GB) 2 4 16 48 100 100/48core 100/48core 1024
使用核心數上限 1 2 8 24 48 192 384 64
建議核心使用上限 1 1 6 20 40 192 384 60
工作優先權[註二] 90 85 80 50 30 20 20 10

 

註一 ,test queue一人只能送一個job,執行時間為10分鐘

註二 ,數字愈大優先權愈高

 

網中心提供之Queuing system

國網中心提供 Load Sharing Facility (LSF)

 

請先建立 ssh 連線

請先使用中心所提供的帳號,連往alps1.nchc.org.tw

請檢視登入後的家目錄環境

請準備您所需要計算用的檔案與程式

將需要分析的檔案上傳至雲端儲存,程式則請上傳至ALPS主機

直接執行LSF 指令範例

直接執行 LSF 指令範例

本範例以 BWA 執行定序資料比對人類基因體序列

  • 參考序列檔案:Homo_sapiens.GRCh37.70.dna.toplevel.fa
  • 定序序列檔案:SRR006041.recal.fastq
  • 指令為:
    bsub -q 48G -o ./test_std_opt -e ./test_err_opt -J com_line_test "./bwa-0.6.2/bwa bwasw ./Homo_sapiens.GRCh37.70.dna.toplevel.fa ./SRR006041.recal.fastq > ./test_job.opt"
    • bsub 為 LSF 派送工作的指令 -q queue的名稱, -o 標準輸出檔案名稱,-e 錯誤訊息輸出名稱,-J 指定 Job名稱
    • 雙引號("")中間是bwa的指令
    • bwa 是 alignment 程式,bwasw 是比對時所需要的參數

比對結果

比對之後的結果內容寫在:test_std_opt

 

以描述檔方式派送工作

  • 描述檔派送 LSF 指令各層資訊分開紀錄,是比較好的方式,也容易以程式輸出的方式大批運作
  • 在描述檔中亦可設置下載與傳送檔案至雲端儲存設施

 

以描述檔派送 LSF 指令範例

派送工作描述檔內容: test_job

#!/bin/sh
#BSUB -q 48G
#BSUB -o ./script_std_output  ## 執行成功與否會在此處紀錄,執行時間 #BSUB -e ./script_err_output #BSUB -N ## 工作結束時以email寄送報告通知 #BSUB -u your_mail@address #BSUB -J test_alps_aln #BSUB -R 'span[hosts=1]'  ## 指定此 job 限定在單一 node 上運算

./bwa bwasw ./Homo_sapiens.GRCh37.70.dna.toplevel.fa ./SRR006041.recal.fastq > ./test_script_job.sam

 

red arrow執行 bsub < ./test_job 將會送出工作

bsub 為 LSF 派送工作的指令 -q queue的名稱, -o 標準輸出檔案名稱,-e 錯誤訊息輸出名稱,-J 指定 Job名稱,-u 是指定工作完成後遞送訊息給哪個郵件信箱

bwa 是 alignment 程式,bwasw 是比對時所需要的參數

比對之後的結果內容寫在:test_script_job.sam

描述檔派送 LSF 指令與雲端儲存指令整合範例

 

派送工作描述檔內容:(test_job)

#!/bin/sh
#BSUB -q 48G
#BSUB -o ./script_std_output
#BSUB -e ./script_err_output
#BSUB -J test_alps_aln

lftp -c "set ftp:passive-mode false;open -u u00wyt00,password sftp://cloud.st.nchc.tw;cd tmp_folder;mget -c -O ~/work/human_bwa SRR006041_cloud.recal.fastq"

./bwa bwasw ./Homo_sapiens.GRCh37.70.dna.toplevel.fa ./SRR006041_cloud.recal.fastq > ./test_script_job.sam

lftp -c "set ftp:passive-mode false;open -u u00wyt00,password sftp://cloud.st.nchc.tw;cd tmp_folder;mput -c ./test_script_job.sam"

 

紅色:個人帳號,密碼(以逗號隔開)

紫色:雲端儲存網址

綠色:雲端儲存的路徑

橘色:雲端儲存的指令,mget 是向雲端儲存下載檔案指令,mput 是向雲端儲存上載檔案指令

藍色: 本地資料夾

lftp 無密碼傳送檔案至雲端儲存設備之設定

請在家目錄下執行

ssh-keygen -t ds

 

再將 .ssh 目錄下的 id_dsa.pub 檔案寄給我們,

說明要求設定,我們就會協助使用者設定

 

其他 LSF 相關指令

  • #BSUB -n 10 
    使用核心數
  • #BSUB -u your_mail@address
    算完之後通知的郵件信箱
  • #BSUB -R "rusage[mem=48]"  
    當對 queue 設置不確定時,可以以記憶體需求來自動選擇 queue
  • bqueues
    查看各個queue的排程狀況
  • bhosts
    查看queueuing system在hosts間的狀態
    -X:列出詳細的host資料
  • bjobs -u user_account   
    觀察特定使用者 job 執行狀態 -a 所有使用者
  • bkill job_id 
    刪除特定 job 的指令,請提供 job id
  • bhist
    可查詢jobs running的歷程,可用於查詢以前running過的job或結束的原因
    -b:簡短格式
    -l:詳細資料
  • bacct
    統計在此系統中running的cpu time及其他時間,常用參數如:-C、-l、-q、-u
    -C:指定時間(可省略,未指定則是從系統紀錄開始時間到現在時間)
    -l:詳細資料(可省略,未指定則僅顯示統計數據不會顯示每一筆記錄)
    -q:指定Queue name(可省略,未指定則是所有queue都算)
    -u:指定user

  • 參考資料:

    http://www2.nchc.org.tw/~a00yys00/alps/lsf.htm

 

MySQL 連線設定

mysql -h 10.3.9.100 -u u00xxx00 -pyour_password

在使用計算設施時,如需要使用 MySQL 時,例如 ENSEMBL pipeline,請向國網中心生物小組申請帳號

申請網址:

http://humem.nchc.org.tw/NGS/webpages/application.html

申請主機請勾選MySQL server

 

生物小組

服務申請表

NGS網站