申請表 上下載資料 提問

簡介

ERANGE 是一個用來分析 RNA-seq and ChIP-seq 數據的軟體。將定序的讀值對回參考序列上(目前支援bowtie,eland 和blat 的比對結果),使用後將可以看出:

–基因體上那些位置會有 RNA 表現
–在基因體上定序訊號的範圍與強度
–實驗組與對照組 RNA 表現量及表現位置差異等

第一次執行範例者請點我

 

請依照指示安裝必要程式後,方可操作展示範例。

如何由網頁登入測試帳號

  1. 下載檔案

    a.點擊連結下載安裝檔
    save

    b.儲存到任意位置
    save2

    c.開啟資料夾
    open






  2. 解壓縮檔案
    a. 在humem.zip上點選右鍵,解壓縮全部
    decompress

    b.下一步
    decompress2

    c.選定解壓縮目錄後,下一步
    decompress3

    d. 勾選顯示解壓縮檔案,後點選完成。
    decompress4


    e. 右鍵開啟資料夾
    openfolder


  3. 安裝

    a.執行Reg.exe

run reg.exe

 

b.選"是"
run Reg.exe

c.選確定。

 

4.如完成上述步驟,表示軟體已安裝完畢。可接下去操作下方的展示範例。



ERANGE 展示範例

  • 以下的展示範例均位於大記憶體主機 (HUMEM) 上面操作
  • 本頁中的連結只供試用,無需使用任何帳號,但與其他人共用資料夾,無法保証資料會被他人覆寫 。如需要HUMEM個人帳號到帳號申請網頁申請
  • 基本上在步驟一之後, 只要將藍框內的指令一步一步複製貼上即可完成Demo

1.首先點選這個連結到 HUMEM

 

輸入一個名稱作為工作資料夾名稱,如果該資料已經被建立,則會直接進入該資料夾,因此請不要用過於普通的名字,如 test、folder 等...,最好以自己的名字加上數字以免被他人覆寫。在此展示範例以wade0201作為資料夾的名稱。

 

待視窗出現Now you can start!字樣後,如果超過10秒沒有出現的話,關掉視窗再重來步驟1。

2. 先使用 SRA 套件程式中的 fastq-dump 解開 xxxx.sra 檔,此步驟為產生後續程式可以處理的 FASTQ 檔案格式。解開時需修改 ID 格式,因為 ERANGE 預設為 ILLUMINA 格式。輸入指令如下:

/pkg/SRAtoolkit/sratoolkit.2.1.10/bin/fastq-dump --split-3 --defline-seq "@\$ac.\$si_\$sn" --defline-qual "+\$ac.\$si_\$sn" /home/test/data/erange/SRR497664.sra

/pkg/SRAtoolkit/sratoolkit.2.1.10/bin/fastq-dump --split-3 --defline-seq "@\$ac.\$si_\$sn" --defline-qual "+\$ac.\$si_\$sn" /home/test/data/erange/SRR497666.sra

  • /pkg/SRAtoolkit/sratoolkit.2.1.10/bin/fastq-dump: 為 fastq-dump 之程式路徑。
  • --splite-3: 這個參數用來使 fastq-dump 把結果分成pair-end 1, pair-end 2 以及 single end,三種檔案.
  • --defline-seq: 用來設定fastq 中 sequence 之ID 格式,"@\$ac.\$si_\$sn" 是我們希望的格式
  • --defline-qual: 用來設定fastq 中 quality之ID 格式, "+\$ac.\$si_\$sn" 是我們希望的格式
  • /home/test/data/erange/SRR497664.sra : 為定序結果的檔案名稱及路徑,已下載到主機裡(此範例使用的是由NCBI下載來的 SRR497666.sra 以及 SRR497664.sra,前者為後者的 control,詳細資訊請至http://www.ncbi.nlm.nih.gov/sra?term=SRR497664)。這裡所使用的 SRR497664.sra 及 SRR497666.sra 是 Demo 時所使用的,未來使用者請自行填入定序結果的檔案名稱及路徑。

3.解開後會在當前目錄產生 SRR497664.fastq、SRR497666.fastq 兩個檔案。ERANGE 目前可以使用 ELAND,Bowtie 及 BLAT 的 alignment 結果做分析。在這裡我們利用 Bowtie 做 alignment。除了 -p以外,參數是使用官方使用手冊所建議的,-p 是用來指定使用的 CPU 數目(注意不是愈多愈快,太多的CPU會造成 I/O 太大的負擔,拖慢速度)。因為我們使用的是老鼠的SAMPLE用來做,所以使用的UCSC的mm9做為 reference。 所有官網上的 references 已下載至 /iscsi/Bowtie_Indexes/Bowtie/ 中,可直接使用。

/pkg/Bowtie/bowtie-0.12.8/bowtie /iscsi/Bowtie_Indexes/Bowtie/M.musculus_UCSC_mm9/mm9 -v 2 -k 11 -m 10 -p 10 -5 1 -t --strata --best -q SRR497664.fastq --un SRR497664.mm9.unmatched.fa --max SRR497664.mm9.max.fa SRR497664.mm9.bowtie.txt

/pkg/Bowtie/bowtie-0.12.8/bowtie /iscsi/Bowtie_Indexes/Bowtie/M.musculus_UCSC_mm9/mm9 -v 2 -k 11 -m 10 -p 10 -5 1 -t --strata --best -q SRR497666.fastq --un SRR497666.mm9.control.unmatched.fa --max SRR497666.mm9.control.max.fa SRR497666.mm9.control.bowtie.txt

  • /pkg/Bowtie/bowtie-0.12.8/bowtie: Bowtie 之程式路徑。
  • /iscsi/Bowtie_Indexes/Bowtie/M.musculus_UCSC_mm9/mm9: 為 reference 路徑。此範例使用老鼠 (M.musculus) 為 sample,所以我們以 USCS mm9 作為 reference,未來使用者可依資料來源的物種去選擇 reference。所有官網上的 references 已下載至 /iscsi/Bowtie_Indexes/Bowtie/ 中,詳細清單可至資料庫網頁查詢。
  • -v 2 -k 11 -m 10 -p 10 -5 1 -t --strata --best :為一些參數 詳細解釋請見 官方網頁
  • -q SRR497666.fastq :為input的fastq檔案。為上一步之 output。
  • --un SRR497666.mm9.control.unmatched.fa: 把不能 align之reads 存到SRR497666.mm9.control.unmatched.fa。
  • --max SRR497666.mm9.control.max.fa:如果 reads 成功 align 的數目大於 -m 所設定的數目,則把 reads 寫入SRR497666.mm9.control.max.fa
  • SRR497666.mm9.control.bowtie.txt :output 的路徑

 

 

4.把 Bowtie 的結果轉換成成 ERANGE的 input 格式 (RDS)。由於如第一點提到的,ERANGE 預設使用ILLUMINA ID 格式,所以如果要使原始的 ID 格式,請加入 -rawreadID

python /pkg/ERANGE/erange3.3/makerdsfrombowtie.py SRR497664.mm9 SRR497664.mm9.bowtie.txt SRR497664.mm9.rds

python /pkg/ERANGE/erange3.3/makerdsfrombowtie.py SRR497666.mm9 SRR497666.mm9.control.bowtie.txt SRR497666.mm9.control.rds

5.執行

python /pkg/ERANGE/erange3.3/findall.py label SRR497664.mm9.rds SRR497664.mm9.regions.txt --control SRR497666.mm9.control.rds --listPeak --revbackground

  • /pkg/ERANGE/erange3.3/findall.py為主程式
  • label 為自訂工作名稱
  • SRR497664.mm9.rds為 input sample 之RDS檔(如何制作請參閱 這裡)
  • SRR497664.mm9.regions.txt為 output file,ERANGE會把找到的PEAK位置存到這個檔案
  • --control SRR497666.mm9.control.rds為 control 之 RDS檔 為非必要選項
  • --listPeak --revbackground 詳細解釋請見 官方網頁

6.結果在SRR497664.mm9.regions.txt這個檔案中,可以用less或more指令觀看。

less SRR497664.mm9.regions.txt

textresult

7. 下載SRR497664.mm9.regions.txt後,匯入Excel,資料如下。(之後使用者如有自己的帳號可使用sftp下載或上傳檔案)

erangedemo_visualization

 

透過 excel 製作散佈圖後, 可以得出哪個區段讀值有特別增高的現象,如下圖

X: 基因體上相對的座標位置
Y: RPM 值 (Reads per million mapped reads)

plot

8.分析

analysis

再透過 Excel 過濾 RPM 值後,取出 RPM 值大於 1000的區段後發現有一個高 RPM 值之間的距離靠近而且連續。 若此處不為重複性序列所造成的現象時,將有必要進一步設計實驗確認,並探討其原因與可能的生物意義。

**如想自行測試資料馬上申請個人帳號

生物小組

服務申請表

NGS網站