3年生バイオインフォマティクス演習1 資料 [word版 x 181KB

skirlorangeBiotechnology

Oct 1, 2013 (3 years and 10 months ago)

201 views

バイオインフォマティクス演習



1
日目


1.
ゲノムネット
http://www.genome.jp/ja/

の概要を閲覧した後、次の練習を行う。

1)
アミノ酸配列情報データベース
Swiss
-
Prot
の利用



Swiss
-
Prot
にアクセスし、
ヒトの
癌抑制遺伝子
p53
を検索



キーワード:


umor suppressor p53 human

















いくつヒットしたか

目的のタンパク質はどれか










P53_HUMAN

をクリックする
。アミノ酸配列を
word
ファイルに保存する。






Database: SWISS
-
PROT


SWISS
-
PROT protein sequence database

Release 2011_12, Dec 11

Swiss Institute of Bioinformatics; European Bioinformatics Institute

533,657 entries, 189,261,966 residues


Search SWISS
-
PROT for

bfind mode



Show
entries

bget mode


P53_HUMAN




[UniProt]

[P04637] RecName: Full=Cellular tumor antigen p53; AltName:
Full=Antigen NY
-
CO
-
13; AltName: Full=Phosphoprotein p53;
AltName: Full=Tumor suppressor p53;

SEQUENCE 393 AA; 43653 MW; AD5C149FD8106131 CRC64;


MEEPQSDPSV EPPLSQETFS DLWKLLPENN VLSPLPSQAM DDLMLSPDDI EQWFTEDPGP DEAPRMPEAA PPVAPAPAAP
TPAAPAPAPS WPLSSSVPSQ KTYQGSYGFR LGFLHSGTAK SVTCTYSPAL NKMFCQLAKT CPVQLWVDST PPPGTRVRAM
AIYKQSQHMT EVVRRCPHHE RCSDSDGLAP PQHLIRVEGN LRVEYLDDRN TFRHSVVVPY EPPEVGSDC
T TIHYNYMCNS
SCMGGMNRRP ILTIITLEDS SGNLLGRNSF EVRVCACPGR DRRTEEENLR KKGEPHHELP PGSTKRALPN NTSSSPQPKK
KPLDGEYFTL QIRGRERFEM FRELNEALEL KDAQAGKEPG GSRAHSSHLK SKKGQSTSRH KKLMFKTEGP DSD

2)
相同性配列検索
の練習


ゲノムネットの
BLAST
ツールを開く。


p53
の配列データを入力し実行する。
相同性の高い
(E
-
value
の小
さい
)
ものから順に
Top
まで出力。




















③アラインメント
(Draw alignment)
を実行して
、出力結果にどのような情報が記述されて
いるか調べる。





Entry bits E
-
val

---------------------------------------------------------------------

-----------



ptr:455214

TP53; tumor protein p53; K04451 tumor protein p53
751

0.0

hsa:7157

TP53, FLJ92943, LFS1, P53, TRP53; tumor protein p53; K0...
751

0.0

pon:100435218

TP53; tumor protein p53; K04451 tumor protein p53
736

0.0

mcc:716170

TP53; tumor protein p53; K04451 tumor protein p53
725

0.0

ecb:100062044

TP53; tumor protein p53; K04451 tumor protein p53
608

e
-
172

aml:100468516

cellular tumor antigen p53
-
like; K04451 tumor prot...
608

e
-
172

ssc:397276

TP53, P53; tumor protein p53; K04451 tumor protein p53
605

e
-
171

bta:281542

TP53; tumor protein p53; K04451 tumor protein p53
580

e
-
164

rno:24842

Tp53, MGC112612, Trp53, p53; tumor protein p53; K04451...
577

e
-
163

cfa:403869

TP53, P53; tumor protein p53; K04451 tumor protein p53
570

e
-
161

Query: 1 MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGP 60


M++PQS+ +++PPLSQETFS+LW LLPENNVLS S +D+L+LS + + W D G

Sbjct: 1 MQDPQSELTIDPPLSQETFSELWNLLPENNVLSSELSPGVDELLLS
-
EGVVNWM
--
DEGS 57

④マルチプルアラインメント(
CLUSTALW

を実行して、出力結果を調べる。











⑤系統樹を書く。




aml_100468516 SEG
---
VVNWMDEGSDDTPRMP
----------
VAPAPAAPGPAISWPLSSSVPSPKTYPG

cfa_403869 PES
---
VVNWLDEDSDDAPRMP
----------
ATSAPTAPGPAPSWPLSSSVPSPKTYPG

ecb_100062044
SPD
---
VVNWLDEGPDEAPRMP
----------
AAPAPLAPAPATSWPLSSFVPSQKTYPG

ssc_397276 LSP
---
VTNWLDENPDDASRVPAPP
-----
AATAPAPAAPAPATSWPLSSFVPSQKTYPG

bta_281542 YTD
---
VATWLDECPNEAPQMPEPS
-----
APAAPPPATPAPATSWPLSSFVPSQKTYPG

ptr_455214
SPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQG

hsa_7157 SPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQG

query SPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQG

pon_100435218 SPDDIAQWFIEDPGPD
EAPRMSEAASPVGPAPAAPIPAAPAPAPSWPLSSSVPSQKTYQG

mcc_716170 SPDDLAQWLTEDPGPDEAPRMSEAAPPMAPTPAAPTPAAPAPAPSWPLSSSVPSQKTYHG

rno_24842 LFLPQDVAELLEGPEEALQVSAPAAQE
--
PGTEAPAPVAPASATPWPLSSSVPSQKTYQG


: : .

:. * :*..* .***** *** *** *

演習問題

ヒト(
human

、ゴリラ(
gorilla

、馬(
horse
)、ニワトリ(
chicken

のヘモグ
ロビンβのアミノ酸配列を検索せよ。次に、マルチプルアラインメントを実行し、系統樹
を書け。配列検索の際、キーワードに
beta
をつけるのを忘れないこと。




GenBank
の利用

1)
NCBI

(
The National Center for Biotechnology Information
)
のホームページに入り、概要を閲
覧する。

http://www.ncbi.nlm.nih.gov/


2)GenBank
にアクセスし、
キイロショウジョウバエ(
Drosophila melanogaster


genomic
sequence


GenBank

record AE003584

234301

239401
までの
5100
個の塩基配列
を取得
し、
Word
ファイルに保存する。
取得に時間がかかる場合は、付録のデータを使ってよい。


3.
エクソンの検索

Genscan (
http://genes.mit.edu/GENSCAN.html
)
にアクセスし、上の塩基配列を入力し、エ
クソンを検索する。
結果を
Word
ファイルに保存する。


Protein Sequence

from Genscan



















>/tmp/01_16_12
-
03:46:09.fasta|GENSCAN_predicted_peptide_1|143_aa

MPRTLPWTTVFTAVASSARAKSMEKLTVVFLLRMHSALVVSQPSMATRVNLPVFDPQSLNSRAPAKTTSAAQAITAYLSIFFHLIELQGKRIGWLFRW
LSPLSASSQRYESTKSGESPKTTQSFRMNGKQLRAATQKKAFFDD


>/tmp/01_16_12
-
03:46:09.fasta
|GENSCAN_predicted_peptide_2|424_aa

MSQICKRGLLISNRLAPAALRCKSTWFSEVQMGPPDAILGVTEAFKKDTNPKKINLGAGAYRDDNTQPFVLPSVREAEKRVVSRSLDKEYATIIGIPE
FYNKAIELALGKGSKRLAAKHNVTAQSISGTGALRIGAAFLAKFWQGNREIYIPSPSWGNHVAIFEHAGLPVNRYRYYDKDTCALDFGGLIEDLKKIP
EKSIVLLHACAHNPTGVDPTLEQW
REISALVKKRNLYPFIDMAYQGFATGDIDRDAQAVRTFEADGHDFCLAQSFAKNMGLYGERAGAFTVLCSDEEE
AARVMSQVKILIRGLYSNPPVHGARIAAEILNNEDLRAQWLKDVKLMADRIIDVRTKLKDNLIKLGSSQNWDHIVNQIGMFCFTGLKPEQVQKLIKDH
SVYLTNDGRVSMAGVTSKNVEYLAESIHKVTK


>/tmp/01_16_12
-
03:46:09.fasta|GENSCAN_predicted_pe
ptide_3|221_aa

MSNLQQLNSLVTSWMLTLEKQGCHNLIRAGASGVIQAMVLSFGSFRFSNQHLECNIHPKFLHRDFHFRRLNYGNKTHVNVTIIVDDDNKAVINIALDR
SDRSYYACDGGCLDEPVLLTQNRRQFPVKLTEPLTAILYITEDKQHMEELHHAIHVKEVVEAPAHEQHLIALHRHGHQLGGLPTLFWVSVCAIIIVFH
IFLCKLIIKEYCEPSDKLRYRYNKP

4.モチーフの検索

ScanProsite

(
http://prosite.expasy.org/scanprosite
)
にアクセスし、3のエクソン配列
を入力し、モチーフを調べる。


hits by patterns:

[1 hit (by 1 pattern) on
1 sequence]


Hits by
PS00105



AA_TRANSFER_CLASS_1



Aminotransferases class
-
I
pyridoxal
-
phosphate attachment site

:

/tmp/01_16_12
-
03
-
46
-
09
-
fas
ta
-
GENSCAN_pr
edicted_pepti
de_2
-
424_aa






(424 aa)
























付録

DNA
配列


234301 gattggccag cgggaagggc atctcgatgc ccaggacctt gccgtggacg actgtcttca


234361 ccgccgttgc ctcctcggcc agggcgaagt cgatggagaa
gctgaccgtg gtgttcctct


234421 tgaggatgca ctccgccttg gtggtgtcgc agccctcgat ggccacccgg gtgaacttgc


234481 ccgtcttcga tccgcaatcg ctgaactcga gggctccggc gaagaccacc agtgcagcac


234541 aggcaattac cgcgtacctc agcattttct tccacttaat tgaattacaa ggtaaacgta



234601 tcgggtggct tttccgctgg ctctcgcctc tttctgcctc ttcacagcgc tacgaatcta


234661 ctaaatctgg agagagtccg aagacaacgc aaagctttcg tatgaacgga aaacagctgc


234721 gcgcggcgac tcagaagaaa gctttcttcg acgattgacg ggagtgctgc gaactatcgc


234781 ttgaagggaa
taaatattat atatattata gcttatataa caattataaa atatagttat


234841 tttagaaaag taagtataat gtttcctggc aaccatatat taattaatgg ggatcgcgga


234901 gaataaatat ttcattgcct acttatgggc atgtgctcga atactgaagc atattttcaa


234961 aattcaagta attaaactta caaaatgtaa att
tttccaa atattcagta tatgaaagcc


235021 ataaattaaa ctgattttaa atagttttta ttcactcagt catattttgc acagaagcca


235081 agagttcggt tagaaaaagt ccaaaagggg agcactggcg agctttcgcc cccgcgataa


235141 atatcgaatg cagaccggca aaagcttcag ctcacgacct tttgcgcttg ccgctt
ttgt


235201 ctttagtatt ctcttgaggc cggcggcgat tggcaacgtt tattacagtt tctaattgtt


235261 attaacttaa agcttagtac aaccaccgag tgcatttagc aatgtcgcag atctgtaagc


235321 gcggtttgtt gatcagcaac cgattggcgc ccgccgccct ccgctgcaag tgagtaagcg


235381 ggacggaga
g agggctccca gcggccagcg tgcgtgctgg aaagagacag caggccgacg


235441 aacacgttgc agatgcagca gtgtcatttg ccaaggtcat tgcagttgcc ggtcgagctg


235501 cagtgacaca tttgtgtttg ttttccccag cactgcataa tttgtttgtc cttgcgggct


235561 cgttctccag ttttagcact atactaaatc t
gttatacgg atttattgtt atatcagcac


235621 aggggccttt tatttaatca tctttcgctc tgggcaaatg taaaacaatt atttccgctg


235681 tttccagctg tttttatctc gtcggctaat atttgcatat gtttcgggcc ctctactata


235741 ctatatagac tgattggcct attggcggac gtatgtgtat ttatttttaa agcc
aattct


235801 gtgacgctcc atgctctttt ctgctaattt cattccactt gagggaacat tttgaaacca


235861 catgacgacg gatgggttgg tagaaaacag gtgccaaaat gagcttaaat cactccaaca


235921 ttcttgaatt attatatttt tagtggttag gaataaagaa ataattcaag tttcaaaata


235981 tttgaat
ttg tacgaaatca actgtgaaaa agacatcaaa aagtattttt tctacatcaa


236041 aattgcaagt ttaagttaat attaagttat gagtagaacc attattatga cgcttaagga


236101 cattgtgcat gtgtggtcca acgacccggg agaacggatg tgccgagcga acagagtgta


236161 gggtattcgt ggtcatatca cgcttctgtc

gcgtgctttg atttccattt tatgaagctc


236221 cttggcttgt gggcggtttg ttttatcgaa gtcagaaggt tctttccgga aatcaaacaa


236281 tcagatcgaa agacaggtgg cgcctaattg aaagagttta attaagttta ataacttcca


236341 cgatttattg ctgaatattg agaaggagat ttggaaagcc ggctacgtca gc
aaacaatc


236401 atcgaggtta tcgctgacgt aggcttaaat ggatctatat tgtatacttt gtaatcgccg


236461 accgagttcc cataataaca tgtttacagc tgatatgggg gggctattta agacccccgt


236521 gtcgttgggg gtacgaagtg ttaacagtgg gggcgaaatc caagaaaacc tttagatgac


236581
tttcaaactt tagtcatgaa agcgaaatga taaatgatag ccacaagtgg tcagacgtgg


236641 atgagataac ctactactaa gcagtttcat aatctaccaa ttaaatttaa aacagataag


236701 gacttcgtgg ggcgttctcg ggcattctag ggttaaaggt tgacgggcaa tagaaatcac


236761 ttggcaagtg tggcagatat aag
gatgttt ttaatacata cgtgatggat attgtgatgc


236821 aatgattaat atatcattat tattctagat caacatggtt ctccgaggtg cagatgggcc


236881 cacccgatgc catcttgggt gtcacggaag ccttcaagaa ggacaccaac cccaagaaga


236941 tcaacttggg cgctggcgcc tatcgcgatg acaacaccca gccctt
cgtg ctccccagtg


237001 ttcgggaggt gagttcagat caagtttaaa ctaaacccaa ttttgaaaca tagttatcgt


237061 ttatgaccag gccgagaaga gagtggtgag ccgtagtctg gacaaggagt acgccacaat


237121 catcggcatt cccgagttct acaacaaggc catcgagctg gcattgggca aggtaattat


23718
1 atcccttatg actgaggaat gtcctaaaaa ttaataagta ttcctttatt acagggatcc


237241 aagcgtttgg cggccaagca caacgtgacc gcccagtcca tcagtggaac tggagctctg


237301 cgcatcggag ccgccttcct ggccaagttc tggcagggca accgcgagat ctacatcccg


237361 tcgccatcgt ggggcaacca t
gtggccatt ttcgagcacg ccggtctgcc ggtgaaccga


237421 taccgctact acgacaagga cacctgtgcc ctggactttg gcggcctgat cgaggatctg


237481 aaggtgagga tttacattgc cactgattga tgttctttga tatgcttacc cattgtttat


237541 taccttttcc agaaaatccc cgagaagagc attgttcttc tgca
cgcctg cgcccacaac


237601 cccactggag tggatcccac tctggagcag tggcgtgaga tctcggctct ggtcaagaaa


237661 cgcaatctgt atcccttcat cgacatggcc taccaaggct tcgccaccgg agacattgac


237721 cgcgacgccc aggcggtccg caccttcgag gccgatggcc acgacttctg cctggcccag


237
781 agtttcgcca agaacatggg attgtatggt gagcgcgctg gcgccttcac cgtgctgtgc


237841 tccgacgagg aggaggctgc tcgcgtgatg tcccaagtta agatcctgat ccgtggtctg


237901 tactccaatc ccccggtgca cggagctcgt attgccgccg agatcctcaa caacgaggac


237961 ttgcgcgccc agtggctgaa

ggatgtgaag ctgatggccg accgcatcat cgatgtgcgc


238021 accaagctca aggacaatct aattaagctg ggatccagcc agaactggga ccacattgtc


238081 aaccaaatcg gcatgttctg cttcacgggc ctgaagccgg agcaggtgca gaagctgatc


238141 aaggatcaca gcgtctatct caccaacgat ggacgtgttt
cgatggcggg agtcaccagc


238201 aagaatgtcg agtacctggc tgagagcata cacaaggtta ccaagtaagg aggaccagtg


238261 gagatcgaag tggagatgga gtttctgtag taccttctaa tcggcacttg tacgaatttt


238321 ctagcaccaa cgaaattgcg aagtctagat aagccaatgc attttgcaca ctctctatcc



238381 atatctctgt atataagcta aatgatctgc cttttaaaaa ataaagcatt taaaatgtta


238441 gtaaatacga ttcgtatttt ttatgaaaaa tgaacagatg taacagaaag cagaagaact


238501 ttgtgttcgc atttagataa tcatatatta ctagcatcca atttttatat acaactagga


238561 tcacggtttg ttataa
cgat atcttaactt atcgctcggc tcgcagtact ccttgataat


238621 gagcttgcac aggaatatgt ggaatactat gattattgcg cacacggaaa cccagaagag


238681 cgtgggcaat ccacccagtt ggtggccatg ccgatgcagt gcgatcaaat gctgctcatg


238741 ggcgggagct gaatggaata attacataat ttacataac
t tgaatatgat tgcccagtga


238801 aacttcttac cctcgaccac ttccttcacg tggatggcat ggtgcagctc ttccatgtgt


238861 tgcttgtcct cggttatgta taatattgct gttagcggtt cagtcagttt gactgggaat


238921 tgtcgtcggt tttgcctgca aagtgatata atttcaatat gttcccaaag gattatatgt


238981 gagttaaaat tacgtgagca gcacgggctc atccaggcag ccgccatcgc aagcgtagta


239041 gctcctgtct gaacgatcca gcgcgatgtt gatcaccgcc ttgttgtcat catccacaat


239101 gatggtgacg ttgacatggg ttttgttgcc gtaattgagg cgcctgaagt ggaagtccct


239161 atgcagaaac ttcg
gatgga tgttgcactc cagatgctga ttgctaaaac gaaagctgcc


239221 aaagctcagg accatggctt ggatgactcc cgaagctccc gctcgaataa gattgtggca


239281 gccctgtttc tccaacgtta gcatccacga cgtaaccagg gagttaagct gctgaagatt


239341 agacatctcg cgccaaagat tctccgcctg cagagtg
tga tacgaatcgt agcagccttc