home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / bionet / software / 2353 < prev    next >
Encoding:
Internet Message Format  |  1993-01-02  |  12.2 KB

  1. Path: sparky!uunet!europa.asd.contel.com!howland.reston.ans.net!usc!wupost!spool.mu.edu!agate!stanford.edu!enterpoop.mit.edu!eru.mt.luth.se!lunic!sunic!dkuug!uts!engeje
  2. From: engeje@uts.uni-c.dk (Jacob Engelbrecht)
  3. Newsgroups: bionet.software
  4. Subject: Re: intron/exon borders
  5. Message-ID: <1993Jan2.212630.683@uts.uni-c.dk>
  6. Date: 2 Jan 93 21:26:30 GMT
  7. References: <30DEC199214434286@aardvark.ucs.uoknor.edu>
  8. Organization: UNI-C, Danish Computing Centre for Research and Education
  9. Lines: 257
  10.  
  11. In <30DEC199214434286@aardvark.ucs.uoknor.edu> bfrank@aardvark.ucs.uoknor.edu (FRANK,BART) writes:
  12.  
  13. >Can anyone recommend a good program to screen human genomic seqeunces
  14. >and predict positions of intros/exon borders?
  15.  
  16. >Thanks, 
  17. >Bart Frank
  18. >Internet: BFRANK@AARDVARK.UCS.UOKNOR.EDU
  19.  
  20. I include information of a mail server service for prediction of
  21. splice sites as described in our Journal of Molecular Biology article.
  22.  
  23.  
  24. ********       Announcement of the NetGene Mail-server:        *********
  25.  
  26. DESCRIPTION:
  27.  
  28.    The  NetGene  mail  server  is a  service  producing  neural  network
  29.    predictions  of splice  sites in  vertebrate  genes as described  in:
  30.    Brunak, S.,  Engelbrecht,  J., and Knudsen, S.  (1991)  Prediction of
  31.    Human mRNA Donor and Acceptor  Sites from the DNA  Sequence.  Journal
  32.    of Molecular Biology, 220, 49-65.
  33.  
  34.  
  35. ABSTRACT OF JMB ARTICLE:
  36.  
  37.    Artificial  neural  networks have been applied to the  prediction  of
  38.    splice site location in human  pre-mRNA.  A joint  prediction  scheme
  39.    where  prediction  of transition  regions  between  introns and exons
  40.    regulates  a cutoff  level for  splice  site  assignment  was able to
  41.    predict splice site locations with confidence  levels far better than
  42.    previously  reported in the  literature.  The  problem of  predicting
  43.    donor and  acceptor  sites in human genes is hampered by the presence
  44.    of  numerous   amounts  of  false   positives  -  in  the  paper  the
  45.    distribution  of these false splice sites is examined and linked to a
  46.    possible  scenario  for the  splicing  mechanism  in vivo.  When  the
  47.    presented  method detects 95% of the true donor and acceptor sites it
  48.    makes less than 0.1% false donor site  assignments and less than 0.4%
  49.    false acceptor site assignments.  For the large data set used in this
  50.    study this means that on the  average  there are one and a half false
  51.    donor sites per true donor site and six false acceptor sites per true
  52.    acceptor site.  With the joint assignment method more than a fifth of
  53.    the true donor sites and around one fourth of the true acceptor sites
  54.    could  be  detected  without  accompaniment  of  any  false  positive
  55.    predictions.  Highly  confident  splice  sites  could not be isolated
  56.    with a widely used weight  matrix  method or by separate  splice site
  57.    networks.  A complementary  relation between the confidence levels of
  58.    the  coding/non-coding  and the  separate  splice site  networks  was
  59.    observed, with many weak splice sites having sharp transitions in the
  60.    coding/non-coding  signal and many stronger  splice sites having more
  61.    ill-defined transitions between coding and non-coding.
  62.  
  63.  
  64. INSTRUCTIONS:
  65.  
  66.    In order to use the NetGene mail-server:
  67.  
  68.    1) Prepare a file with the sequence in a format  similar to the fasta
  69.       format:  the first line must start  with the symbol  '>', the next
  70.       word  on  that  line  is  used  as the  sequence  identifier.  The
  71.       following lines should contain the actual sequence,  consisting of
  72.       the symbols A, T, U, G, C and N.  U is converted to T, letters not
  73.       mentioned  are converted to N.  All letters are converted to upper
  74.       case.  Numbers,  blanks and other  nonletter  symbols are skipped.
  75.       The lines  should not be longer than 80  characters.  The  minimum
  76.       length  analyzed  is 451  nucleotides,  and the  maximum is 100000
  77.       nucleotides  (your  mail  system  may have a lower  limit  for the
  78.       maximum  size of a message).  Due to the  non-local  nature of the
  79.       algorithm  sites  closer than 225  nucleotides  to the ends of the
  80.       sequence will not be assigned.
  81.  
  82.    2) Mail the file to netgene@virus.fki.dth.dk.  The response time will
  83.       depend on system  load.  If nothing else is running on the machine
  84.       the  speed is about  1000  nucleotides/min.  It may  take  several
  85.       hours  before you get the answer, so please do not  resubmit a job
  86.       if you get no answer within a short while.
  87.  
  88.  
  89. REFERENCING AND FURTHER INFORMATION
  90.  
  91.    Publication  of output from  NetGene must be  referenced  as follows:
  92.    Brunak, S.,  Engelbrecht,  J., and Knudsen, S.  (1991)  Prediction of
  93.    Human mRNA Donor and Acceptor  Sites from the DNA  Sequence.  Journal
  94.    of Molecular Biology, 220, 49-65.
  95.  
  96.  
  97. CONFIDENTIALITY
  98.    Your  submitted  sequence  will be  deleted automatically immediately 
  99.    after processing by NetGene.
  100.  
  101.  
  102. PROBLEMS AND SUGGESTIONS:  
  103.  
  104.    Should be addressed to:
  105.  
  106.    Jacob Engelbrecht
  107.  
  108.    e-mail: engel@virus.fki.dth.dk
  109.  
  110.    Department of Physical Chemistry
  111.    The Technical University of Denmark
  112.    Building 206
  113.    DK-2800 Lyngby
  114.    Denmark
  115.  
  116.    phone: +45 4288 2222 ext. 2478 (operator)
  117.    phone: +45 4593 1222 ext. 2478 (tone)
  118.    fax:   +45 4593 4808
  119.  
  120.    
  121. EXAMPLE:
  122.  
  123.    A file test.seq is prepared with an editor with the following contents:
  124.  
  125.    >HUMOPS
  126.    GGATCCTGAGTACCTCTCCTCCCTGACCTCAGGCTTCCTCCTAGTGTCACCTTGGCCCCTCTTAGAAGC
  127.    CAATTAGGCCCTCAGTTTCTGCAGCGGGGATTAATATGATTATGAACACCCCCAATCTCCCAGATGCTG
  128.    . Here come more lines with sequence.
  129.    .
  130.    .
  131.    
  132.    This is sent to the NetGene mail-server, on a Unix system like this:
  133.    mail netgene@virus.fki.dth.dk < test.seq
  134.    
  135.    In return an answer similar to this is produced:
  136.  
  137. From netgene@virus.fki.dth.dk Fri Mar 20 13:30 MET 1992
  138. Received: by virus.fki.dth.dk
  139.     (16.7/16.2) id AA05624; Fri, 20 Mar 92 13:30:41 +0100
  140. Date: Fri, 20 Mar 92 13:30:41 +0100
  141. From: virus mail server <netgene@virus.fki.dth.dk>
  142. Return-Path: <netgene@virus.fki.dth.dk>
  143. To: engel@virus.fki.dth.dk
  144. Subject: HUMOPS: NetGene splice site prediction
  145. Status: RO
  146.  
  147.  
  148. ------------------------------------------------------------------------
  149.                                NetGene
  150.                Neural Network Prediction of Splice Sites
  151.                                                          
  152. Reference: 
  153. Brunak, S.,  Engelbrecht,  J., and  Knudsen, S.  (1991).  Prediction  of
  154. Human mRNA donor and acceptor  sites from the DNA  sequence.  Journal of
  155. Molecular Biology 220:49-65.
  156. ------------------------------------------------------------------------
  157.  
  158. Report ERRORS to Jacob Engelbrecht engel@virus.fki.dth.dk.
  159.  
  160. Potential splice sites are assigned by combining output from a local and
  161. a global  network.  The  prediction is made with two cutoffs:  1) Highly
  162. confident  sites (no or few false  positives, on average 50% of the true
  163. sites  detected);  2) Nearly all true sites (more  false  positives - on
  164. average of all positions 0.1% false positive  donor sites and 0.4% false
  165. positive  acceptor  sites, at 95% detection of true sites).  The network
  166. performance on sequences from distantly  related  organisms has not been
  167. quantified.  Due to the  non-local  nature of the algorithm sites closer
  168. than 225 nucleotides to the ends of the sequence cannot be assigned.
  169.  
  170.  
  171.  
  172. Column explanations, field identifiers: 
  173.  
  174. POSITION in your sequence (either first or last base in intron).
  175. Joint CONFIDENCE level for the site (relative to the cutoff). 
  176. EXON INTRON gives 20 bases of sequence around the predicted site.
  177. LOCAL is the site confidence from the local network. 
  178. GLOBAL is the site confidence from the global network. 
  179.  
  180. ------------------------------------------------------------------------
  181. The sequence: HUMOPS contains 6953 bases, and has the following composition:
  182. A 1524 C 2022 G 1796 T 1611
  183.  
  184.  
  185. 1) HIGHLY CONFIDENT SITES:
  186. ==========================
  187.  
  188. ACCEPTOR SITES:
  189. POSITION     CONFIDENCE        INTRON EXON         LOCAL   GLOBAL
  190.     4094           0.27    TGTCCTGCAG^GCCGCTGCCC    0.63     0.66
  191.     5167           0.20    TGCCTTCCAG^TTCCGGAACT    0.59     0.64
  192.     3812           0.17    CTGTCCTCAG^GTACATCCCC    0.68     0.54
  193.     3164           0.02    TCCTCCTCAG^TCTTGCTAGG    0.79     0.32
  194.     2438           0.01    TGCCTTGCAG^GTGAAATTGC    0.78     0.33
  195.  
  196. DONOR SITES:
  197. POSITION     CONFIDENCE          EXON INTRON       LOCAL   GLOBAL
  198.     3979           0.38    CGTCAAGGAG^GTACGGGCCG    0.92     0.74
  199.     2608           0.17    GCTGGTCCAG^GTAATGGCAC    0.85     0.54
  200.     4335           0.06    GAACAAGCAG^GTGCCTACTG    0.83     0.41
  201.  
  202.  
  203. 2) NEARLY ALL TRUE SITES:
  204. =========================
  205.  
  206. ACCEPTOR SITES:
  207. POSITION     CONFIDENCE        INTRON EXON         LOCAL   GLOBAL
  208.     4094           0.55    TGTCCTGCAG^GCCGCTGCCC    0.63     0.66
  209.     3812           0.52    CTGTCCTCAG^GTACATCCCC    0.68     0.54
  210.     3164           0.49    TCCTCCTCAG^TCTTGCTAGG    0.79     0.32
  211.     5167           0.49    TGCCTTCCAG^TTCCGGAACT    0.59     0.64
  212.     2438           0.48    TGCCTTGCAG^GTGAAATTGC    0.78     0.33
  213.     4858           0.39    TCATCCATAG^AAAGGTAGAA    0.77     0.20
  214.     3712           0.36    CCTTTTCCAG^GGAGGGAATG    0.88    -0.01
  215.     4563           0.33    CCCTCCACAG^GTGGCTCAGA    0.81     0.05
  216.     5421           0.33    TTTTTTTAAG^AAATAATTAA    0.75     0.13
  217.     3783           0.29    TCCCTCACAG^GCAGGGTCTC    0.64     0.26
  218.     3173           0.25    GTCTTGCTAG^GGTCCATTTC    0.52     0.36
  219.     4058           0.24    CTCCCTGGAG^GAGCCATGGT    0.43     0.51
  220.     1784           0.22    TCACTGTTAG^GAATGTCCCA    0.68     0.08
  221.     6512           0.21    CCCTTGCCAG^ACAAGCCCAT    0.67     0.08
  222.     2376           0.20    CCCTGTCTAG^GGGGGAGTGC    0.61     0.16
  223.     1225           0.18    CCCCTCTCAG^CCCCTGTCCT    0.65     0.07
  224.     1743           0.13    TTCTCTGCAG^GGTCAGTCCC    0.62     0.03
  225.     3834           0.13    GGGCCTGCAG^TGCTCGTGTG    0.26     0.58
  226.     4109           0.13    TGCCCAGCAG^CAGGAGTCAG    0.29     0.54
  227.     6557           0.13    CATTCTGGAG^AATCTGCTCC    0.56     0.12
  228.     1638           0.11    CCATTCTCAG^GGAATCTCTG    0.62     0.00
  229.      247           0.10    GCCTTCGCAG^CATTCTTGGG    0.55     0.11
  230.     6766           0.09    CTATCCACAG^GATAGATTGA    0.64    -0.06
  231.      906           0.08    AATTTCACAG^CAAGAAAACT    0.61    -0.02
  232.     6499           0.08    CAGTTTCCAG^TTTCCCTTGC    0.55     0.06
  233.      378           0.07    GTACCCACAG^TACTACCTGG    0.24     0.52
  234.     3130           0.07    CTGTCTCCAG^AAAATTCCCA    0.51     0.12
  235.     4272           0.07    ACCATCCCAG^CGTTCTTTGC    0.58     0.00
  236.     4522           0.07    TGAATCTCAG^GGTGGGCCCA    0.51     0.12
  237.     5722           0.07    ACCCTCGCAG^CAGCAGCAAC    0.55     0.05
  238.     2316           0.06    CTTCCCCAAG^GCCTCCTCAA    0.40     0.27
  239.     2357           0.06    GCCTTCCTAG^CTACCCTCTC    0.39     0.28
  240.     2908           0.06    TTTGGTCTAG^TACCCCGGGG    0.51     0.10
  241.     4112           0.06    CCAGCAGCAG^GAGTCAGCCA    0.25     0.50
  242.     1327           0.05    TTTGCTTTAG^AATAATGTCT    0.52     0.06
  243.      844           0.04    GTTTGTGCAG^GGCTGGCACT    0.62    -0.11
  244.     1045           0.04    TCCCTTGGAG^CAGCTGTGCT    0.54     0.01
  245.     1238           0.03    CTGTCCTCAG^GTGCCCCTCC    0.50     0.06
  246.     2976           0.03    CCTAGTGCAG^GTGGCCATAT    0.62    -0.12
  247.     3825           0.03    CATCCCCGAG^GGCCTGCAGT    0.16     0.60
  248.     1508           0.02    TGAGATGCAG^GAGGAGACGC    0.43     0.16
  249.     2257           0.02    CTCTCCTCAG^CGTGTGGTCC    0.53     0.00
  250.     5712           0.02    ATCCTCTCAG^ACCCTCGCAG    0.51     0.05
  251.     2397           0.00    CCCTCCTTAG^GCAGTGGGGT    0.41     0.16
  252.     4800           0.00    CATTTTCTAG^CTGTATGGCC    0.47     0.07
  253.     5016           0.00    TGCCTAGCAG^GTTCCCACCA    0.59    -0.11
  254.  
  255. DONOR SITES:
  256. POSITION     CONFIDENCE          EXON INTRON       LOCAL   GLOBAL
  257.     3979           0.75    CGTCAAGGAG^GTACGGGCCG    0.92     0.74
  258.     2608           0.51    GCTGGTCCAG^GTAATGGCAC    0.85     0.54
  259.     4335           0.38    GAACAAGCAG^GTGCCTACTG    0.83     0.41
  260.      656           0.32    ACCCTGGGCG^GTATGAGCCG    0.56     0.66
  261.     5859           0.11    ACCAAAAGAG^GTGTGTGTGT    0.85     0.07
  262.     4585           0.09    GCTCACTCAG^GTGGGAGAAG    0.86     0.03
  263.     1708           0.06    TGGCCAGAAG^GTGGGTGTGC    0.85     0.01
  264.     6196           0.05    CCCAATGAGG^GTGAGATTGG    0.86    -0.01
  265.      667           0.03    TATGAGCCGG^GTGTGGGTGG    0.23     0.71
  266.  
  267. ------------------------------------------------------------------------
  268.