home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / bionet / software / 2343 < prev    next >
Encoding:
Text File  |  1992-12-30  |  25.6 KB  |  611 lines

  1. Newsgroups: bionet.software
  2. Path: sparky!uunet!cis.ohio-state.edu!magnus.acs.ohio-state.edu!usenet.ins.cwru.edu!gatech!udel!darwin.sura.net!welchgate.welch.jhu.edu!danj
  3. From: danj@welchgate.welch.jhu.edu (Dan Jacobson)
  4. Subject: Re: intron/exon borders
  5. Message-ID: <1992Dec30.220952.25847@welchgate.welch.jhu.edu>
  6. Organization: Johns Hopkins Univ. Welch Medical Library
  7. References: <30DEC199214434286@aardvark.ucs.uoknor.edu>
  8. Date: Wed, 30 Dec 1992 22:09:52 GMT
  9. Lines: 600
  10.  
  11. In article <30DEC199214434286@aardvark.ucs.uoknor.edu> bfrank@aardvark.ucs.uoknor.edu (FRANK,BART) writes:
  12. >Can anyone recommend a good program to screen human genomic seqeunces
  13. >and predict positions of intros/exon borders?
  14. >
  15. >Thanks, 
  16. >Bart Frank
  17. >Internet: BFRANK@AARDVARK.UCS.UOKNOR.EDU
  18.  
  19. There are three mail servers which do this type of thing, namely
  20. GRAIL, GENEID, and GENMARK.  I am including information about these
  21. servers below.
  22.  
  23. Happy Holidays,
  24.  
  25. Dan Jacobson
  26.  
  27. danj@welchgate.welch.jhu.edu
  28.  
  29.  
  30.  
  31. =========================================================================
  32. ////////////////////////////////////////////////////////////////////////
  33. =========================================================================
  34.  
  35.  
  36.  
  37. Welcome to GRAIL (Gene Recognition and Analysis Internet Link)
  38.  
  39. Grail is an interface to a system which will ultimately provide
  40. automated gene assembly from DNA sequence data.  Currently the
  41. system provides analysis of protein coding potential of a DNA
  42. sequence.  The coding recognition module (CRM) uses a multiple-
  43. sensor neural network approach  to identify coding exons than are
  44. at least 100 bases long.  In its current configuration the CRM
  45. identifies 90% of such regions with less than 1 false positive
  46. coding exon per 5 coding exons indicated. Your success rate will
  47. depend on a number of parameters including the G/C content of 
  48. your sequence. In general, coding regions in sequences of low 
  49. G/C content are not as well recognized as those in higher G/C.
  50. Investigation is underway to try and improve the performance 
  51. for low G/C sequences.
  52.  
  53. This part of the system is specifically designed to locate
  54. regions of DNA sequence with protein encoding potential.  The
  55. system has been trained to recognize coding regions in Human DNA
  56. but seems to work well on DNA sequences from other mammals. 
  57. Because the system has not been tested extensively on species
  58. other than human, no claims are made for the predictions of
  59. coding potential on DNA's from other species.
  60.  
  61. To use GRAIL you must first register and get a user ID. 
  62. To become a registered user please send the following
  63. e-mail message to:
  64.  
  65.     grail@ornl.gov
  66.  
  67. Register
  68. Your Name
  69. Your address
  70. Your phone number
  71. your E-mail address
  72.  
  73. To have sequences analyzed send e-mail to:
  74.  
  75.      grail@ornl.gov
  76.  
  77. The message will start with the word "sequences" followed by the
  78. number of sequences you are sending followed by your user ID
  79. followed by the sequences you wish to have analyzed in the
  80. following format:
  81.  
  82. Sequences number_of_sequences  your_user_ID
  83. >seq1name
  84. AAAAAAAA........
  85.  
  86. >seq2name
  87. TTTTTTTT..........
  88.  
  89. etc.
  90.  
  91. For the system to return any interpretation the sequence to be
  92. analyzed must be at least 100 bases long (and not more than
  93. 100kb).  For each sequence the following information will be
  94. returned:
  95. 1.  The score for the coding potential for each position analyzed
  96. on each strand (the f-(forward) strand represents the sequence as
  97. received, and the r-(reverse) strand is the reverse compliment). 
  98. These scores range from  0.0 to 1.0 and a score greater than 0.5
  99. identifies a region with protein encoding potential. Non-coding
  100. regions often have a score of 0.000. To reduce the output, only 
  101. regions with scores of at least 0.01 are reported.
  102. 2.  frame.  In calculating the coding potential, the system
  103. calculates the reading-frame which is "preferred" in the window
  104. over which the calculation is done and this information is
  105. returned for regions with scores over 0.5.
  106. 3.  orf.  The limits between which the preferred frame is open is
  107. returned for windows with scores over 0.5.
  108.  
  109. The second part of the output is the system's interpretation of
  110. the raw data. This output gives the limits (in general a minimum)
  111. of the extent of the coding exon, the most likely strand for the
  112. exon with a probability for the correctness of the strand
  113. assignment, the preferred reading frame for the exon and a
  114. quality assessment.  An interesting phenomenon we have noted
  115. is that some exons seem to have coding character on both strands
  116. or even more coding character on the wrong strand. be aware that strand
  117. assignments are not always correct, and it is sometimes useful to
  118. consider both strands as possible. Any exon with a quality score of
  119. "excellent" is worth further consideration.  Please remember that 
  120. the system is designed to find coding exon of 100 or more bases,
  121. so small coding exons may well be missed.        
  122.  
  123. This implementation of the CRM has been tested on a set of human 
  124. genes containing 102kb of sequence. This set contained 70 coding
  125. exons and the system identified 62 (89%) and assigned them all to
  126. the correct strand. (Though in a larger test set strand assignment
  127. was 90-95% correct). The preferred reading frame assignment was
  128. correct for 60 (96%) of these exons while the frame assignment 
  129. for the other two had some ambiguity. Of the eight missed 6 were 
  130. less than 100 bases long. Of 43 predicted exons with a quality 
  131. score of "excellent" all were actual coding exons. Of predicted
  132. exons scoring "good" 11 of 16 (69%) were expected and of 49
  133. predicted exons with a score of "marginal" only 8 (16%) were
  134. "real". Though this is a rather limited test set, the results
  135. of this analysis give some guidance for interpreting CRM output.
  136.  
  137. N.B.  This is an alpha+ version so we are open to feed-back.
  138. We have a new e-mail address called GRAILMAIL@ORNL.GOV
  139. for user feedback to the GRAIL staff. Or communication can be
  140. addressed specifically to us:
  141.  
  142. Direct questions to:  Richard J. Mural, e-mail:
  143.      m9l@stc10.ctd.ornl.gov
  144.      Phone: 615-576-2938
  145.  
  146. or
  147.  
  148. Edward C. Uberbacher, e-mail:
  149.      uber@msr.epm.ornl.gov
  150.      Phone: 615-574-6134
  151.  
  152. or 
  153.  
  154. GRAIL staff, e-mail:
  155.      grailmail@ornl.gov
  156.  
  157. To receive a copy of this help file send the message "help" to
  158.      grail@ornl.gov. 
  159.  
  160.  
  161. -------------------------------------------------------------
  162. Appendix A: GRAIL updates
  163. -------------------------------------------------------------
  164. Modifications to the GRAIL rule base for constructing the exon
  165. table from the coding probability information have been made as
  166. of Feb. 19, 1992. These changes have been designed to recognize
  167. situations where a single real exon, usually with significant 
  168. extent, is recognized by GRAIL as multiple peaks or multiple exons.
  169. These additional rules interconnect predicated peaks under
  170. circumstances where consecutive predicated regions have the same
  171. preferred reading frame, the frame is open between them, and they
  172. are relatively close together. The result is generally a beneficial
  173. simplification of the exon table and a more accurate representation
  174. of exon structure. This also better adapts GRAIL for use with cDNAs.
  175. Feedback or questions can be addressed to GRAILMAIL@ornl.gov.
  176.  
  177.   The GRAIL staff
  178.  
  179. ===========================================================================
  180. /////////////////////////////////////////////////////////////////////////
  181. ===========================================================================
  182.  
  183.  
  184. >------------------------------ GENE-ID OUTPUT -------------------------------<
  185.  
  186.  
  187.                               GENEID UPDATES
  188.  
  189. 1. The top ranking gene model is now automatically compared to protein
  190.    databases using the BLAST Network Service provided by the National 
  191.    Center for Biotechnology Information.  The results will be mailed to
  192.    you separately and might give you some clues as to the function of
  193.    your gene.
  194.  
  195. 2. NETGENE is now available on this server. Just include the keyword line
  196.    "NetGene" between the keyword line "Genomic Sequence" and your
  197.    sequence.  More information is available in the info file which can be
  198.    obtained by including the keyword line "geneid info".
  199.  
  200. 3. GENEID was originally developed to predict the exon structure of
  201.    full-length pre-mRNA. If the sequence does not contain first or last
  202.    exons, then GENEID will still try to predict first and last exons,
  203.    although they will tend to be short (<15 bp) and have low scores 
  204.    (<0.5). The lack of first or last exons may also affect the prediction
  205.    of internal exons (see item 5. - 7. of the output). A future version
  206.    will allow scanning for internal exons in small gene fragments.
  207.  
  208. 4. If you have success in confirming GENEID predictions, we would like to
  209.    hear about it. Send an email to steen@darwin.bu.edu.
  210.  
  211. -------------------------------------------------------------------------------
  212.  
  213.  
  214.  
  215.  
  216.       GENEID AND NETGENE ONLINE SYSTEMS FOR PREDICTION OF GENE STRUCTURE
  217.                            version 1.0 2/1/1992
  218.  
  219. GENEID
  220. _______________________________________________________________________________
  221. Geneid is an Artificial Intelligence system for analyzing vertebrate genomic
  222. DNA and prediction of exons and gene structure (1). A prototype is implemented
  223. as a fast, automatic email-response system. Users have the option of having 
  224. their DNA sequence analyzed by NetGene (2) simultaneously.
  225.  
  226. REGISTRATION:
  227. Before or simultaneously with submitting a sequence for analysis, you need to
  228. register your name by sending a line with the word "register", followed by
  229. your name and address. Example:
  230.  
  231. register, Don Johnson,  Miami Vice,  Baywiev Marina Dock A12,  Miami, FL  34566-
  232. 1234, U.S.A.
  233.  
  234. NOTE>>  The line can be longer than 80 characters as long as it contains NO
  235. linebreaks, (that is, do NOT press the <Return> key until the end of the
  236. address.)
  237.  
  238. Send the line in a mail to: geneid@darwin.bu.edu.  The registration
  239. information will only be used for maintaining a file of the number and
  240. geographic distribution of the users.
  241.  
  242. SUBMITTING SEQUENCES:
  243. Your sequences must be submitted in the following format (approximately same
  244. format as used for fasta, BLAST and GRAIL):
  245. You can submit only one sequence per mail. Put the sequence after the keyword
  246. "Genomic Sequence" as shown below:
  247.  
  248. Genomic Sequence
  249.  
  250. >seqname
  251. TTGGCCACTCCCTCTCTGCGCGCTCGCTCGCTCACTGAGGCCGGGCGACCAAAGGTCGCC
  252. CGACGCCCGGGCTTTGCCCGGGCGGCCTCAGTGAGCGAGCGAGCGCGCAGAGAGGGAGTG
  253. GCCAACTCCATCACTA...................
  254.  
  255. (Restrict the line length to 80 characters. The seqname is limited to 20
  256. characters).
  257.  
  258. NOTE>>  IF YOUR MAIL DOES NOT CONTAIN THE KEYWORD "GENOMIC SEQUENCE", OR
  259. ANY OTHER KEYWORDS LISTED IN THIS FILE, NO MAIL WILL BE RETURNED TO YOU.
  260.  
  261. If the reply file with the results will exceed the Mail limit of 300
  262. kB, the reply will be split into several files.  On a UNIX system you
  263. could send the File containing the sequence as follows: mail -v
  264. geneid@darwin.bu.edu <File
  265.  
  266.  
  267. LIMITS:
  268. GeneId currently will not accept sequences smaller than 100 bp or larger
  269. than 20 kb.
  270.  
  271. CONFIDENTIALITY:
  272. Your submitted sequence will be deleted automatically immediately after
  273. reception by GeneID.
  274.  
  275.  
  276. ANALYSIS:
  277. GeneID will scan your sequence for potential splice sites, startcodons, and
  278. stopcodons. Then it will try to assemble these into potential first exons,
  279. internal exons, and last exons. Exons will be evaluated according to a number
  280. of characteristics related to coding and splicing, and only likely exons will
  281. be kept. Mutually exchangeable exons (normally overlapping and in the same
  282. frame) will be put together in classes. Only the top 15 ranking first and
  283. last exon classes, and the top 35 ranking internal exon classes
  284. from each sequence will be kept, and assembled into potential gene models with
  285. open reading frame, that will be ranked according to quality of the exons
  286. they contain. The top 20 models will be included in the return mail. Your
  287. return mail will also contain lists of the sites and exons created during the
  288. analysis. GeneID will not analyze the reverse complement of your sequence. If
  289. you suspect a gene on the other strand, submit the reverse complement sequence
  290. separately.
  291.  
  292. TIPS FOR USE OF GENEID:
  293. GeneID will try to identify first, internal, and last exons in each of the
  294. sequences you submit, and try to assemble these into models of ONE likely
  295. gene in each sequence. To avoid missing any exons, the number of exons will
  296. be vastly overpredicted, and only a few of them are likely to be true (they
  297. tend to be the top ranking exons, but a few true exons rank very low). But
  298. these few true exons are likely to be found in the gene models because they
  299. fit together to form a continuous open reading frame. Thus you should look to
  300. the gene models to find a probable coding region.
  301. If you submit a sequence that turns out to contain two genes, the behavior of
  302. GeneID is unpredictable. It could either predict one large gene containing
  303. both, or it could predict only the gene with the most typical charateristics.
  304. If you submit a sequence that contains only part of a gene, GeneID will try to
  305. identify an entire gene in this sequence. Thus the predicted first exon may
  306. actually be part of a true internal exon, or the predicted last exon may be
  307. part of a true internal exon. If GeneID fails to predict any genes, you might
  308. look at the potential exon lists.
  309. Thus you can experiment with input and response, by starting out with sequences
  310. that are not too long (for example less than 10 kb), and see if GeneID is
  311. able to extend the gene if you extend the sequence. If you have very large
  312. sequences, it may be a good idea to request analysis by NetGene first (see
  313. below). NetGene will analyze sequences up to 100 kb, and may find regions
  314. containing exons of very high likelihood. These regions can then be resubmitted
  315. to GeneID for further analysis.
  316. GeneID will not construct models with more than 22 exons.
  317. If the sequence contains frameshift errors in exons, then that may affect the
  318. quality of the prediction in the current implementation.
  319.  
  320. ACCURACY:
  321. In a test on 28 genes from GenBank, 91% of the nucleotides were correctly
  322. predicted as coding or non-coding. Since these two categories are unequally
  323. represented, a better measure of accuracy may be the correlation coefficient,
  324. which was found to be 0.68. See paper for details.
  325.  
  326. ANALYSIS TIME:
  327. Will depend on the load on the system and grows approximately linearly with
  328. the length of the sequence input. Expect at least 1 minute per kb. Longer
  329. response times can occur if the system is temporarily down (check with the
  330. UNIX command: "finger geneid@darwin.bu.edu").
  331.  
  332. FURTHER INFORMATION:
  333. A preprint of a paper describing the development and testing of GeneID is
  334. available as a Stuffit.hqx file for Macintosh. Simply include the line:
  335.  
  336.   Preprint Request
  337.  
  338. in your mail to geneid@darwin.bu.edu, and the manuscript will be mailed to you.
  339.  
  340.  
  341. REFERENCING:
  342. Publication of output from GeneID must be referenced as follows:
  343. (1) Guigo, R., Knudsen, S., Drake, N., and Smith, T. (1992) Prediction of Gene
  344. Structure. Journal of Molecular Biology. 226:141-157.
  345.  
  346.  
  347. PROBLEMS, COMMENTS, AND SUGGESTIONS:
  348. Can be mailed to steen@darwin.bu.edu.
  349.  
  350. Users of the MBCRR and BMERC national computer resources have direct
  351. online access to GeneID from their account. Contact Tom Graf at 
  352. tom@mbcrr.harvard.edu for information on these accounts.
  353.  
  354.  
  355.  
  356. NETGENE
  357. ________________________________________________________________________________
  358. Users now have the option of having their submitted sequence analyzed by NetGene
  359. also. NetGene predicts splice sites and gives information about the likelihood 
  360. of the prediction. NetGene detects both coding regions and splice signals, and 
  361. combines that information to predict both small and large exons (it predicts one
  362. end of the exon, the acceptor or donor site). 
  363.  
  364. Simply include the keyword "NetGene" between the keyword "Genomic Sequence"
  365. and your sequence. The results of the NetGene analysis will be mailed to you
  366. separately. The only difference in sequence format is that NetGene will accept
  367. sequences UP TO 100 kb. Thus, NetGene can be used in conjunction with GeneID
  368. by first submitting a large sequence to NetGene (specify the keyword "NetGene";
  369. GeneID will not respond if the sequence is larger than 20 kb). Regions that
  370. show exons with very high likelihood can then be resubmitted to GeneID (<20kb)
  371. for further analysis. The minimum sequence length that NetGene will faithfully
  372. analyze is 451 bp.
  373.  
  374. REFERENCING AND FURTHER INFORMATION
  375. Publication of output from NetGene must be referenced as follows:
  376. (2) Brunak, S., Engelbrecht, J., and Knudsen, S. (1991) Prediction of Human mRNA
  377. Donor and Acceptor Sites from the DNA Sequence. Journal of Molecular Biology
  378. 220:49-65.
  379.  
  380. PROBLEMS, COMMENTS AND SUGGESTIONS:
  381. Can be mailed to : steen@darwin.bu.edu
  382.  
  383.  
  384.  
  385. ========================================================================
  386. ///////////////////////////////////////////////////////////////////////
  387. ========================================================================
  388.  
  389.  
  390.  
  391.  
  392.  
  393.           GENMARK : SYSTEM FOR PREDICTING PROTEIN CODING REGIONS
  394.                            Version 1.1  4/15/92
  395.                     (Internet Electronic Mail Server)
  396.  
  397.  
  398. GENERAL INFORMATION
  399.  
  400.      GenMark is a software package available from the Georgia Tech     
  401.      School of Applied Biology  &  Office of Information Technology 
  402.      for the quick analysis of newly sequenced DNA.
  403.  
  404.      GenMark 1.1 is based on a special type of Markov chain model of coding   
  405. and noncoding nucleotide sequences. It proves to be a quite sensitive indicator
  406. of protein coding regions in E.Coli and closely related species. The yield of
  407. false positive predictions from the analysis of a 96bp segment is about 10%, for
  408. false negatives, about 22.5% . The process for training the program for other
  409. species is fairly straightforward, and new species will be added later, based on
  410. demand and available information.
  411.  
  412.      GenMark is robust to the presence of ambiguities in newly sequenced DNA -
  413. up to 10% of the sample DNA may be indicated by ambiguity symbols.
  414.  
  415.      GenMark receives its submissions from your local electronic mail service  
  416. and will reply with a list of open reading frames that it recognizes as protein
  417. coding regions. There are also various other options, such as a PostScript(tm) 
  418. graph of the results, which may optionally be requested. GenMark should reply  
  419. within an hour of a sequence's submission by way of electronic mail.
  420.  
  421.  
  422. SUBMISSION OF SEQUENCES FOR ANALYSIS
  423.  
  424.      Nucleotide sequences destined for processing should be sent via E-mail to:
  425.  
  426.     genmark@ford.gatech.edu
  427.  
  428. The subject line of this message must contain one of three keywords:
  429.  
  430.      instructions
  431.      registration
  432.      genmark
  433.  
  434.      If the subject of the message is "instructions", GenMark will reply with
  435. the most current submission instructions and news available on the system.
  436.  
  437.      If the subject of the message is "registration", your message will be
  438. logged in a registration roster. It is NOT necessary to register in order to
  439. use GenMark. If you decide to register, we ask that you include your name, your
  440. E-mail address, and a brief list of the organisms which you would like to see
  441. supported in future versions of GenMark (the family Enterobacteriaceae should
  442. be fairly well represented by the E. Coli information).
  443.  
  444.      We will keep those persons who register informed with further developments
  445. in the software and its options.
  446.  
  447.      If the subject of the message is "genmark", the program will try and
  448. analyze the contents of the message as sequence information. The message
  449. should minimally have the word "data" on a line by itself, followed by the
  450. sequence information (see below for a discussion on how to supply options and
  451. some example submissions).
  452.  
  453.  
  454. SUPPLYING OPTIONS TO GENMARK
  455.  
  456.      No options are required for GenMark to function. The options specified
  457. below just change the manner in which the program works. Only one option is
  458. permissible per line. All of the options must occur before the keyword "data"
  459. and the sequence information. ALL OF THE KEYWORDS MUST BE ENTERED IN LOWERCASE
  460. LETTERS, the sequence itself doesn't matter.
  461.  
  462.      The options:
  463.  
  464.      #            A comment. The rest of the line, after this symbol, is
  465.                   utterly ignored.
  466.  
  467.      address      Alternative E-mail address. After this option, include a
  468.                   valid E-mail address to which the program should send the
  469.                   output to (if it is different than the address from which
  470.                   it was sent).
  471.  
  472.      name         The name of the person who submitted the sequence. This is
  473.                   particularly important for sites where several people will
  474.                   be submitting sequences from the exact same E-mail address.
  475.                   After this option, include the name.
  476.  
  477.      order        The Markov chain order to use. If you don't know what this
  478.                   is don't mess with it. Higher is better, up to a point. The
  479.                   default is 4, though orders 1 through 5 are now available. 
  480.                   After this option, include the new order.
  481.  
  482.      psgraph      Give PostScript(tm) output. This instructs the program to
  483.                   include a PostScript graph of the results which can be
  484.                   printed on any PostScript compatible printer. The page is
  485.                   divided into six horizontal panels with the probability
  486.                   function on the y-axis, and the nucleotide position along
  487.                   the x-axis. The six panels represent the six different frames,
  488.                   panels 1-3 indicate frames 1-3 on the direct strand, and
  489.                   panels 4-6 indicate frames 1-3 on complementary strand. Open
  490.                   reading frame indicators appear along the middle of each
  491.                   graph. Since there's a limit to the size of E-Mail messages,
  492.                   expect the PostScript output to be sent as several messages.
  493.  
  494.      step         Set the window step. This must be stated as a multiple of
  495.                   3 nucleotides. The default is 12. The practical upshot of
  496.                   this setting, is that it allows you some freedom in adjust-
  497.                   ing the resolution of the PostScript(tm) graph. For instance,
  498.                   step setting of 3 gives 4 times the resolution of the default 
  499.                   of 12. 
  500.  
  501.      threshold    Set the open reading frame threshold. This number is the
  502.                   number between 0 and 1 (or between 0 and 100) that is the
  503.                   minimum value of the probability function (a percentage)
  504.                   that an open reading frame must have to be accepted as a
  505.                   protein coding region. The default is 0.50.
  506.  
  507.      title        The title you want to give to your PostScript(tm) graph.
  508.  
  509.      window       The size of the analysis window (if you don't know what 
  510.                   this is, don't play with it). The default is 96 nucleotides 
  511.                   and generally 96 to 144 nucleotides works best.
  512.  
  513.  
  514. SAMPLE SUBMISSIONS TO GENMARK
  515.  
  516. SAMPLE 1
  517.  
  518. > mail genmark@ford.gatech.edu
  519. Subject: genmark
  520. # This example shows a minimal submission, just using the defaults set by 
  521. # the program.
  522. #
  523. # NOTE: this will reply automatically to the exact address that it was sent
  524. # from with only a list of open reading frames.
  525. #
  526. # The actual DNA sequence may have any standard ambiguity DNA symbols in it
  527. # Anything that isn't a letter (like numbers, punctuation, spaces, carriage 
  528. # returns) will just be ignored.  
  529. data
  530. TCSSATGCATGHCATCGATWWCTCAGTCAGNA...
  531.  
  532.  
  533. SAMPLE 2
  534.  
  535. > mail genmark@ford.gatech.edu
  536. Subject: genmark
  537. # This is an example of using all of the different options.
  538. address biologist@college.edu
  539. name John Doe
  540. order 5
  541. psgraph
  542. step 6
  543. threshold 0.50
  544. title John Doe's New Protein Coding Region
  545. window 144
  546. data
  547. TCAGTTCCAAGGTTTCCCAAAGGGTTTTCCCCAAAAGGGG...
  548.  
  549.  
  550. THINGS TO WATCH OUT FOR
  551.  
  552.      The sendmail program used for transferring messages across the network
  553. is limited to messages that are 64000 characters long. Therefore, it is good
  554. to remember to send any imformation you might have in chunks smaller than the
  555. 64000 character limit.
  556.  
  557.      The PostScript(tm) output might take up more space than is permissible
  558. in a mail message so, GenMark will send the graphic in parts that are smaller
  559. than 64K in length.
  560.  
  561.      If you shrink the step down to 3 and send a good sized sequence, the
  562. PostScript(tm) output will be huge, so don't be suprised. Try and reserve doing
  563. that for smaller sequences. For short sequences, you'll want to make the step
  564. smaller. We suggest a step of 6 for any sequence under about 1.5kb long, and
  565. a step of 3 for sequences less than about 800 bases long.
  566.  
  567.      Don't ask the program to make the step larger than the window. It won't
  568. crash the program, but then again you'll probably just get garbage back.
  569.  
  570.      The sequences you send are deleted as soon as they have been processed
  571. by the program. We cannot recover them for you. If you do not receive a
  572. response in a couple of hours, something's wrong. Verify the format of your
  573. submission and resend it.
  574.  
  575.      The graphic response may be effective for analyzing the intron/exon
  576. structure of eukaryotic sequences, but there are no guarrantees. In such a
  577. case, the list of open reading frames would almost certainly be useless, only
  578. the graphic would make any sense.
  579.  
  580.      In many cases, the graphic output can tell you much more information
  581. about the sequence in question than the open reading frame listing alone.
  582. Careful evaulation of the graphic could yield clues as to sequencing errors
  583. and frameshifts.
  584.  
  585.  
  586. REFERENCES
  587.  
  588. Should you refer to the results of GENMARK analysis you should use 
  589. the following reference:
  590.  
  591. Borodovsky M. (1990) Recognition of coding regions in nucleotide sequences.
  592.    In M.F.Frank-Kamenetskii ed. Computer analysis of Genetic Texts, Nauka,
  593.    Moscow. 
  594.  
  595. Borodovsky M. McIninch J. Prediction of Gene Locations Using DNA Markov Chain
  596.    Models (Submitted to CABIOS). 
  597.  
  598.  
  599. QUESTIONS, PROBLEMS, SUGGESTIONS
  600.  
  601. Please send any comments or questions that you might have about the software
  602. or the method of coding region recognition to:
  603.  
  604.      mb56@hydra.gatech.edu  (Mark Borodovsky)
  605.  
  606. or
  607.  
  608.      gt1619a@hydra.gatech.edu  (James McIninch)
  609.  
  610.  
  611.