home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / bionet / software / 2505 < prev    next >
Encoding:
Text File  |  1993-01-22  |  4.5 KB  |  101 lines

  1. Newsgroups: bionet.software
  2. Path: sparky!uunet!haven.umd.edu!darwin.sura.net!lhc!host!gish
  3. From: gish@host.nlm.nih.gov (Warren Gish)
  4. Subject: Re: problem with blast
  5. Message-ID: <1993Jan22.160730.24504@nlm.nih.gov>
  6. Keywords: blastn
  7. Sender: news@nlm.nih.gov
  8. Organization: National Library of Medicine
  9. References: <1993Jan21.231458.19512@medmail.stanford.edu>
  10. Date: Fri, 22 Jan 93 16:07:30 GMT
  11. Lines: 88
  12.  
  13. In article <1993Jan21.231458.19512@medmail.stanford.edu> wnelson@cmgm.stanford.edu (Will Nelson) writes:
  14. >I have been having a problem with blastn.
  15. >The problem is that on successive invocations of blastn,
  16. >I get different results, using the same input sequence.
  17. >
  18. >My input file is this:
  19. >
  20. >
  21. >>DROSATA - LOCUS       DROSATA       254 bp ds-DNA             INV       15-MAR-1989
  22. >canatttgcaaatttaatgaaccccccttcaaaaaatgcgaaaattaacgcaaaaattgatttccctaaa
  23. >tccttcaaaaagtaaataacaactttttggcaaaatctgattccctaatttcggtcattaaataatcagt
  24. >ttttttgccacaactttaaaaataattgtctgaatatggaatgtcatacctcgcnnagctngtaattaaa
  25. >tttccaatgaaactgtgttcaacaatgaaaattacatttttcgg
  26. >
  27.  
  28. Dear Will,
  29.  
  30. What you have observed is a consequence of the ambiguous 'n' letters present
  31. in the query sequence.  An analogous phenomenon can also arise when a database
  32. sequence contains ambiguity codes.  BLASTN searches a compressed form of the
  33. database and, to parallel this, it also uses a compressed form of the query.
  34. In compressed form, letters other than A, C, G, and T are not permitted in the
  35. sequences.  What BLASTN does with Ns is replace them with random selections
  36. from the set {A,C,G,T}.  For the other IUB ambiguity codes, random selections
  37. are made from the appropriate subset of {A,C,G,T}.  For example, any Rs would
  38. be replaced by random selections from the set {A,G}.
  39.  
  40. As you may know, the alignments found by BLASTN can be scored by counting the
  41. number of matches and mismatches, multiplying these two numbers by the
  42. corresponding match reward (default value +5) and mismatch penalty (default
  43. value -4), and adding them together.  Depending on the random replacements that
  44. were made at each position of ambiguity, alignments found in different
  45. invocations of BLASTN may have different initial scores; and/or the alignments
  46. may have different start- and end-points in the query and database sequences.
  47. (An alignment is not supposed to begin or end on a mismatch, as might be
  48. encountered where a random replacement was made).
  49.  
  50. After the database search is finished and the one-line descriptions are
  51. reported, the alignments themselves are then reported.  It is at this point
  52. that the original query and database sequences, including any ambiguity codes
  53. that may be present, are used by BLASTN to re-score the alignments.  When a
  54. final score is different from the initial score, its value is flagged with an
  55. asterisk pointing to the WARNING footnote that will appear at the end of BLASTN
  56. output.  (The initial alignment is not trimmed, however, should it be
  57. subsequently be found to begin or end with one or more mismatches).
  58.  
  59. Pruned example:
  60.  
  61.                                                                      Smallest
  62.                                                                      Poisson
  63.                                                               High  Probability
  64. Sequences producing High-scoring Segment Pairs:              Score  P(N)      N
  65.  
  66. DROSAT353  D.melanogaster 1.688 g/ml satellite DNA sequence.   438  1.4e-27   1
  67.  
  68.  
  69. >DROSAT353 D.melanogaster 1.688 g/ml satellite DNA sequence.
  70.            Length = 353
  71.  
  72.   Plus Strand HSPs:
  73.  
  74.  Score = 429* (118.5 bits), Expect = 8.1e-27, P = 1.4e-27
  75.  Identities = 97/111 (87%), Positives = 97/111 (87%), Strand = Plus
  76.  
  77. Query:   141 TTTTTTGCCACAACTTTAAAAATAATTGTCTGAATATGGAATGTCATACCTCGCNNAGCT 200
  78.              |||| ||| ||||||||||||| ||||||||||||||||||  |||||| ||||  ||||
  79. Sbjct:    62 TTTTCTGCTACAACTTTAAAAACAATTGTCTGAATATGGAAACTCATACGTCGCTGAGCT 121
  80.  
  81. Query:   201 NGTAATTAAATTTCCAATGAAACTGTGTTCAACAATGAAAATTACATTTTT 251
  82.               ||||||||||||||||| ||||||||||||| |||| |||||| |||| |
  83. Sbjct:   122 CGTAATTAAATTTCCAATCAAACTGTGTTCAAAAATGGAAATTAAATTTCT 172
  84.  
  85. <stuff deleted>
  86.  
  87. WARNING:  *12 alignments contained non-ACGT(U) letters.
  88.  
  89.  
  90.  
  91. While this behavior is described in the BUGS section of the BLAST manual page,
  92. the emphasis in that document is on potential cases where the initial score
  93. satisfies the cutoff for reporting matches but the final score falls below the
  94. cutoff.  Worst-case, it is also possible for completely different sets of
  95. matches to be reported in different invocations of BLASTN when ambiguity codes
  96. are present.
  97.  
  98. Sincerely,
  99. --Warren
  100.  
  101.