home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / bionet / software / 2312 < prev    next >
Encoding:
Internet Message Format  |  1992-12-22  |  15.5 KB

  1. Path: sparky!uunet!spool.mu.edu!agate!biosci!lhc!object!ostell
  2. From: ostell@object.nlm.nih.gov (Jim Ostell)
  3. Newsgroups: bionet.software
  4. Subject: Beyond GenBank
  5. Message-ID: <1992Dec22.133801.20561@nlm.nih.gov>
  6. Date: 22 Dec 92 13:38:01 GMT
  7. Sender: news@nlm.nih.gov
  8. Organization: National Library of Medicine
  9. Lines: 277
  10. X-Newsreader: Tin 1.1 PL4
  11.  
  12.  
  13.     NCBI is aware of many of the issues raised in this 
  14. discussion.  Rather than being "afraid to face these tough issues" as 
  15. we have been moving toward possible solutions 
  16. internally at NCBI for the past two years, as many people are aware who 
  17. have offered to participate constructively in the process.  In addition, you all must realize that 
  18. NCBI has only been given authority over GenBank this October.  It will 
  19. take more than a couple of months to make substantial progress.
  20.  
  21.   Further, GenBank is an existing international collaboration, so 
  22. any changes need to be acceptable to the collaborative groups, or 
  23. invisible to them.  Finally, there is a very large contingent of users 
  24. who may be less cognizant of the problems with GenBank today, who are 
  25. very invested in not having the familiar change.  Their needs must be 
  26. addressed by any strategy taken by NCBI as well.
  27.  
  28.     Rather than quoting individual comments, now that a great deal of 
  29. discussion has transpired, I would like to focus on issues, comment on 
  30. what we see the problems to be, then present our plan for addressing the 
  31. issue.
  32.  
  33. Requirements for Creating New Databases:
  34.  
  35.     A central theme in the NCBI strategic plan is support for databases 
  36. built by outside domain experts, yet incorporated into unified user view 
  37. in the central sequence databases.  In order to accomplish this there 
  38. must be:
  39.  
  40.     1) a standard computer readable data exchange language.  It must be 
  41. richer and more flexible than the flatfile format, formally correct as a 
  42. language, yet not force a particular hardware platform, programming 
  43. language, or database technology on the scientific community.
  44.  
  45.     2) a data specification which rigorously defines core objects (such 
  46. as sequences, maps, coding regions) yet allows both the addition of 
  47. custom extensions to existing defined objects and the creation of 
  48. totally new objects.  A migration path must exist for moving the user 
  49. defined objects to the core standard set as certain definitions prove to 
  50. be of widespread utility by dint of experience.
  51.  
  52.     3) stable identifiers for sequences must be supported by central 
  53. databases.  The somewhat casual relationship of LOCUS and ACCESSION with 
  54. particular sequence is intolerable if other investigators build 
  55. databases which cite locations on these sequences.  The ability to 
  56. stably cite features is even more complex, see discussion below.
  57.  
  58.     4) the data model must allow incorporation of data of various types 
  59. from different sources.  The same data must be able to participate in 
  60. different views of the database (eg.  a "typical" beta globin region vs. 
  61. all original pieces of sequence containing a beta globin coding region 
  62. in the database).
  63.  
  64. NCBI Approach to Problem 1:
  65.  
  66.     We have chosen a data exchange language called ASN.1, Abstract 
  67. Syntax Notation 1.  It is an International Standards Organization 
  68. standard (ISO 8824, 8825) for exchange of structured data in a formal, 
  69. yet machine and implementation independent way.  This is not another ad 
  70. hoc file format invented for a special purpose by biologists.  It 
  71. separates the definition of the data structure from any particular block 
  72. of data.  This means that the specification is necessary and sufficient 
  73. to describe data conforming to it from any source.  The specification is 
  74. not a passive documentation of a file format, but is used by software to 
  75. actively check a data stream for accuracy.  Anyone who has been parsing 
  76. flatfiles will appreciate the value of full, automatic data checking by 
  77. machine.
  78.  
  79.     ASN.1 supports modular specification.  That is, one may have a 
  80. module specifying bibliographic entities.  This module can then be 
  81. simply referenced by other modules, such as a sequence module or a 
  82. MEDLINE module, rather than coming up with a new bibliographic component 
  83. for every new database.  Like modular programming, modular data 
  84. specification has profound benefits for data and code reusability and 
  85. maintainability.  The modular design also greatly facilitates linkage 
  86. between databases because they may differ in overall content, but share 
  87. certain defined entities such as literature citations or sequence 
  88. identifiers, which will be compatible with each other, and thus provide 
  89. an avenue for automatic linkage of the other data elements.
  90.  
  91.     In order to facilitate use of ASN.1, NCBI provides software tools 
  92. for developing specifications, validating them, automatically generating 
  93. parsers for any specification, and tools for reading and writing ASN.1 
  94. structured data that run on 14 different hardware and software 
  95. platforms.  See below for tool availability.
  96.  
  97. 2) NCBI Approach to Problem 2:
  98.  
  99.     We have done specifications in ASN.1 for biological sequences, 
  100. including nucleic acids, proteins, and maps of various types.  We have 
  101. an extensive specification for bibliographic information, including 
  102. articles, journals, books, thesis, manuscripts, patents, etc., which 
  103. conforms to the ANSI standard for bibliographic citations.  We have a 
  104. specification for MEDLINE.  We have specifications for a variety of 
  105. features, for alignments of sequences, and for graphs of sequence 
  106. properties.
  107.  
  108.    The specification has been tested by mapping all of GenBank, EMBL, 
  109. DDBJ, SWISSPROT, PIR, and PRF into ASN.1 conforming to the spec.  We 
  110. have also mapped MEDLINE, and the sequences from the Brookhaven 
  111. structural database, among other things.  Thus the specification is a 
  112. superset and a unification of most major existing sources of sequence and 
  113. their annotations.  Much of this has been appearing on the Entrez disks 
  114. for some time.  More will appear over the year.
  115.  
  116.     In addition to integrating the sequence databases themselves into a 
  117. single entity, we have also been addressing the issue of contributed 
  118. information ABOUT the sequences.  We worked with Philipp Bucher, author 
  119. of the Eukaryotic Promoter Database (EPD) on the TxInit (transcription 
  120. initiation) feature definition.  He produces EPD as an ASN.1 formatted 
  121. feature table on every release of EPD.
  122.  
  123.     The ASN.1 specification allows a sequence to have multiple feature 
  124. tables on the same entry, with attribution to the source.  So we will be 
  125. adding EPD information automatically to the sequence data appearing in 
  126. our ASN.1 releases in the near future.  This allows a very rich 
  127. annotation to be provided by a specialist on their own local system, but 
  128. to be automatically presented in a user view as an integrated part of 
  129. the database.  It is our plan to expand this aspect in a big way once we 
  130. have stabilized the sequence data itself (remember we have been GenBank 
  131. only a couple of months).
  132.  
  133.     The ASN.1 spec supports a "User-defined Object".  This allows the 
  134. attachment of structured data defined by the user both to existing 
  135. features (as an extension) (eg. a CdRegion with an extension with more 
  136. information about the translation process), or as completely new feature 
  137. type when something is so new it is more than an extension to an 
  138. existing type.  User-defined types are transparent in ASN.1, yet support 
  139. a completely structured datatype that user code can operate on.  It 
  140. provides an unmoderated forum for new ideas, which code can ignore or 
  141. take advantage of.  If a user defined type becomes popular or important, 
  142. then there already exists a definition for it and possible pre-existing 
  143. data in the database which could be reliably converted to a new standard 
  144. type.
  145.  
  146. NCBI Approach to Problem 3:
  147.  
  148.     In order for outside scientists to cite a sequence location and then 
  149. compare it with other data at a later time, the database must provide 
  150. stable identifiers for sequences.  It must be understood that GenBank 
  151. itself is an international collaboration, and, in addition, we are 
  152. adding other sequence data not traditionally part of GenBank such as 
  153. proteins.  This means NCBI cannot simply stabilize sequence ids by fiat.
  154.  
  155.     However, we are building a database called ID, whose job it is to 
  156. impose stable IDs, called GI (GenInfo) numbers.  A GI is an arbitrary 
  157. unsigned integer which identifies a specific sequence.  If anything in 
  158. the sequence changes (a 1 bp change is enough) it is assigned a new GI.
  159.  
  160.     Bioseqs, in the ASN.1 definition, can have multiple ids.  So, an 
  161. entry that comes from EMBL, say X12345, would entry ID the first time 
  162. and be assigned a GI, say 10.  In the ASN.1 form of that Bioseq, it 
  163. would have both ids, EMBL X12345, and GI 10.  All feature locations, 
  164. etc., would be converted from an EMBL id to GI 10 on input.  Then 
  165. suppose ID gets an update, which is only to the feature table of X12345.  
  166. ID looks up the old X12345, compares the old sequence to the new, and, 
  167. since they are identical, gives the new entry GI 10 again.  Now, suppose 
  168. the sequence for X12345 is changed, but the accession stays the same.  
  169. When ID compares the new sequence with the old, it sees it changed, so 
  170. it assigns a new GI, say 15.  It also adds a history to the ASN.1 form 
  171. of the entry.  GI 15 gets a pointer saying that it used to be GI 10.  GI 
  172. 10 gets a pointer that says it has been replaced by GI 15. A release of 
  173. Entrez made now, would only have the GI 15 entry.  ID would still 
  174. contain both GI 10 and GI 15 however.
  175.  
  176.    A feature submitted that cited GI 10 could reliably be integrated 
  177. into a release on the fly.  When GI 10 is replaced by GI 15, the 
  178. contributor of the feature citing GI 10 could be notified that their 
  179. entry may be invalid and to look at GI 15.  They could confirm that 
  180. their annotation in fact still applies to GI 15 and resubmit.
  181.  
  182.    When one retrieves from ID based on accession X12345 you get the 
  183. latest entry with that accession, GI 15.  However, if you retrieve with 
  184. GI 10, you get the original GI 10 entry, plus the additional information 
  185. that it now has been replaced by GI 15.  Thus ID can provide a data 
  186. system which can operate both on the old unstable ID system as well as 
  187. impose a new, parallel stable id system.
  188.  
  189. NCBI Approach to Problem 4:
  190.  
  191.     In addition to features, the ASN.1 specification supports alignments 
  192. and sequences constructed by assembly of other sequences.  This allows 
  193. submission by outside sources of sequence merge information, placement 
  194. of sequences on genetic and physical maps, assemblies of published 
  195. sequences under a "prototypical" representative, and so on.  These 
  196. constructs can be used both to provide new insights on sequence 
  197. relationships as well as for an author to provide a history of changes 
  198. to a sequence as it is updated or added to.  We are doing a prototype 
  199. project of this sort of thing with the Kenn Rudd E.coli database and 
  200. with Elvin Kabat's Proteins of Immunological Interest.  Already in the 
  201. data released in Entrez, we have assembled segmented sequences from 
  202. GenBank into such higher level entities with pointers to their 
  203. components.
  204.  
  205.     Another type of assembly allowed by the ASN.1 specification is the 
  206. grouping of related sequences together.  In the current Entrez releases 
  207. we have been grouping nucleic acid sequences and their translated 
  208. protein products together.  We will soon begin to build composites where 
  209. the translated protein is replaced by the fully annotated SWISSPROT or 
  210. PIR entry in the integrated view.
  211.  
  212.     This type of assembly by pointer allows construction of a variety of 
  213. higher level views, including the history of an individual sequence, 
  214. merges of sequences, mixed assemblies of partially mapped and partially 
  215. sequenced chromosome regions, collections and alignments of related 
  216. sequences, and so on.  Thus, any given sequence could participate in a 
  217. variety of higher level views, and a user can find the view most 
  218. appropriate to their purposes.  While this solves a number of problems, 
  219. of course it raises new ones, in particular, how to present a number of 
  220. views for the selection of the most appropriate one.
  221.  
  222. Consequences of the Design:
  223.  
  224.    This system allows distributed participation.  The key to 
  225. participating is to offer data in machine readable form.  Corrections to 
  226. splice junctions, additional information on oncogenes, sequence merges, 
  227. integration with maps, can all be submissions to the database.  To facilitate
  228. this process,  NCBI has a visitors program which potential collaborators can 
  229. apply for.  This allows us to pay for visitors to travel to NCBI, for 
  230. those who do not live in our backyard.  Among those who have either paid 
  231. their own way or taken advantage of the visitor program are Amos 
  232. Bairoch, Elvin Kabat, Mitch Sogin (organizing a group of taxonomists to 
  233. help with organisms), Philipp Bucher, Richard Durbin, and many others.
  234. Anyone with an interest in actually building and contributing sequence 
  235. related databases to the public, please contact me to talk it over.  As 
  236. Tom Schnieder knows we have an open invitation to any who wish to 
  237. discuss the future of sequence related databases - all they need do
  238. is take us up on the offer.  Tom... are you listening?
  239.  
  240.     How far along is this?  Well, the ASN.1 specification and software 
  241. tools to map GenBank, EMBL, DDBJ, SWISSPROT, PIR, PRF, PDB, EPD, and 
  242. MEDLINE into a single world of data exist, are tested, and have been 
  243. available for ftp for some time on multiple platforms.  You can log into 
  244. anonymous on ncbi.nlm.nih.gov,
  245. cd toolbox/ncbi_tools
  246. bin
  247. get ncbi.tar.Z
  248. quit
  249.  
  250.     This has all the versions, plus (old) postscript documentation.  In 
  251. the \asn directory (after you uncompress and untar) you can print *.asn 
  252. to see the full spec.  There are demo programs in \demo.  The specification has been 
  253. frozen for a year and has a defined modification cycle.  In six months, 
  254. suggestions for improvements are entertained.  In nine months, the new 
  255. spec is published with sample files.  In twelve months the data is 
  256. released conforming to the new spec.  In ASN.1 it is generally possible 
  257. to make new specs backward compatible with old specs.  The specification 
  258. and software tools have been in use for over a year to process and 
  259. integrate data from the above sources and to produce releases of Entrez 
  260. and GenBank flatfile (a subset of the ASN.1 data).
  261.  
  262.     The ID database is built and is undergoing testing now.  With any 
  263. luck we will use it to produce the next release of Entrez.  With ID 
  264. built, we can begin the replacement of translated proteins with 
  265. annotated protein database entries, integration of contributed features 
  266. such as EPD, and processing of high level views such as EcoSeq.  This 
  267. will begin to appear in the Entrez releases over the next twelve months.  
  268. Obviously, it will also provide the stable sequence IDs that can be used 
  269. by other contributors as well.
  270.  
  271.     We are starting new initiatives to provide stable linkage and 
  272. nomenclature for outside vocabularies as well.  We are working with ATCC 
  273. to link Venter's EST sequences with the ATCC numbers for the clones.  
  274. Mitch Sogin is convening a group of taxonomists to try and rationalize 
  275. the taxonomy and organism nomenclature.  Specific hooks have been placed 
  276. in the Gene-ref and Prot-ref features to allow links to genetic and 
  277. protein property databases.
  278.  
  279.     Again, NCBI repeats the invitation.  If you are willing to do some 
  280. work to move any aspect of this process along, please contact us at 
  281. info@ncbi.nlm.nih.gov.  We will be happy to discuss with you how any 
  282. work you have already done might be integrated into the new efforts or 
  283. how projects you plan might be made compatible.  For our part, we 
  284. encourage as wide a participation as possible.  There is lots to do and 
  285. we welcome any and all to join us...
  286.  
  287.    Jim Ostell
  288.    NCBI
  289.