home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / text / sgml / 1244 < prev    next >
Encoding:
Internet Message Format  |  1992-12-29  |  3.3 KB

  1. Path: sparky!uunet!cs.utexas.edu!asuvax!ncar!csn!sgmlinc!brian
  2. From: brian@sgmlinc.com (Brian E. Travis)
  3. Newsgroups: comp.text.sgml
  4. Subject: Tool for 'automatic' markup
  5. Distribution: world
  6. Message-ID: <725605975snx@sgmlinc.com>
  7. References: <Bzpxqy.C2E@watserv2.uwaterloo.ca>
  8. Date: Tue, 29 Dec 92 05:12:55 GMT
  9. Organization: SGML Associates, Inc.
  10. Reply-To: brian@sgmlinc.com
  11. Lines: 60
  12.  
  13. In article <Bzpxqy.C2E@watserv2.uwaterloo.ca> eric@csg.uwaterloo.ca writes:
  14.  > In article <20180.2b34a24a@ul.ie> murraya@ul.ie writes:
  15.  > >Do anybody out there know anything about an application to `automatically` 
  16.                                                                 ^^^^^^^^^^^^^
  17.                                                                 Be careful!
  18.  
  19.  > >generate markuped text, (possibly according to an sgml DTD) from an ordinary 
  20.  > >ASCII file. 
  21.  > > 
  22.  > There is a product called OmniMark from Software Exoterica in Ottawa, Canada
  23.  > which we have been using to translate text to SGML from a number of different
  24.  > formats including ASCII and WordPerfect. We have found this to be an
  25.  > excellent tool and have used it to translate thousands of pages of text.
  26.  
  27. While OmniMark is an excellent tool for translating text, it is 
  28. far from "automatic". I've used OmniMark and its older brother, 
  29. XTRAN, for several years, and am delighted with its performance 
  30. and reliability. However, it does require a lot of care and feeding. 
  31. The new release of OmniMark (v.2.0) is *very* fast and a joy to 
  32. work with.
  33.  
  34. Another product, FastTAG from Avalanche Development Co in Boulder 
  35. Colorado, is good at recognizing objects on a page, but takes 
  36. some work to separate objects if its recognition engine 
  37. determines that two objects look like one. FastTAG does not have 
  38. a parser in it, but relies on the programmer to insert start and 
  39. end tags as necessary. FastTAG is very good at recognizing 
  40. tabular material. It is almost human in that respect, and the 
  41. developers should be commended.
  42.  
  43. FastTAG employs a "Visual Recognition Engine". This allows the 
  44. program to work with "fuzzy" specifications (e.g., heads contain 
  45. 60% capitalized words). It is also considerably cheaper than 
  46. OmniMark ($1,500-2,500 vs. $15,000-25,000 -- these could be old 
  47. prices).
  48.  
  49. In a recent project, I used OmniMark to recognize the basic 
  50. structure of an ASCII input file, then fired off a FastTAG 
  51. session to mark up tables when encountered. It worked quite well, 
  52. and with a minimum of programming. Look for details in an 
  53. upcoming issue of <TAG>.
  54.  
  55. Then there are the general-purpose and cheap alternatives: AWK, 
  56. Perl, Lex, and the dreaded Snobol. Most of my clients recognize 
  57. that the support provided by vendors selling a specialized tool 
  58. more than outweighs the cost of the product, and select OmniMark 
  59. or FastTAG (or both) as a strategic tool. There are other 
  60. commercial products that do SGML translations, but I have not had 
  61. much experience with them.
  62.  
  63. As a rule, in any translation system, the quality of the data 
  64. coming out is only as good as the consistency (or regularity) of 
  65. the data going in.
  66.  
  67. There is no magic.
  68.  
  69. --
  70. Brian E. Travis                                              brian@sgml.com
  71. SGML Architect,        Managing Editor,               Tele: +1 303 680-0875
  72. InfoDesign Corp.       <TAG> The SGML Newsletter       Fax: +1 303 680-4906
  73.