home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / ai / neuraln / 5007 < prev    next >
Encoding:
Text File  |  1993-01-28  |  4.5 KB  |  84 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!munnari.oz.au!spool.mu.edu!agate!usenet.ins.cwru.edu!magnus.acs.ohio-state.edu!cis.ohio-state.edu!news.sei.cmu.edu!bb3.andrew.cmu.edu!crabapple.srv.cs.cmu.edu!news
  3. From: sef@sef-pmax.slisp.cs.cmu.edu
  4. Subject: Re: Help, statistics and learning algorithms
  5. Message-ID: <C1IMz4.MtH.1@cs.cmu.edu>
  6. Sender: news@cs.cmu.edu (Usenet News System)
  7. Nntp-Posting-Host: sef-pmax.slisp.cs.cmu.edu
  8. Organization: School of Computer Science, Carnegie Mellon
  9. Date: Wed, 27 Jan 1993 14:01:46 GMT
  10. Lines: 72
  11.  
  12.  
  13.     From: tstanley@lamar.ColoState.EDU (Thomas R Stanley)
  14.  
  15.     My question is, what are the statistical equivalents of the
  16.     supervised learning methods commonly used in constructing neural nets? 
  17.     More precisely, are there statistical equivalents to the following (see,
  18.     I did check the FAQ first :) learning methods:
  19.     
  20.     ...
  21.     
  22.     I found one reference that said BP was equivalent to least squares
  23.     fitting.  Is this true of the rest of the methods?  If these methods are
  24.     really just variations on classical statistical procedures, then (and here
  25.     is where I show my ignorance) what do I have to gain by using neural nets? 
  26.     Why should I expect these procedures to perform better than a parametric
  27.     method (let's assume for the sake of argument the assumptions of the
  28.     method (e.g. normality) are met) where there exists maximum likelihood
  29.     estimators (MLE's) for the parameters (i.e. weights at the processing
  30.     element or node)?  MLE's guarantee unbiasedness and efficiency (minimum
  31.     variance), you can't get better than that can you?
  32.  
  33. Very brief answer: If there were exact statistical equivalents to all these
  34. methods, then we wouldn't be wasting our time making up new neural net
  35. algorithms and architectures.  Well, some of us might, as more
  36. biologically plausible or more easily parallelizable versions of existing
  37. algortihms, but the field would be much less exciting than it is now, since
  38. many of us think we're developing algorithms with new powers.
  39.  
  40. The real difference is that these neural net models are able to work with a
  41. different (richer, generally more powerful) set of architectures than the
  42. statisticians have been able to use in the past.  We are trying to find an
  43. optimal set of parameters within some model, but the model may involve
  44. cascaded nonlinearities (as in backprop or cascor) or recurrent information
  45. flow and time-dependencies (as in Boltzmann, recurrent cascor,
  46. Williams-Zipser, etc.).  Furthermore, the number, type, and topology of the
  47. basis functions and the number of parameters in the model might themselves
  48. be variable and subject to learning, as in cascor.  (A few statistical
  49. methods, such as MARS, also explore the space of model sizes dynamically.)
  50.  
  51. Neural nets, then, allow you to fit these more complex models to the data.
  52. Usually the tuning of the parameters is by some sort of procedure that
  53. computes or approximates some gradient of an error measure for each weight,
  54. dE/dw and tries to reduce it iteratively -- it's rare in these kinds of
  55. models to be able to solve for the optimal parmaeter set more directly.
  56. the iterative reduction might be simple gradient descent, or it might be
  57. some accelerated method like conjugate gradient or a pseudo-Newton method.
  58. The error functions might be minimization of sum-squared difference at the
  59. output, or something more complex.
  60.  
  61. So the parameter estimation methods used in neural nets will look familiar
  62. and perhaps rather primitive to a staticstician.  It is the richness of the
  63. available set of models that gives us some new power.  Whether this
  64. richness buys you anyhting depends on the problem.  If a plane drawn
  65. through a multi-D parameter space is what you need, traditional statistical
  66. methods win.  You can often get some guarantee of optimality, but that's
  67. optimality within the model framework your statistical method handles, and
  68. with the number of parameters you have chosen.  In a number of more complex
  69. situations, neural nets have been shown to give superior generalization.
  70. If you want to think of this as just a new, nonlinear branch of statistics,
  71. feel free.
  72.  
  73. -- Scott
  74.  
  75. ===========================================================================
  76. Scott E. Fahlman            Internet:  sef+@cs.cmu.edu
  77. Senior Research Scientist        Phone:     412 268-2575
  78. School of Computer Science              Fax:       412 681-5739
  79. Carnegie Mellon University        Latitude:  40:26:33 N
  80. 5000 Forbes Avenue            Longitude: 79:56:48 W
  81. Pittsburgh, PA 15213
  82. ===========================================================================
  83.  
  84.