home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / ai / neuraln / 4654 < prev    next >
Encoding:
Text File  |  1992-12-28  |  2.0 KB  |  40 lines

  1. Newsgroups: comp.ai.neural-nets
  2. Path: sparky!uunet!cs.utexas.edu!sun-barr!ames!agate!spool.mu.edu!yale.edu!jvnc.net!news.edu.tw!news!Net.nthu.edu.tw!News.nthu.edu.tw!dr788307
  3. From: dr788307@cs.nthu.edu.tw (dr78)
  4. Subject: Neural Reinforcement Learning?
  5. Message-ID: <1992Dec28.142832.16169%dr788307@cs.nthu.edu.tw>
  6. Sender: news@News.nthu.edu.tw (Net News)
  7. Organization: National Tsing Hua University (HsinChu)
  8. Date: Mon, 28 Dec 1992 14:28:32 GMT
  9. Lines: 29
  10.  
  11.   Sutton's Adaptive Heuristic Critic (AHC) and Watkin's Q-learning are
  12. two popular reinforcement learning mechanisms, and their original designs
  13. are based on storing utilities on a look-up table structure. In order to 
  14. properly predict (interpolate) utilities of unvisited states and to 
  15. compress the utility storage, many literature tried and reported progresses 
  16. in neural implementation. 
  17.  
  18.   However, this will introduce new problems: (1) updating the utility of a state
  19. may undesiredly cause a large change the utilities of other states. Besides,
  20. (2) the training set seems to be more or less conflict since we have many utilities
  21. needed to assign to a state in the updating process. 
  22.  
  23.   If we just use the on-line backpropagation to train a MLP (feeding a pair
  24. of state and its new utility), the problem (1) and (2) will occur and (2) 
  25. emphasizes the problem (1).  If we use a batch backpropagation, the table storage
  26. will be necessary to keep a single utility of each state (to avoid the problem (2)).
  27. Obviously, this kind of neural implementation is guided by the symbolic knowledge
  28. and violates the original purpose of saving memory. 
  29.  
  30.   To date, the reported results seem to be limited on small applications. Thus,
  31. the batch backpropagation seems to be the way which those researchers chose. Am
  32. I right? But, this seems to a bad neural implementation since the training set
  33. (stored in a table) is guided by symbolic knowledges. 
  34.  
  35.   Any comments will be highly appreciated!!
  36.  
  37. -------------------------------------------------------------------------------
  38. Hown-Wen Chen
  39. e-mail: dr788307@cs.nthu.edu.tw
  40.