home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / sci / engr / control / 377 < prev    next >
Encoding:
Internet Message Format  |  1992-12-22  |  2.6 KB

  1. Path: sparky!uunet!pipex!bnr.co.uk!uknet!cam-eng!dsl!ttj10
  2. From: ttj10@eng.cam.ac.uk (Tim Jervis)
  3. Newsgroups: sci.engr.control
  4. Subject: Technical report: real pole balancing
  5. Message-ID: <TTJ10.92Dec22123522@dsl.eng.cam.ac.uk>
  6. Date: 22 Dec 92 17:35:22 GMT
  7. Sender: ttj10@eng.cam.ac.uk (T.T. Jervis)
  8. Organization: Engineering Department, Cambridge University, England.
  9. Lines: 61
  10. Nntp-Posting-Host: dsl.eng.cam.ac.uk
  11.  
  12. The following technical report is available via the Cambridge
  13. University ftp archive svr-ftp.eng.cam.ac.uk. Instructions for
  14. retrieval from the archive follow the summary.
  15.  
  16. ------------------------------------------------------------------------------
  17.          
  18.          Pole Balancing on a Real Rig using a
  19.           Reinforcement Learning Controller
  20.  
  21.  
  22.           Timothy Jervis and Frank Fallside
  23.  
  24.  
  25.          Cambridge University Engineering Department
  26.               Cambridge CB2 1PZ, England
  27.  
  28.  
  29.  
  30.                    Abstract
  31.  
  32. In 1983, Barto, Sutton and Anderson~\cite{Barto83} published details
  33. of an adaptive controller which learnt to balance a simulated inverted
  34. pendulum. This {\em reinforcement learning} controller balanced the
  35. pendulum as a by-product of avoiding a cost signal delivered to the
  36. controller when the pendulum fell over. This paper describes their
  37. controller learning to balance a real inverted pendulum.  As far as
  38. the authors are aware, this is the first example of a reinforcement
  39. learning controller being applied to a real inverted pendulum learning
  40. in real time.
  41.  
  42. The results show that the controller was able to improve its
  43. performance as it learnt, and that the task is computationally
  44. tractable. However, the implementation was not straightforward.
  45. Although some of the controller's parameters were tuned automatically
  46. by learning, some were not and had to be carefully set for successful
  47. control. This limits the usefulness of this kind of learning
  48. controller to small problems which are likely to be better controlled
  49. by other means. Before a learning controller can tackle more difficult
  50. problems, a more powerful learning scheme has to be found.
  51.  
  52. ------------------------------------------------------------------------------
  53.  
  54.               FTP INSTRUCTIONS
  55.  
  56.         unix> ftp svr-ftp.eng.cam.ac.uk
  57.         Name: anonymous
  58.         Password: (your_userid@your_site)
  59.         ftp> cd reports
  60.         ftp> binary
  61.         ftp> get jervis_tr115.ps.Z
  62.         ftp> quit
  63.         unix> uncompress jervis_tr115.ps.Z
  64.         unix> 
  65.  
  66.         If "ftp svr-ftp.eng.cam.ac.uk" does not work,
  67.         you might try "ftp 129.169.24.20".
  68. --
  69.   _/_/_/_/_/  _/  _/      _/   Cambridge University
  70.      _/         _/  _/_/  _/_/    Engineering Department,
  71.     _/         _/  _/  _/  _/     Trumpington Street,
  72.                                   Cambridge CB2 1PZ, England
  73.