home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / chi / mail / 299 < prev    next >
Encoding:
Internet Message Format  |  1993-01-23  |  6.1 KB

  1. Path: sparky!uunet!gossip.pyramid.com!decwrl!bu.edu!att!linac!uchinews!machine!sunbird!amiserv!austral!rrezaian
  2. From: rrezaian@austral.chi.il.us (Russell Rezaian)
  3. Newsgroups: chi.mail
  4. Subject: Re: clout closed
  5. Message-ID: <1993Jan21.210431.5767@austral.chi.il.us>
  6. Date: 21 Jan 93 21:04:31 GMT
  7. References: <MWS3SEHMH@linac.fnal.gov> <1993Jan17.001105.7415@austral.chi.il.us> <C10rDt.GoE@ddsw1.mcs.com>
  8. Distribution: chi
  9. Organization: D.O.C. Data Processing Systems
  10. Lines: 117
  11.  
  12. In article <C10rDt.GoE@ddsw1.mcs.com> karl@ddsw1.mcs.com (Karl Denninger) writes:
  13. >In article <1993Jan17.001105.7415@austral.chi.il.us> rrezaian@austral.chi.il.us (Russell Rezaian) writes:
  14. >>Before that we had a remote reboot hang due to a memory error. This has
  15. >>happened about 3 times in the past few months.  We haven't traced the
  16. >>cause of our little memory parity error, but I suspect it might have
  17. >>something to do with line glitches, cosmic rays, heat, or malignant beings
  18. >>from the spirit world.
  19. >
  20. >Or bad memory :-)
  21.  
  22. That had occurred to me also...  :-)
  23.  
  24. >Seriously, do you have the RAM test enabled on the machine?  The PROM
  25. >default is to check only the first meg (not very useful!)  Then again, these
  26. >"ram tests" are frequently not useful anyway, but they are better than
  27. >nothing!
  28.  
  29. Yup, we have the default RAM test on a powerup set, and after the second
  30. time I went into the PROM diags and ran all of the memory tests there.
  31. Nothing, all of the ram tested clean.
  32.  
  33. >Filled virtual space will prevent the inode cache from being properly
  34. >managed, and can manifest as no available inodes.  Of course, you'll also be
  35. >getting complaints about other things (like no swap space), and processes 
  36. >will refuse to start (since there is no backing store or RAM for them 
  37. >available)
  38.  
  39. That pretty much was what happened, and it's didn't take us much time to
  40. trace the problem.  Of course the i-node messages did rather tend to
  41. confuse the issue for a while, but considering they were with respect to
  42. the root partition it wasn't really likely that we were actually out of
  43. i-nodes.  Dead giveaway that the problem's elsewhere.
  44.  
  45. >In the extreme case, this can completely lock you out - unless you get lucky
  46. >and something exits just as you're trying to log on.
  47.  
  48. It did lock us out, someone rebooted the machine and things were fine.
  49.  
  50. >>Now, during this time clout has had problems with spool space, including
  51. >>two instances of the mailbombing of a local client site.  NOT ONCE has
  52. >>this required a physical reboot of clout, and at least three times that I
  53. >>remember it hasn't even had any effect on the function of the clout
  54. >>machine.
  55. >
  56. >It should not, IF you have parititioned your disks correctly.  It will,
  57. >however, cause mail to be dumped on the floor unceremoniously.
  58.  
  59. Actually, no it won't.  At least not for sites in chi.il.us.  While the
  60. clout machine won't be able to accpet mail, all of the site in chi.il.us
  61. that depend on clout have at least one secondary MX site so the mail can
  62. go there.  In fact, on those ocasions when clout has been out of commision
  63. this is exactly what has happened.  It's really neat when something works
  64. the way it's supposed to.
  65.  
  66. >Anyone who runs a system with the mail spool on the root partition deserves 
  67. >what they get.  They will get it.  The pat answer to this is "don't do
  68. >that".
  69.  
  70. We don't.  We're not that stupid.  Anyone with a spool of any kind on the
  71. root partiton is asking for trouble, and IMHO anyone with /tmp on the root
  72. partiton is asking for trouble too...
  73.  
  74. >In general, there are several items which will hose you every time:
  75. >
  76. >1)    Running out of virtual space (RAM + page).  This will, on occasion,
  77. >    crash systems (or it might just lock them up)  It is always bad news.
  78.  
  79. Bingo.  This has happened a few times lately, and we are currently looking
  80. for more RAM.  Depending on how bad things get we might try adding some
  81. swap sace to the system, but I want to put as much real RAM in as possible
  82. before stealing even more of our limited disk space.
  83.  
  84. >2)    Running out of disk space on root (frequently prevents anyone from
  85. >    signing on; ergo, you have a bitch of a time fixing the problem).
  86. >    Some machines also crash under this kind of stress.
  87.  
  88. We haven't had this problem, luckily.  And I hope we don't.  Root is a bt
  89. tight, but that's just my opinion, I know people who as a matter of course
  90. run with less space on root partitons than we now have.
  91.  
  92. >3)    NIS problems can cause service failures or a completely locked up
  93. >    system (its not really locked, but system calls which attempt to do
  94. >    name <> uid mapping hang, so it appears locked).  NIS should NEVER
  95. >    be run unless you have TWO servers on EACH subnet.  NO EXCEPTIONS.
  96. >    Further, NIS should NEVER be run on a machine which is visible from
  97. >    "hostile" locations -- if it is, you're asking for someone to 
  98. >    download your password file and crack the passwords.
  99.  
  100. Only if your password file is available via NIS, ours isn't.
  101.  
  102. >    Filtering on 
  103. >    routers is only marginally useful in combatting this; even if you 
  104. >    prevent contact with the portmapper, people can still get through 
  105. >    by creative port guessing.  (This is less true for "secure" NIS, 
  106. >    but even that isn't very secure)  Run the Sun security (shadow 
  107. >    password and more) package instead, and get rid of NIS.
  108.  
  109. Shadow password isn't too helpful if you don't have any users on a system.
  110. Since we don't have any users on clout there's not much point.  Not to
  111. mention that shadow password files are horribly over-rated.  Adding more
  112. of the Sun C2 package might not be too bad an idea though, we should look
  113. into it!
  114.  
  115. >This is a good start.  CLOUT seems to be missing a few of these points ;-)
  116.  
  117. Well, we've cleaned up the big NIS problem, as a quick fix, and over the
  118. long term I am going to be isolating what ever it is that still wants NIS
  119. and pulling that.  (There may come a time when we want NIS again, but not
  120. yet...)
  121.  
  122. Other than that, the only serious problem that we have discussed that
  123. really applies is memory.  And we're looking!  Somehow it always
  124. comes down to this, all our problems seem to devolve to space.  At least
  125. there's hope on the disk front.
  126. --
  127. Russell Rezaian            |  rrezaian@austral.chi.il.us
  128.   rrezaian@clout.chi.il.us    |  rrezaian@zed.chi.il.us
  129.