home *** CD-ROM | disk | FTP | other *** search
/ Chip 1998 February / CHIP_2_98.iso / doc / FAQ / GCC-SIG11-FAQ < prev    next >
Text File  |  1997-03-27  |  32KB  |  616 lines

  1.  
  2.                      SIGNAL 11 WHILE COMPILING THE KERNEL
  3.                                        
  4.    This FAQ describes what the possible causes are for an effect that
  5.    bothers lots of people lately. Namely that a linux(*)-kernel (or any
  6.    other large package for that matter) compile crashes with a "signal
  7.    11". The cause can be software or (most likely) hardware. Read on to
  8.    find out more.
  9.    (*) Of course nothing is Linux specific. If your hardware is flaky,
  10.    Linux, Windows 3.1, FreeBSD, Windows NT and NextStep will all crash.
  11.    
  12.    If all is ok, this is now part of the Mini-Howto collection for Linux.
  13.    If you're interested, the Web version of this document is now (june
  14.    '96) accessed about 300 times per week. (a growth of a factor of three
  15.    in 3 months)
  16.    If you are not reading this at http://www.bitwizard.nl/sig11/, that's
  17.    where you can find the most recent version.
  18.    Email me at R.E.Wolff@BitWizard.nl if you find any spelling errors,
  19.    worthwhile additions or with an "it also happened to me" story. (Note
  20.    that I reject some suggested additions on my belief that it is
  21.    technical nonsense).
  22.      _________________________________________________________________
  23.    
  24. The Sig11 FAQ
  25.  
  26.    
  27.   QUESTION
  28.   
  29.    My kernel compile crashes with
  30.  
  31.       gcc: Internal compiler error: program cc1 got fatal signal 11
  32.  
  33.    What is wrong with the compiler? Which version of the compiler do I
  34.    need? Is there something wrong with the kernel?
  35.    
  36.   ANSWER
  37.   
  38.    Most likely there is nothing wrong with your installation, your
  39.    compiler or kernel. It very likely has something to do with your
  40.    hardware. There are a variety of subsystems that can be wrong, and
  41.    there is a variety of ways to fix it. Read on, and you'll find out
  42.    more.
  43.      _________________________________________________________________
  44.    
  45.   QUESTION
  46.   
  47.    Ok it may not be the software, How do I know for sure?
  48.    
  49.   ANSWER
  50.   
  51.    First lets make sure it is the hardware that is causing your trouble.
  52.    When the "make" stops, simply type "make" again. If it compiles a few
  53.    more files before stopping, it must be hardware that is causing you
  54.    troubles. If it immediately stops again (i.e. scans a few directories
  55.    with "nothing to be done for xxxx" before bombing at exactly the same
  56.    place), try
  57.  
  58.         dd if=/dev/hda of=/dev/null bs=1024k count=16
  59.  
  60.    Change "hda" to "sda" if you have a SCSI disk. Change the count=16 to
  61.    the number of megabytes of main memory that you have. This will cause
  62.    the first 16Mb of your harddisk to be read from disk, forcing the C
  63.    source files and the gcc binary to be reread from disk the next time
  64.    you run it. Now type make again. If it still stops in the same place
  65.    I'm starting to wonder if you're reading the right FAQ, as it is
  66.    starting to look like a software problem after all.... Take a peek at
  67.    the "what are the other possibilities" question..... If without this
  68.    "dd" command the compiler keeps on stopping at the same place, but
  69.    moves to another place after you use the "dd" you definitely have a
  70.    disk->ram transfer problem.
  71.    
  72.   QUESTION
  73.   
  74.    What does it really mean?
  75.    
  76.   ANSWER
  77.   
  78.    Well, the compiler accessed memory outside its memory range. If this
  79.    happens on working hardware it's a programming error inside the
  80.    compiler. That's why it says "internal compiler error". However when
  81.    the hardware occasionally flips a bit, gcc uses so many pointers, that
  82.    it is likely to end up accessing something outside of its addressing
  83.    range. (random addresses are mostly outside your addressing range, as
  84.    not very many people have a significant part of 4G as mainmemory...
  85.    :-)
  86.      _________________________________________________________________
  87.    
  88.   QUESTION
  89.   
  90.    Ok. I may have a hardware problem what is it?
  91.    
  92.   ANSWER
  93.   
  94.    If it happens to be the hardware it can be:
  95.      * Main memory. Your main memory might be getting an occasional bit
  96.        wrong. If this happens on the "writes", you won't see any parity
  97.        errors. There are several ways to fix it:
  98.           + The memory speed might be too slow. Increase the number of
  99.             wait states in the BIOS.
  100.             This could be caused by the AMIBIOSs autoconfig option: it
  101.             may only know about 486s running upto 80 MHz, whereas you
  102.             currently buy 100 MHz versions. -- Pat V.
  103.           + The memory speed might be too slow. Get faster DRAM SIMMs.
  104.             For example current ASUS motherboards require 60 ns DRAM if
  105.             you have a 100, or 133 MHz processor (Take a look in your
  106.             motherboard's manual). I've heard reports that 70 ns also
  107.             works, reliability problems like random sig11's belong to the
  108.             possibilities.... (I wouldn't take the risk) -- Andrew
  109.             Eskilsson (mpt95aes@pt.hk-r.se)
  110.           + There is a bad chip on one of the SIMMs. If you own more than
  111.             1 bank of memory you might be able to pull SIMMs and see if
  112.             the problem goes away. Be careful for STATIC!!!
  113.           + We handled a hard one here the last week. It turned out that
  114.             ALL 4 16Mb SIMMs were broken in that they dropped a bit
  115.             around once per hour. This was sufficient to crash the
  116.             machine in about a day, or crash a kernel compile in about an
  117.             hour. A new set of SIMMs works perfectly. It took a long
  118.             while to diagnose this one, because all 4 of the SIMMs were
  119.             affected equally, so leaving half of the memory out didn't
  120.             change things.
  121.             Mark Kettner (kettner@cat.et.tudelft.nl) reports that his
  122.             system was capable of running my memory test for 2300 times
  123.             faultlessly, but then detected around 10 errors. It then
  124.             continued detecting no faults for a few hundred runs
  125.             again..... In his case running kernel compiles was a much
  126.             more efficient way of detecting the health of the system (in
  127.             the most stable configuration the system could compile around
  128.             14 kernels before going bzurk). His solution was to "trade
  129.             in" the old memory for a so called "memory upgrade". The
  130.             shopkeeper then "tests" in their memory tester, which OKs the
  131.             memory. he then got a good discount on the new memory :-).
  132.           + It seems that some 30-72 pin converters can cause memory
  133.             errors. (It hasn't been proven whether the 4 SIMMS in the
  134.             converter had gone bad, or if the SIMM converter was at
  135.             fault. The SIMMS had been functioning perfectly for years
  136.             before they were moved into the converter....) -- Naresh
  137.             Sharma (n.sharma@is.twi.tudelft.nl). Paul Gortmaker
  138.             (paul.gortmaker@anu.edu.au) adds that the SIMM converters
  139.             should have at least 4 bypass capacitors to keep the power
  140.             supply of the SIMMs clean.
  141.           + If the refresh of the DRAM isn't functioning properly, the
  142.             DRAMs will slowly lose their information. Some (486)
  143.             motherboards stop refreshing correctly when you turn on
  144.             "hidden refresh". There seems to be a program called "dram"
  145.             around that can also mess up your refresh to cause sig11
  146.             problems. -- Hank Barta (hank@pswin.chi.il.us), Ron Tapia
  147.             (tapia@nmia.com)
  148.           + The number of waitstates could be too low. Increase the
  149.             number of waiststates in the BIOS for a fix. The Intel
  150.             Endeavour board doesn't allow you to increase the memory
  151.             waitstates. This can supposedly be fixed by flashing a MR
  152.             BIOS into the motherboard. -- David Halls
  153.             (david.halls@cl.cam.ac.uk)
  154.      * Cache memory. Your cache memory might be getting an occasional bit
  155.        wrong. Caches are usually not equipped with parity. You can
  156.        diagnose that this is the case by turning off the cache in the
  157.        BIOS. If the problem goes away it is probably the cache. There are
  158.        several ways to fix it:
  159.           + The cache memory speed might be too slow. Increase the number
  160.             of wait states in the BIOS.
  161.           + The cache memory speed might be too slow. Get faster SRAM
  162.             chips.
  163.           + There is a bad chip in your cache. It is unlikely that you
  164.             can swap chips as easily as with SIMMs. Be careful for
  165.             STATIC!!! -- Joseph Barone (barone@mntr02.psf.ge.com)
  166.           + The cache might be set to "write back" while there is a bug
  167.             in the write back implementation of your chipset. The
  168.             motherboard where this happened was a "MV020 486VL3H" (with
  169.             20M RAM) -- Scott Brumbaugh (scottb@borris.beachnet.com)
  170.             (Mail address doesn't work. Scott: Get back at me with a
  171.             valid return address)
  172.           + The motherboard may require a jumper to switch between Cache
  173.             On A Stick and the old-fashioned dip chip cache. (JP16 on Rev
  174.             2.4 ASUS motherboards)
  175.      * Disk transfers. A block coming from disk might incur an occasional
  176.        bit error.
  177.           + If you have this problem, you are most likely to have to do
  178.             the "dd" command to "move" the problem from one place to the
  179.             next....
  180.           + Some IDE harddisks cannot handle the "irq_unmasking" option.
  181.             This may only show under load. And it could show as a sig11.
  182.           + Do you have a kalok 31xx? Throw it in the garbage. (or sell
  183.             it to a DOS user)
  184.           + SCSI? Termination? A short bus might still work (unreliably
  185.             that is) with bad termination. A long bus might get errors
  186.             anyway. Can you turn on parity on the host and the DISK?
  187.      * Overclocking. Some vendors (or private people) think it is
  188.        possible to overclock some CPUs. Some of them may work others
  189.        don't. You might want to try turning off turbo (note that most
  190.        pentium motherboards no longer support a non-turbo mode) and see
  191.        if the problem goes away. Check the speed of your CPU compared
  192.        (printed on it, carefully remove the fan if necessary) with what
  193.        the motherboard jumpers or BIOS settings say.... It seems that
  194.        even Intel may make mistakes in this area. I now have a reliable
  195.        report that an official 120MHz pentium would Sig11 at 120, but not
  196.        at 100MHz. As the motherboard is only stressed HARDER for a 100
  197.        MHz processor, I think it is unlikely that this has anything to do
  198.        with the motherboard. Moreover a new 120MHz processor is now
  199.        functioning correctly. -- Samuel Ramac (sramac@vnet.ibm.com).
  200.      * CPU temperature. A high speed processor might overheat without the
  201.        correct heat sink. This can also be caused by a failing fan. (My
  202.        personal '486 has a fan that takes a few minutes to get up to
  203.        speed. It probably will never really FAIL because it's now
  204.        decommisioned :-). The CPU can become erratic if "pushed" by
  205.        compiling a kernel. This problem becomes worse if you disable
  206.        "HALT" on the LILO command line. Linux tries to power-down the CPU
  207.        by executing the "halt" instruction when the system is idle. This
  208.        preserves power, and therefore the CPU temperature drops when the
  209.        system is idle. You therefore might not notice this problem when
  210.        simply editing, and it might only surface after hours of CPU
  211.        intensive jobs when the ambient temp is high. If you have a
  212.        Pentium with Fdiv bug, it is advisable to trade it in at Intel.
  213.        They will send you a new one that preconfigured with an official
  214.        Intel-approved FAN. Also note that most normal glues are very bad
  215.        thermal conductors. There is special thermal glue available that
  216.        should be used when a fan needs to be glued to a CPU. -- Arno
  217.        Griffioen (arno@ixe.net), -- W. Paul Mills (wpmills@midusa.net) --
  218.        Alan Wind (wind@imada.ou.dk)
  219.        
  220.        Intel says that the allowable temperature ranges for the outside
  221.        of your CPU is:
  222.        0 to +85 C: Intel486 SX, Intel486 DX, IntelDX2, IntelDX4 processor
  223.        0 to +95 C: IntelDX2, IntelDX4 OverDrive. processors
  224.        0 to +80 C: 60 MHz Pentium. processor
  225.        0 to +70 C: 66 to 166 MHz Pentium processor
  226.        For information on how to measure this and some confirmation of
  227.        what I say here, see:
  228.        http://pentium.intel.com/procs/support/faqs/iarcfaq.htm
  229.        (Especially questions Q6, Q7 and Q13)
  230.      * CPU voltage. Some motherboards allow you to select the CPU
  231.        voltage. Some motherboards badly document the jumper settings that
  232.        manage this. It seems that a 5V processor might still work most of
  233.        the time at 3.3 volts..... -- Karl Heyes (krheyes@comp.brad.ac.uk)
  234.      * RAM voltage. It seems that vendors are preparing for 3.3V RAM now.
  235.        Most memory is still 5V. (but be careful.... 3.3v RAM will break
  236.        at 5V.....)
  237.      * Local bus overloading. At 25 MHz you're allowed to have 3
  238.        VesaLocalBus cards, At 33MHz only two, at 40MHz only one and guess
  239.        what at 50MHz NONE! Some systems start acting flaky when you
  240.        overload the VLB. Even when your VLB isn't overloaded (over the
  241.        limits stated above), the system may loose a few nanoseconds of
  242.        margin by adding an extra VLB card, so you might need to add a
  243.        cache wait state or something after you've added a new VLB
  244.        card.... -- Richard Postgate (postgate@cafe.net)
  245.      * Power management. Some laptops (and nowadays also "green" pc's)
  246.        have power management features. These might interfere with Linux.
  247.        One feature might save a memory image to HD and restore the RAM
  248.        when you press a key. This sounds like fun, but Linux device
  249.        drivers don't expect that the hardware has been turned off between
  250.        two acesses. Some may recover, but others not. Try turning it off,
  251.        or enabeling "APM support" in your kernel. -- Elizabeth Ayer
  252.        (eca23@cam.ac.uk)
  253.      * The CPU itself. Several people are reporting that they have found
  254.        nothing to blame excpet the CPU. This could also have been an
  255.        incompatibility between the CPU and the motherboard. A wave of
  256.        reports concerning Intel CPUs has passed (Feb '97). A new wave of
  257.        reports is coming in that are blaiming Cyrix/IBM 6x86 CPUs.
  258.        Although it could indeed be the CPU, it could also be that your
  259.        motherboard is incompatible with your CPU. At least I've seen a
  260.        motherboard manual mention that it isn't compatible with older
  261.        6x86's. My own experience is that these devices aren't bad at all,
  262.        and on a kernel compile I benchmarked a P166+ to be equivalent
  263.        with a P155 (1.3 times faster than a P120).
  264.        
  265.    
  266.      _________________________________________________________________
  267.    
  268.   QUESTION
  269.   
  270.    RAM timing problems? I fiddled with the bios settings more than a
  271.    month ago. I've compiled numerous kernels in the mean time and nothing
  272.    went wrong. It can't be the RAM timing. Right?
  273.    
  274.   ANSWER
  275.   
  276.    Wrong. Do you think that the RAM manufacturers have a machine that
  277.    makes 60ns RAMs and another one that makes 70ns RAMs? Off course not!
  278.    They make a bunch, and then test them. Some meet the specs for 60 ns,
  279.    others don't. Those might be 61 ns if the manufacturer would have to
  280.    put a number to it. In that case it is quite likely that it works in
  281.    your computer when for example the temperature is below 40 degrees
  282.    centigrade (chips become slower when the temp rises. That's why some
  283.    supercomputers need so much cooling).
  284.    
  285.    However "the coming of summer" or a long compile job may push the
  286.    temperature inside your computer over the "limit". -- Philippe Troin
  287.    (ptroin@compass-da.com)
  288.      _________________________________________________________________
  289.    
  290.   QUESTION
  291.   
  292.    Memory problems? My BIOS tests my memory and tells me its ok. I have
  293.    this fancy DOS program that tells me my memory is OK. Can't be memory
  294.    right?
  295.    
  296.   ANSWER
  297.   
  298.    Wrong. The memory test in the BIOS is utterly useless. It may even
  299.    occasionally OK more memory than really is available, let alone test
  300.    whether it is good or not.
  301.    A friend of mine used to have a 640k PC which had a single 64kbit chip
  302.    instead of a 256kbit chip in the second 256k bank. This means that he
  303.    effectively had 320k working memory. Sometimes the BIOS would test
  304.    384k as "OK". Anyway, only certain applications would fail. It was
  305.    very hard to diagnose the actual problem....
  306.    Most memory problems only occur under special circumstances. Those
  307.    circumstances are hardly ever known. gcc Seems to exercise them. Some
  308.    memory tests, especially BIOS memory tests, don't. I'm working on
  309.    creating a floppy with a linux kernel and a good memory tester on it.
  310.    Bug me about it again......
  311.    The floppy is not ready yet, but if you have a working Linux system
  312.    you could try my memtesting program. It is available from
  313.    http://www.bitwizard.nl/sig11/memtest.tar.gz (binary) and from
  314.    http://www.bitwizard.nl/sig11/memtest.tgz.uue (uuencoded tarred
  315.    gzipped). I'm working on something even better, but you will have to
  316.    wait for that.....
  317.      _________________________________________________________________
  318.    
  319.   QUESTION
  320.   
  321.    Does it only happen when I compile a kernel?
  322.    
  323.   ANSWER
  324.   
  325.    Nope. There is no way your hardware can know that you are compiling a
  326.    kernel. It just so happens that a kernel compile is very tough on your
  327.    hardware, so it just happens a lot when you are compiling a kernel.
  328.      * People have seen "random" crashes for example while installing
  329.        using the slackware installation script.... -- dhn@pluto.njcc.com
  330.      * Others get "general protection errors" from the kernel (with the
  331.        crashdump). These are usually in /var/adm/messages. --
  332.        fox@graphics.cs.nyu.edu
  333.        
  334.    
  335.      _________________________________________________________________
  336.    
  337.   QUESTION
  338.   
  339.    Nothing crashes on NT, Windows 95, OS/2 or DOS. It must be something
  340.    Linux specific.
  341.    
  342.   ANSWER
  343.   
  344.    First of all, Linux stresses your hardware more than all of the above.
  345.    Some OSes like the Microsoft ones named above crash in unpredictable
  346.    ways anyway. Nobody is going to call Microsoft and say "hey, my
  347.    windows box crashed today". If you do anyway, they will tell you that
  348.    you, the user, made an error (see the interview with Bill Gates in a
  349.    German magazine....) and that since it works now, you should shut up.
  350.    Those OSes are also somewhat more "predictable" than Linux. This means
  351.    that Excel might always be loaded in the exact same memory area.
  352.    Therefore when the bit-error occurs, it is always excel that gets it.
  353.    Excel will crash. Or excel will crash another application. Anyway, it
  354.    will seem to be a single application that fails, and not related to
  355.    memory.
  356.    What I am sure of is that a cleanly installed 1.2.13 Linux system
  357.    should be able to compile the kernel without any errors. Certainly no
  358.    sig-11 ones.
  359.    Really Linux and gcc stress your hardware more than other OSes. If you
  360.    need a non-linux thingy that stresses your hardware to the point of
  361.    crashing, you can try winstone. -- Jonathan Bright
  362.    (bright@informix.com)
  363.      _________________________________________________________________
  364.    
  365.   QUESTION
  366.   
  367.    Is it always signal 11?
  368.    
  369.   ANSWER
  370.   
  371.    Nope. Other signals like six and four also occur occasionally. Signal
  372.    11 is most common though.
  373.    
  374.    As long as memory is getting corrupted, anything can happen. I'd
  375.    expect bad binaries to occur much more often than they really do.
  376.    Anyway, it seems that the odds are heavily biased towards gcc getting
  377.    a signal 11. Also seen:
  378.      * free_one_pmd: bad directory entry 00000008
  379.      * EXT2-fs warning (device 08:14): ext_2_free_blocks bit already
  380.        cleared for block 127916
  381.      * Internal error: bad swap device
  382.      * Trying to free nonexistent swap-page
  383.      * kfree of non-kmalloced memory ...
  384.      * scsi0: REQ before WAIT DISCONNECT IID
  385.      * Unable to handle kernel NULL pointer dereference at virtual
  386.        address c0000004
  387.      * put_page: page already exists 00000046
  388.        invalid operand: 0000
  389.      * Whee.. inode changed from under us. Tell Linus
  390.      * crc error -- System halted (During the uncompress of the Linux
  391.        kernel)
  392.      * Segmentation fault
  393.      * "unable to resolve symbol"
  394.      * make [1]: *** [sub_dirs] Error 139
  395.        make: *** [linuxsubdirs] Error 1
  396.      * X Windows can terminate with a "caught signal xx"
  397.        
  398.    The first few ones are cases where the kernel "suspects" a
  399.    kernel-programming-error that is actually caused by the bad memory.
  400.    The last few point to application programs that end up with the
  401.    trouble.
  402.    
  403.    -- S.G.de Marinis (trance@interseg.it)
  404.    -- Dirk Nachtmann (nachtman@kogs.informatik.uni-hamburg.de)
  405.    
  406.      _________________________________________________________________
  407.    
  408.   QUESTION
  409.   
  410.    What do I do?
  411.    
  412.   ANSWER
  413.   
  414.    Things to try when you want to find out what is wrong...
  415.      * Disable the cache (BIOS) (or pull it out if it's on a "stick").
  416.      * Jumper the motherboard for lower CPU and bus speed.
  417.      * boot kernel with "linux mem=4M" (disables memory above 4Mb).
  418.      * Fiddle with settings of the refresh (BIOS)
  419.      * Try taking out half the memory. Try both halves in turn.
  420.      * Try borrowing memory from someone else. Preferably this should be
  421.        memory that runs Linux flawlessly in the other machine...
  422.        (Sillicon graphics Indy machines are also nice targets to borrow
  423.        memory from)
  424.      * If you want to verify if a solution really works try the
  425.        following:
  426.  
  427.     tcsh
  428.     cd /usr/src/linux
  429.     make zImage
  430.     foreach i (0 1 2 3 4 5 6 7 8 9)
  431.       foreach j (0 1 2 3 4 5 6 7 8 9)
  432.         make clean;make zImage > log."$i"$j
  433.       end
  434.     end
  435.    All the resulting logfiles should be the same. (The first "make
  436.        zImage" makes sure that the dependencies are already
  437.        generated.....) This takes around 24 hours on a 100MHz pentium
  438.        with 16Mb of memory. (and about 3 months on a 386 with 4Mb :-).
  439.        
  440.    The hardest part is that most people will be able to do all of the
  441.    above except borrowing memory from someone else, and it doesn't make a
  442.    difference. This makes it likely that it really is the RAM. Currently
  443.    RAM is the most pricy part of a PC, so you rather not have this
  444.    conclusion, but I'm sorry, I get lots of reactions that in the end
  445.    turn out to be the RAM. However don't despair just yet: your RAM may
  446.    not be completely wasted: you can always try to trade it in for
  447.    different or more RAM.
  448.      _________________________________________________________________
  449.    
  450.   QUESTION
  451.   
  452.    I had my RAMs tested in a RAM-tester device, and they are OK. Can't be
  453.    the RAM right?
  454.    
  455.   ANSWER
  456.   
  457.    Wrong. It seems that the errors that are currently occuring in RAMS
  458.    are not detectable by RAM-testers. It might be that your motherboard
  459.    is accessing the RAMs in dubious ways or otherwise messing up the RAM
  460.    while it is in YOUR computer. The advantage is that you can sell your
  461.    RAM to someone who still has confidence in his RAM-tester......
  462.      _________________________________________________________________
  463.    
  464.   QUESTION
  465.   
  466.    What are other possibilities?
  467.    
  468.   ANSWER
  469.    Others have noted the following possibilities:
  470.      * The current pentium-optimizing-gcc fails with the default options
  471.        only on certain source files (floppy.c comes to mind :-). The
  472.        "triggers" are in the kernel, libc and in gcc itself. This is
  473.        easily diagnosed as "not a hardware problem" because it always
  474.        happens in the same place. You can either disable some
  475.        optimizations (try -fno-unroll-loops first) or use another gcc. --
  476.        Evan Cheng (evan@top.cis.syr.edu)
  477.      * A badly misconfigured gcc -- some parts from one version, some
  478.        from another. After a few weeks I ended up re-installing from
  479.        scratch to get everything right. -- Richard H. Derr III
  480.        (rhd@Mars.mcs.com).
  481.      * Gcc or the resulting application may terminate with sig11 when a
  482.        program is linked against the SCO libraries (which come with
  483.        iBCS). This occurs on some applications that have -L/lib in their
  484.        LDFLAGS....
  485.      * When compiling a kernel with an ELF compiler, but configured for
  486.        a.out (or the other way around, I forgot) you will get a signal 11
  487.        on the first call to "ld". This is easily identified as a software
  488.        problem, as it always occurs on the FIRST call to "ld" during the
  489.        build. -- REW
  490.      * An Ethernet card together with a badly configured PCI BIOS. If
  491.        your (ISA) Ethernet card has an aperture on the ISA bus, you might
  492.        need to configure it somewhere in the BIOS setup screens.
  493.        Otherwise the hardware would look on the PCI bus for the shared
  494.        memory area. As the ISA card can't react to the requests on the
  495.        PCI bus, you are reading empty "air". This can result in
  496.        segmentation faults and kernel crashes. -- REW
  497.      * Corrupted swap partition. Tony Nugent (T.Nugent@sct.gu.edu.au)
  498.        reports he used to have this problem and solved it by an mkswap on
  499.        his swap partition. (Don't forget to type "sync" before doing
  500.        anything else after an mkswap. -- Louis J. LaBash Jr.
  501.        (lou@minuet.siue.edu))
  502.      * NE2000 card. Some cheap Ne2000 cards might mess up the system. --
  503.        Danny ter Haar (dth@cistron.nl) I personally might have had
  504.        similar problems, as my mail server crashed hard every now and
  505.        then (once a day). It now seems that 1.2.13 and lots of the 1.3.x
  506.        kernels have this bug. I haven't seen it in 1.3.48. Probably got
  507.        fixed somewhere in the meantime.... -- REW
  508.      * Power supply? No I don't think so. A modern heavy system with two
  509.        or three harddisk, both SCSI and IDE will not exceed 120 Watts or
  510.        so. If you have loads of old harddisks and old expansion cards the
  511.        power requirements will be higher, but still it is very hard to
  512.        reach the limits of the power supply. Of course some people manage
  513.        to find loads of old full-size harddisks and install them into
  514.        their big-tower. You can indeed overload a powersupply that way.
  515.        -- Greg Nicholson (greg@job.cba.ua.edu) A faulty power supply CAN
  516.        of course deliver marginal power, which causes all of the
  517.        malfunctioning that you read about in this file.... -- Thorsten
  518.        Kuehnemann (thorsten@actis.de)
  519.      * An inconsistent ext2fs. Some circumstances can cause the kernel
  520.        code of the ext2 file system to result in Signal 11 for Gcc. --
  521.        Morten Welinder (terra@diku.dk)
  522.      * No or too little swap space. Gcc doesn't gracefully handle the
  523.        "out of memory" condition. -- Paul Brannan (brannanp@musc.edu)
  524.        
  525.    
  526.      _________________________________________________________________
  527.    
  528.   QUESTION
  529.   
  530.    I don't believe this. To whom has this happened?
  531.    
  532.   ANSWER
  533.   
  534.    Well for one it happened to me personally. But you don't have to
  535.    believe me. It also happened to:
  536.      * Johnny Stephens (icjps@asuvm.inre.asu.edu)
  537.      * Dejan Ilic (d92dejil@und.ida.liu.se)
  538.      * Rick Tessner (rick@myra.com)
  539.      * David Fox (fox@graphics.cs.nyu.edu)
  540.      * Darren White (dwhite@baker.cnw.com) (L2 cache)
  541.      * Patrick J. Volkerding (volkerdi@mhd1.moorhead.msus.edu)
  542.      * Jeff Coy Jr. (jcoy@gray.cscwc.pima.edu) (Temp problems)
  543.      * Michael Blandford (mikey@azalea.lanl.gov) (Temp problems: CPU fan
  544.        failed)
  545.      * Alex Butcher (Alex.Butcher@bristol.ac.uk) (Memory waitstates)
  546.      * Richard Postgate (postgate@cafe.net) (VLB loading)
  547.      * Bert Meijs (L.Meijs@et.tudelft.nl) (bad SIMMs)
  548.      * J. Van Stonecypher (scypher@cs.fsu.edu)
  549.      * Mark Kettner (kettner@cat.et.tudelft.nl) (bad SIMMs)
  550.      * Naresh Sharma (n.sharma@is.twi.tudelft.nl) (30->72 converter)
  551.      * Rick Lim (ricklim@freenet.vancouver.bc.ca) (Bad cache)
  552.      * Scott Brumbaugh (scottb@borris.beachnet.com)
  553.      * Paul Gortmaker (paul.gortmaker@anu.edu.au)
  554.      * Mike Tayter (tayter@ncats.newaygo.mi.us) (Something with the
  555.        cache)
  556.      * Benni ??? (benni@informatik.uni-frankfurt.de) (VLB Overloading)
  557.      * Oliver Schoett (os@sdm.de) (Cache jumper)
  558.      * Morten Welinder (terra@diku.dk)
  559.      * Warwick Harvey (warwick@cs.mu.oz.au) (bit error in cache)
  560.      * Hank Barta (hank@pswin.chi.il.us)
  561.      * Jeffrey J. Radice (jjr@zilker.net) (Ram voltage)
  562.      * Samuel Ramac (sramac@vnet.ibm.com) (CPU tops out)
  563.      * Andrew Eskilsson (mpt95aes@pt.hk-r.se) (DRAM speed)
  564.      * W. Paul Mills (wpmills@midusa.net) (CPU fan disconnected from CPU)
  565.      * Joseph Barone (barone@mntr02.psf.ge.com) (Bad cache)
  566.      * Philippe Troin (ptroin@compass-da.com) (delayed RAM timing
  567.        trouble)
  568.      * Koen D'Hondt (koen@dutlhs1.lr.tudelft.nl) (more kernel error
  569.        messages)
  570.      * Bill Faust (faust@pobox.com) (cache problem)
  571.      * Tim Middlekoop (mtim@lab.housing.fsu.edu) (CPU temp: fan
  572.        installed)
  573.      * Andrew R. Cook (andy@anchtk.chm.anl.gov) (bad cache)
  574.      * Allan Wind (wind@imada.ou.dk) (P66 overheating)
  575.      * Michael Tuschik (mt2@irz.inf.tu-dresden.de) (gcc2.7.2p victim)
  576.      * R.C.H. Li (chli@en.polyu.edu.hk) (Overclocking: ok for months...)
  577.      * Florin (florin@monet.telebyte.nl) (Overclocked CPU by vendor)
  578.      * Dale J March (dmarch@pcocd2.intel.com) (CPU overheating on laptop)
  579.      * Markus Schulte (markus@dom.de) (Bad RAM)
  580.      * Mark Davis (mark_d_davis@usa.pipeline.com) (Bad P120?)
  581.      * Josep Lladonosa i Capell (jllado@arrakis.es) (PCI options
  582.        overoptimization)
  583.      * Emilio Federici (mc9995@mclink.it) (P120 overheating)
  584.      * Conor McCarthy (conormc@cclana.ucd.ie) (Bad SIMM)
  585.      * Matthias Petofalvi (mpetofal@ulb.ac.be) ("Simmverter" problem)
  586.      * Jonathan Christopher Mckinney (jono@tamu.edu) (gcc2.7.2p victim)
  587.      * Greg Nicholson (greg@job.cba.ua.edu) (many old disks)
  588.      * Ismo Peltonen (iap@bigbang.hut.fi) (irq_unmasking)
  589.      * Daniel Pancamo (pancamo@infocom.net) (70ns instead of 60 ns RAM)
  590.      * David Halls (david.halls@cl.cam.ac.uk)
  591.      * Mark Zusman (marklz@pointer.israel.net) (Bad motherboard)
  592.      * Elizabeth Ayer (eca23@cam.ac.uk) (Power management features)
  593.      * Thorsten Kuehnemann (thorsten@actis.de)
  594.      *
  595.      * (Email me with your story, you might get to be mentioned here...
  596.        :-) ---- Update: I like to hear what happened to you. This will
  597.        allow me to guess what happens most, and keep this file as
  598.        accurate as possible. However I now have around 100 different
  599.        Email addresses of people who've had sig-11 problems. I don't
  600.        think that it is useful to keep on adding "random" people's names
  601.        on this list. What do YOU think?
  602.        
  603.    
  604.      _________________________________________________________________
  605.    
  606.    I'm interested in new stories. If you have a problem and are unsure
  607.    about what it is, it may help to Email me at R.E.Wolff@BitWizard.nl .
  608.    My curiosity will usually drive me to answering your questions until
  609.    you find what the problem is..... (on the other hand, I do get pissed
  610.    when your problem is clearly described above :-)
  611.      _________________________________________________________________
  612.    
  613.    This page is hosted by www.bitwizard.nl
  614.      _________________________________________________________________
  615.  
  616.