home *** CD-ROM | disk | FTP | other *** search
/ Play and Learn 2 / 19941.ZIP / 19941 / EDUCMATH / STATS / PRINTDOC < prev    next >
Encoding:
Text File  |  1994-02-04  |  49.0 KB  |  1,043 lines

  1.                                                                  1
  2.  
  3.  
  4.  
  5.  
  6.  
  7.  
  8.  
  9.  
  10.  
  11.  
  12.  
  13.  
  14.  
  15.  
  16.  
  17.  
  18.  
  19.  
  20.                                  EPISTAT
  21.                            Statistical Package
  22.                       for the IBM Personal Computer
  23.  
  24.                                Version 3.2
  25.  
  26.  
  27.  
  28.  
  29.                       Written by:
  30.    
  31.                          Tracy L. Gustafson, M.D.
  32.  
  33.                              Copyright 1985
  34.                                             
  35.                                                                  2
  36.  
  37.  
  38.  
  39.                               INTRODUCTION
  40.  
  41.    
  42.         EPISTAT is a collection of programs written in BASICA for 
  43.    statistical analysis of small to medium-sized data samples ( < 28
  44.    samples or variables and < 2000 total data entries per file).
  45.    The 25 programs in EPISTAT perform more than 40 common statistical
  46.    tests or functions and provide utilities for data entry, editing,
  47.    printing, graphing, sorting, selecting, transforming and crosstabs.
  48.  
  49.         The programs are intended to be as self-explanatory and user-
  50.    friendly as possible.  You do not need to memorize this guide
  51.    before using the programs.  On the other hand, neither the programs
  52.    nor this manual purport to TEACH the proper use or interpretation
  53.    of statistics.  The user must have some familiarity with the kinds
  54.    of data required and the underlying assumptions appropriate to each
  55.    statistical test.
  56.  
  57.  
  58.    For further explanations of tests, refer to:
  59.  
  60.    1.  Colton, Theodore. Statistics in Medicine. Little, Brown and Co.
  61.          Boston, 1974.
  62.    2.  Fleiss, Joseph.  Statistical Methods for Rates and Proportions.
  63.          John Wiley and Sons. New York, 1981.
  64.    3.  Snedecor, George W. and Cochran, William G. Statistical Methods.
  65.          Iowa State Univ. Press. Ames, Iowa, 1978.
  66.    4.  Schlesselman, James. Case-Control Studies. Oxford Univ. Press.
  67.          New York, 1982.
  68.  
  69.  
  70.  
  71.  
  72.  
  73.  
  74.  
  75.  
  76.  
  77.    CAVEAT:
  78.         These programs have been tested extensively, but I cannot 
  79.    guarantee that they will work correctly with every possible data set.
  80.    Incorrect results are usually due to errors in format or type of
  81.    data entered.  If you believe you have discovered an error in the
  82.    programs, please write me.  I intend to correct any bugs that are
  83.    brought to my attention.
  84.         It is good practice to regularly compare the results obtained
  85.    by programs in EPISTAT with results obtained by your previous method
  86.    of calculation.  ANY unexpected result should be questioned and
  87.    double-checked by reference to tables or another method of
  88.    calculation.
  89.  
  90.                                                                   3
  91.  
  92.  
  93.  
  94.  
  95.  
  96.  
  97.  
  98.                            INDEX TO EPISTAT
  99.  
  100.    The following statistical tests and functions are available:
  101.                                     
  102.       TEST or FUNCTION                                  PROGRAM NAME
  103.       ----------------                                  ------------
  104.       Analysis of variance (1 and 2-way)...................ANOVA
  105.       Bayes' theorem.......................................BAYES
  106.       Binomial distribution................................BINOMIAL
  107.       Chi-square test and distribvtion.....................CHISQR
  108.       Correlation coefficients.............................CORRELAT
  109.       F distribution.......................................ANOVA
  110.       Fisher's exact test..................................FISHERS
  111.       Linear regression analysis...........................LNREGRES
  112.       Mantel-Haenszel Chi-square test......................MHCHISQR
  113.       Mantel-Haenszel for multiple controls................MHCHIMLT
  114.       McNemar's test.......................................MCNEMAR
  115.       Mean, median and standard deviation..................DATA-ONE
  116.       Normal distribution..................................NORMAL
  117.       Poisson distribution.................................POISSON
  118.       Random sample generator..............................RANDOMIZ
  119.       Rank sum test........................................RANKTEST
  120.       Rates adjusted (direct and indirect).................RATEADJ
  121.       Sample size calculations..........,..................SAMPLSIZ
  122.       Signed rank test.....................................RANKTEST
  123.       Student's T-test and T distribution..................T-TEST
  124.    
  125.  
  126.  
  127.  
  128.  
  129.  
  130.    The following data-handling capabilities are provided:
  131.  
  132.       DATA MANIPULATION                                  PROGRAM NAME
  133.       -----------------                                  ------------
  134.       Determine best test and program names................EPISTAT
  135.       Graph histograms.....................................HISTOGRM
  136.       Graph scattergrams...................................SCATRGRM
  137.       Perform data transformations.........................LNREGRES
  138.       Print data (sorted or input order)...................DATA-ONE
  139.       Print crosstab reports...............................XTAB
  140.       Select specific records..............................SELECT
  141.       Transfer data between EPISTAT files..................FILETRAN
  142.       Transfer data from FORTRAN to EPISTAT files..........FORTRANS
  143.   
  144.                                                                    4
  145.  
  146.  
  147.  
  148.                      SYSTEM REQUIREMENTS FOR EPISTAT
  149.  
  150.                MINIMUM                            OPTIMAL
  151.          IBM PC with 64K RAM                IBM PC with 96K RAM
  152.          One 160K disk drive                Two 320K disk drives
  153.          Monochrome monitor                 Color graphics adapter
  154.          BASICA                             Hi-res color monitor
  155.                                             BASICA
  156.                                             IBM, Epson, Okidata, or
  157.                                             C. Itoh Prowriter printer
  158.                                             with graphics capability
  159.  
  160.  
  161.  
  162.  
  163.                        OVERALL PROGRAM DESCRIPTION
  164.    
  165.  
  166.         All calculations in EPISTAT are performed using single precision.  
  167.    Although it may first appear that double precision would be more 
  168.    appropriate for statistical tests, "double" precision makes little or 
  169.    no real improvement in the accuracy of these programs.  For best 
  170.    results, data entries should be numbers between 1E+7 and 1E-7.  Larger 
  171.    or smaller numbers should be multiplied by an appropriate power of 10 
  172.    before entry and analysis in EPISTAT.  
  173.  
  174.  
  175.         All EPISTAT programs are written so that as much pertinent 
  176.    information about the test as possible can fit on the final screen.  
  177.    This feature allows a summary printed copy to be produced simply by 
  178.    pressing <Shift-PrtSc>.  This will work any time there is a pause in 
  179.    the program display.  Six programs, "DATA-ONE", "HISTOGRM", "RANDOMIZ", 
  180.    "SCATRGRM", "SELECT", and "XTAB" produce printed reports without using 
  181.    <Shift-PrtSc>.  In these, follow program instructions to route output 
  182.    to your printer.  
  183.    
  184.  
  185.         EPISTAT is the introductory program in the EPISTAT package.  
  186.    DATA-ONE is the major data entry, editing, and printing program.  Most 
  187.    of the programs in EPISTAT can evaluate data entered and saved using 
  188.    DATA-ONE.  Many of the programs can, in addition, evaluate summary 
  189.    data.  The programs marked with a star (*) below can evaluate data 
  190.    entered in DATA-ONE.  Non-starred programs provide their own data entry 
  191.    routines.  
  192.  
  193.  
  194.         The EPISTAT disk should be placed in drive A (or other default 
  195.    drive) when loading any program because "EPIMRG" and "EPISETUP.DAT" are 
  196.    used by every program.  Once a program is running, EPISTAT can be 
  197.    removed from drive A if necessary.  
  198.  
  199.                                                                   5
  200.  
  201.  
  202.  
  203.  
  204.                     INDIVIDUAL PROGRAM DESCRIPTIONS
  205.  
  206.  
  207.  
  208.     (1)                          "EPISTAT"
  209.  
  210.         This introductory program lists the available programs. It also aids 
  211.    the user in selecting the best statistical test.  To do so, choose menu 
  212.    option 2 and decide whether you are interested in tests for a single 
  213.    sample, tests for 2 or more samples, other statistical functions, or data 
  214.    handling utilities.  
  215.  
  216.    You are also allowed to specify hardware configuration and colors for a 
  217.    color monitor.  Choose colors 7,0,0 if you have a monochrome monitor 
  218.    connected to the color/graphics adapter.  If yours is not one of the 
  219.    listed printers, check your printer's codes for the typeface you want.  
  220.    For example, the code for elite type on the Prowriter is ESC "E".  If you 
  221.    press Escape then E, the display will show the decimal ASCII codes: 27 
  222.    69.  An alternate method is to press <Alt> and enter the decimal code on 
  223.    the numeric keypad.  Press <Enter> when the complete code is entered.  
  224.  
  225.  
  226.                                 "DATA-ONE" *
  227.  
  228. A. DATA ENTRY: 
  229.    This is the central keyboard data entry program for the EPISTAT package 
  230.    (for non-keyboard data entry, see FILETRAN and FORTRANS).  Initial data 
  231.    entry (Option 1) first asks you to name your samples or variables.  Then 
  232.    type in the data, pressing <Enter> after each entry.  Press the TAB key 
  233.    to back up one or two items on the SAME ROW.  The maximum number of 
  234.    samples or variables (S) allowed is 28 with a color adapter and 7 with a 
  235.    monochrome adapter.  The maximum number of records in each sample is 
  236.    2000/S.  A missing value can be entered by pressing <Enter> only.  Note 
  237.    that this is different than entering a zero (0).  To exit, press key F10.  
  238.    The mean, median and (n-1) standard deviation are then displayed.  When 
  239.    you return to the main menu, SAVE your datafile to disk (Option 5) for 
  240.    future modification or use by other programs in the EPISTAT package.  
  241.         Although all entries in a datafile are treated as numbers by 
  242.    DATA-ONE, it is possible to enter characters (names) in a record.  
  243.    Characters will be treated as zeros in calculations.  Nevertheless, it 
  244.    improves data readability to use the "Sample 1" column for record or case 
  245.    names.  Thus, DATA-ONE allows one to specify a name for each column 
  246.    (variable) and each row (case) in the datafile.  
  247.  
  248. B. DATA MODIFICATION:  
  249.         APPEND (Option 2) allows one to add more observations to a sample at 
  250.    a later session.  EDIT (Option 3) allows one to delete or replace 
  251.    incorrect data entries and to change sample or variable names.  When you 
  252.    return to the main menu, SAVE modified data to disk again.  
  253.  
  254.                                                                    6
  255.  
  256.  
  257.  
  258.  
  259.    
  260. C. PRINTING DATA:
  261.         To view or review a datafile, a printout to screen or printer can 
  262.    be selected (Option 4).  To print a datafile exactly as it was keyed in, 
  263.    request the printout in INPUT order.  DATA-ONE can also print the data 
  264.    SORTED by any selected sample.  Only numeric data is sorted by DATA-ONE, 
  265.    so it will not alphabetize a character field.  Blank records are not 
  266.    sorted, either.  
  267.  
  268.   
  269. D. SAVING DATAFILES and LOADING DATAFILES:
  270.         SAVING data (Option 5), writes your data to disk in a sequential 
  271.    file for later editing, review, or use by another program.  DATA MUST BE 
  272.    SAVED TO DISK before it can be used by other programs in EPISTAT.  Since 
  273.    EPISTAT must be in drive A: (or other default drive) to begin, you will 
  274.    probably want to SAVE datafiles on drive B.  To do so, precede each 
  275.    datafile name with B: (e.g. B:TESTDATA).  Do not enclose filenames in 
  276.    quotation marks.  
  277.  
  278.  
  279.     (3)                            "ANOVA" *
  280.  
  281. A. ONE-way ANOVA:
  282.    PURPOSE:   To compare the means of 3 or more samples.
  283.    DATA REQUIRED:  A DATA-ONE datafile with 3 or more columns/variables.  
  284.    EXAMPLE:   Are the mean ages of three groups of individuals 
  285.               significantly different?  
  286.    COMMENT:   Sample means, (n-1) variances, the mean variance and the 
  287.               variance of the means are displayed.  Total sum of squares, 
  288.               Treatment sum of squares and Error sum of squares are also 
  289.               shown.  Finally the F value, degrees of freedom (df) in the 
  290.               numerator and df in the denominator and p value are given.  
  291.  
  292. B. TWO-way ANOVA:
  293.    PURPOSE:   To evaluate the combined effects of 2 variables on a third 
  294.               variable (ROW and COLUMN effects).  
  295.    DATA REQUIRED:  A DATA-ONE datafile with at least 2 columns and 2 rows.
  296.    EXAMPLE:   How much of the variance in transparency of glass types is
  297.               attributable to the kind of sand and how much to the process
  298.               used to make it?
  299.    COMMENT:   All samples in two-way ANOVA must have the same number of 
  300.               elements.  Sample means, (n-1) variances, Total sum of 
  301.               squares, Row sum of squares, Column sum of squares and 
  302.               Residual are all displayed.  The F value, df in numerator, 
  303.               df in denominator and corresponding p values are shown for 
  304.               both the Row and Column effects.  
  305. C. F-value:
  306.    PURPOSE:   To evaluate the p value associated with a known F value.
  307.    DATA REQUIRED: F value, df in numerator, and df in denominator.
  308.    
  309.    REFERENCE: Snedecor, pp. 258-338.
  310.  
  311.                                                                         7
  312.  
  313.  
  314.  
  315.  
  316.     (4)                            "BAYES"
  317.  
  318. A. Probabilities of false positive and false negative tests:
  319.    PURPOSE:   To evaluate a test or procedure in terms of its sensitivity
  320.               and specificity.
  321.    DATA REQUIRED:  Sensitivity and specificity of a test in relation to
  322.               a specific condition it tests for.  The estimated incidence of
  323.               this condition in the population being tested.
  324.    EXAMPLE:   If a test has a specificity of .99 and a sensitivity of .99, 
  325.               how many false positives will occur in a population where the 
  326.               incidence of this disease is only 100/10,100 ?  
  327.               Answer:  99% of positives will be false positives.
  328.  
  329. B. Probability of disease given a positive test:
  330.    PURPOSE:   To determine the most likely disease given a certain positive 
  331.               test.  
  332.    DATA REQUIRED:  The estimated incidence of several diseases in the test 
  333.               population. (Use `OTHER' as the last disease so that the sum 
  334.               of all percentages is 100).  The probability of a positive 
  335.               test in people known to have each disease (test sensitivities).
  336.    EXAMPLE:   If antithyroid antibodies are found in patients with diabetes,
  337.               thyroiditis and other diseases, what is the a priori 
  338.               probability of each diagnosis given a positive test?  This
  339.               will vary as the relative incidence of these diseases varies
  340.               in the test population.
  341.    COMMENT:   Although the examples deal with the use of medical tests, the 
  342.               same statistical test applies to the relation of any test for
  343.               any condition.
  344.  
  345.    REFERENCE: Fleiss, p. 5.
  346.  
  347.  
  348.     (5)                            "BINOMIAL"
  349.  
  350.    PURPOSE:   The binomial distribution allows calculation of the probability
  351.               of an observed number compared to a known expected.  
  352.    DATA REQUIRED:  A dichotomous variable that has an equal probability of 
  353.               occurring in each of N trials.
  354.    EXAMPLE:   What is the chance of obtaining 2 or fewer heads in 10 tosses 
  355.               of a fair coin?
  356.               Answer:  p = .055
  357.    COMMENT:   BINOMIAL calculates the ONE-tailed probability of the observed 
  358.               number and all more extreme situations.   For example the 
  359.               ONE-tailed probability of 2 heads in 10 tosses of a coin is the 
  360.               sum of the probabilities for 0,1 and 2 heads.
  361.              
  362.    REFERENCE: Colton, p. 151.
  363.  
  364.                                                                         8
  365.  
  366.  
  367.  
  368.     (6)                           "CHISQR"
  369.  
  370. A. Table of data:
  371.    PURPOSE:   The Chi-square program evaluates a possible relationship
  372.               between the row variable and the column variable.  
  373.    DATA REQUIRED:  The counts for each cell of the table.
  374.    EXAMPLE:   Is there a relationship between race and socioeconomic group?
  375.    COMMENT:   2 by 2 tables are evaluated using Yates' correction and the 
  376.               odds ratio and its confidence limits are calculated using 
  377.               Cornfield's method. 
  378.                                         
  379. B. Chi-square value:
  380.    PURPOSE:   To evaluate the p value associated with a known X-square value.
  381.    DATA REQUIRED:  The chi-square value and the degrees of freedom.
  382.  
  383. C. Chi-square test for trend:
  384.    PURPOSE:   To evaluate a possible directional relationship between the 
  385.               row variable and the column variable.  If the row is exposure 
  386.               level and the column is outcome, the relationship is called a 
  387.               `dose-response.' 
  388.    DATA REQUIRED:  A number that describes each `exposure level'.  (If they 
  389.               are not quantifiable, just use consecutive numbers.)  The 
  390.               number of cases and controls at each exposure level.
  391.    EXAMPLE:   Is the risk of lung cancer directionally related to the 
  392.               number of pack-years of smoking?  
  393.   
  394.    REFERENCE: Schlesselman, p.  175,177.
  395.  
  396.  
  397.     (7)                          "CORRELAT" *
  398.  
  399. A. Pearson's correlation coefficient:
  400.    PURPOSE:   To assess the linear relationship between two variables.
  401.    DATA REQUIRED:  A DATA-ONE datafile containing the two samples/variables 
  402.               of interest.  
  403.    EXAMPLE:   How closely do age and blood pressure correlate?
  404.    COMMENT:   The correlation coefficient is calculated and then tested 
  405.               using the Student's T distribution for the probability that 
  406.               such a correlation would occur by chance.  
  407. B. R value:
  408.    PURPOSE:   To evaluate the p value associated with a known R value.
  409.    DATA REQUIRED:  The R value and the number of observations in the sample 
  410.               from which it came.
  411.    
  412. C. Spearman's rank correlation:
  413.    PURPOSE:   To assess the relationship between two variables that are not 
  414.               normally distributed (and only a small sample is available).  
  415.    DATA REQUIRED:  A DATA-ONE datafile containing the 2 variables of interest.  
  416.    EXAMPLE:   How closely do infant's ages at death correlate 
  417.               with birthweight?  
  418.    COMMENT:   The correlation coefficient is calculated but associated  
  419.               p values are not calculated.  
  420.  
  421.    REFERENCE: Colton, p. 212.
  422.  
  423.                                                                          9
  424.  
  425.  
  426.  
  427.  
  428.  
  429.  
  430.     (8)                          "FILETRAN" *
  431.  
  432.    PURPOSE:   To transfer a sample or column of data from one EPISTAT 
  433.               datafile to another.  This makes it unneccesary to re-enter
  434.               data, even if you need to compare 2 samples that are in separate 
  435.               datafiles, or you have a data set with more than 28 variables 
  436.               that you split between two or more datafiles.   You may 
  437.               create a new datafile by selecting one sample from DATAFILE #1 
  438.               and another from DATAFILE #2.  FILETRAN can also combine two 
  439.               samples by APPENDING one to the other.  
  440.    DATA REQUIRED:  Two DATA-ONE datafiles.  First enter the datafile you
  441.               with to replace, add or append a sample TO.  Then enter the
  442.               datafile you wish to transfer data FROM.  After the data
  443.               sample has been added, you may save the data under the original
  444.               filename, or create a new datafile with the additional data
  445.               in it.  You may also cancel the file modification if you find
  446.               you have made an error.
  447.    EXAMPLE:   You performed the same experiment on two different days and  
  448.               analyzed the results separately.  Now you want to combine the 
  449.               results of both experiments and analyze the combined data 
  450.               set.  FILETRAN will allow you to append the two files together
  451.               and save that data under a new filename.
  452.    COMMENT:   If you want to append several columns of data from one ยท 
  453.               datafile to another, do not return to the main menu until all 
  454.               columns have been appended.  Exiting between appending will 
  455.               leave large blank spaces in the file.  
  456.  
  457.  
  458.     (9)                          "FISHERS"
  459.  
  460.    PURPOSE:   Fisher's exact test evaluates 2 by 2 tables of discrete 
  461.               variables.  
  462.    DATA REQUIRED:  The counts for each of 4 cells of the table.
  463.    EXAMPLE:   Is there a relationship between being bald and dying of
  464.                coronary heart disease?
  465.    COMMENT:   Fisher's exact test is particularly valuable when the 
  466.               Chi-square test is inappropriate because the expected value 
  467.               for a cell is less than 5.  However, this program can 
  468.               evaluate some tables where A+B+C+D > 200.  
  469.  
  470.                                                                         10
  471.  
  472.  
  473.  
  474.  
  475.     (10)                          "FORTRANS"
  476.  
  477.    PURPOSE:   To transfer data from an SDF, FORTRAN, or sequential card 
  478.               image file into EPISTAT DATA-ONE format.  
  479.    DATA REQUIRED:  A sequential card image file of equal-length records
  480.               each delimited by a carriage return and line feed.  The
  481.               end of file must be marked by a CHR(26).  You must know the 
  482.               record length (including spaces, but NOT including the carriage 
  483.               return and line feed at the end of each line), the beginning 
  484.               column number and width of each data item you want to transfer.  
  485.               If your datafile contains understood (but not marked) decimal 
  486.               places, then enter the number of decimal places.  If your 
  487.               datafile contains marked decimal places, then enter 0 for 
  488.               (understood) decimal places.  Finally, specify a missing value 
  489.               code like 9999.  If you have no missing values, then enter a 
  490.               code that does not occur in your data set.  
  491.    EXAMPLE:   You have a FORTRAN file on the mainframe with 10 years worth
  492.               of data.  You can select a subset of that data from a 6-month 
  493.               period and read that into EPISTAT for some pilot analyses 
  494.               before using mainframe time to analyze the entire data set.  
  495.    COMMENT:   FORTRANS can be used to extract selected data items from 
  496.               DBASE(R) "SDF" type files and from LOTUS(R) "PRN" print files.
  497.               Be sure to first look at the datafile you create from DBASE or 
  498.               LOTUS with your word processor in non-document mode to be sure
  499.               that all records are of equal length and that you know which
  500.               columns contain which data items.  Some programs add extra
  501.               spaces here and there when creating an SDF file.  FORTRANS
  502.               will not successfully read a datafile with more that 255 
  503.               columns of data in each record.
  504.  
  505.  
  506.     (11)                           "HISTOGRM" *
  507.  
  508.    PURPOSE:   To graph a data sample according to user specifications in the 
  509.               form of a histogram on the high resolution graphics screen.  
  510.    DATA REQUIRED:  A DATA-ONE datafile.  The full name of the variable to 
  511.               be graphed, its units, and the width of each cell in the 
  512.               histogram.  
  513.    EXAMPLE:   What is the distribution of scores on the last exam?
  514.    COMMENT:   You determine the appearance of the report by entering a label
  515.               for the horizontal axis and the interval width.  To obtain a 
  516.               printed copy on the IBM, Epson, Okidata or Prowriter printer
  517.               (specified in "EPISTAT" when you setup) press key F1.  Press 
  518.               F10 to return to the program.  
  519.  
  520.                                                                          11
  521.  
  522.  
  523.  
  524.  
  525.     (12)                          "LNREGRES" *
  526.            
  527. A. Linear regression:
  528.    PURPOSE:   To calculate the least-squares regression line for paired 
  529.               samples.  
  530.    DATA REQUIRED:  A DATA-ONE datafile and the sample numbers of the 
  531.               predictor and dependent variables.  
  532.    EXAMPLE:   What is the regression line relating IQ to income?
  533.    COMMENT:   The regression line is displayed in the form Y = b + aX. 
  534.               The T distribution is applied to determine if the calculated
  535.               slope is significantly different than zero.  The T value, 
  536.               degrees of freedom and p value are shown.
  537.  
  538. REFERENCE: Colton p. 199. 
  539.  
  540. B. Data transformations:
  541.    PURPOSE:   To change a data set in a regular way,  either to normalize
  542.               it or to identify a non-linear relationship between two
  543.               variables.
  544.    DATA REQUIRED:  A DATA-ONE datafile with fewer than 28 variables in it.
  545.    EXAMPLE:   In my sample, IQ and income were not linearly related, so I
  546.               will try a transformation to see if they are related 
  547.               logarithmically.
  548.    COMMENT:   Nine transformations are available:
  549.               1.  Ax + B                          6.  A * ln(x) + B
  550.               2.  A(x)squared + B                 7.  ln(x/(100-x))
  551.               3.  A*square root(x) + B            8.  Sample A + Sample B
  552.               4.  A/x + B                         9.  Sample A * Sample B
  553.               5.  x - mean
  554.  
  555.               Specify the value for A and B and the program will apply that
  556.               formula to each value in the sample you want transformed.  It 
  557.               then adds this transformed sample to the datafile as an 
  558.               additional column/variable.  You may save the new datafile
  559.               containing this transformed variable under the old name or
  560.               under a new datafile name as you choose.
  561.  
  562.  
  563.     (13)                          "MHCHISQR"
  564.  
  565.    PURPOSE:   To evaluate the relationship between two discrete variables 
  566.               while controlling for the effect of a third variable.  
  567.    DATA REQUIRED:  The names of the factors you wish to test for and control 
  568.               for as well as the counts of cases and controls that have and
  569.               do not have the test and control variables.  This is the 
  570.               equivalent of a series of 2 by 2 tables, one for each category
  571.               of the control variable.
  572.    EXAMPLE:   Is there a relationship between smoking and lung cancer, 
  573.               controlled for occupation?  
  574.    COMMENT:   The factor you are testing must be dichotomous, but the control
  575.               variable may have more that 2 categories.  The Chi-square value,
  576.               degrees of freedom, and p value are displayed.  Also shown
  577.               are an odds ratio and 95% confidence limits on the odds ratio.
  578.  
  579.    REFERENCE: Schlesselman, pp. 183,206.
  580.  
  581.                                                                         12
  582.  
  583.  
  584.     (14)                          "MHCHIMLT" *
  585.  
  586.    PURPOSE:   To evaluate the relationship between cases and controls and a  
  587.               test factor when each a case is matched with 2 or more controls.
  588.    DATA REQUIRED:  A DATA-ONE datafile or manually entered summary data.  If 
  589.               using DATA-ONE, a case sample and a 2 or more control samples 
  590.               should be present.  Data is coded as "1" for factor present, 
  591.               and "0" for factor absent in each case and control sample.  
  592.    EXAMPLE:   Is there a relationship between illness and eating raw potatoes?
  593.    COMMENT:   The Chi-square value, degrees of freedom and p value are 
  594.               displayed.  Also shown are an odds ratio and 95% confidence 
  595.               limits on the odds ratio.  This test does not apply if each 
  596.               case is matched with a different number of controls.  
  597.  
  598.    REFERENCE: Fleiss, p. 125.
  599.  
  600.  
  601.      (15)                           "MCNEMAR"
  602.  
  603.    PURPOSE:   Also called a paired Chi-square test, McNemar's test evaluates 
  604.               a relationship between two variables by analyzing the number 
  605.               of discordant PAIRS.  
  606.    DATA REQUIRED:  The name of the factor being tested in CASES and CONTROLS
  607.               and the number of pairs that belong in each of 4 cells.
  608.    EXAMPLE:   In twins in which one developed a stroke and the other did not,
  609.               is there a relationship between high-fat diet and stroke?
  610.    COMMENT:   The Chi-square value is calculated using Yates correction, and 
  611.               degrees of freedom and p value are displayed.  Also shown are an 
  612.               odds ratio and 95% confidence limits on the odds ratio.  
  613.  
  614.    REFERENCE: Schlesselman, p. 210.
  615.  
  616.  
  617.     (16)                            "NORMAL" *
  618.  
  619. A. Comparing a sample mean to the population mean:
  620.    PURPOSE:   To see if your sample mean is different from a known population.
  621.    DATA REQUIRED:  A DATA-ONE datafile and a known population mean.
  622.    EXAMPLE:   Is the mean blood pressure in my sample statistically different
  623.               from the U.S. population mean?
  624.    COMMENT:   The mean for the sample and the p value are displayed.
  625.  
  626. B. Percent of test values in a given range:
  627.    PURPOSE:   To determine the percent of sample values that will fall between 
  628.               two values in a normally distributed population.
  629.    DATA REQUIRED:  The mean and standard deviation of the population being
  630.               sampled.  The upper and lower limits of the range in question.
  631.    EXAMPLE:   If the population mean height is 70 inches and the standard 
  632.               deviation is 3 inches, what proportion of the population are 
  633.               at least 65 inches but no more than 73 inches tall?
  634.               Answer:  79.4 % of the population.
  635.  
  636. C. Z value:
  637.    PURPOSE:   To evaluate the p value associated with a known Z value.
  638.    DATA REQUIRED:  The known Z value.
  639.    COMMENT:   A two-tailed p value is returned.
  640.  
  641.                                                                          13
  642.  
  643.  
  644.  
  645.  
  646.     (17)                           "POISSON"
  647.  
  648.    PURPOSE:   To determine the probability of a certain number of cases or 
  649.               events, when the expected rate is known but the number of 
  650.               times when the case or event did not occur cannot be counted.  
  651.    DATA REQUIRED:  The number of cases observed and the expected number of
  652.               cases (calculated as expected rate * time interval).
  653.    EXAMPLE:   Is it unusual for lightning to strike 5 people in one county 
  654.               this year, given that in the last 5 years lightning has struck 
  655.               only 8 people in this county?
  656.               Answer:  p = .024
  657.  
  658.    COMMENT:   The ONE-tailed probability of observing the given number AND
  659.               all more extreme cases is displayed.  
  660.              
  661.  
  662.     (18)                           "RANDOMIZ"
  663.  
  664. A. Survey sample:
  665.    PURPOSE:   To provide a series of random numbers to aid in selecting a
  666.               survey sample from a large number of possible respondents.
  667.    DATA REQUIRED:  The smallest number and the largest number you want,
  668.               and the number of random numbers between those values you
  669.               want selected.
  670.    EXAMPLE:   I want to survey 100 individuals from the pages of the 
  671.               telephone book.  The telephone book has 700 pages so I will
  672.               ask for 100 numbers between 1 and 700 and then phone the
  673.               tenth person on each of the randomly selected pages.
  674.  
  675. B. Unpaired case-control sample:
  676.    PURPOSE:   To assign subjects to two equal groups randomly.
  677.    DATA REQUIRED:  The total number of subjects in the study.
  678.    EXAMPLE:   Assign 50 patients to receive drug A and 50 to receive drug B.
  679.    COMMENT:   You are also asked if subjects will enter the study over a
  680.               period longer than one month.  If so, you are warned that in
  681.               many studies it is preferable to randomize each month's cases
  682.               independently, so that seasonal biases do no creep in.
  683.  
  684. C. Paired case-control sample:
  685.    PURPOSE:   To assign members of pairs to case and control groups randomly.
  686.    DATA REQUIRED:  The total number of pairs.  You must also decide on an
  687.               objective way of deciding which one of each pair is #1 and
  688.               which is #2. 
  689.    EXAMPLE:   Assign 20 pairs of patients to case and control groups randomly.
  690.    COMMENT:   Consecutive order of patients admitted to the hospital is not 
  691.               always a satisfactory method of deciding which of each is #1 
  692.               and which is #2.  Alphabetic criteria, day of week, or other 
  693.               criteria entirely beyond the investigator's control are usually 
  694.               better.  
  695.  
  696.    REFERENCE: Colton, p.259.
  697.  
  698.                                                                         14
  699.  
  700.  
  701.  
  702.     (19)                           "RANKTEST" *
  703.  
  704. A. Rank sum test:
  705.    PURPOSE:   To evaluate the difference between two unpaired non-parametric 
  706.               samples.  Comparable to the unpaired T-test for normally 
  707.               distributed samples. It also specifically applies when 
  708.               quantitative variables are not available but qualitative 
  709.               ranks are.  
  710.    DATA REQUIRED:  A DATA-ONE datafile or the number of observations in each 
  711.               of two samples and the sum of ranks for the first sample.  
  712.    EXAMPLE:   Is the duration of remission different for leukemia patients 
  713.               treated with regimen #1 compared regimen #2?  Duration of 
  714.               remission is measured in months and 8 cases and 10 controls
  715.               have been followed for 5 years.
  716.    COMMENT:   If a DATA-ONE file is used, the medians and sums of ranks are
  717.               displayed for both groups.  The two-tailed exact p value is 
  718.               then calculated.  However, for samples larger than 12 to 15, 
  719.               the p value calculation can overflow the computer 
  720.               capabilities.  In that case, stop the program by pressing 
  721.               Ctrl-Break, and refer to tables to evaluate the rank sums 
  722.               displayed.  Note that even non-parametric samples larger than 
  723.               30 can often be evaluated with parametric tests like the 
  724.               T-test (the central limit theorem).
  725.  
  726. B. Signed rank test:
  727.    PURPOSE:   To evaluate the difference between two paired non-parametric 
  728.               samples.  Comparable to the paired T-test for normally 
  729.               distributed samples.  It also specifically applies when 
  730.               quantitative variables are not available but qualitative 
  731.               ranks are.  
  732.    DATA REQUIRED:  A DATA-ONE datafile or the number of non-zero differences
  733.               ranked and the sum of negative and then sum of positive-signed 
  734.               ranks.  
  735.    EXAMPLE:   For paired rats from the same litter, does extra dietary
  736.               vitamin E shorten the time it takes to complete a maze?
  737.    COMMENT:   If a DATA-ONE file is used, the medians and sums of ranks are
  738.               displayed for both groups.  The two-tailed exact p value is 
  739.               then calculated.  However, for samples larger than 12 to 15, 
  740.               the p value calculation can overflow the computer 
  741.               capabilities.  In that case, stop the program by pressing 
  742.               Ctrl-Break, and refer to tables to evaluate the rank sums 
  743.               displayed.  Note that even non-parametric samples larger than 
  744.               30 can often be evaluated with parametric tests like the 
  745.               T-test (the central limit theorem).  
  746.  
  747.    REFERENCE: Colton, pp. 219-222.
  748.  
  749.                                                                          15
  750.  
  751.  
  752.  
  753.  
  754.  
  755.     (20)                           "RATEADJ" *
  756.  
  757. A. Direct rate adjustment:
  758.    PURPOSE:   To adjust a rate to a standard population for comparison
  759.               to other published rates.
  760.    DATA REQUIRED:  A DATA-ONE datafile that includes one sample containing
  761.               the study rates to by adjusted (e.g. the rate in each age 
  762.               group if age-adjusting).  A second sample must contain the 
  763.               standard population counts for the same groups.  Rates in the 
  764.               first sample may use any denominator (per 1000, per million, 
  765.               etc), as you supply that denominator at the time of the 
  766.               calculation.  
  767.    EXAMPLE:   Studying bladder cancer in Eskimos, you want to age-adjust 
  768.               to the standard U.S. population to compare to other studies.  
  769.    COMMENT:   Direct adjustment may not be appropriate if the number of 
  770.               cases in any one cell is fewer than 5.  
  771.  
  772. B. Indirect rate adjustment:
  773.    PURPOSE:   To adjust sample observations to to a standard population rate 
  774.               for comparison to other published rates.
  775.    DATA REQUIRED:  A DATA-ONE datafile that includes one sample containing 
  776.               the number of cases observed in the study.  A second sample 
  777.               must contain the standard population rates for the same 
  778.               groups.  The standard population rates may use any denominator 
  779.               (per 1000, per million, etc), as you supply that denominator 
  780.               at the time of the calculation.  
  781.    EXAMPLE:   Studying bladder cancer in Eskimos, you find only 2 or 3 cases 
  782.               in several of the younger age groups.  You want to age-adjust 
  783.               to standard U.S. population rates to compare to other studies.  
  784.    COMMENT:   In addition to age-adjusting, RATEADJ will calculate the 
  785.               probability of observing the number of cases (total) that you
  786.               observed in your study.  Enter the number observed and the 
  787.               Expected number will be displayed as well as the one-tailed 
  788.               POISSON probability of this outcome.  The adjusted rate is 
  789.               displayed in the form: ` X times the standard population rate.'
  790.  
  791.    REFERENCE: Colton, pp. 47-51.
  792.  
  793.                                                                           16
  794.  
  795.  
  796.     (21)                           "SAMPLSIZ" 
  797.  
  798. A. Survey sample size:
  799.    PURPOSE:   To determine the sample size required to for a survey sample.
  800.    DATA REQUIRED:  The approximate size of the population from which 
  801.               you plan to draw the sample, your estimate of the rate of the
  802.               study characteristic (the result of your study),  the accuracy
  803.               you require, and the z(alpha) level you wish to test.
  804.    EXAMPLE:   What sample size is required to determine the immunization
  805.               levels in 2 year olds within 1% of the true value, given that
  806.               there are 100,000 2 year-olds in the state, and we believe that
  807.               95% are immunized?  Let z(alpha) correspond to 95% certainty.
  808.               Answer:  N = 1792
  809.    COMMENT:       TP = total population    pi = population proportion
  810.                    d = maximum acceptable error in sample proportion
  811.  
  812.             n = [ z(a)*SQR(pi*(1-pi)) / d ] squared   and   N = n / (1+n/TP)
  813.  
  814. B. Sample size for a paired case-control study:   
  815.    PURPOSE:   To determine the number of cases and controls required for a 
  816.               paired case-control study.
  817.    DATA REQUIRED:  An estimate of the population rate of the study  
  818.               characteristic, the smallest difference you wish to be able to 
  819.               detect, and the z(beta) and z(alpha) levels of certainty you 
  820.               require.  
  821.    EXAMPLE:   Paired rats are fed a normal diet plus or minus a suspected  
  822.               carcinogen.  How many rat pairs must be studied to detect a 
  823.               1% increase in the population cancer rate of 3% , given that 
  824.               z(beta) = 90% and z(alpha) = 95% ?  
  825.               Answer:  N = 3429 
  826.    COMMENT:   
  827.        N = [(z(a)*SQR(pi*(1-pi)) + |z(b)|*SQR(PT*(1-PT))) / (PT-pi)] squared
  828.  
  829.    REFERENCE: Colton, p. 161.
  830.  
  831. C. Sample size for an unpaired case-control study:   
  832.    PURPOSE:   To determine the number of cases and controls required for an 
  833.               unpaired case-control study.
  834.    DATA REQUIRED:  An estimate of the Control group rate (used as the 
  835.               population rate), whether the test group will be higher or lower 
  836.               than the controls, the smallest difference you wish to be able to 
  837.               detect, and the z(beta) and z(alpha) levels of certainty you 
  838.               require.  
  839.    EXAMPLE:   How many case and control animals should be studied to determine 
  840.               if a new antibiotic cures cattle disease 10% better than current 
  841.               standard therapy?  Current therapy cures 70% of animals. Let 
  842.               z(beta) = 90% and z(alpha) = 95%.
  843.               Answer:  392 cases and 392 controls.
  844.    COMMENT:   
  845.             [(z(a)*SQR(2*pi*(1-pi)) + |z(b)|*SQR(PT*(1-PT)+PC*(1-PC))]
  846.        N = [-----------------------------------------------------------] squared
  847.                                      (PT - PC)  
  848.         
  849.    REFERENCE:  Fleiss, p 41 and Schlesselman, p. 168.
  850.  
  851.                                                                      17
  852.  
  853.  
  854.  
  855.  
  856.  
  857.     (22)                           "SCATRGRM" *
  858.  
  859.    PURPOSE:  To graph the relationship between paired variables according to 
  860.              user specifications on the high resolution graphics screen.  To 
  861.              display the linear regression line.  
  862.    DATA REQUIRED:  A DATA-ONE datafile containing two paired variables.  The 
  863.              minimum and maximum values in each variable are displayed.  You 
  864.              specify the labels and units to be printed on horizontal and 
  865.              vertical axes.  Then enter an interval width for each variable.  
  866.    EXAMPLE:  Graph the relationship between advertising expenditures and
  867.              gross sales based on the last 10 years of experience at 
  868.              Company A.  
  869.    COMMENT:  Be sure to pick an interval width that will result in 20 or 
  870.              fewer intervals on the vertical, and 60 or fewer intervals on 
  871.              the horizontal axis.  To display the linear regression line 
  872.              press key F5.  The formula for this regression line is 
  873.              displayed in LNREGRES (number 12 above).  To obtain a printed 
  874.              copy on the IBM, Epson, Okidata or Prowriter (specified in 
  875.              "EPISTAT"), press key F1.  Press key F10 to return to the 
  876.              program.  
  877.  
  878.  
  879.  
  880.     (23)                            "SELECT" *
  881.  
  882.    PURPOSE:   To select a subset of a datafile based on user specifications.  
  883.               Data can be selected for printing, or to create a new datafile 
  884.               on disk.  
  885.    DATA REQUIRED:  A DATA-ONE datafile and knowledge of the selection 
  886.               criteria you want to apply.  One can select on any variable 
  887.               with "AND" and "OR" specifications.  As many as 10 selection 
  888.               criteria can be set at one time.  SELECT assumes that "AND"s 
  889.               are in parentheses.  For example: 
  890.           "SELECT IF Sample #1>10 AND Sample #2=1 OR Sample #1<Sample #3"
  891.  
  892.              is interpreted as meaning: 
  893.  
  894.          "SELECT IF (Sample #1>10 AND Sample #2=1) OR Sample #1<Sample #3"
  895.  
  896.    EXAMPLE:   You have a datafile containing all of the quality control 
  897.               results for a particular machine part this month.  You want a 
  898.               new file created which contains only those parts that failed 
  899.               specifications.  You may select all the samples that exceed 
  900.               quality criteria.  
  901.  
  902.                                                                        18
  903.  
  904.  
  905.   
  906.  
  907.  
  908.     (24)                             "T-TEST" *
  909.  
  910. A. Paired and unpaired T-test:
  911.    PURPOSE:   To determine if the means of two samples are statistically 
  912.               different.  
  913. DATA REQUIRED:  A DATA-ONE datafile with the two samples to be compared.  
  914.               If a paired test is being performed, both samples must contain 
  915.               the same number of items.  
  916.    EXAMPLE:   Is the mean weight gain of a herd fed on new Brand X 
  917.               significantly greater than the weight gain of a second herd 
  918.               fed the standard brand feed?
  919.    COMMENT:   The means and variances of the two samples will be displayed, 
  920.               followed by the T value, degrees of freedom, and the p value.  
  921.               For the unpaired T-test, the equality of variances is tested 
  922.               to be sure that the assumptions of the T-test are met.  If 
  923.               the variances are statistically different, the F value 
  924.               supporting that conclusion will be displayed.  The confidence 
  925.               limits on the difference between the two values are also 
  926.               displayed.  
  927.  
  928.    REFERENCE: Snedecor, p. 116.
  929.  
  930. B. T value:
  931.    PURPOSE:   To evaluate the p value associated with a given T value.
  932.    DATA REQUIRED:  The T value and the degrees of freedom.
  933.    
  934.  
  935.  
  936.     (25)                              "XTAB" *
  937.  
  938.    PURPOSE:   To crosstabulate data in 1,2 or 3-way reports.  This provides
  939.               the tabular couterpart of a scattergram.
  940.    DATA REQUIRED:  A DATA-ONE datafile containing at least as many variables 
  941.               as the number of ways you want to crosstabulate.  The minimum 
  942.               and maximum values for each sample will be displayed and then 
  943.               you choose the interval width for each cell of the table.  If 
  944.               you have coded data with sequential integers, choose a width 
  945.               of 1.  If you have quantitative data, it is usually best to 
  946.               choose and interval that will result in fewer than 10 cells or 
  947.               the table will be difficult to read.  In addition to choosing 
  948.               the interval, you are offerred the opportunity to label each 
  949.               row and column interval with the label of your choice to make 
  950.               a more readable report.  
  951.    EXAMPLE:   What is the age by sex breakdown of hospitalized cases of 
  952.               meningitis?
  953.    COMMENT:   The crosstab report is printed on screen or printer.  The 
  954.               number of missing values displayed is the number of cases 
  955.               where one or more of the samples involved contained a blank.  
  956.  
  957.  
  958.                                                                       19
  959.  
  960.  
  961.  
  962.  
  963.  
  964.                             THE EXAMPLE DATAFILE
  965.  
  966.  
  967.         An example datafile, named "EXAMPLE", showing a sample of people,       
  968.    their ages and their systolic blood pressures, is included on the EPISTAT   
  969.    disk.  To gain some familiarity with the appearance of an EPISTAT 
  970.    datafile,  follow these steps: 
  971.     
  972.    1.) Press <Ctrl> and <Alt> and <Del> at the same time (or load BASICA, 
  973.    then type RUN "EPISTAT") to run the introductory program.  Do not change 
  974.    the default configuration for now, but move on to the main menu.  
  975.  
  976.    2.) Choose Menu option 3 to run specific programs in the EPISTAT package.  
  977.  
  978.    3.) Choose program number 2 to run "DATA-ONE", the main data entry and       
  979.        printing program in EPISTAT.  
  980.  
  981.    4.) Choose Menu option 6 to load data from disk.  Then enter the filename 
  982.        EXAMPLE without any quotation marks.  
  983.   
  984.    5.) Return to the main DATA-ONE menu and choose option 4 to print this 
  985.        datafile on your screen or printer.   Print it once in input order, 
  986.        then try printing it sorted by Sample 2 or 3.  
  987.   
  988.    6.) Choose menu option 7 to exit DATA-ONE ,then enter Y because EXAMPLE      
  989.        was already saved to disk.  Choose other EPISTAT program numbers to    
  990.        run ANOVA, HISTOGRM, LNREGRES, SCATRGRM, or XTAB with this datafile.  
  991.  
  992.   7.) Return to DATA-ONE to enter your own data for analysis.
  993.  
  994.                                                                      20
  995.  
  996.  
  997.  
  998.  
  999.                                NOTICE
  1000.  
  1001.    ---------------------------------------------------------------------
  1002.    Users may copy EPISTAT and distribute it to others on the following
  1003.    conditions:
  1004.      1.  The programs are not modified in any way.
  1005.      2.  Individual programs are not distributed separately.
  1006.      3.  No fee is charged for copying or distribution.
  1007.    ---------------------------------------------------------------------
  1008.  
  1009.  
  1010.                      ====USER-SUPPORTED SOFTWARE====                  
  1011.  
  1012.         The concept of user-supported software is based on three
  1013.    principles:
  1014.  
  1015.      1.  The value and utility of a software package is best assessed
  1016.          by each user on his or her own system with his or her own data.
  1017.          Only after using a program can one determine whether it serves
  1018.          one's personal applications, needs, and tastes.
  1019.    
  1020.      2.  The creation of independent personal computer software requires
  1021.          a substantial commitment of time and effort.  Rather than
  1022.          replicate this effort time after time, the computing community
  1023.          can and should support individual creative efforts.
  1024.  
  1025.      3.  By encouraging users to copy programs, rather than spending
  1026.          large sums on copy-protection, authors can supply quality
  1027.          software at reduced cost.  Users will support useful programs.
  1028.                                
  1029.  
  1030.         If after using EPISTAT, you find it of value, your contribution
  1031.             in any amount will be appreciated ( $25 suggested ).
  1032.  
  1033.    Send contributions to:
  1034.  
  1035.                           Tracy L. Gustafson, M.D.
  1036.                           1705 Gattis School Road
  1037.                           Round Rock, Texas    78664
  1038.  
  1039.  
  1040.  
  1041.                                  Thank you.
  1042.  
  1043.