home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / bit / listserv / statl / 2291 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  3.6 KB

  1. Path: sparky!uunet!olivea!spool.mu.edu!yale.edu!jvnc.net!rutgers!concert!duke!news.duke.edu!duke.edu!feh
  2. From: feh@duke.edu (Frank Harrell)
  3. Newsgroups: bit.listserv.stat-l
  4. Subject: Re: qualitative principal components
  5. Summary: Discussion of qualitative principal components etc.
  6. Keywords: scaling
  7. Message-ID: <8299@news.duke.edu>
  8. Date: 2 Jan 93 01:33:03 GMT
  9. References: <8289@news.duke.edu> <C06AFp.8oI@prd.co.uk>
  10. Sender: news@news.duke.edu
  11. Lines: 59
  12. Nntp-Posting-Host: biostat.mc.duke.edu
  13.  
  14.  
  15. Steve Blinkhorn has a good idea in opening discussion on this and
  16. related scaling methods. Let me kick it off with an example.
  17.  
  18. For this example, SAS's PROC PRINQUAL would not converge, but a simple
  19. approach resulted in excellent data reduction (to 1 d.f. for regression)
  20. and a powerful predictor. In a 4000 patient dataset, I have data on
  21. 12 physiologic variables (heart rate, blood pressure, etc.). Many of
  22. these variables have a normal range, so their relationship with
  23. patient risk is very non-monotonic. There are also several binary,
  24. and ordinal variables I wish to consider.
  25.  
  26. The first principal component (PC) of all the physiologic measures
  27. had a chi-square of 450 in predicting time until death using a Cox model.
  28. I fit a least squares regression for each physiologic var., predicting
  29. the first PC. To not assume a shape for the regression, I used
  30. restricted cubic spline functions with 5 knots. The prediction of the
  31. first PC 1 yielded a first approximation to the transformation for
  32. each variable. Once all were transformed, these new transformed variables
  33. were used to derive a new PC 1. This new PC 1 had a chi-square of 600
  34. for predicting death. More importantly, the derived transformations looked
  35. amazingly like the variables' risk relationships if I peeked at the
  36. dependent variable. I iterated this procedure 4 times, getting the
  37. first PC to have a chi-square of about 700, and getting better
  38. transformations. [We normally would not be looking at these chi-squares
  39. since we want to do data reduction without examining Y, but it's
  40. informative to do so for this example.]
  41.  
  42. If I considered polytomous variables, I would estimate transformations
  43. by getting cell means of PC 1. For ordinal predictors, I would estimate
  44. their re-scalings by isotonic regression on PC 1.
  45.  
  46. This dataset is ideal for such data reduction because even though
  47. many transformations are U-shaped, the very first PC 1 derived
  48. captured important patient severity of illness information that
  49. could be used to scale the variables.
  50.  
  51. I would be interested in this procedure has already been described
  52. in the literature, and if anyone has a better method. I would
  53. also be interested in readers' reaction to including dummy variables
  54. when deriving PC 1, using the correlation matrix to derive the PCs.
  55. The theory isn't there, but it seems to work well most of the time.
  56. SAS PRINQUAL's approach, I think, is more general, because it
  57. tries to predict each variable from the best linear combination
  58. of transformations of all the others. But I think this procedure
  59. is more prone to non-convergence and convergence to silly scores.
  60. In one example, age was transformed sensibly except that the lowest
  61. age in the dataset (one year lower than the next lowest) was transformed
  62. to a value way off the scale of the rest of the ages. This MAY have
  63. been because I was using non-linear-tail restricted cubic splines,
  64. and ordinary cubic splines have some tail difficulties.
  65.  
  66. Comments to stat-l welcomed.
  67.  
  68. -- 
  69. ----------------------------------------------------------------------------
  70. Frank E Harrell Jr            feh@biostat.mc.duke.edu
  71. Associate Professor of Biostatistics
  72. Division of Biometry                    Duke University Medical Center
  73.