home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / ai / 4680 < prev    next >
Encoding:
Internet Message Format  |  1992-12-22  |  4.4 KB

  1. Xref: sparky comp.ai:4680 sci.math.stat:2661
  2. Newsgroups: comp.ai,sci.math.stat
  3. Path: sparky!uunet!statsci!almond
  4. From: almond@statsci.com (Russell G. Almond)
  5. Subject: Re: Learning from subjective data
  6. In-Reply-To: bharat@cs.uiuc.edu's message of Thu, 17 Dec 1992 06:45:25 GMT
  7. Message-ID: <ALMOND.92Dec21220007@bass.statsci.com>
  8. Sender: usenet@statsci.com (Usenet News Account)
  9. Organization: Statistical Sciences, Inc., Seattle, WA USA
  10. References: <BzE5G3.Hoq@ux1.cso.uiuc.edu>
  11. Date: Tue, 22 Dec 1992 06:00:07 GMT
  12. Lines: 87
  13.  
  14.  
  15. R. Bharat Rao (bharat@cs.uiuc.edu) writes:
  16. > I was wondering if anyone knew of any work that has been done on
  17. > learning from subjective data.  For instance, you may have a data set
  18. > of events with a number of independent attribute (x1...xn) and a
  19. > single dependent attribute y.  However, y is a subjective rating.
  20.  
  21. > For instance, the event could be a work of art and the x's could be
  22. > various nominal/real-valued attribues of the painting.  Then paintings
  23. > in the datasets would be given a grade on (say) beauty (the "y"
  24. > attribute) by a number of different "experts" (whose notions of
  25. > good/bad/indifferent obviously vary wildly).  Each painting would be
  26. > rated only once by a randomly chosen expert (from an arbitrarily large
  27. > pool of experts -- perhaps even a different expert for every
  28. > painting).  
  29.  
  30. This is generally a messy problem and I don't know that there has ever
  31. been a definative answer.  I would, however, try the Psych--Stat
  32. literature, especially a graduate text intended for Psych majors.
  33. They run into this problem very frequently and are have some standard
  34. methods for dealing with it.  There is probably a local guru in the
  35. Psych department who shows all the grad students how to do their
  36. statistical analysis, that would be a good person to start with. 
  37.  
  38. Generally speaking, the problem with one expert doing the rating is
  39. much easier than with many experts doing the rating.  At least we have
  40. some hope that a single expert is self-consistent; that is not likely
  41. to be true with multiple experts.  Achieving agreement among experts
  42. is a difficult problem.
  43.  
  44. Some approaches I can think of off the top of my head.
  45.  
  46. 1) Assume its normal and the hell with it.  
  47. This approach is better than you might think at first if you have a
  48. moderately large data set.  The CLT generally gives you fairly quick
  49. convergence for data of this sort.  You need a couple of repetitions
  50. of your independent variables from your dependent variables to be safe
  51. here.
  52.  
  53. 2) Make a contingency table and fit a "log-linear" model.
  54. If you have enough data that you can count the number of pieces with
  55. characteristic vector X which got rating Y, then you can build a
  56. contingency table.  If your data is very sparse (lots of ones and
  57. zeros) then you can't use this technique.  On the other hand, if it
  58. works, you can wind up with a "graphical model" not like the
  59. undirected model used by Laurizten and Spiegelhalter[1988].  Usually
  60. this is referred to as a "Generalized Linear Model", and it is
  61. supported by most of the larger Stat packages including S/S-PLUS.  In
  62. S, the rating variable Y, would be called an "order factor" and there
  63. are specialized methods for including them in log-linear models.
  64.  
  65. 3) Using rankings instead of ratings.  
  66. There are a large number of statistical techniques which use rank
  67. orderings instead of absolute numbers.
  68.  
  69. 4) Multinomial regression (Logistic regression).
  70. Properly speaking, your rating variables follows multinomial
  71. distribution whose parameter is the vector of probabilities for
  72. achieving each of the ranks.  This vector of probabilities 
  73. depends on the indicators X.  The problem is that the software to fit
  74. the multinomial directly is fairly tough to come by.  Software to fit
  75. the binomial (logistic regression) is much easier to find.  Thus you
  76. may need to break your ranks up into several binary decisions: (e.g.,
  77. Y=1? Y=2? Y=3? Y=4?, or Y>3? Y=4? Y=2? Y=1? for Y in {1,2,3,4,5}).
  78.  
  79. You might also try looking under "rating" in a statistical literature
  80. database such as Current Index to Statistics.
  81.  
  82.  
  83.             Russell Almond               
  84. Statistical Sciences, Inc.        U. Washington
  85. 1700 Westlake Ave., N Suite 500        Statistics, GN-22
  86. Seattle, WA  98109            Seattle, WA  98195
  87. (206) 283-8802                
  88. almond@statsci.com            almond@stat.washington.edu
  89.  
  90.     ...From the brow of Russell Almond
  91.     Gone was every trace of reason,
  92.     As the fog from off the water,
  93.     As pollution from the freeway.
  94.  
  95.     --From the "Song of Russell Almond" part of the Tree of
  96.         Cliques cycle.
  97.  
  98.  
  99.  
  100.  
  101.