home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #27 / NN_1992_27.iso / spool / comp / doc / techrepo / 217 next >
Encoding:
Internet Message Format  |  1992-11-15  |  8.1 KB

  1. Path: sparky!uunet!stanford.edu!agate!darkstar.UCSC.EDU!golding
  2. From: lbarroso@pollux.usc.edu (Luiz Barroso)
  3. Newsgroups: comp.doc.techreports
  4. Subject: USC Computer Eng. TRs (MPs, Caches, Performance Eval.)
  5. Date: 13 Nov 1992 11:37:33 -0800
  6. Organization: University of Southern California, Los Angeles, CA
  7. Lines: 147
  8. Approved: compdoc-techreports@ftp.cse.ucsc.edu
  9. Message-ID: <1e60koINN9qj@darkstar.UCSC.EDU>
  10. NNTP-Posting-Host: oak.ucsc.edu
  11. Keywords: technical reports, cache coherence, multiprocessing, simulations
  12. Originator: golding@oak
  13.  
  14.  
  15. The following is a list of some of the most recent technical reports 
  16. issued by Dr. Michel Dubois' research group which can be obtained
  17. through anonymous ftp.
  18.  
  19. FTP site: 'usc.edu'
  20. Location: pub/CENG
  21. Format: PostScript/Compressed
  22.  
  23. For further information about the reports in this list contact
  24. Luiz Barroso (barroso@paris.usc.edu). For information about other
  25. USC CENG tech. reports please contact Mary Zittercob (zitterco@pollux.
  26. usc.edu).
  27.  
  28. =========================================================================
  29.  
  30. Title: A Snooping Cache Coherence Protocol for a Ring Connected
  31.        Multiprocessor
  32. Authors: Luiz A. Barroso and Michel Dubois
  33. Technical Report No. CENG-91-03
  34.  
  35. Abstract: The Express Ring is a new architecture under investigation at
  36. the University of Southern California. Its main goal is to demonstrate
  37. that a slotted unidirectional ring with very fast point-to-point
  38. interconnections can be at least ten times faster than a shared bus, using
  39. the same technology, and may be the topology of choice for future shared-
  40. memory multiprocessors. In this paper we introduce the Express Ring
  41. architecture and present a snooping cache coherence protocol for this
  42. machine. This protocol shows how consistency of shared memory accesses can
  43. be efficiently maintained in a ring-connected multiprocessor. We analyze
  44. the proposed protocol and compare it to other more usual alternatives for
  45. point-to-point connected machines, such as the SCI cache coherence
  46. protocol and directory based protocols.
  47. =========================================================================
  48.  
  49. Title: Cache Coherence on a Slotted Ring
  50. Authors: Luiz A. Barroso and Michel Dubois
  51. Updated version of CENG-91-03; appeared in ICPP'91
  52. =========================================================================
  53.  
  54. Title: Delayed Consistency and Its Effects on the Miss Rate of Parallel
  55.        Programs
  56. Authors: Michel Dubois, Jin-Chin Wang, Luiz A. Barroso, Kangwoo Lee and
  57.          Yang-Syau Chen
  58. Technical Report No. CENG 92-11
  59.  
  60. Abstract: In cache based multiprocessors a protocol must maintain
  61. coherence among replicated copies of shared writable data. In delayed
  62. consistency protocols the effect of out-going and in-coming invalidations
  63. or updates are delayed. Delayed coherence can reduce processor blocking
  64. time as well as the effects of false sharing. In this paper, we introduce
  65. several implementations of delayed consistency for cache-based systems in
  66. the framework of a weakly-ordered consistency model. A performance
  67. comparison of the delayed protocols with the corresponding On-the-Fly
  68. (non-delayed) consistency protocol is made, through execution-driven
  69. simulations of four parallel algorithms. The results show that, for
  70. parallel programs in which false sharing is a problem, significant
  71. reductions in the data miss rate of parallel programs can be obtained with
  72. just a small increase in the cost and complexity of the cache system.
  73. =========================================================================
  74.  
  75. Title: Cache Inclusion and Processor Sampling in Multiprocessor Simulations
  76. Authors: Jacqueline Chame and Michel Dubois
  77. Technical Report No. CENG 92-13
  78.  
  79. Abstract: The evaluation of cache-based systems demands careful
  80. simulations of entire benchmarks. Simulation efficiency is essential to
  81. realistic evaluations. For systems with large caches and large number of
  82. processors, simulation is often too slow to be practical. In particular,
  83. the optimized design of a cache for a multiprocessor is very complex with
  84. current techniques.
  85. This paper addresses these problems. First we introduce necessary and
  86. sufficient conditions for cache inclusion in uniprocessors and in
  87. multiprocessors with and without invalidations. Second, under cache
  88. inclusion, we show that an accurate trace for a given processor or for a
  89. cluster of processors can be extracted from a multiprocessor trace. With
  90. this methodology, possible cache architectures for       a processor or for a
  91. cluster of processors are evaluated independently of the rest of the
  92. system, resulting in a drastic reduction of the trace length and
  93. simulation complexity. Moreover, many important system-wide metrics can
  94. be estimated with good accuracy by extracting the traces of a set of
  95. randomly selected processors, an approach we call processor sampling. We
  96. demonstrate the accuracy and efficiency of these techniques by applying
  97. them to three 64-processor traces.
  98. =========================================================================
  99.  
  100. Title: Improving the Performance of Data Caches in Systems with Large
  101.        Miss Latencies
  102. Authors: Koray Oner and Michel Dubois
  103. Technical Report No. CENG 92-14
  104.  
  105. Abstract: With current and projected processor technologies, memory
  106. accesses are quickly becoming a major bottleneck of modern computing
  107. systems. Even with a good cache, the miss penalty can be so high that the
  108. processor works at greatly reduced efficiency. Whereas stores can be
  109. buffered in a store buffer to hide store miss penalties, loads cannot be
  110. dealt with so easily because the processor needs the data returned by the
  111. load.
  112. In this paper we introduce a simple processor/cache architecture with
  113. non-blocking loads. We then report results of trace-driven simulations
  114. of several FORTRAN DO-Loops. We first show that the architecture is
  115. ineffective unless loads can be hoisted away from the instructions that
  116. need the returned value. We then apply load hoisting to the loops and
  117. show the possible performance improvements for the systems with very
  118. large load miss latencies.
  119. =========================================================================
  120.  
  121. Title: The Performance of Cache-Coherent Ring-based Multiprocessors
  122. Authors: Luiz Andre Barroso and Michel Dubois
  123. Technical Report No. CENG-92-19
  124.  
  125. Abstract: Advances in circuit and integration technology are
  126. continuously boosting the speed of microprocessors. One of the main
  127. challenges presented by such developments is the effective use of
  128. powerful microprocessors in shared memory multiprocessor configurations.
  129. We believe that the interconnection problem is not solved even for small
  130. scale shared memory multiprocessors, since shared buses are unlikely to
  131. keep up with the memory bandwidth requirements of new microprocessors. In
  132. this paper we extensively evaluate the performance of the slotted ring
  133. interconnection as a replacement for buses in small to medium scale
  134. shared memory systems and for processor clusters in hierarchical
  135. massively parallel systems, using a hybrid methodology of analytical
  136. models and trace-driven simulations. Snooping and directory-based
  137. coherence protocols for the ring are compared in the context of
  138. multitasking.
  139. =========================================================================
  140.  
  141. Title: The Verification of Cache Coherence Protocols
  142. Authors: Fong Pong and Michel Dubois
  143. Technical Report No. CENG-92-20
  144.  
  145. Abstract: In this paper we introduce a verification technique for cache
  146. coherence protocols at the behavior level. Protocols are specified by a
  147. Finite State Machine (FSM) model. The global state space is the Cartesian
  148. product of an arbitrary number of individual cache state spaces and is
  149. symbolically expanded. A global FSM characterizing the protocol behavior
  150. is built and protocol verification becomes equivalent to finding whether
  151. or not the global FSM may enter erroneous states. State expansion only
  152. takes a few steps, contrary to current approaches. The verification
  153. procedure is applied to the verification of five existing protocols
  154. =========================================================================
  155.  
  156. ===========================================================================
  157. Co-moderator:  Richard Golding, Computer & Information Sciences, UC Santa Cruz
  158.         compdoc-techreports-request@ftp.cse.ucsc.edu
  159.  
  160.  
  161.