My understanding is that on a multi-core machine, mpi communication routines (MPI_SEND, etc) are implemented as memory copy instructions.  Accordingly, message passing within a multi-core node should be very fast compared to your present cluster.  
<br><br>That said, It seems like all the performance benchmarks suggest that dual-core chips have the performances of 1.5-1.7 single core chips, so for the same number of nodes (defined as a CPU core) you wouldn't see the same output.
<br><br>All of this course depends on the structure of the code, memory usage, etc - these are just scaling estimates on my part.<br><br>regards,<br><br>Nathan<br><br><div><span class="gmail_quote">On 10/2/07, <b class="gmail_sendername">
Kwan Wing Keung</b> <<a href="mailto:hcxckwk@hkucc.hku.hk">hcxckwk@hkucc.hku.hk</a>> wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>This is perhap a naive question.<br><br>10 years before we started using the SP2, but we later changed to Intel<br>based linux beowulf in 2001.  In our University there are quite a no. of<br>mpi-based parallel programs running in a 178 node dual-Xeon PC cluster
<br>that was installed 4 years ago.<br><br>We are now planning to upgrade our cluster in the coming year.  Very<br>likely blade servers with multi-core CPUs will be used.  To port these<br>mpi-based parallel programs to a multi-core CPU environment, someone
<br>suggested that OpenMP should be used, such that the programs can be<br>converted to a multi-thread version.  Nevertheless it may take time, and<br>the users may be reluctant to do so.  Also for some of the installed<br>
programs, we don't have the source code.<br><br>Another user suggested that we may change slightly on the .machinefile<br>before executing the "mpirun" command.<br><br>Suppose we are going to run a 8 mpi-task program on a quad-core cluster,
<br>then only 2 CPUs should be selected, with the ".machinefile" looks like<br>"cpu0 cpu1 cpu0 cpu1 cpu0 cpu1 cpu0 cpu1" created, i.e. 4 mpi-tasks will<br>be spooled to CPU0 and 4 mpi-tasks will be spooled to CPU1.  But the REAL
<br>question will be:<br>    Will EACH mpi-task be executed on ONE single core?<br>    If not, then could there be any Linux utility program to help?<br><br>I asked this question to one of the potential vendor, and the sales
<br>suddenly suggested "Well, you can buy VMWARE to create virtual CPUs to do<br>so."  Do you think it is logical?<br><br>Thanks in advance.<br><br>W.K. Kwan<br>Computer Centre<br>University of Hongkong<br><br>_______________________________________________
<br>Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a><br>To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf">http://www.beowulf.org/mailman/listinfo/beowulf
</a><br></blockquote></div><br><br clear="all"><br>-- <br>- - - - - - -   - - - - - - -   - - - - - - - <br>Nathan Moore<br>Assistant Professor, Physics<br>Winona State University<br>AIM: nmoorewsu <br>- - - - - - -   - - - - - - -   - - - - - - -