<div dir="auto"><div dir="auto">Cisco's website info on PortFast makes me wonder how it did you any good at all, while in a transition. Any misconfiguration could block all ports, some configurations being "type-inconsistent."<div dir="auto">I love these puzzles and will watch this carefully. Sorry I cannot be of more help.</div><div dir="auto">Jonathan Engwall</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Feb 28, 2019, 2:54 PM Joshua Baker-LePain <<a href="mailto:joshua.bakerlepain@gmail.com" target="_blank" rel="noreferrer">joshua.bakerlepain@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I've got a few-hundred node cluster here that I've had humming along<br>
for several years.  All the nodes are set to PXE boot.  The default<br>
entry in the PXE menu is to boot off the local hard drive, and we drop<br>
in a kickstart if need be (new nodes, node refreshes, I just feel like<br>
it, etc).  I'm currently moving the cluster from CentOS-6 to CentOS-7.<br>
At the same time, I have ~200 nodes with onboard 10GBase-T NICs<br>
(X540-AT2 based) that had been plugged into 1Gbps switches (from<br>
Brocade) that I'm moving over to 10Gbps switches (Cisco Nexus<br>
C93120TX).  The ones I'm currently working with have fairly short<br>
cable runs (<7ft), and are using Cat 6a cables.<br>
<br>
I'm running into a major issue where a large percentage (well over 50)<br>
of attempted PXE kickstarts fails.  The failures occur in multiple<br>
places, but all seem to be related to slow initialization of the<br>
network interface.  I've seen:<br>
<br>
1) dracut-initqueue timeouts leading to "/dev/root does not exist"<br>
<br>
2) the node loads the kickstart file but then fails while trying to<br>
read the repo metadata.<br>
<br>
3) the kickstart actually succeeds, but during reboot a bunch of<br>
network services (NFS mounts, SGE, etc) attempt to start but fail<br>
because the network isn't fully up yet.<br>
<br>
To fix things, I've tried:<br>
<br>
1) adding "inst.waitfornet=120 rd.net.timeout.carrier=120<br>
rd.net.timeout.iflink=100 rd.net.timeout.ifup=120 rd.net.dhcp.retry=5"<br>
to the kernel parameters in the PXE menu *and* the default grub<br>
parameters<br>
<br>
2) adding "LINKDELAY=120" to the ifcfg-$INTERFACE scripts (still using<br>
the network service here, not NetworkManager)<br>
<br>
3) turning on PortFast on the network ports, i.e. "spanning-tree port<br>
type edge".<br>
<br>
Nothing has really made a huge difference.  PortFast seemed to at<br>
first, but larger scale tests still have rather high failure rates.<br>
Has anyone seen anything like this?  And, more importantly, has anyone<br>
fixed it?  Thanks!<br>
<br>
-- <br>
Joshua Baker-LePain<br>
QB3 Shared Cluster Sysadmin<br>
UCSF<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" rel="noreferrer noreferrer" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" rel="noreferrer noreferrer noreferrer" target="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</a><br>
</blockquote></div></div>