YF项目SAP故障诊断问题
1、更换Intel芯片以太网卡,并配置驱动及offload、RSS禁用项。将此网卡作为群集public网络。(此步骤解决上次报错中的服务器集成网卡资源PI双机联机的切换负载故障)
2、在上一步成功后刷新集成网卡固件至当前最新版本,由版本527刷新到539。刷新成功。(此步骤解决上次报错中存在的固件与驱动不匹配报错信息)
3、将PI双机联机、当前群集资源按照最佳配置为1号机运行:PI,MSCS资源,2号机运行:PI,Oracle资源。并在13日进行了如下测试:
a、MSCS资源切换测试,切换和回切各5次。
b、Oracle资源切换测试,切换和回切各5次。
c、PI资源切换测试,切换和回切各5次。
以上测试和频率旨在考察更换网卡和固件刷新后的private及public(主要是public因为PI和Oracle等资源主要依赖public进行队列通信)是否正常,是否会导致群集切换带来的资源负载高引发的群集故障及系统报错。测试结果:正常无报错。
4、用户工程师在相关文档的参考下,自己操作进行AIX HACMP环境下的存储扩容。扩容步骤正确,但有如下问题。后经我调试解决。
a、用户对HACMP环境操作不熟练,亟需得到更深入的AIX和HACMP培训。
b、当年的HACMP实施没有文档,而维护HACMP最基本的了解主备盘顺序未知,亟需在未来的维护中得到规范化的小机及存储维保管理。
c、HACMP配置有隐患:基于MPIO协议配置的部分盘,而不是AIX推荐的SAS协议。
d、小机有一台的网卡没有工作在千兆速率上,正常千兆速率应该是亮橙色,而不是绿色。
e、EMC配置aix HACMP有配置错误,属于EMC安装和规划范畴,目前无法修改必须停机重新设计,成本较大。带来的影响是产生“鬼盘”disk3,导致扩容HACMP有警告报错,目前不影响系统,但对未来坏盘重新划盘扩容有影响,目前扩容为disk9。亟需得到深入的存储配置保障。
f、在配置过程中发现重启HACMP导致小机的部分网络路由丢失,发现是没有使用inittable方式,导致没有永久写入AIX,此问题已解决。