(有奖恢复）话题四:集群建设的讨论（第四期话题获奖名单已公布）

2013-01-06

(有奖回复）话题四:集群建设的讨论（第四期话题获奖名单已公布）英特尔的无线鼠标[imghttp://events.csdn.n

(有奖回复）话题四:集群建设的讨论（第四期话题获奖名单已公布）
英特尔的无线鼠标
[img=http://events.csdn.net/Intel/images/jsq.jpg] [/img]英特尔计算器

Linux相关技术图书：
——Ubuntu Linux指南:基础篇
——Red Hat Linux指南:服务器设置与程序设计篇
——Red Hat Linux指南:基础与系统管理篇
——Ubuntu Linux指南:管理篇

欢迎各位对服务器方面存在独到见解的网友踊跃参与讨论！人人有机会，发表您的见解，赢取大奖吧！任何问题请咨询：010-51661202-282 或发送邮件至 [email=zhangqiong@csdn.net]zhangqiong@csdn.net[/email]

话题四：集群建设
   随着云计算的流行，不管是分布式计算、集群还是HPC搭建成为了大家关注的重点。
   大规模计算机集群技术、高性能计算、图形处理能力等需求迫切，并对能耗、系统扩展能力以及I/O吞吐性能等对服务器都有严格的要求。
   随着基于X86的多路服务器在技术上的成熟，大规模应用变得越来越多，比如最新的TOP500排行榜上，基于至强5600的X86的双路服务器得到了大家的一致认可，与此同时，在集群的部署上，英特尔Cluster Ready技术也大大缩短了原来集群搭建和调试的时间，最新的Infiniti Band以及万兆网卡等最新数据中心技术也大量提高了集群的计算和数据交换效率。集群开始广泛的应用在高性能计算、渲染、动漫、科研等广泛领域。

话题方向：您是否有建立集群的打算？或者您已经有了一些成功的经验？目前实施的效果如何？系统的利用率如何？在您看来，未来集群系统建设的技术方向是什么？目前还有哪些技术问题困扰着您？

最后一期精彩话题预告：能耗的问题！敬请关注！

注：活动奖品有限哦~~~~大家赶快发表你们的见解，大奖就是你的~~~~
    我们会在活动结束后发送奖品，希望大家继续关注！！！
[解决办法]
我们单位现在有建立集群的计划。

有一点我没有弄明白的地方，请教高手。

我们的方案是4台服务器（2台应用服务器，2台数据库服务器）组成两两集群，然后有一个磁盘阵列，计划是将集群上的数据备份到阵列中，计划使用热备。

我们的方案中计划有一台光纤交换机，但供应商提供的方案中没有光纤交换机。

在此，我的问题就出来了，我们到底需不需要光纤交换机，如果需要，那么该如何做热备呢？
[解决办法]
我的理解是集群是在负载比较大，需要多个服务器承担多用户访问的，这个时候在多个服务器之间需要做负载平衡。我们属于分公司级别的，目前还没有考虑，总公司级别的有做。
[解决办法]
我们组目前建立了一组含8个刀片的集群,每片8核,8G内存
作高性能计算用
但是测试发现,matlab的并行效率还不如串行程序,
查找原因中
[解决办法]
集群也算是比较高端的东西了，一般来说可以分为三类吧
1，高可用
2，负载均衡
3，高性能

企业里用的比较多的会是高可用、负载均衡；科研机构用得比较多的会是高性能。

搭建集群的成本还是比较高，因为不仅需要有组成各节点的服务器，还需要能让所有节点共同访问的存储，以及其他的如光纤交换机等，一般中大型企业才用的起。

高可用指的是搭建另外的服务器，来对现有服务器进行容灾，当其中服务器出现宕机的时候，能快速切换到另外一台备用机上，保证应用的持续。像IBM的HACMP就是其中一款比较成熟的高可用集群应用。这种单纯为了容灾而搭建的集群，成本比较高，因为备用机一般是无法充分利用。

最需要高可用环境的估计就是数据库了，在ORACLE上，有dataguard；在SQL Server上有群集技术，当然还有其他各种实现高可用方式的技术，这也说明集群技术还是比较灵活。

而实现负载均衡的集群技术，其技术含量会更高。目前只接触过ORACLE 的RAC 技术，可用实现各集群节点的负载均衡；

至于高性能的集群技术，可能在图形化工作站、科研机构里面会用得比较多吧。

(有奖恢复）话题四:集群建设的讨论（第四期话题获奖名单已公布）
没什么建设性看法。。
[解决办法]
一个苹果服务器
一个苹果的磁盘阵列
一个光纤交换机
还有十几台苹果机器

以及几个图形工作站再加一个ibm xbox服务器系统server2003

===================
07年的方案一直闲置

现在想使用起来，主要是做动画处理平面设计等……
求好的方案
==========================等高手帮忙了谢谢……

邮箱dongsir@sohu.com

[解决办法]
话题方向：
您是否有建立集群的打算？或者您已经有了一些成功的经验？
// 已经开始了这方面的工作,包括云计算和云存储等.

目前实施的效果如何？
// 采用通用的方式,集群的建立与硬件架构基本无关,与硬件新技术也基本无关.通用性是实施中考虑的一个重要指标.

系统的利用率如何？
// 由于主要考虑了通用性,对于系统性能的潜力,并没有充分挖掘.

在您看来，未来集群系统建设的技术方向是什么？
// 主要在软件架构上,一般的硬件上也能搭建出性能卓越的集群系统.

目前还有哪些技术问题困扰着您？
// 分布式应用方面,没有统一的标准.

[解决办法]
所在的企业还没用到！！

对群集的看法是！

负载均衡！  对性能的最大发挥！！

关键是数据间的同步！！  在局域网同步很简单！

如果在外网的话！  数据大！相对带宽的成本也提高！
[解决办法]
2台主机，一台阵列，软件安装在内置硬盘，数据放在共享存储上，使用HA软件来进行高可用管理
其中一台跑DB，一台跑应用，互备方式，不浪费

[解决办法]
我最近也在研究类似的理论，但是让我纠结的是负载均衡如何去做。
还望大牛们给细细讲讲，在一个分布式系统中，如何做负载均衡。
[解决办法]
事实上，以前出现硬件等灾难性故障时，集群基本都没有正常平稳切换过，都需要人工调整，没有想象中的那么好。

现在，通过虚拟化技术，然后将虚拟机进行集群，性能是有所提升。
不过也挺担心，这么多鸡蛋都装在一起，万一硬件当了，就全部崩溃了。

[解决办法]
虚拟化是一种近年来得到快速发展的技术，目前已经成为市场的热点。虚拟化软件厂商通过在物理服务器之间迁移虚拟机来提供高可用解决方案。那么，这样的高可用方案是否可以替代传统的集群软件呢？

其实，虚拟化技术还有很多亟待解决的难点。比如能否在虚拟机的Guest OS发生问题时准确监测到故障并在短时间内恢复，能否避免由误操作导致的业务中断问题，以及如何提高系统整体可用性。因此，对于用户来说，虚拟化与集群方案并非完全对立的选择关系。

应该说，VMware提供的高可用解决方案和集群软件之间是互相补充的，将两者结合使用，能构建出可用性更高的系统。比如使用VMware在一台物理服务器上运行多个虚拟机，在带来众多好处的同时也会使单一故障点增加,且一台物理服务器的故障会导致多台虚拟服务器上的业务停止。VMware只能提供虚拟机的切换（迁移），如果配合集群软件就可以解决这一问题。

集群软件对虚拟环境的支持，不仅表现为提供虚拟机的失效切换，还表现在能监测到应用软件的故障，并在发现故障后将系统切换到其他虚拟机或物理服务器上运行。例如，在VMware系统上使用NEC的高可用集群软件ExpressCluster并结合使用VMware HA、VMotion，都可使系统的可用性得到提高。

集群软件可以实时监视业务运行所依赖的各种资源，并实时探测待机服务器的健康状态。还是以ExpressCluster为例，一旦主服务器或者其上运行的应用发生故障，它可将业务应用切换到待机服务器上继续对外提供服务，通过使用共享存储或镜像分区上的数据实现数据交接，保证整个集群系统的安全可靠，实现关键业务系统的高可用性。

与容错服务器不同，集群软件适合上层应用版本经常更新、容易发生故障的环境，能在准确判断硬件或软件等的故障原因后，迅速完成上层应用程序的切换。
服务器虚拟化集群的优缺点分析
服务器虚拟化最显著的功能之一就是可以在主机集群内瞬间迁移虚拟机(VM)、减少服务器或应用系统的停机时间。虽然每个主要的hypervisor都具有这个功能，但每个厂商实现集群方式却有差异。

在使用微软Hyper-V搭建的测试环境中，通过构建主机集群环境，我节省了无数的服务器停机时间。但是，这个技术也引起了一些问题。为此，专家阐述了服务器虚拟化集群环境最重要的三个优缺点。

服务器虚拟化集群优点一：主动的风险回避

我相信，服务器集群的最大优点是它可以主动将VM从一个主机迁移到另外一个主机。这样的话，就可以提高服务器和应用系统的运行时间。

在我的环境中，当内存不足、CPU负载偏高或者虚拟主机遇到较高的I/O压力时，我会收到警报。如果我不能确定真正的原因或者系统需要重启，我就可以主动将VM迁移到集群内的其他主机。

如果这是一个单机，或者说，在主机重启期间，VM不可以关闭；如果重启之后，问题依然存在，我就不得不延长VM的停机时间直到我找到了问题的起因。但是，在虚拟主机集群中，VM就可以被迁移到其他的主机直到问题解决。

服务器虚拟化集群优点二：反应性容错

因为集群中的主机监控着所有VM的活动，因此，当一个节点失效时，失效节点的负载就会被指派到另外一个替代的主机。如果需要较长时间解决失效主机的故障，只要替代它的健康主机有足够的资源，VM就会正常工作。

在我的环境中，如果一个主机失效，VM会自动迁移到另外一个节点。虽然迁移的过程并不平滑，但工作负载自动变化几乎没有停顿。

服务器虚拟化集群优点三：主动的管理

我在一个7*24的组织中工作，因此，打补丁和升级工作就必须采取非常严格的管理。正常情况下，协调1—2台物理主机的停机时间已经比较困难，而要关闭位于同一个物理主机的30多个VM的复杂性就会呈指数增长。

自从切换到单机之后，我妻子就不用担心我要在周日早上1：00-6：00去升级虚拟主机，那个时候，我可以呆在家里休息。利用虚拟主机集群，当某个主机打补丁和重启的时候，其上的VM迁移到替代的主机。打完补丁，VM再迁移到原来的主机。这样，就允许我们在早上极短的时间内，不用停掉整个系统，完成集群的升级。

集群式主机环境的缺点

虽然主机集群环境有令人瞩目的优点，但它同样存在一些实施和管理上的缺点。

服务器虚拟化集群缺点一：实施和配置的复杂性

配置复杂可能是集群的最大缺点。建立集群框架、管理主机间的连通性、配置共享存储都不是简单的任务，可能涉及到组织内部多个团队。你可能不害怕增加的复杂度，然而，很大程度上，都是技术性的工作；但是，随着复杂度的增加，你可能会遗漏某些东西从而影响系统的稳定性。

服务器虚拟化集群缺点二：更新和升级的不利因素

升级到更新版本的产品和硬件组件也可能引起困难。因为，虚拟主机集群连接多个系统，各组件间发生着大量的、复杂的交互。

以更新主机上的多路径I/O(MPIO)驱动为例，该操作会影响整个集群。首先，它影响节点转移逻辑单元号(LUN)到其他节点的效率。同时，在更新MPIO驱动之前，集群中所有主机的HBA卡的Firmware都需要升级。如果FW不用升级，那也必须首先安装HBA卡的驱动。

如果是单机，这可以通过1-2次重启解决。在集群环境中，协调多个虚拟主机服务器则较为困难。升级实际的虚拟主机软件一定是一个具有挑战性的任务，因为集群节点的交互以及不同软件版本支持(比如，SCVMM、Protection Manager等)。

一般情况下，厂商会为这些复杂升级提供详细的、一步一步的操作操作指南；同时，大多数情况下，都会比较顺利。

服务器虚拟化集群缺点三：集群成本因素

成本是另外一个主要的考虑因素。要实现一个虚拟主机集群环境，你需要复制部分基础架构并同时保持虚拟机与主机的比例。此外，大部分厂商的实现需要一个SAN或者独立的磁盘子系统。开源iSCSI或者廉价的磁盘阵列可能是个精明的选择，但这些选项可能存在性能和稳定性的问题。

以我的经验，在重要的基础架构组件上选择廉价的路线会产生问题，造成绊脚石。就因为选择了一个特殊的配置能够工作并不意味着就满足了项目目标。如果管理部门对成本感到担忧，你可以解释给他们虚拟主机集群环境可以提高正常运行时间、提供更好的服务。依我看，如果正确实施，这种配置就完全对得起付出的成本。

最后，每个组织不得不判断虚拟主机集群环境是否适合自己业务系统模式。虽然虚拟主机集群环境引入配置的复杂度、升级问题和潜在的额外成本，但是，你的环境可以从加强的服务器或者应用系统可用性和更好的管理上获益。尽管有潜在的困难或不利因素，但是，我相信实施虚拟主机集群所付出的努力和成本是值得的。

我们可以保持有关利弊的争论，但是，你可以权衡你是否要实施虚拟主机集群。

[解决办法]
负载均衡-负载均衡
负载均衡（Load Balance）

    由于目前现有网络的各个核心部分随着业务量的提高，访问量和数据流量的快速增长，其处理能力和计算强度也相应地增大，使得单一的服务器设备根本无法承担。在此情况下，如果扔掉现有设备去做大量的硬件升级，这样将造成现有资源的浪费，而且如果再面临下一次业务量的提升时，这又将导致再一次硬件升级的高额成本投入，甚至性能再卓越的设备也不能满足当前业务量增长的需求。

    针对此情况而衍生出来的一种廉价有效透明的方法以扩展现有网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性的技术就是负载均衡（Load Balance）。

负载均衡技术主要应用

    1、DNS负载均衡最早的负载均衡技术是通过DNS来实现的，在DNS中为多个地址配置同一个名字，因而查询这个名字的客户机将得到其中一个地址，从而使得不同的客户访问不同的服务器，达到负载均衡的目的。DNS负载均衡是一种简单而有效的方法，但是它不能区分服务器的差异，也不能反映服务器的当前运行状态。
    2、代理服务器负载均衡使用代理服务器，可以将请求转发给内部的服务器，使用这种加速模式显然可以提升静态网页的访问速度。然而，也可以考虑这样一种技术，使用代理服务器将请求均匀转发给多台服务器，从而达到负载均衡的目的。
    3、地址转换网关负载均衡支持负载均衡的地址转换网关，可以将一个外部IP地址映射为多个内部IP地址，对每次TCP连接请求动态使用其中一个内部地址，达到负载均衡的目的。
    4、协议内部支持负载均衡除了这三种负载均衡方式之外，有的协议内部支持与负载均衡相关的功能，例如HTTP协议中的重定向能力等，HTTP运行于TCP连接的最高层。
    5、NAT负载均衡 NAT（Network Address Translation 网络地址转换）简单地说就是将一个IP地址转换为另一个IP地址，一般用于未经注册的内部地址与合法的、已获注册的Internet IP地址间进行转换。适用于解决Internet IP地址紧张、不想让网络外部知道内部网络结构等的场合下。
    6、反向代理负载均衡普通代理方式是代理内部网络用户访问internet上服务器的连接请求，客户端必须指定代理服务器,并将本来要直接发送到internet上服务器的连接请求发送给代理服务器处理。反向代理（Reverse Proxy）方式是指以代理服务器来接受internet上的连接请求，然后将请求转发给内部网络上的服务器，并将从服务器上得到的结果返回给internet上请求连接的客户端，此时代理服务器对外就表现为一个服务器。反向代理负载均衡技术是把将来自internet上的连接请求以反向代理的方式动态地转发给内部网络上的多台服务器进行处理，从而达到负载均衡的目的。
    7、混合型负载均衡在有些大型网络，由于多个服务器群内硬件设备、各自的规模、提供的服务等的差异，我们可以考虑给每个服务器群采用最合适的负载均衡方式，然后又在这多个服务器群间再一次负载均衡或群集起来以一个整体向外界提供服务（即把这多个服务器群当做一个新的服务器群），从而达到最佳的性能。我们将这种方式称之为混合型负载均衡。此种方式有时也用于单台均衡设备的性能不能满足大量连接请求的情况下。

负载均衡-负载均衡的四个分类
软/硬件负载均衡

　　软件负载均衡解决方案是指在一台或多台服务器相应的操作系统上安装一个或多个附加软件来实现负载均衡，如DNS Load Balance，CheckPoint Firewall-1 ConnectControl等，它的优点是基于特定环境，配置简单，使用灵活，成本低廉，可以满足一般的负载均衡需求。

　　软件解决方案缺点也较多，因为每台服务器上安装额外的软件运行会消耗系统不定量的资源，越是功能强大的模块，消耗得越多，所以当连接请求特别大的时候，软件本身会成为服务器工作成败的一个关键；软件可扩展性并不是很好，受到操作系统的限制；由于操作系统本身的Bug，往往会引起安全问题。

　　硬件负载均衡解决方案是直接在服务器和外部网络间安装负载均衡设备，这种设备我们通常称之为负载均衡器，由于专门的设备完成专门的任务，独立于操作系统，整体性能得到大量提高，加上多样化的负载均衡策略，智能化的流量管理，可达到最佳的负载均衡需求。

　　负载均衡器有多种多样的形式，除了作为独立意义上的负载均衡器外，有些负载均衡器集成在交换设备中，置于服务器与Internet链接之间，有些则以两块网络适配器将这一功能集成到PC中，一块连接到Internet上，一块连接到后端服务器群的内部网络上。

　　一般而言，硬件负载均衡在功能、性能上优于软件方式，不过成本昂贵。

　　本地/全局负载均衡
　　负载均衡从其应用的地理结构上分为本地负载均衡(Local Load Balance)和全局负载均衡(Global Load Balance，也叫地域负载均衡)，本地负载均衡是指对本地的服务器群做负载均衡，全局负载均衡是指对分别放置在不同的地理位置、有不同网络结构的服务器群间作负载均衡。

　　本地负载均衡能有效地解决数据流量过大、网络负荷过重的问题，并且不需花费昂贵开支购置性能卓越的服务器，充分利用现有设备，避免服务器单点故障造成数据流量的损失。其有灵活多样的均衡策略把数据流量合理地分配给服务器群内的服务器共同负担。即使是再给现有服务器扩充升级，也只是简单地增加一个新的服务器到服务群中，而不需改变现有网络结构、停止现有的服务。

　　全局负载均衡主要用于在一个多区域拥有自己服务器的站点，为了使全球用户只以一个IP地址或域名就能访问到离自己最近的服务器，从而获得最快的访问速度，也可用于子公司分散站点分布广的大公司通过Intranet（企业内部互联网）来达到资源统一合理分配的目的。

　　全局负载均衡有以下的特点：

　　实现地理位置无关性，能够远距离为用户提供完全的透明服务。

　　除了能避免服务器、数据中心等的单点失效，也能避免由于ISP专线故障引起的单点失效。

　　解决网络拥塞问题，提高服务器响应速度，服务就近提供，达到更好的访问质量。

[解决办法]
看你的应用是什么要求了，如果需求高可用性的话，可是使用如ORACLE RAC，如果但是做互备的话可以使用IBM的HACMP,symantec的SF，这些都是不错的做集群的不错的方案。
[解决办法]
如果需要实时备份的数据量不是特别大,服务器用千兆的网络口就可以了（现在买的服务器应该都有标配的千兆网络口，如果不是千兆的，另加一块千兆的网卡就可以）. 在局域网内，传输速度可以很快，普通的千兆交换机就可以满足要求。个人感觉这个系统感觉不像集群，更像是一个网络存储系统。

引用:

我们单位现在有建立集群的计划。

有一点我没有弄明白的地方，请教高手。

我们的方案是4台服务器（2台应用服务器，2台数据库服务器）组成两两集群，然后有一个磁盘阵列，计划是将集群上的数据备份到阵列中，计划使用热备。

我们的方案中计划有一台光纤交换机，但供应商提供的方案中没有光纤交换机。

在此，我的问题就出来了，我们到底需不需要光纤交换机，如果需要，那么该如何做热备呢？

[解决办法]
我的毕业设计是对linux服务集群的内核优化。
[解决办法]
其实我希望有个讨论组或者讨论专题。毕竟要做毕业设计了，也很感兴趣，希望以后能从事这方面的工作。可是感觉中国是不是很少有企业做内核优化？
[解决办法]
真正企业里，集群和负载平衡，都是在购买设备时，由厂商一体化方案解决。
少数时候，由系统集成商提供解决方案。
完全自行搭建集群和负载平衡，比较少见。
[解决办法]
做过分布式并行数据库的研究，这部分内容国内经验还很少，尤其是在shared nothing架构上如何实现join、groupby等查询，在高校也算是一个科研方向吧。近年比较火的云计算其实就是解决集群建设、高性能并发的解决方案。另外，据我所知的Oracle RAC对性能提升不是特别高，而且不好维护。
[解决办法]
群集和集群这2个词太接近了

我只关心用多台物理机器共同支持同一个逻辑服务
因为很多应用（一时间无法改造为分布式，同时利用多台物理机）只能跑在一台机上，而压力大了以后，只能升级单机的硬件，而不能加机器来增加性能

超线程是把单核cpu模拟为双核，虚拟机是把单个物理机模拟为多个，性能是降低了
逆线程据说是把多核模拟为单核，基本符合但是后来基本不见下文

所以，希望能有一个“逆虚拟机”的机制，把多个物理机模拟为一台性能更强的逻辑“单机”
让应用能应付更多的压力
10台能力为1的机器，虚拟出来一台能力为8的机器！

这样的应用，数据库是最典型也最常见的，尤其是mssqlserver，所以，系统也就是win200x
很想知道这方面的进展

[解决办法]
集群技术的发展趋势 :集群技术随着服务器硬件系统与网络操作系统的发展将会在可用性、高可靠性、系统冗余等方面逐步提高。未来的集群可以依靠集群文件系统实现对系统中的所有文件、设备和网络资源的全局访问，并且生成一个完整的系统映像。这样，无论应用程序在集群中的哪台服务器上，集群文件系统允许任何用户（远程或本地）都可以对这个软件进行访问。任何应用程序都可以访问这个集群任何文件。甚至在应用程序从一个节点转移到另一个节点的情况下，无需任何改动，应用程序就可以访问系统上的文件。
[解决办法]
大多数模式下，集群中所有的计算机拥有一个共同的名称，集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败，并可透明地向Cluster中加入组件。
[解决办法]
一个Cluster包含多台（至少二台）拥有共享数据存储空间的服务器。任何一台服务器运行一个应用时，应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。
[解决办法]
Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时，这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时，应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时，客户将能很快连接到新的应用服务上。

热点排行