用许多分离的硬件和软件,包括 IBM® System x®(TM)和 IBM® TotalStorage® systems 创建工作的 Linux® 集群。本文是共分多部分的系列教程的第一部分,介绍了硬件配置,包括理解架构、规划逻辑网络设计、配置终端服务器连同更新固件等内容。

大型 Linux 集群系列简介

本文是介绍安装和配置大型集群系列文章的第一篇。该系列文章的目的是把分散在公共领域不同地方的、用各种硬件和软件创建工作的 Linux 集群的过程所需要的信息,集中在一个地方。但是,这些文章并不打算介绍关于设计一个完整的新的大型 Linux 集群所需的基础知识。请参阅 参考资料 下的参考资料和红皮书获得一般性的架构指南。

本系列的前两部分介绍集群的安装,概述了使用 IBM 系统管理软件 —— 集群系统管理(Cluster Systems Management,CSM)进行的硬件配置和安装。第一篇文章直切主题,介绍了硬件配置过程。第二篇文章介绍管理服务器的配置和节点安装。本系列后续文章将介绍集群的存储后端,包括存储硬件配置连同 IBM 共享文档系统 —— 通用并行文档系统(General Parallel File System,GPFS)的安装和配置。

这个系列可供系统架构师和系统工程师在使用 IBM eServer 集群 1350 框架规划和实现 Linux 集群时使用。(请参阅 参考资料)。出于培训目的,正常集群操作中的一些内容可能还和集群管理员有关。

第 1 部分:集群的通用架构

在采取任何配置步骤之前,一个良好的设计至关重要。设计分为两个部分:

  • 物理设计
    • 每种机架类型的机架布局(例如,管理机架和电脑架)
    • 机房设计:在安装和生产期间(假如两者不同)应当如何布置机架
    • 机架间的连接图(用于网络、电源、控制台访问等等)
    • 机架内的电缆连接(用于存储、终端服务器等等)
  • 逻辑设计
    • 网络设计包括:IP 地址范围、子网配置、电脑命名规范等等
    • CSM 配置,包括:定制脚本位置、硬件配置、监控需求
    • 操作系统需求、定制包列表、系统配置选项
    • 存储布局,包括文档系统布局、分区、复制等等

示例集群(请参阅图 1)完全由基于 Intel® 或 AMD 的 IBM Systems 电脑连同附加的 TotalStorage 子系统构成(关于这些系统的更多信息,请参阅 参考资料。)为简单起见,用千兆铜线以太网电缆提供集群的内部连接。电缆在多数情况下能够用 bonded/port-channeled/etherchannel 链接提高机架间的带宽,从而提供良好的传输速率 在这里插入自己喜欢的中继项 。

网络拓扑采用星形结构,任何机架向后连接到管理机架的主交换机。示例集群使用三个网络:一个用于管理/数据(计算网络),一个用于集群文档系统(存储网络),一个用于管理性设备的管理。前两个网络是普通的 IP 网络。多数任务使用电脑网络,包括进程间通信(例如 MPI)和集群管理。存储网络专门用于集群文档系统的通信和访问。


图 1. 集群架构图

示例集群的一些额外设计和布局细节包括:

  • 管理服务器—— 管理服务器的功能能够放在一台服务器或多台服务器上。在单台服务器环境中,管理服务器以单独模式运行。也能够配置高可用性管理服务器。能够使用 CSM 高可用性(HA)软件在两台服务器之间进行 “心跳测试”,在发生故障情况时管理服务器之间的动态故障屏蔽。引入额外管理服务器的另一种可行方法是:当 HA 在环境中不重要的时候,使用复制配置。在这种情况下,能够把管理服务器的数据备份到其他活动系统,能够通过手动配置将备份系统联机以便接管管理工作(假如有必要的话)。在 图 1 中,管理网络连接用红色显示。管理服务器是 CSM 服务器,他使用 CSM 功能专门控制集群:负责系统安装、监控、维护和其他任务。在这个集群中,只有一台管理服务器。

  • 存储服务器和磁盘 —— 能够用多种机制把多台存储服务器连接到基于磁盘的后端。能够用光纤、铜缆或结合使用二者,直接把存储器连接到集群,或通过存储区域网络(SAN)交换机连接(请参阅 图 1)。这些服务器为集群中的其他服务器提供共享的存储访问。假如需要数据备份,请用额外的铜缆或光纤链路把备份设备连接到存储服务器。对于示例集群,存储的备份端是个单一实体,提供了跨集群的共享文档系统访问。本系列的下一篇文章介绍存储硬件和集群文档系统配置、配置和实现的细节。

  • 用户节点 —— 理想情况下,集群的电脑节点不应该接受外部连接,只应当由管理员通过管理服务器访问。系统用户能够登录到用户节点(或登录节点),在集群上运行他们的工作。每个用户节点都包含带有完整编辑功能的映像、必要的研发工具、编译器和研发支持集群的应用程式和检索结果所必需的任何其他内容。

  • 调度器节点 —— 为了在集群上运行工作负荷,用户应当把自己的工作提交到调度器节点。在一个或多个调度器节点上运行的调度器守护程式使用预定的策略在集群上运行工作负荷。和电脑点相同,调度器节点也不应当接受来自用户的外部连接。系统管理员应当从管理服务器管理他们。

  • 计算节点 —— 这些节点运行集群的工作负荷,接受来自调度器的作业。电脑节点是集群中最常使用的部分。系统管理员能够轻易地使用管理服务器重新安装或配置他们。

  • 外部连接 —— 示例外部连接在 图 1 中用绿色显示。这些连接被看作在集群之外,所以本文将不多做说明。

硬件配置

装配好机架并把他们放在适当位置上,连接好全部电缆之后,仍要做大量的硬件配置工作。本文不介绍特定于某种具体集群的特定电缆连接细节。本文使用了上面列出的示例集群设计作为具体示例,说明了在安装集群前所需的硬件配置

文章整理:西部数码--专业提供域名注册虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!