分布式存储解决方案：Skylable SX

分布式存储解决方案：Skylable SX（共11篇）

1.分布式存储解决方案：Skylable SX 篇一

分布式数据存储, 数据分片存储, 保证数据均衡存储, 并为后续数据量增长, 某个切片达到最高容量, 需要新扩切片, 通过数据散列计算结合路由表的方案支撑数据散列及扩容。

2. 数据散列及扩容方案

2.1. 数据分片方案

2.1.1. 数据分片原则

1、能够根据分片的id, 将数据均衡散列存储对应分片

2、输入分片的id, 其他分片涉及到其他数据信息及算法由路由模块内完成

3、需要能扩展支持特定组的数据能够存在在一起, 以支撑实际推广中可能加入的区域维度, 保持同区域的数据集中在1个或多个分片

4、读写主从库数据同步存在时延, 事务性数据对数据要求准确, 避免脏数据, 需要支持指定写路由的库, 如:部分场景直接从主库进行读操作。

2.1.2. 数据分片实现方案

数据分片散列规则, 主要通过数据准备、数据散列、散列数据分配到具体数据分片、根据分片路由选择具体的目标分片节点三步。

数据准备:通过sql分析, 获取本次sql的操作动作, 确认是写、读、直接穿透写动作;

数据散列:采用分片id (如:cust_id) 除大素数49999取模, 获取hash_id;

从分片数规则表中获取分片数量, 将第一次散列计算获取的hash_id除分片数取模做为二次hash_id2;

分片路由选择:从分片路由表中根据已获取的数据值进行路由选择。

2.1.3. 其他方案比较

根据了解, 网络上 (腾讯) 有采用一致性hash环算法, 采用第一层区域hash、第二层根据id hash的方案。该一致性算法, 在扩容的时候, 旧有的一个切片需要进行数据迁移, 因此没有采用。

2.2. 在线扩容方案

数据库节点在线扩容主要包括两类:第一种, 在生产运行过程中, 数据量增长, 某个切片达到最佳容量, 需要新扩切片, 用于保存本该路由到该切片的新增数据;第二种, 需要将一个切片拆分成两个切片。

2.2.1. 数据量增长, 增加切片方案

为了实现扩节点避免数据迁移, 在最终节点路由表中, 添加可根据分片id再次路由的规则, 举例如下:

设定:单片最大容量为2000w条数据, 建议稳定容量在1500w (注:2000等数据为假设值, 具体以平台选型数据容量为准) 。

上线初:假设某两片原保存的客户最大实体数据量为2200w, 分片节点采用2个b001、b101, 数据量分别为1150w、1050w, 路由规则 (写部分) 如下:

经过一段时间运行后, b01数据量达到1490, 需要增加节点, 此时全局cust_id=701910001。扩容办法:补充节点b011, 修改路由:

数据无需进行迁移, 新客户相关的数据会路由到b011。在老客户装新业务时候数据仍然可能会向b001分片增加数据, 能够尽可能保证b001节点数据量保持基本稳定。

2.2.2. 一个切片拆分成两个切片方案

通过控制二级路由总数配置及二级路由表, 结合数据库同步技术进行在线扩容。

初始分片规则表:

初始路由规则表:

扩容步骤:

第一步:新增一套数据库实例 (主从数同原理的一致, 如:一主2从) , 新增数据库实例都参考现切片的读节点配置 (但不实际参与读访问) , 从主控同步数据;

第二步, 数据复制一致后, 将新增的切片独立出来, 同时修改路由表, 将原来路由到单片的路由配置, 修改为路由到新、旧两个分片;

扩容后分片规则配置:

路由规则表:

第三步, 将新、旧库中按路由规则不属于该切片的数据进行删除。

2.2.3.扩容方案建议约束

为了实现数据量增加扩节点尽量避免迁移数据, 需要依赖于全局序列是稳定增长。

切片扩充约束:当数据切片存储的数据量接近瓶颈时候, 为保持数据的散列存储, 切片的扩充尽量需要成倍扩充 (如:原始分为2片, 尽量增加量也是2片) 。

3.结束语

2.分布式环境中数据存储技术的研究篇二

关键词：分布式；数据存储；数据库

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2014）03-0455-02

1 数据存储技术的现状

近年来，随着计算机技术和网络技术的迅猛发展，依靠先进的技术进行网络化办公已经成为现实。越来越多的企业、政府机构、社会团体借助计算机技术将业务主体进行科学的专项设计和应用，用户只需要少量的终端设备就可以对大量的数据进行处理和分析。另一方面，随着人们对互联网依赖程度的逐步加深，伴随“大数据”等新概念的提出和发展，产生的数据量也呈现爆炸式增长。新数据的产生和原始数据的不断积累，导致占用的存储容量越来越大。因此，如何扩展服务提供商器的存储能力已经成为当前科研领域的重要研究热点。

目前，能够有效提高数据存储能力的方式主要有两类解决方案。一类是新增硬件的方法提高存储能力。由服务提供商采购新的存储设备来拓展服务器的存储能力。另一类是在不改变现有硬件设备的条件下，服务提供商改善数据存储软件，优化存储信息的方式，通过分类和分解数据的形式提高存储能力。第一类解决方案存在明显的弊端，服务提供商的购买能力是有限的，无法从根本上解决难题。另一类目前已经得到国内外行业的普遍认可，各大数据服务提供商投入大量人力和物力，加快了数据管理软件的研发脚步，一系列的数据库产品营运而生，像Google Spanner，Cassandra，MongoDB，MySQL Cluster等[1]优秀的产品为分布式环境下有效的管理数据，优化存储提供了先决条件。

2 分布式环境下数据存储的应用特性分析

通过大量实践可以看出，对于大量数据的处理效率往往与数据本身的可操作性有着紧密联系，所以有必要对分布式环境下的数据应用特性进行合理的分析和总结。分布式数据库主要有以下三个特点：

2.1 数据库存储的数据在逻辑上是集中的，在地理位置上是分散的

分散的数据单元所在的物理位置是透明的，通过通讯线路和协议进行相互沟通。这点有力的说明分布式数据库存在数据的“分散性”。

2.2 用户对数据进行的任何操作都有一个统一的DBMS进行调度

用户不必关心数据的并发处理、副本调度等问题，即使局部数据单元发生数据故障，统一的DBMS仍可以进行调度和工作。这点有力的说明分布式数据库存在管理上的“集中性”。

2.3 用户对任何数据进行例如添加、删除和查询操作时，每个数据单元都各有一个小型的数据管理系统，都有各自的DBMS，多数处理就地完成

这点有力的说明分布式数据库存在操作上的“自治性”。

3 分布式数据库系统的设计

在分布式环境下，对于数据库的设计要求还没有统一的标准。该文通过总结和分析整理国内外相关资料，认为一个可操作的分布式数据库系统，应具备四个功能，如图1所示。

3.1 数据分发[2]

数据分发的建立打破了传统数据存储模式，它使物理上分散的数据单元成为逻辑上统一的整体，数据模块之间通过数据链路进行连接，通过形式统一的数据接口和协议进行通讯。合理的数据分发模块能够解决数据在远距离存储上存在的异构问题。

3.2 并行处理

由于数据存储过程中的分散性和自治性的特点，使得并发处理功能就显得尤为重要。并行处理问题发生的情况分为三种：时间并行，空间并行以及时间和空间同时并行。并行处理功能要求数据库要有很好的事务机制处理办法，提供有效的并发解决方案。

3.3 SQL解析

由于大量数据库管理系统和操作系统存在异构的特点，SQL解析功能就显得尤为重要。SQL的语句首先被数据库管理软件转化为ASCII码，然后由解析器分三个环节进行解析。首先是语法解析，通常会从数据字典、对象比较、游标等方面检查用户输入的语法是否存在错误；其次是语义解析，为用户输入的语句建立语法树，对语义中提到的程序、表、字段等方面进行检查；最后是执行语法过程，将操作结果进行打包后传递给DBMS。[3]

3.4 汇总处理

汇总处理的目标是从分散的数据模块中提取用户需要的数据，并进行必要的处理后呈现在用户面前，形成一个完整的、统一的大型数据库。

4 总结

分布式数据存储能够不改变现有硬件设备的条件下，充分利用现有资源为用户服务，为用户提供快速灵活的体验，同时可以减少投入，提高设备利用率。随着数据存储技术的不断发展和成熟，能够在不同领域中得到更广阔的发展。

参考文献：

[1] CunchenLi，JunYang，JingHan，HaihongE.The Distributed Storage System Based On MPP For Mass Data[C].2012 IEEE Asia-Pacific Services Computing Conference.GuiLin，Guangxi：EEEE， 2012：384-387.

[2] 杨俊.海量数据分布式存储技术的研究与应用[D].北京邮电大学，2012.

3.分布式存储解决方案：Skylable SX 篇三

经济发展迅速的今天，在各行各业都会应用到数据信息处理技术以及计算机技术、通信技术等对相关数据做出一定的有效处理，当下看来，海量信息显然单靠计算机无法满足其处理操作，类似存储、计算等，这一背景下，基于云计算环境的分布存储技术研究应运而生，首先研究其可扩展性。研究之前先分析传统的数据存储计算，其通过冗余的磁盘实现相关要求，那种采取与流行时进行提高数据存储可扩展性的方式虽然确实实用了一定时间，它在一定程度上实现满足了数据的存储空间，只是基于云计算之中的庞大的海量的数据节点，其存储的数据规模以及相关数据中心的规模仍然处在不断扩大的趋势之上，不断增长的需求存储容量显然不能由磁盘预留方式来实现了。因此，云计算环境下的分布存储技术又到达了一个致高点。云服务提供商的数据中心不可能采取冗余磁盘预留的方式来扩展存储空间，并且它也不可能在建立之初将所有的操作都完完全全规划好，譬如说谷歌当前看来，已经在全球的数据中心就有36个，并且每一个数据中西所包含的计算机节点达到了数百万个;再譬如微软的数据中心，对外宣称其将会在全球建设多余二十个数据中心，同时在九月份已经在芝加哥形成了全球最大的模块化数据中心，其中包含了二百二十多个集装箱，同时每一个集装箱中机器数都在两千作用，其服务器还会以十四个月为周期进行成倍增长，赶超摩尔定律增长速度，因此，基于数据中心的网络可扩展性进行研究意义十分重大，以期能够适应当下不断增长、扩展的应用需求。

2.2容错性研究

云计算提供商仅仅依靠传统的提高容错性的方法进行操作显然满足不了当下的需求，这是因为传统的容错性提高办法是经由高性能的服务器、RAID技术或者是专用的存储设备来进行相关操作，完成这一内容的成本十分高昂，根本无法满足现今云计算提供商的要求，除上述之外云计算之中庞大的节点以及数据规模注定了极高的失效概率。在云计算这一大环境下，操作失效非常常见。譬如在谷歌公司中，就曾在零六年做出过一份报告，即在云计算环境的分布存储技术的数据中心内部，平均每一个MapReduce作业的运行过程之中就包含了五个失效的节点;每一个拥有着四千个节点金星运行的MapReduce作业的相关数据中心中，几乎平均六个小时中就有一个小时的磁盘失效时间，这无疑会给云服务的提供商和资源应用者带来不同程度的麻烦和损失。除了上述之外，还有很多情形下会造成失效的结果。总而言之，云计算环境下分布存储的频频失效必将带来不同程度上的损失，其程度不可估量，因此当下而言，容错成为云计算环境之下分布存储所面临的一项巨大挑战，同时其亟待解决。关于云计算环境下的分布存储，想要更为彻底有效科学的提高其容错性，单研究节点之间的相互关联关系，以提高在屋里拓扑结构上的容错性是远远不够的，与此同时，必须同时研究在节点上存储着的数据的相关组织和管理操作，以提高数据容错性，达到最终目的。

2.3成本控制方面

云计算环境下的数据存储技术之所以需要在成本控制方面做出一定的研究，是因为传统的分布存储所需要管理组织的节点和数据的规模都非常显，能耗相对也自然比较小，同时于企业而言，低消耗下他们是愿意通过成本输入来交换可靠性能以及效率的。然而，在云计算环境下的分布存储，其能耗是非常大的，同时为了使设备处在正常运转的状态之下，能耗还要增加很大一部分。在24*7的运行模式下，在数据中心的存储开销中非常重要的一个组成部分就是能耗。曾有研究人员作出相关研究发现，基本上每一台服务器四年的能耗与其相关硬件的成本不相上下，而且一旦能耗有所降低，在很大程度上还可以提高磁盘等一些硬件设备的运行寿命，这些都会大幅缩减整个数据中心的成本，因此就可以说，当下云计算环境下的分布存储面临的又一大挑战就是如何降低能耗进而降低成本，相继会产生的优良效果就是能源得到节约，环境得到保护。总而言之，云计算环境下的分布存储需要研究的重大内容即尽可能多角度的对设备的制冷消耗进行研究，从而期望在更大程度上降低云计算的成本费用。

3数据中心网络构件技术

3.1以服务器为中心

之所以会研究到数据中心网络构件技术，是因为数据中心是使得云计算得以正常运行的基础所在，通常来说，它主要的包括着两个部分，分别是软件和硬件，软件即数据中心提供出服务时所应用到的`软件;硬件即数据中心的相关计算机设备以及支撑系统的一些基础设施。以服务器为中心的结构，主要即是在每一个数据中心的相关服务中都会安装网卡，且数量较大，然后运用网线把网卡和服务器进行连接，继而成为一个完整的网络整体，这样做的目的之一是增大数据中心的存储功能。以服务器为中心的结构在结构的组成以及线路的连接两个方面都比较简单，从而达到确保网络底层与服务器之间的有效数据交互，当前看来还有功能更甚强大的路由算法，然而这一结构自身也存在着一定的不足，即由于数据信息会占据相当大的服务器计算资源，就会导致存在一些链路无法实现功能，继而使得服务器的数据压力更大，服务器的计算速率自然受到一定程度的影响，成本的费用以及功能的损失两方面来说都产生了一定的消极影响。

3.2以交换机为中心

以交换机为中心的网络构件结构其实最主要就是对于交换机的应用，交换机将每一个服务器的数据中心有效地连接，再通过交换机进行数据包转发，当然，云计算环境下的分布存储，相关的服务器负责的功能有所不同，其只是对于数据信息的存储以及处理负责。通常以交换机为中心的网络构件被交换机分成了三层，最为主要的分别是核心层、边缘层以及聚合层。云计算环境下的数据中心中，经由交换机作为中心的网络构件结构具有的优点有操作简便，稳定高效，同时还可以通过交换机的应用实现一些扩展功能，然而，这一结构也存在着一些难以避免的缺陷，比如由于交换机的使用，导致整个数据中心的操作具有不够良好的灵活性、较低的服务器利用效率以及交换机资源的浪费等，通常而言，这一结构在传统的数据中心网络构件中应用较多。

3.3混合模式

混合模式顾名思义就是将上述两种数据中心网络结构进行有机的结合，进而形成一种功能上更加强大，实现互补的新型结构。在混合模式的结构中，主要是将交换机作为将服务器进行连接的节点，同时配合安装在服务器中的多个网卡，除此之外，混合模式的网络结构中实现了特定场景下的网络结构，它综合上述两种结构的优势，因此比其更加的灵活自由，同等性能的条件下，对于数据中心的成本而言有一定的降低功能。

4结束语

总而言之，云计算中庞大的数据节点以及相关的网络设备进行有效的有机结合，进而就形成了一个或者是一些较为大规模的数据中心点，从而达到向用户提供一些基本性质的服务，使得客户的使用需求得到满足。总而言之，云计算环境下的分布存储技术使得庞大的数据信息得以存储，存储位置即为数据中心内部中的众多节点中的不同节点之上，更为甚者会存储到在不同数据中心的不同节点上。整体来说，基于云计算环境的分布存储技术它所研究的主要内容即上述内容，如何实现有效地组织和管理在数据中心中进行存储的大量数据信息。

参考文献：

[1]陈全，邓倩妮.云计算及其关键技术[J].计算机应用，(09)：56-57.

4.分布式存储解决方案：Skylable SX 篇四

一、需求分析

财务部门是企业开展信息化较早的部门，很多企业在实施会计电算化取得成功后，逐步将企业的信息化推向供应链、人力资源等系统。由于企业财务信息化起步早，积累了很多的数据，这些数据分散在服务器PC机和笔记本中，因为用户过于分散及管理工作过于琐碎等原因，从而疏忽了对这些机器上的数据管理，给数据的长久保存带来很大困难。财政部门在会计电算化基础工作规范中特别对企业财务数据的保存提出了要求，要求保存在较好的存储介质上，以延长数据的保存时间。同时，企业财务部门的PC由于经常使用来自不同渠道的移动存储设备（如U盘、移动硬盘等），增加了被病毒感染的机率。2007年初爆发的“熊猫烧香”病毒就给很多企业的财务数据造成巨大损失，所以对企业的财务数据进行及时备份尤为重要。

? Synology网络存储服务器作为高性能的网络存储器，在对局域网上的用户提供文件共享服务的同时，可以方便的实现对PC机和笔记本的数据备份及恢复，为财务工作环境中的PC机及笔记本电脑的数据提供了强大存储及备份功能。

二、方案介绍

Synology网络存储器安装很简单，只需将存储器接入局域网交换机，安装Synology Data Replicator 软件就可投入使用。网络连接具体看下图：

Synology服务器提供了以下备份方案：

1.通过本地备份功能，管理者可以将Synology服务器的数据备份到外接式的USB或SATA磁盘上。

2.通过网络备份功能，管理者可以将一台Synology服务器上的资料备份到另一台Synology服务器上。

3.将PC端的数据备份到Synology服务器，达到保护数据的目的。通过Synology Data Replicator，使用者可以： 1.监视使用者计算机上指定的数据夹，将所有的变动的数据实时备份Synology服务器。2.设立档案上传的版本数目及还原点数目。3.日后根据需要将备份到Synology服务器上的数据恢复到使用者的计算机。

4.管理者也可以备份服务器的使用者、群组、共享数据夹设定。可以将一台外接式的USB磁盘连接至Synology服务器的USB端口上，或将一台外接式SATA磁盘连接至Synology服务器的e-SATA端口上。

5、增量备份的功能，Synology网络存储服务器不用象一般的备份工具一样重复备份；增量备份起到节省硬盘空间的作用，让硬盘的空间可以充分的使用。

三、简便的管理

? Synology服务器还提供了以下功能：

1.通过因特网储存及分享档案

Windows使用者以及Mac使用者可以轻松在网络上分享数据。

1.使用FTP传输档案

您可以开启Synology服务器的FTP功能，设定流量管制及匿名登入，提供使用者通过网络上传或下载数据。若您有数据安全上的考虑，您亦可选择含有FTP over SSL 或是FTP over TLS 功能的存储器。

3、外壳上的「Copy」按钮只需您按动一下，就能及时将数码相机、U盘、移动硬盘的资料复制到Synology服务器上。

4、分享USB打印机

您可以将Synology网络存储服务器当作打印服务器使用，将带USB接口的打印机接入Synology网络存储服务器，普通的打印机就成为一台人人都可以使用的网络打印机。

四、应用效果

企业财务数据备份是非常重要的事情，是不容忽视的。Synology网络存储服务器数据备份非常完整且自动完成，总是在您不注意的情况下就做完了。各项完整的备份方案让您可以找到适合的备份方式。

Synology产品以节省能源的设计概念出发，相对于服务器类产品，Synology产品设计小巧，消耗较少能源，因此能够同时为您节省电费，又能保护我们的地球，同时能为企业财务数据的长久保存提供有力的帮助。

附：网络存储服务器简介

5.液氯钢瓶存储仓库实施方案篇五

公司农

三、农四生产每天都需要大量的氯气，而现在的氯气每天都是从衡阳建涛或其他地方进货。公司要保证生产的顺利进行，必须存一定量的氯气。因公司暂时没有专用的场地进行存储，只能将氯气钢瓶临时存放在马路空地及成品库。而氯气属于Ⅱ级（高度危害）物质，不能在露天存放，不能与其他物品混放。上级部门多次检查时都要求公司对存在的现象进行整改。氯气的存储和使用必须严格遵守国家标准和规范。综合上述多种因素，决定利用公司现有建筑改建成液氯钢瓶存储仓库。一：场地选择

根据氯气安全规程规定，氯气的生产、使用和储存等厂房结构，应充分利用自然条件通风及换气，在环境和条件允许下。可采用半敞开形式结构。原苯璜挫二甲酯工段楼层高8.6m，长35m,宽7.6m，共266㎡。建筑四周通风，并且与二次结晶之间有一块大坪。适合车辆的进出与装、卸，符合改建成液氯钢瓶存储仓库。但要将其改为液氯存储库，必须将原有设备、房中的建筑全部拆除。二：应急措施选择

1：液氯仓库应设围堰、喷淋管等安全处理设施。一旦发生泄漏事故，可喷雾状水稀释、溶解。围堰可满足收集由此而产生的废水。2：液氯仓库应设置应急池，并安装碱罐。保证池中的水PH值成碱性。氯气钢瓶一旦泄漏。可将氯气钢瓶用电动葫芦吊入池中进行处置。并利用安装的水泵将应急池中的碱水通过安装的管道喷淋，中和泄漏的氯气气体，减轻对环境的污染。

3：安装事故风机，酸雾吸收塔。一旦发生泄漏事故，开启事故风机，碱水泵。风机的出口与酸雾吸收塔相连，用碱水与酸雾中和，减少氯气气体的污染。

三：3T单梁桥式起重机的安装

1：考虑到钢结构安装的快捷、方便与省钱，起重机立柱、横梁全部采用宽冀缘250*250H型钢。轨道采用24#轨道钢，与3T单梁桥式起重机配套。

2：利用原有立柱，在立柱底部预埋定位，立柱上部用钢板固定在老立柱上。轨道梁先用同型材的H型钢连接，再在型钢上安装轨道钢。3；厂房的跨距为6.5m，定置一台3T6.5m单梁桥式起重机。4；考虑到装、卸车的方便，将轨道延长4m到墙外。可直接将钢瓶卸到库房中。四：附图纸及材料表

6.基于云计算的分布式存储技术篇六

自从亚马孙推出Amazon Web Service (AWS) 的Iaa S服务以来, 现在其Amazon EC2、Amazon AWS、Amazon S3、Amazon SQS等云计算平台已经被上千家公司使用。Google公司在2008年提供了基于Paa S的Google App Engine。在Google的基础架构上运行网络应用程序, 能让开发人员在支持着自己的应用程序的可扩展系统上构建网络应用程序。随后, 微软公司也推出了Windows Azure操作系统, 这个系统作为微软云计算计划的服务器端操作系统 (Cloud OS) 为广大开发者提供服务。IBM在2007年提出了“蓝云”计划, 推出共有云和私有云的概念。IBM提出私有云解决方案是为了减少诸如数据、信息安全等共有云现存的问题, 从而抢占企业云计算市场。

在我国云计算产业的发展也得到了政府的高度重视, 在2010年10月召开的十七届五中全会的报告中, 重点提到发展新一代信息技术, 而云计算和三网融合、物联网等一起被作为最重要的方向之一。从2008年开始, 已经有多个地方政府在积极推进云计算产业和应用的发展, 例如:无锡中国云计算中心、上海的“云海计划”、北京的“祥云计划”, 等等, 此外, 成都、佛山、东莞、鄂尔多斯等城市也在纷纷跟进。可以预见, 未来云计算将成为十二五期间, 信息技术领域最重要的发展方向, 无论是技术研发、产品推广还是应用示范等方面, 都将获得政府在政策、资金、项目等方面的大力支持。

云计算的概念与特点

云计算是网格计算 (Grid Computing) 、分布式计算 (Distributed Computing) 、并行计算 (Parallel Computing) 、效用计算 (Utility Computing) 、网络存储 (Network Storage Technologies) 、虚拟化 (Virtualization) 、负载均衡 (Load Balance) 等传统计算机和网络技术发展融合的产物。广义云计算指服务的交付和使用模式, 指通过网络以按需要、易扩展的方式获得服务。这种服务可以是IT软件和互联网相关服务, 也可以是其他服务。狭义云计算指IT基础设施的交付和使用模式, 指通过网络以按需、易扩展的方式获得所需资源。总体来说云计算具有以下几个特点:

(1) 超大规模:“云”具有相当的规模, Google云计算已经拥有100多万台服务器, Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。

(2) 虚拟化:云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”, 而不是固定的有形的实体。应用在“云”中某处运行, 但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机, 就可以通过网络服务来实现我们需要的一切, 甚至包括超级计算这样的任务。

(3) 高可靠性:“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性, 使用云计算比使用本地计算机可靠。

(4) 通用性:云计算不针对特定的应用, 在“云”的支撑下可以构造出千变万化的应用, 同一个“云”可以同时支撑不同的应用运行。

(5) 高可扩展性:“云”的规模可以动态伸缩, 满足应用和用户规模增长的需要。

(6) 按需服务:“云”是一个庞大的资源池, 你按需购买;云可以像自来水, 电, 煤气那样计费。

(7) 廉价性:由于“云”的特殊容错措施可以采用极其廉价的节点来构成云, “云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本, “云”的通用性使资源的利用率较之传统系统大幅提升, 因此用户可以充分享受“云”的低成本优势。

云计算与云存储

云存储是在云计算 (cloud computing) 概念上延伸和发展出来的一个新的概念, 是指通过集群应用、网格技术或分布式文件系统等功能, 将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作, 共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时, 云计算系统中就需要配置大量的存储设备, 那么云计算系统就转变成为一个云存储系统, 所以云存储是一个以数据存储和管理为核心的云计算系统。简单来说, 云存储就是将储存资源放到网络上供人存取的一种新兴方案。使用者可以在任何时间、任何地方, 透过任何可连网的装置方便地存取数据。同时, 在云数据中心所使用的存储必须具有良好的兼容性。在云计算时代, 计算资源都被收归到数据中心之中, 再连同配套的存储空间一起分发给用户, 由于众多的用户带来了各种各样的需求, Windows、Linux、Unix、Mac OS, 存储需要面对各种不同的操作系统, 如果给每种操作系统都配备专门的存储的话, 无疑与云计算的精神背道而驰, 因此, 云计算环境中, 首先要解决的就是兼容性问题。其次是存储容量的扩展能力。

Hadoop软件平台

Hadoop是根据Google公司公开的资料开发出来的类似于Google File System的Hadoop File System以及相应的Map/Reduce编程规范。Hadoop是开放源代码, 开发人员可以使用它来开发云计算应用, 尤其是云硬件平台。

Hadoop实现了一个分布式文件系统 (Hadoop Distributed File System) , 简称HDFS。HDFS有着高容错性的特点, 并且用来设计部署在低廉的硬件上。它提供高吞吐量来访问数据, 适合那些有着大量数据的应用程序。HDFS可以以流的形式访问文件系统中的数据。

Hadoop还实现了Map Reduce分布式计算模型。Map Reduce将应用程序的工作分解成很多小的工作块。HDFS为了做到可靠性, 创建了多份数据块的复制 (Replicas) , 并将它们放置在服务器群的计算节点中, Map Reduce就可以在它们所在的节点上处理这些数据。Hadoop是由HDFS、Map Reduce、HBase、Hive和Zoo Keeper等组成, 其中, HDFS和Map Reduce是两个最基础、最重要的成员, 其他子项目提供配套服务。总体来说Hadoop具有以下几个主要特点:1.扩展性强:能可靠地存储和处理千兆字节 (GB) 数据。2.成本低:可以通过普通机器组成的服务器群来分发以及处理数据, 服务器群总计可达数千个节点。3.高效率:通过分发数据, Hadoop可以在数据所在的节点上并行地处理它们, 非常快速。4.可靠性好:Hadoop能自动地维护数据的多份复制, 并且在任务失败后能自动地重新部署计算任务。

1、Hadoop Map/Reduce编程模型

Hadoop Map/Reduce是一个软件构架, 基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上, 并以一种可靠容错的方式并行处理上T级的数据集。一个Map/Reduce作业 (job) 通常会把输入的数据集切分为若干独立的数据块, 由map任务 (task) 以完全并行的方式处理它们。构架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常, 作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控, 以及重新执行已经失败的任务。

Map/Reduce框架和分布式文件系统通常是运行在一组相同的节点上的, 也就是说, 计算节点和存储节点通常在一起。这种配置允许框架在数据节点上高效地调度任务, 可以非常高效地利用整个集群的网络带宽。Map/Reduce框架由一个单独的主 (master) Job Tracker和每个集群节点一个次 (slave) Task Tracker共同组成。Master负责调度构成一个作业的所有任务, 这些任务分布在不同的slave上, master监控它们的执行, 重新执行已经失败的任务;而slave仅负责执行由master指派的任务。

应用程序至少应该指明输入/输出的位置, 并通过实现合适的接口或抽象类提供map和reduce函数, 再加上其他作业的参数, 就构成了作业配置 (job configuration) 。然后, Hadoop的job client提交作业和配置信息给Job Tracker, 后者负责分发这些软件和配置信息给slave, 调度任务并监控它们的执行, 同时提供状态和诊断信息给job client。

Map Reduce框架的核心步骤主要分成两个部分:Map和Reduce。当向Map Reduce框架提交一个计算作业时, 它会首先把计算作业拆分成若干个Map任务, 然后分配到不同的节点上去执行。每一个Map任务处理输入数据中的一部分, 当Map任务完成后, 它会生成一些中间文件, 这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。

Map Reduce的工作过程分为两个阶段:map阶段和reduce阶段。每个阶段都有键/值对作为输入和输出, 并且它们的类型可由程序员选择。程序员还具体定义了两个函数:map函数和reduce函数。在处理大数据集的过程中, 将大数据集分解为成千上万个小数据集, 每个 (或若干个) 数据集分别由集群中的一个结点进行处理并生成中间结果, 这些中间结果又由大量的结点进行合并, 形成最终结果。如图1所示。

2、HDFS的分析

HDFS是Google GFS的开源版本, 是一个高度容错的分布式文件系统, 它能够提供高吞吐量的数据访问, 适合存储PB级的大文件。HDFS采用Master/Slave结构;Name Node维护集群内的元数据, 对外提供创建、打开、删除和重命名文件或目录的功能;Data Node存储数据, 并负责处理数据的读写请求。Data Node定期向Name Node上报心跳, Name Node通过响应心跳来控制Data Node。如图2所示。

Name Node和Data Node被设计成可以在普通的机器上运行, 这些机器一般运行着Linux操作系统。HDFS采用Java语言开发, 因此任何支持Java的机器都可以部署Name Node或Data Node。由于采用了可移植性极强的Jave语言, 使得HDFS可以部署到多种类型的机器上。一台机器上只运行一个Name Node实例, 而集群中的其它机器分别运行一个Data Node实例。集群中单一Name Node的结构大大简化了系统的架构。Name Node是所有HDFS元数据的仲裁者和管理者, 用户数据不会流过Name Node。

(1) HDFS读取数据过程

客户端通过调用Distributed File System对象的open () 来打开文件。对于HDFS来说, 这个对象是分布式文件系统的一个实例。分布式文件系统 (Distributed File System) 通过使用RPC来调用名称节点, 以确定文件开头部分的块的位置。对于每一个块, 名称节点返回具有该块的数据节点地址。此外, 这些数据节点根据它们与客户端的距离来排序。如果该客户端本身就是一个数据节点, 便从本地数据节点中读取。分布式文件系统返回一个FSData Input Stream对象给客户端读取数据。FSData Input Stream转而包装了一个DFSInput Stream对象。接着, 客户端对这个输入流调用r e a d () 操作。存储着文件开头部分的块的数据节点地址的FSData Input Stream随即与这些块最近的数据节点相连接。通过在数据流中重复调用read () , 数据会从数据节点返回客户端。到达块的末端时, DFSInput Stream会关闭与数据节点间的联系, 然后为下一个块找到最佳的数据节点。客户端只需要读取一个连续的流, 这些对于客户端来说都是透明的。客户端从流中读取数据时, 块是按照DFSInput Stream打开与数据节点的新连接的顺序读取。它也会调用名称节点来检索下一组需要的块的数据节点的位置。一旦客户端完成读取, 就对文件系统数据输入流调用close () 操作。如图3所示。

(2) HDFS写入数据过程

客户端通过在分布式文件系统 (Distributed File System) 中调用create () 来创建文件。分布式文件系统通过一个RPC去调用名称节点, 在文件系统的命名空间中创建一个新的文件, 这时没有块与之相联系。名称节点执行各种不同的检查以确保这个文件不存在, 并且客户端有可以创建文件的适当的许可。如果这些检查通过, 名称节点就会生成一个新文件的记录;否则, 文件创建失败并向客户端抛出一个IOException异常。分布式文件系统返回一个文件系统数据输出流, 让客户端开始写入数据。就像读取一样, 文件系统数据输出流控制一个DFSOutput Stream, 负责处理数据节点和名称节点之间的通信。在客户端写入数据时, DFSOutput Stream将它分成一个个的包, 写入内部的队列, 即数据队列。数据队列随数据流流动, 数据流的责任是根据适合的数据节点的列表来要求这些节点为副本分配新的块。DFSOutput Stream也有一个内部的包队列来等待数据节点确认, 称为确认队列。一个包只有在被管线中所有节点确认后才会被移出确认队列。客户端完成数据的写入后, 就会在流中调用close () 操作。在向名称节点发送完信息之前, 此方法会将余下的所有包放入数据节点管线并等待确认。名称节点已经知道文件由哪些块组成, 所以它只需在返回成功前等待块进行最小量的复制。如图4所示。

(3) HDFS负载均衡

HDFS集群会处于长时间运行状态, 尤其是大量的delete操作后, 集群中各个Data Node上的空间使用率可能会存在比较大的差异。所以需要一种机制使各个Data Node保持平衡, 防止少数Data Node存储过多的文件。少数使用率过高的Data Node会导致对其的数据访问效率变低, 并且如果该Data Node停止服务, 则需要更多的时间进行恢复, 对集群也会造成更大的影响。

Hadoop中提供了balancer的机制。Hadoopbalance rthreshold。通过此命令可以使Hadoop对各个Data Node空间使用率进行评估并使他们保持平衡。参数threshold表示平衡的阀值, 取值范围在0%到100%之间, 该参数表示每个Data Node中空间使用率与HDFS集群总的空间使用率的差距百分比。假如当前集群总空间为20T, 已经使用空间为10T, 那么对于HDFS集群来说空间使用率为50%。如果当前集群有2台Datanode, 每台有10T总空间。Data Node1已用空间为4T, 那么Data Node的空间使用率为40%。Data Node2已用空间为6T, 那么Data Node的空间使用率为60%。如果我们把balancer的阀值设为10%, 那么此时两台Datanode的使用率与HDFS的总使用率的比值均超过阀值, 此时需要执行balancer。如果balancer的阀值设为50%, 那么此时两台Data Node的使用率与HDFS的总使用率的比值均未超过阀值, 此时不需要执行balancer。

阀值设置的越小, HDFS各个Data Node的使用率越接近, 整个集群也更加平衡, 但会消耗更多的时间和资源来达到该平衡状态。如果阀值设置的过小, 对于操作非常频繁的HDFS集群, 有可能永远也不会达到该阀值所指定的平衡状态。阀值设置越大HDFS各个Data Node的使用率差距越大, 但是会较容易达到平衡状态。

在balancer的过程, Hadoop会递归的把b l o c k从使用率高的Data Node转移到那些使用率低的Data Node上。在每次递归的过程中, 单个Data Node转移或者接受的block不得超过10G或者它的存储能力的阀值 (根据该Datanode的总空间决定) 。并且每次递归过程的执行也不能超过20分钟。在每次递归过后, 会更新Data Node的最新状态信息, 决定下一次递归的执行。

整个balancer过程是比较复杂的, 首先会计算集群总的使用率, 然后分别计算各个正常运行的Data Node结点的使用率。根据balancer阀值对各个Data Node进行分类, 找到那些使用率过高的和使用率过低的结点。

结语

7.分布式存储解决方案：Skylable SX 篇七

3月14日，惠普在北京发布最新的MSA1000存储解决方案以及新的分销商渠道促销计划。这场名为“2003面向工业标准服务器的存储解决方案春季发布会”的活动，吸引了惠普众多的合作伙伴和增值经销商参加。

“面向工业标准服务器的存储解决方案”是惠普公司依照企业最新对工业标准服务器的存储管理需求所设计，

新方案不仅支持工业标准服务器，还能够支持各类入门级和中档的Alpha服务器，这是面向Alpha用户的第一款入门级的SAN解决方案。此外，MSA1000还兼容目前的惠普外置交换机及可选的2GB嵌入式光纤通道结构交换机，它可以为用户提供经济的全结构交换机连接，支持低成本光纤通道基础架构的开发。惠普还向合作伙伴和经销商们展示了惠普NT平台的其它相关存储产品以及新出炉的分销商渠道销售计划。

此次活动还将在广州和上海陆续展开。

8.分布式存储解决方案：Skylable SX 篇八

关键词：PACS,DICOM3．0,HIS,医学影像数据,信息存储技术,JPEG2000

医学影像存储与传输系统(picture archiving and communication sysstem,PACS)是放射学、影像医学、数字化图像技术与计算机技术及通讯工程发展相结合的产物,它是全面解决医学影像数据提取、显示、存储、传送和管理的信息系统。随着医学影像设备数字化程度的不断提升,越来越多的影像数据被存储到PACS中,为临床诊疗与管理提供了极大的方便与帮助。由于医学影像数据量大且需要长期保存,以及要求能在较短时间内调阅任意时间的历史影像资料,PACS存储体系结构的选择一直成为构建PACS的重要问题,是PACS设计开发中的核心与难点。我院2006年基于Visual C++软件开发语言和SQL Server数据库管理工具,采用多级分布式存储体系结构,对原有的PACS进行了全新的升级,本文论述了如何实现影像数据的多级分布式存储。

1 影像数据的特点

1.1 影像数据来源

从信息源数据形态来看,其来源可分为:①原有X光片、CT胶片等介质形态扫描转换为的数字影像;②直接由CT、DR、MRI、DSA等影像检查设备产生的数字影像;③由胃镜、肠镜、纤支镜等内窥镜及病理、B超等检查设备产生的视频模拟信号影像转换为的数字影像;④其他数据格式的数字影像转换而来的数据。

1.2 影像数据存储格式

影像数据的存储格式、元数据的标识、表示方式等由DICOM3.0 (digital imaging and communications in medicine)标准规定。在影像数据中,保存了影像的产生日期(image date)、时间(image time)、设备类型(modality)、设备厂家(manufacturer)、病人姓名(patient name)、病人ID号(patient ID)、出生日期(date of birth)、性别(sex)、检查唯一标识(Study Instance UID)、序列标识(Series Instance UID)、图像标识(Image Instance UID)等,利用这些信息建立影像管理数据库对影像数据进行管理。影像数据一旦形成就不会再改变,对影像的标注、解释等可通过另外保存数据实现。

2 存储体系特征和结构

PACS存储的影像数据主要是医学图像数据和相关信息(病人的基本信息、诊断分析报告、医生信息等),根据影像数据的使用频度和存取速度要求,整个PACS存储结构必须具备以下特征:

(1)医学图像数据和相关信息的完整性,保证PACS采集的新图像完整无误地存入系统。

(2)存储结构的高效率,保证数据存储的低代价和数据回迁查询的高效率。

(3)数据信息的安全性,保证存储的图像和相关信息不会因人为或不可知因素而彻底丢失。

因此,PACS存储结构设计由网络通信模块、数据管理模块构成。完成基于DICOM3.0标准的数据通信、分布式存储和查询、备份管理、数据回迁等功能。其体系结构如图1所示。

网络通信模块通过DICOM端口,实现基于DICOM标准的网络通信功能,为医学影像设备和系统提供图像信息,以及影像数据存储、查询和转存服务,即STORE SCP(Service Class Provider),FIND SCP和MOVE SCP服务。数据管理模块直接对数据库和图像文件区进行各种操作,是存储体系结构的核心。

医学影像设备和其他医学信息都通过网络通信模块与PACS存储体系结构相联系。当影像设备发送影像数据给系统时,存储结构首先通过网络通信模块STORE SCP服务接收图像,并根据信息分布式树型结构解析出图像数据和相关信息,通过服务器存入在线存储设备(同时传送近线NAS备份)。数据管理模块将图像数据以文件的形式存入在线存储区中,同时将相关信息存入中心数据库中;当影像设备需要从存储体系获取图像时,通过网络通信模块FIND SCP和MOVE SCP服务将请求发送给存储体系,数据管理模块根据FIND SCP服务解析出具体查询条件,将数据库中匹配的相关信息通过DIMSE(DICOM Message Service Element)服务返回给客户端;MOVE SCP服务查询指定图像的存储地址,根据存储地址访问具体的图像,并将图像数据通过网络通信模块发送给影像设备。

3 多级分布式存储和查询

3.1 信息数据库架构

构建分布式树型结构,利用中心数据库存放图像的相关信息,同时将图像数据放置在图像文件区中。这种方法具有存取灵活,便于数据共享等优点。数据库只存放图像的索引信息,增量数据相对比较缓慢,保证了数据库的稳定性。

根据DICOM3.0标准,将影像数据分为病人级、病例级、序列级和图像级的信息,上一级和下一级都是一对多的关系。这四级从现实实体中抽象出来,符合当前医院的工作流程,具有很强的实用性。其树型结构如图2所示。

病人级为最高级,主要存储病人的基本信息,如姓名、性别、年龄和ID号。这些信息是基本不变的,会永久保存在医院数据库中。每次病人就诊,医院就会调出这些信息,每一个病人相应地都会分配一个Patient ID号作为唯一识别号。

病例级为第二级,主要存储病人每次到医院看病时记录的一部分信息,如姓名、病例号、Study Instance UID、就诊科室和医生,其中Study Instance UID为唯一识别号。

序列级为第三级,主要存储病人每次检查时记录的不同检查部位的信息,如申请单信息、序列号、诊断部位、Series Instance UID、影像设备、诊断结果,其中Series Instance UID为唯一识别号。

图像级为第四级,主要存储具体医学图像的信息,如图像号、Image Instance UID、图像尺寸、图像描述,其中Image Instance UID为唯一识别号。

3.2 多级存储模式

由于PACS中图像数据量相当大,通常以TB为单位,因此存储结构采用多级分布式技术进行存储管理,基于多种存储设备,实现科学分配影像数据在PACS中数据流。

3.2.1 在线(on-line)存储

基于服务器为中心的直连存储(Direct Attached Storage,DAS),数据以本地磁盘和磁盘阵列存储。我院采用Lenovo dl560服务器与lenovo 620R光纤磁盘阵列作为在线存储设备。用于存储最新和使用频率较高的影像数据。服务器充分发挥Xeon平台的技术优势,盘阵中12块140G硬盘采用RAID 0+1技术,冗余存储磁盘阵列(RAID)存储影像数据的实际容量约840GB,保证了医院影像数据十个月的实时在线,盘阵虽然可用空间减少一部分,但磁盘读写速度提高了一倍,具有较高的硬件冗余和安全保障。

3.2.2 近线(near-line)存储

以数据为中心的附网存储(Network Attachment Storage,NAS),是将存储设备通过标准的网络拓扑结构,连接到局域网,为网络用户提供独立的存储空间,用于存储不常用的图像数据,我院采用的是DELL PowerVault745N服务器,后级使用DELL PowerVault 220S磁盘SCSI存储设备1套,内置146G的SCSI硬盘14块,采用RAID 5技术。可用于影像数据存储的实际容量约为1.8TB,能够保证影像数据接近两年的近线存储。存储途径为:影像数据由数字设备传入服务器后,1份存入服务器在线存储设备,1份传送至NAS系统备份。一旦NAS系统积余容量耗尽,直接进行扩容,保证全部影像数据的近线存储。

3.2.3 离线(off-line)存储用于存储需要永久保存的数据,通常用光盘和磁带存储,其存储容量理论上讲是无穷。

NAS系统的不断存储与扩容,基本上保证了影像数据的完整性存储,但为了防止意外的发生,离线数据的存储也必不可少。我们选择的离线存储介质为磁带,因为磁带的成本是所有备份介质中最低的,速度处于中上等水平,保存时间也较长,具有较高性价比。我院采用的是DELL PowerVault 100T DAT72磁带机,该磁带驱动器提供了经济型磁带驱动器的存储容量和数据吞吐量,使用的4MM DAT72存储媒介单盘容量高达36GB (原始)或72GB (压缩),备份速率高达12.6GB/h(原始)或25.2GB/h (压缩),运用于我们系统实际,基本上是接近一月存储一盘,人力参与不多。

3.3 分级查询

由于需要在上TB级的海量数据中快速找出符合用户需求的图像数据,因此设计有效的查询方式是有必要的。根据信息分布式存储的结构。查询也采用分级的方式。这在很大程度上增加了查询的灵活性,提高了查询的整体效率。查询设计原则按照以下两种分类进行混合查询:①病人级→病例级→序列级→图像级;②在线存储区→近线存储区→离线存储区。当接收到客户端的查询请求后,分析查询信息,确定其查询的级别以及信息在数据库中存储的大致位置。对某一存储级的查询,按照深度查询的思想,从病人级到图像级一步步深入查询。对图像的查询,利用广度查询的思想,按照时间顺序,先后查询在线、近线和离线存储区,并及时地将查询结果反馈给客户端。

4 安全性和数据回迁

4.1 备份管理

备份管理是为保证影像数据的安全性而设计,根据存储的体系结构,需要备份的数据包括两类:图像和相关信息。相关信息存放在SQL server数据库中,增量数据相对较小,我们选择定制数据库维护计划备份策略,设定每日18点数据流较小时备份用户数据库,以避免出现资源争用,这样即能保证数据的安全又可实现存储的高效率。

由于图像数据量大并且格式复杂,所以重点是实现图像的备份。图像的备份流程:首先网络通信模块在接受到影像数据之后,分别将图像和从中解析出的相关信息存入在线存储区和在线数据库。刚存入的图像没有经过备份,因此将其加入到备份队列中,备份系统会根据用户设置的备份策略,将备份队列中的图像数据备份到近线存储区,并更新近线数据库相对应信息。为保证数据存储的低代价,我们对备份的图像进行了基于JPEG2000标准及感兴趣区域编码(ROI)的压缩技术处理,提高了存储效率(3～8)倍。近线至离线的数据备份流程类似。

JPEG2000标准是国际标准组织ISO/ITU-T为21世纪图像压缩和应用而制定的新的静止图像压缩标准。其采用离散小波变换(Discrete Wavelet Transform,DWT)和最新的嵌入式编码技术。我们采用的压缩方案:①在医学图像中,通常病变区域与其它正常的组织和背景区域对比具有不同的灰度值,从而使得图像所对应的灰度直方图出现双峰。利用病变图像灰度直方图双峰值这一特点,我们采用多阈值分割方法对感兴趣区域实现自动分割。②对图像背景区域进行JPEG2000标准的高压缩比的变换和量化方法的压缩。对于病变区域(ROI),采用MAXSHIFT算法来实现感兴趣区域技术编码。③感兴趣区域(ROI)的图像编码将病变区域编码条件中的优先级比其他图像区域(背景)设置得高一些,可以相对地提高图像质量;在传输过程中,感兴趣区域被编码于最优先的位平面,以达到高画质。④对变换后图像进行小波逆运算,可得到恢复图像。

4.2 数据回迁

在线存储设备是确保PACS运行的关键设备,在线数据的缺失对医疗工作的影响最大,如何快速恢复数据是PACS必须考虑的问题。多级分布式存储结构,较好地保障了整个系统数据的安全性与完整性。一旦发生在线存储设备一时间无法排除故障的情况,可以采取更改数据库管理中影像资料的读取路径,直接将路径指向NAS系统,保障了速度与应用;在线存储设备恢复正常后,将NAS系统中的影像数据回迁至在线存储设备,即可保证在线数据的完整。如果NAS系统的影像数据发生意外,可以将磁带中的离线数据回迁至NAS系统,确保NAS系统影像数据的完整。

5 结束语

医学影像是临床诊断中应用最普遍、最重要的诊断依据之一,也是PACS在临床医学领域中得以迅速发展的原因。但是海量数据安全存储问题,也一直是困扰PACS快速发展的制约瓶颈,本文的存储体系结构是完全开放的存储解决方案。采用多级分布式数据存储与备份,确保数据存储的完整和安全;多种方式的分级数据查询,提高了数据查询的效率;采用JPEG2000压缩技术,减少了对存储容量的需求,降低了数据长期保存的成本。完全能满足医院现在和未来对图像数据存储的实际需求,极大地促进了医院实现放射医疗完全数字化。

参考文献

[1]ACR-NEMA Committee,Digital Imaging and Communi- cations in Medicine:version3.0.2001 [EB/OL].http://www. hci.uu.se/courses/lmd100/vt01/material/telemedicine

[2]冯丹，等．磁盘阵列附网存储技术的研究[J]．计算机工程，2002，28(10)：172-173．

[3]George K Anastassopoulos,Athanassios N Skodras. JPEG2000 ROI Coding in Medical Imaging Applications [EB/OL].http://www.upalras.gr/ieee/skodras/pubs/ans-c50. pdf,2003-02.

[4]Huang HK,Andriol k.Design and Implementation of a Pic- ture Archiving and Communication System [J].Digital Imaging,2000,6(5):47-59.

[5]Taubman D.High Performance Scalable Image Compression with EBCOT [J].IEEE Trans .Image Processing,2000,9 (7):1158.

[6]张立科，等．Visual C++音视频编解码技术及实践[M]．北京：人民邮电出版社，2006．

9.分布式存储解决方案：Skylable SX 篇九

随着电网建设的不断深入和推进,电网运行和设备检、监测产生的数据量呈指数级增长[1][2],数据类型从单一的结构化数据迅速向半结构化或者非结构化数据转变,对可靠性和实时性要求更高,远远超出传统电网状态监测的处理范畴。国内传统电力系统信息平台的建设大多采用价格昂贵的大型服务器,存储采用磁盘阵列,数据库采用关系数据库系统,业务应用采用紧密耦合的套装软件[3][4],导致系统扩展性较差、成本较高,难以适应新时代电网高要求高标准。因此电力行业进入了大数据时代,必须重新审视现有的存储技术[5]。

本文针对不同类型不同应用场景的数据,推出一套完整的存储策略来解决传统电力系统信息平台遇到的存储瓶颈。

2 电网大数据

要制定符合国网实际情况的存储应用策略,首先需要对公司各类数据进行调研和分析,理清各类数据的量级、数据重要程度、数据访问频率、数据访问的实时性、以及数据访问的带宽要求等,这是制定国网应用策略的基础。

2.1 电网大数据分类

根据电网数据内在结构,可以将其分为结构化数据及非结构化数据。结构化数据主要包括关系型数据库中的存储数据,然而随着科技进步和公司业务的发展,原有的结构化数据在全部数据量中所占的比例迅速降低。80%以上的新增数据都是视频流、图片、文档等半结构化或非结构化数据。因此本文的分析主要针对半结构非结构化数据,也兼顾结构化数据。

2.1.1 按数据的访问频率分类

不同类型的数据被访问频率和被处理热度是不一样的,可以分为冷数据和热数据。大量的冷数据并不需要很高的响应速度,若采用可扩展性更灵活的廉价存储方案,能够节省大量的设备投资成本。在分布式存储系统中,数据类型按照数据的使用热度,可以分为在线、近线、离线数据,对不同热度的数据采取不同的技术策略。

2.1.2 按数据的实时性分类

按照数据的实时性可以分为实时响应数据、准实时响应数据、非实时响应数据,实时响应数据一般定义要求响应时间小于1秒,准实时响应数据一般定义响应时间小于60秒,非实时响应数据一般定义为60秒以上。

2.1.3 按非结构化文件大小分类

按照非结构化文件可以分为小文件、中等文件、大文件,小文件一般定义为1M以内,中等文件一般为大于1M小于100M,大文件一般定义为100M以上,不同大小的文件采用的存储策略和技术不同。

2.1.4 按照数据量分类

按照数据量可以分为小规模数据、中等规模数据、海量数据,小规模数据一般定义为1TB以下,中等规模数据量一般定义为1TB以上,1PB以下,海量数据一般定义为1PB以上。对于海量数据通过使用廉价的设备,牺牲部分性能来获取更高的存储效率,降低存储投资。

2.2 电网大数据特点

电力企业的非结构化数据贯穿于发电、输电、变电、配电、用电和调度所有环节。几乎存在于企业的所有业务应用当中,不仅如此,公司非结构化数据还具有以下特点:

1)数据格式多样化。在业务应用过程中非结构化数据格式呈现出多样化方式.如Word、Excel、PPT、P DF、CEB、TXT、JPEG、压缩文件、Cad图纸等。

2)业务对象多样化。非结构化数据的业务对象包括凭证、公文、发票、报表、技术规范书、标书、设计图、可研估算书、批复文件、生产文档、结算文档、图纸策划等。

3)存储方式多样化。非结构化数据由各个业务应用自行管理,有结构化数据库、FTP、纸质材料等多种存储方式。

4)业务流程多样化。非结构化数据业务流程包括业务系统内流转、人工流转、打印、扫描、复印、上传、下载等。

5)安全课题多样化。目前,非结构化数据在电力企业的各个业务应用中已经实现了初步的安全管控,但对于非结构化数据在线安全、离线安全、数据容灾等方面还需加强和补充。

3 电网大数据数据存储策略

3.1 不同文件大小的存储策略

3.1.1 大文件存储策略

对于大文件的存储,采用目前主流、开源的HDFS系统,HDFS是目前应用最多的开源分布式文件系统[6,7,8,9]。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。它采用一次写入多次读取的文件模型,读取时采用流的方式批量读取(而非用户交互式读取)。HDFS采用主从架构,由唯一一个元数据节点(Name Node)和多个数据节点(Data Node)组成,HDFS的体系结构如图1所示。

1)数据块Blocks

HDFS默认的最基本的物理存储单位是64M数据块(可以进行配置),如果一个文件小于一个数据块的大小,它也不占用整个数据块的存储空间。

2)元数据节点Name Node

Name Node是集群的主节点,负责文件名的维护管理(包括文件和目录的创建、删除、重命名等),同时也管理数据块(Data Block)和数据节点(Data Node)的映射关系。

3)从元数据节点Secondary Name Node

Secondary Name Node周期性将Name Node的命名空间镜像文件和修改日志合并(合并过后的命名空间镜像文件也在从元数据节点保存了一份,以便备用),并上传到Name Node,便于Name Node恢复先前状态。

4)数据节点Data Node

Data Node是集群里的一台机器,负责数据的存储和读取。在写入时,由Name Node分配数据块的保存位置,客户端直接写到对应的Data Node。在读取时,客户端从Name Node获得文件与Data Block的映射关系后,到对应的数据节点读取数据。Data Node根据Na me Node的命令创建、删除、冗余复制Data Block。Dat a Node周期性的向namenode汇报其存储的数据块信息。

3.1.2 小文件存储策略

1)采用高端存储SAN或者NAS系统

网络附加存储(Network Attached Storage,简称NAS)即将存储设备通过标准的网络拓扑结构,连接到一群计算机上[10]。NAS是部件级的存储方法,它的重点在于帮助工作组和部门级机构解决迅速增加存储容量的需求。NAS产品包括存储器件(例如硬盘驱动器阵列、磁带驱动器或可移动的存储介质)和集成在一起的简易服务器,可用于实现涉及文件存取及管理的所有功能。简易服务器经优化设计,可以完成一系列简化的功能,例如文档存储及服务、电子邮件、互联网缓存等等。集成在NAS设备中的简易服务器可以将有关存储的功能与应用服务器执行的其他功能分隔开。

存储区域网络(Storage Area Network,简称SAN)采用光纤通道技术[11],通过光纤通道交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。当前企业存储方案所遇到问题的两个根源是:数据与应用系统紧密结合所产生的结构性限制,以及小型计算机系统接口(SCSI)标准的限制。SAN正是专注于企业级存储的特有问题。SAN便于集成,能改善数据可用性及网络性能,而且还可以减轻管理作业。

NAS和SAN系统对于小文件的处理效率较高,但硬件成本较高。

2)采用Fast DFS文件系统

Fast DFS是一个开源的轻量级分布式文件系统[12,13]1[12,13]。它对小文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。

Fast DFS服务端有两个角色:跟踪器(tracker)和存储节点(storage)。跟踪器主要做调度工作,在访问上起负载均衡的作用。存储节点存储文件,完成文件管理的所有功能:存储、同步和提供存取接口。

跟踪器和存储节点都可以由一台或多台服务器构成。跟踪器和存储节点中的服务器均可以随时增加或下线而不会影响线上服务。其中跟踪器中的所有服务器都是对等的,可以根据服务器的压力情况随时增加或减少。

为了支持大容量,存储节点(服务器)采用了分卷(或分组)的组织方式。存储系统由一个或多个卷组成,卷与卷之间的文件是相互独立的,所有卷的文件容量累加就是整个存储系统中的文件容量。一个卷可以由一台或多台存储服务器组成,一个卷下的存储服务器中的文件都是相同的,卷中的多台存储服务器起到了冗余备份和负载均衡的作用。

在卷中增加服务器时,同步已有的文件由系统自动完成,同步完成后,系统自动将新增服务器切换到线上提供服务。

当存储空间不足或即将耗尽时,可以动态添加卷。只需要增加一台或多台服务器,并将它们配置为一个新的卷,这样就扩大了存储系统的容量。

Fast DFS对小文件的存储效率较高,但由于其在存储文件时没有对文件进行分块处理,所以在大文件的处理上效率相对较低。

3)采用TFS文件系统

TFS(Taobao File System)是一个高可扩展、高可用、高性能的分布式文件系统[14],主要针对海量的非结构化数据,它构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构,可将文件名映射到文件的物理地址,简化了文件的访问流程,一定程度上为TFS提供了良好的读写性能。

TFS系统的体系如图2所示。TFS的块大小一般为64M(可进行配置)。TFS的设计目标是海量小文件的存储,所以每个块中会存储许多不同的小文件。Data Ser ver进程会给Block中的每个文件分配一个ID,并将每个文件在Block中的信息存放在和Block对应的Ind ex文件中。这个Index文件一般都会全部load在内存,除非出现Data Server服务器内存和集群中所存放文件平均大小不匹配的情况。

在TFS中,将大量的小文件(实际用户文件)合并成为一个大文件,这个大文件称为块(Block)。TFS以Block的方式组织文件的存储。每一个Block在整个集群内拥有唯一的编号,这个编号是由Name Serve进行分配的,而Data Server上实际存储了该Block。在Name Server节点中存储了所有的Block的信息,一个Block存储于多个Data Server中以保证数据的冗余。对于数据读写请求,均先由Name Server选择合适的Data Server节点返回给客户端,再在对应的Data Server节点上进行数据操作。

4)采用相关合并技术赋予HDFS小文件支持能力

对于小文件问题,有两种解决方案:Hadoop Arch ive、Sequence File。

Hadoop Archive

将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map Reduce进行操作,打包后的文件由索引和存储两大部分组成,索引部分记录了原有的目录结构和文件状态。其原理如图3所示。

Sequeues File

由一系列的二进制key/value组成,如果key为小文件名,value为文件内容,则可以将大批小文件合并成一个大文件。该方案对于小文件的存取都比较自由,不限制用户和文件的多少,支持Append追加写入,支持三级文档压缩(不压缩、文件级、块级别)。其存储结构如图4所示:

3.2 不同热度的非结构化数据存储策略

对于热数据,一般数据量不会太大,但由于并发访问高,为了提升数据的访问性能,考虑采用多副本机制,可使用两种策略。

3.2.1 热点数据存储高端存储

1)高端存储+RAID1(RAID5)

采用高端存储[15],并配合RAID1或者RAID5提升热数据访问效率。RAID1通过数据镜像实现数据冗余,在两对分离的磁盘上产生互为备份的数据。RAID1可以提高读的性能,当原始数据繁忙时,可直接从镜像中读取数据。RAID1是磁盘阵列中费用最高的,但提供了最高的数据可用率。当一个磁盘失效,系统可以自动地交换到镜像磁盘上,而不需要重组失效的数据。RAID5是一种存储性能、数据安全和存储成本兼顾的存储解决方案。RAID5可以理解为是RAID0和RAID1的折中方案。RAID5可以为系统提供数据安全保障,但保障程度要比Mirror低而磁盘空间利用率要比Mirror高。RAID5具有和RAID0相近似的数据读取速度,只是多了一个奇偶校验信息,写入数据的速度比对单个磁盘进行写入操作稍慢。同时由于多个数据对应一个奇偶校验信息,R AID5的磁盘空间利用率要比RAID1高,存储成本相对较低,是目前运用较多的一种解决方案。

2)分布式文件系统多副本机制

HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的Map Reduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为Map Reduce提供高效的读写性能。首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块又保存有多个副本,这些数据块副本分布在不同的机器节点上,这种数据分块存储+副本的策略是HDFS保证可靠性和性能的关键,在这里,副本的存放策略又是HD FS实现高可靠性和搞性能的关键。

在大多数情况下,副本系数是3,HDFS的存放策略是将一个副本存放在本地机架节点上,一个副本存放在同一个机架的另一个节点上,最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输,提高了写操作的效率。与此同时,因为数据块只存放在两个不同的机架上,所以此策略减少了读取数据时需要的网络传输总带宽。因为HDFS对文件的存储是分块来存储的,因此通过增加热点数据副本数据,可以有效提高热点数据的访问效率。

3.2.2 冷数据存储

通过分布式文件系统最少副本数,降低冷数据的存储成本。

3.3 数据不同访问延时存储策略

3.3.1 低延时数据存储策略

1)高端存储

以光纤为接口的存储网络SAN可提供多路4Gbps连接的高扩展性、高性能的网络存储机构,光纤交换机、光纤存储阵列同时提供高吞吐量和更大的服务器扩展空间。因此采用高端存储设备来解决低延时数据的存储问题。

2)采用盘古等分布式文件系统

在盘古系统中[16],文件系统的元数据存储在多个主服务器(Master)上,文件内容存储在大量的块服务器(C hunk Server)上。客户端程序在使用盘古系统时,首先从主服务器获取元数据信息(包括接下来与哪些块服务器交互),然后在块服务器上直接进行数据操作。由于元数据信息很小,大量的数据交互是客户端直接与块服务器进行的,因此盘古系统采用少量的主服务器来管理元数据,并使用Paxos协议保证元数据的一致性。此外,块大小被设置为64MB,进一步减少了元数据的大小,因此可以将元数据全部放到内存里,从而使得主服务器能够处理大量的并发请求。

3)优化开源的HDFS,满足低延时存储需求

HDFS不太适合于那些要求低延时(数十毫秒)访问的应用程序,因为HDFS是设计用于大吞吐量数据的,这是以一定延时为代价的[17]。HDFS是单Master的,所有的对文件的请求都要经过它,当请求多时,肯定会有延时。使用缓存或多master设计可以降低client的数据请求压力,以减少延时。

3.4 总体存储策略及演进路线

采用多种技术路线,构建面向不同文件大小、不同数据热度、不同访问延时的非结构化数据存储策略如下图所示:

前期

考虑到现有高端存储的利旧问题,及分布式文件系统在小文件存储和低延时数据访问等方面的问题,前期任保留高端存储,用于存放小文件、实时数据、在线数据、核心业务数据,将现有的大文件、非实时数据、离线业务数据、非核心业务数据逐步迁移至分布式存储上。同时,通过建立统一的数据管理平台,对外提供基于高端存储和分布式存储的统一界面。

中期

中期采用通过开源集成方式,采用不同的分布式存储产品(HDFS、Fast DFS),解决不同大小、不同延时要求、不同访问频率、不同重要程度的数据存储问题,同时通过自主研发方式,将现有的高端存储纳入到分布式存储的管理范围,最大程度上利用现有设备,减少投资。

后期

最后,通过采用统一的技术路线,选取一种开源的分布式文件系统(HDFS),通过自主研发和创新,解决HDFS在小文件存储、低延时访问等缺陷,使其满足各类业务数据的存储需求。

4 结束语

本文阐述了电网中大数据的数据特点、分类以及应用价值,重点分析了非结构化数据不同的存储策略,阐述了国网公司电网数据存储迁移的三大目标,逐步从昂贵的国外高端存储向开源的国产分布式文件系统转变,以满足新时代国网公司的新需要,响应国家去IOE政策,为我国电网大数据存储及处理提供参考。

摘要：随着科技的进步和时代的发展,电力行业得到长足的进步。伴随而来的是电网各个环节产生的数据量呈指数级增长,数据类型也从相对简单的结构化数据向非结构化数据转变。同时为响应国家去IOE政策和国网公司提出的集约型倡议,本文从数据的不同类型,不同的应用场景出发,对数据存储模式进行了详细的分析研究,推出了一套完整的数据存储和迁移方法 ,为国网大数据存储提供新的思路和模式。

10.SAN存储交换机改造方案篇十

在现实环境中服务器与存储搭建san环境时，为了达到链路的冗余，防止单点故障，一般都需要引进光纤交换机。同时当业务系统不断增加，光纤交换机端口无法满足日益增长的业务需求时，就需要重新购置光纤交换机，使之与之前的光纤交换机级联，从而达到端口扩容的现实效果，但是在配置交换机级联时容易出现问题。

出现问题：

在新购置的SAN存储交换机上不更改交换机Domian ID,直接划分zone配置，导致交换机Domian ID冲突，应用服务器无法正常访问到存储。

级联准备：

1.部分光纤交换机级联需要官方授权，购买级联license，（比如说博科200e光纤交换机）。有些光纤交换机级联license是出厂自带的（比如说IBM B40光纤交换机）。

2.搭建级联物理环境

级联步骤：

1.导入级联license

2.修改switch domain ID（默认为1）

3.删除所有的zone信息

4.在downstream交换机上新建zone信息

5.在upstream交换机上zoneshow，查看从downstream交换机

11.分布式存储解决方案：Skylable SX 篇十一

为了提高数据的高效性和安全性, 云计算存储数据采用分布式存储的方式, 采用冗余存储即备份多个副本的方式保证存储数据的可靠性。云计算的数据存储技术必须具有高吞吐率和高传输率的特点并且集中的为大量用户服务。GFS用户集中起来的大量数据和Google引擎的的实际特点而设计的, 基于GFS的分布式云存储应用技术有很广阔的应用市场[1]。

1、GFS分布式云存储

1.1 云计算

IBM的“Cloud computing”[2][3]的定义为“云计算是用来描述一种类型或者一个系统平台的应用程序, 一个云计算的平台按需进行动态地部署 (provision) 、配置 (configuration) 重新配置 (reconfigure) 以及取消服务 (deprovision) 等。云计算平台是一个强大的“云”网络, 连接了大量并发的网络计算和服务, 可利用虚拟化技术扩展每一个服务器的能力, 将各自的资源通过云计算平台结合起来, 提供超级计算和存储能力。一个通用的体系结构如图1所示:

1.2 GFS

GFS即Google File System, 访问集中的大量数据是通过大型的分布式系统。GFS和过去的文件系统是不一样的。云存储应用技术的发展主要在数据存储和数据加密以及未来将集中在提高I/O速率等方面[4]。GFS和普通的分布式文件系统[5]的区别如图2所示:

1.3 GFS云存储系统架构

GFS系统是由一个Master和大量block severs组成。Master文件存放系统的所有数据元中包括block files、名字空间、存取控制和文件块的位置信息等。把GFS的文件分成若干blocks进行存储。在GFS文件中采用冗余存储的方式保证数据的可靠性, 一个数据的若干个备份用一个版本号, 为了使数据保持正确和一致, 每次要将若干个备份统一修改, 并用版本号检查所用的备份是不是统一进行修改。本文以GFS为例讨论云存储技术[5], 图3表示其基本组成和架构。

2、GFS在医疗信息化中的使用

2.1 医疗信息化中的云存储

为了解决医院系统中存在的问题, 如病人挂号难, 规范档案管理, 就诊信息不够完善和发达的情况, 以及各个医院的最新医疗信息不能共享和交流。本文提出了在医疗信息化的建设中应用GFS的分布式云存储, 云存储的结构在数字化医疗信息系统的建设中作用可以很大, GFS云存储将网络技术、群应用和block files结合起来, 本文分析了如何利用GFS云存储将数字医疗信息进行整合, 通过高性能、大容量的数字系统和远程数据备份软件将信息共享最大化, 使机构和病人获得便利。基本的结构图如图4所示:

2.2 GFS云存储环境的设置

多个服务器可以使用一个块设备, 可以分区出一个对多个服务器都可见的LUN (逻辑单元号) 和SAN (存储局域网) , 用来设置相应的iSCSI (互联网小型计算机系统接口) , 或使用DRBD (分布式复制块设备) 在两台服务器之间复制一个分区。在使用DRBD的时候, 你将需要在主/主节点中设置好DRBD以使用GFS.运行GFS意味在运行一个集群。目前为止, 运行GFS的最简单的手段就是使用Red Hat Cluster Suite (RHCS:Red Hat集群套件) 。此外, 还需要下面这些包:lvm2-cluster———使LVM (逻辑卷管理器) 和cman———集群管理器可以支持集群的CLVM (集群逻辑卷管理器) 包和kmod-gfs———GFS内核模块;最后是gfs-utils.集群管理器包含必要的工具, 比如分布式锁管理器。RH所维护的各种最新版本的集群服务还可以获得一个比较稳定的环境。

创建集群设置可以通过/etc/cluster/里面的cluster.conf完成大部分的集群设置。不建议使用各种集群管理应用程序来创建这个设置文件。即使是完全支持的RHEL应用程序, 比如两个月前发布的Conga, 也经常会创建一些无效的cluster conf文件, 并且无法被必要的服务所解析。

2.3 GFS云存储中医疗信息的传送

可以用4张表表示文件组织结构, 分别为:文件夹表 (folder＿able) 、存储表 (memory＿table) 、) 块表 (block＿table) 和文件表 (file＿table, 其中文件表和存储表需要一个对应于用户的用户ID作为外键, 指示其表示信息隶属于哪个用户。系统采用了并行下载与并行上传的云计算技术, 充分地利用了后台服务机群的各个节点。服务器首先根据文件信息进行切块计算在上传一个文件时, 将文件块平均分配给各个可用节点, 在数据库写入文件信息和块信息。然后服务器将对应的节点和文件块信息 (块数、块大小等) 址返回给各个客户端, 当客户端接收到返回信息后将文件分块、并行上传到对应的存储节点。服务器首先从数据库中找到该文件的块信息在下载一个文件时, 然后从各个存储节点并行将文件块下载到计算机, 最后在计算机上将文件块整合成一个完整的文件并删除文件块。因为各个存储节都是并行传输, 所以既实现了服务器的负载均衡, 又提高了传输速率。

并行上传流程是: (1) 选择要上传的本地文件发送上传请求, 执行上传操作时, 首先将用户ID和要上传的文件信息发送给主服务器。 (2) 节点分配及切块计算:服务器接收到文件信息后, 首先根据文件大小进行切块计算, 然后, 将文件块均衡分配到各节点根据监控系统所提供节点信息判断存储节点状态;最后, 将文件块信息和文件信息插入到数据库 (状态均设为0, 表示尚未上传) 。 (3) 响应上传请求:服务器将文件块信息以XML格式发送给客户端[6][7]。 (4) 并行上传文件块:客户端为每个存储节点建立一个文件块队列, 将文件块并行上传到对应的节点。 (5) 上传成功确认信息:向服务器发送一条确认信息当存储节点成功接收到一个文件块后, 服务器将文件块的状态改为1用来表示已经上传成功。当文件所有块都上传成功后, 服务器将数据库中该文件的状态改为1。 (6) 单个节点失效:当服务器发现某个节点失效通过实时监控信息, 立即将重新分配正在上传的部分文件。

并行下载流程如下: (1) 发送下载请求:选择要下载的文件, 向服务器发送一个下载请求 (包含要下载的文件ID及用户ID等) 。 (2) 查找文件块信息:从数据库中查找该文件的块信息服务器接收到下载请求后。 (3) 响应下载请求:服务器将文件块信息以XML格式发送给客户端。 (4) 并行下载文件块:客户端根据接收到的文件块信息, 为每个存储节点创建一个线程, 将文件块并行下载到本地计算机临时文件夹中。 (5) 文件整合:客户端下载完所有文件块后, 将其整合为一个完整的文件, 并删除文件块。 (6) 单个节点失效:当服务器通过实时监控信息, 发现某个节点失效时, 立即将正在下载的部分文件重新进行分配。

3、GFS云存储应用的发展

云存储中的分布在多不同地域且存储设备数量庞大, 如何实现不同厂商、不同型号甚至于不同类型 (如FC存储和IP存储) 的多台设备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理将会是一个巨大的难题, 这个问题得不到解决, 存储设备就会是整个云存储系统的性能瓶颈, 结构上也无法形成一个整体, 而且还会带来性能扩展难和后期容量等问题。云存储必须要具有一个高效的类似与网络管理软件一样的集中管理平台, 可实现云存储系统中设有存储设备、服务器和网络设备的集中管理和状态监控[8]。

现在Google内部至少运行着200多个GFS集群, 最大的集群有几千台服务器, 数据量是PB级别的, 并且服务于多个Google服务, 包括Google搜索和Google Earth等。同时, 在最近几年, 由于上面提到的高延迟问题, 所以GFS并不很适合新的一些Google产品, 比YouTube、Gmai和非常强调实时性的Caffeine搜索引擎等, 所以Google已经在开发下一代GFS, 代号为“Colossus”, 并且在设计方面有许多不同, 随着数据安全的要求越来越高, GFS云存储的使用范围将越来越广。

摘要：云存储是存储技术在云计算技术上的发展和延伸, 本文系统中主要介绍了云存储在实际中的应用模式, 提出了基于GFS的分布式云存储应用技术的医疗信息化系统的构建框架和设计, 深入分析了分布式云存储系统的发展动向。

参考文献

[1]雷万云著, 《云计算——企业信息化建设策略与实践》.北京:清华大学出版社, 2010

[2]许蕾, 徐宝文, 陈振强.Web测试综述[J].计算机科学, 2007, 34 (11) :15-20.

[3]Tsai W T, Wei X, Chen Y.Developing and Assuring Trustworth Web Services[C].In:Proc of Autonomous Decentralized Systems (ISADS05) .Los Alamitos, CA:IEEE Computer Society Press, 2005:43-50.

[4]陈全, 邓倩妮.云计算及其关键技术[J].计算机应用2009, 29 (9) :2563-2564.

[5]Tinyfool.Google文件系统 (Google File System) [CL/OL]http://www.codechina.org/doc/google/gfs-paper/, 2008-09-24.

[6]Chan J, Kirk B, Paniagua J.Performance Limitations ofBackplane Links at 6 Gbps and Above[C]//Proc ofDesignCon’08, 2008

[7]烨铭, 曹跃胜.高速多层板过孔分析与仿真[J].计算机工程与设计, 2008, 29 (3) .

【分布式存储解决方案：Skylable SX】推荐阅读：