绿色存储技术
摘 要: 随着数据量激增,数据中心日益暴露出能耗高,污染大,浪费严重等诸多问题,因此节省能源,构建绿色存储就成为计算机领域意义重大、迫切需要解决的问题。目前越来越多的研究人员开始关注这一领域,但尚未有系统的总结。从宏观和微观两个方面对绿色存储技术从原理、实现机制到评测手段进行分析和讨论。
关键词: 绿色存储; 存储虚拟化; 重复数据删除; 自动精简配置; 分级存储
中图分类号: TN919.5⁃34; TP311 文献标识码: A 文章编号: 1004⁃373X(2013)11⁃0165⁃03
0 引 言
信息技术的迅猛发展使得数据存储量呈爆炸式增长,数据量的激增又导致数据中心的规模不断扩大,能耗成本日益突出。据美国EPA(Environmental Protection Agency)的报告指出[1]:2006年美国数据中心消耗6.10×109 kW·h电力,这相当于580万中等家庭的耗电量。此外在一个IT公司中,数据中心的年能源消耗成本已成为继人力成本后的第二大成本支出,而且在随后的几年里将会持续增加。高能耗不仅带来运营成本的增加,而且容易引起设备故障。最新结果表明[2],约50%的设备故障和环境过热有关。每当温度上升15 ℃,则磁盘的故障率提高一倍。因此Google公司的首席执行官EricSchmidt就曾表示[3]:“最影响Google设计人员的不是计算机系统速度而是能耗,因为一个数据中心能消耗一座城市的电力”。
如何做到即降低能耗,节省成本,又能满足实际性能的需要已经成为迫切需要解决的难题,由此引入绿色存储的概念。绿色存储的最终目的是利用最少的存储容量来满足业务的需求,从而消耗最低的能源。
1 技术分类
近年来,存储能耗问题已经引起人们的广泛关注,国内外的不少团队开始对其进行研究,并取得了丰硕成果。然而目前国内尚未有人对其进行系统总结,因此本文从宏观和微观两个角度对绿色存储技术的发展现状进行了系统分析。
1.1 宏观方面
(1)存储虚拟化
以往数据中心的每台服务器都有自己专属的存储空间,服务器之间很难“借用”存储空间,造成不同设备的个体利用率差别很大而总体利用率偏低[4]。虚拟化技术就是将实际的物理存储实体和存储的逻辑表示分离开,将不同设备的存储资源整合到一个统一的虚拟化“存储池”中,通过整合分散的存储空间来解决容量和管理方面的制约。
(2)重复数据删除
重复数据删除技术[5]是一种数据缩减技术,消除分布在存储系统中相同文件或数据块,保留惟一的数据实例。利用重复数据删除技术可以减少对存储空间和网络带宽的占用,使硬盘存储成为可能。
(3)自动精简配置
传统的存储系统中,当某用户、某应用需要存储空间时,需要事先预留足够大的存储空间以分配给该用户或该应用,其他用户或应用无法使用这些已经分配但尚未使用的存储空间,这将导致闲置空间不断增大。因此实际上,往往采用自动精简配置[6]来进行容量分配。自动精简配置则可以根据某项应用的实际需要,动态并且实时地改变存储容量资源的划分,因此能更加充分有效地利用存储资源,节约总成本。
(4)MAID
MAID[7] (大规模非活动磁盘阵列存储)最初的理论依据来自“80/20”定律,具体来说就是80%的访问活动围绕着20%的物理存储进行。因此,那些暂时没有数据被访问的磁盘驱动器,完全可以进入能耗相对较低的待机状态,甚至完全关闭,需要访问时再“唤醒”也来得及,从而达到节能的效果。
(5)分级存储
数据分级存储[8],是指利用存储设备的性能差异(磁盘、磁盘阵列、光盘库、磁带库),将不同的数据存放在不同的存储设备中。通常是根据数据的重要性、访问频率、性能、容量、保留时间等因素确定的最佳存储策略,通过分级存储管理软件实现数据客体在存储设备之间的自动迁移。一般方法就是将不经常访问的数据迁移到存储性能较低的层次(如磁带),节省出性能较高的存储空间(如磁盘阵列,磁盘)存放被频繁访问的数据,以达到更好的系统性能。
1.2 微观方面
(1)细分磁盘活动状态
基于低转速消耗低能量的理论,将磁盘盘片转速划分为多个速度等级,在系统负载较轻时使磁盘运转在低速旋转状态;而当系统负载变重时,将磁盘相应的调整到高速旋转状态。
缺陷:实现困难,仅有少数厂家能实现两级转速。
(2)减少磁头定位开销
磁盘的性能和能耗越来越受到磁头定位延迟的限制,例如寻道时间和查找时间,让磁盘尽可能地进行顺序访问是减少磁头定位开销的最有效方法,Huang等人为数据创建多个副本并将其存储在文件系统的空闲块上,通过I/O调度的方法使用户请求尽可能地顺序访问磁盘上的数据[9]。
缺陷:未考虑冗余。
(3)延长磁盘处于空闲状态的周期
节省能耗的最常见的方法是当磁盘没有请求时,让磁盘处于等待状态。然而服务器端面临的请求太多,导致磁盘的平均空闲时间非常短无法满足磁盘停止、启动的时间需求。所以目的就是人为地提升磁盘的空闲时间,同时又不影响系统系能。
提高磁盘处于空闲状态周期的因素有以下几部分:
①cache命中率
cache管理策略能产生不同的磁盘请求序列,这将严重影响磁盘的耗能。比如说一个读请求所要的数据块在cache中命中,它就不需要再去访问磁盘,可以延长磁盘的空闲时间。
②数据流特征
读/写请求一起到来可能导致磁盘有较长的空闲期,如果读/写请求在时间上是均匀到来,则可能因为空闲间隔太小而不能将磁盘转到低功耗模式。对于多磁盘,多个连续读/写请求指向一簇磁盘节省的能耗要比分散指向所有磁盘节省的能耗多。
不同的磁盘有不同的数据流特征,例如请求到来的时间分布,冷未命中的数量,平均请求时间间隔等。这些数据流特征又对磁盘的能耗有着较大的影响。因为人们无法知道下一时刻数据流的到来情况,先前对数据流特征的研究主要是从两个角度出发:
预测:eRAID[10]根据前一时刻和当前数据流状态,利用ARMA等模型预测未来工作流的可能变化。缺点是可靠性不高。
动态变化:根据数据流到来的状态,动态调整某些参数,降低能耗。文献[7]给出了基于能耗感知的cache管理策略PA⁃LRU和PB⁃LRU。
③磁盘的冗余信息
利用磁盘间的冗余信息能够将对一个非活跃磁盘的非阻塞读平等的转移成对其他活跃磁盘的读请求(请求重定向)。
eRAID利用RAID1的冗余特性来重定向I/O请求,通过停止部分或整个冗余组来降低能耗,同时将系统性能的降低控制在一个可控的范围内;当镜像磁盘处于等待状态,读请求由主磁盘来完成,写请求由控制缓存或活跃磁盘来延迟,当镜像磁盘启动时再更新到镜像磁盘里。
(4)数据布局
根据数据访问方式的改变在磁盘间迁移数据,典型的代表就是PDC[11]。PDC模型根据数据访问频率的差异性,周期性地将热点数据迁移到部分磁盘上,并将访问频率较低的数据集中于剩下的磁盘中。但是由于PDC将大多数请求都集中到了一小部分磁盘上,这样就容易形成系统瓶颈,增大系统响应延迟。。
(5)存储介质的改变
随着存储介质的发展,新型存储介质日益受到人们的关注,其中的典型应用就是固态盘。固态盘[12]由控制单元和FLASH芯片组成,没有可移动的机械部件(如磁头臂寻道,盘片旋转),因此在性能和能耗方面有着明显优势,但是在小文件写入,使用寿命,性价比方面还有缺陷。
2 磁盘能耗的测量
通过对现有论文分析,对磁盘能耗的测试和优化可以在已有磁盘能耗模型(2⁃参数模型,3⁃参数模型,粗糙⁃dempsey模型,dempsey模型)的基础上利用磁盘仿真器disksim得到,已有磁盘能耗主要牵扯到两方面的参数,平均功率参数和时间参数,平均功率参数可以通过磁盘规格得到,属于已知内容,需要求的是时间参数,时间参数主要是靠disksim得到。
对于磁盘能耗的建模或者系统的整体能耗建模一般是两种方法:仿真或者黑盒建模,为了验证模型的正确性,需要真实的测量结果进行校验。
3 结 语
随着信息技术的迅猛发展,数字信息呈爆炸式增长,数据中心的规模不断扩大,能耗成本日益突出。由此引入以提高所有网络存储技术的能源效率为最终目的的绿色存储的概念,并从宏观和微观两个方面,对绿色存储技术进行了分析。绿色存储技术的发展不仅是IT产品供应商的责任,也是终端用户的责任,每一个用户必须意识到自己既是绿色存储技术发展的驱动者又是绿色存储技术发展的实践者,有责任有义务为节能减排保护环境做贡献。可以预见随着终端用户对绿色存储的需求不断提高,未来会有更多的绿色存储产品和解决方案面世。
参考文献
[1] Conversion A P. Determining total cost of owership for data centers and network room infrastructure [R]. [S.l]: [s.n], 2005.
[2] MANKOFF J, KRAVETS R, BLEVIS E. Some computer science issues in creating a sustainable world [J]. IEEE Computer, 2008, 41(8): 102⁃105.
[3] ZHU Qing⁃bo, CHEN Zhi⁃feng, TAN Lin, et al. Hibermator: helping disk arrays sleep through the winter [C]// Proceedings of the twentieth ACM symposium on Operating systems principles. New York, NY, USA: ACM, 2005: 177⁃190.
[4] 朱圣瑜.虚拟化:轻松化解存储瓶颈[J].中国计算机用户,2003(38):22⁃23.
[5] ZHU B, LI K, PATTERSON H. Avoiding the disk bottleneck in the data domain deduplication file system [C]// Proceedings of the 6th USENIX Conference on File and Storage Technologies. San Jose, CA, USA: USENIX Association,2008: 269⁃282.
[6] 邱红飞.存储的自动精简配置技术应用研究[J].电信科学,2010(11):12⁃17.
[7] COLARELLI D, GRUNWALD D. Massive arrays of idle disks for storage archives [C]// Proceedings of the 2002 ACM/IEEE Conference on Supercomputing. Los Alamitos, CA,USA: IEEE Computer Society Press, 2002: 1⁃11.
[8] 舒继武.分级存储与管理[J].中国教育网络,2007(7):70⁃72.
[9] HUANG Hai, HUNG Wanda, SHIN G K. FS2: dynamic data replication in free disk space for improving disk performance and energy consumption [C]// Proceedings of the twentieth ACM symposium on Operating systems principles. New York, NY, USA: ACM, 2005: 263⁃276.
[10] LI D, WANG J. eRAID: a queueing model based energy saving policy [C]// 2006 14th IEEE International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems, Washington, DC, USA: IEEE Computer Society, 2006: 77⁃86.
[11] PINHEIRO E, BIANCHINI R. Energy conservation techniques for disk array⁃based servers [C]// Proceedings of the 18th annual international conference on Supercomputing. New York, NY,USA: ACM, 2004: 68⁃78.
[12] 李刚,韩松.大容量高速固态盘设计[J].电子测量技术,2006(2):129⁃130.
推荐访问: 技术