大数据时代,数据量迅速膨胀,据IDC统计,2012年全球数据总量已达到2.8ZB,而到2020年,预计将达到40ZB,相当于地球上所有海滩沙粒数量的57倍,地球上人均将拥有5247GB数据。海量数据让全球面临着数据存储方面的严峻挑战,这里面既有技术上的难题,也有来自成本方面的压力。而硬盘作为数据中心存储数据的核心部件之一,其返修率高、成本昂贵成为众多挑战中的主要难题。
据统计,在数据中心中,硬盘相关的故障占全部硬件故障的85%以上。随着大数据时代的到来,服务器数量大幅度增长,更多的存储需求、更低成本硬盘的使用,以及高温、高存储密度等技术的应用,硬盘故障及报废规模呈明显增加趋势。这对业务稳定、存储成本和运维效率都造成了严重的影响。如何降低返修率一直困扰业界。
因为存储着上百PB数据,百度——这家全球最大的中文搜索引擎公司拥有着数百万块硬盘,解决返修率问题极其迫切。也正是在这样的背景下,百度于三年前就自主创新,主导研发了系统工具hdoctor。
hdoctor工具能修复硬盘故障,减少硬盘更换频率,为企业降低成功,同时提高数据中心的数据安全性,让我们来见识一下hdoctor五个主导功能:
第一,硬盘故障检测。hdoctor 通过日志增量监控,整合系统设置、报错类型、硬盘运行状态等检查环节,可在10秒内监控99% 的故障,覆盖全部的机型;经过多次验证,准确度与硬盘厂商采用的硬件检测分析方法(FA)相当。
第二,硬盘故障修复。能在60秒内修复SATA硬盘60%的故障,包括潜在故障扇区修复、文件系统坏块屏蔽、硬盘及阵列状态设置校正、硬盘状态未就绪或超时的处理、数据/硬件故障排除、盘符前后漂移复位等常见的运维故障处理。而在未使用hdoctor的情况下,因业务稳定性要求,一旦出现报错,业界的通常做法是更换硬盘,这使得维护代价十分高昂。
第三,硬盘故障预警。基于数十万片硬盘近30个月的硬盘运行及故障大数据,使用机器学习技术,挖掘、分析海量数据,打造了可自动迭代的故障预测系统,支持全部厂商所有型号的 SATA 硬盘故障预测,准确率超过98%;同时与系统调度集成,能够提前避免故障对业务造成不良影响,有效降低云存储系统的平均故障修复时间(MTTR)。
第四,硬盘报废擦除。终捍卫云端数据安全,集成三种国际认证的安全擦除方案,可在JBOD、RAID环境下,快速、高效、安全擦除包括SATA、SAS、SSD、Flash在内的各种存储介质。
第五,自动运维支持。hdoctor提供所有类型硬盘的故障检测、修复、上线、下线、报修、结单检测等全方位的自动化运维API,同时定期维护和校正硬盘的状态运行信息,而且工具本身的运行机制也是自反馈和自维护的。
据了解,hdoctor已历经了三个年头。基于每月积累的故障记录,以及与硬盘相关的预警、负载、功耗、性能、温度等数十亿级别的大数据,该工具不断地迭代升级,在降低故障率,提升运维效率和云存储系统可靠性的同时,有效助力硬盘资源调度、功耗管理、存储分级等软硬件协同工作,大规模降低云存储运营成本。
业内分析人士指出,百度hdoctor的创新成果具有极为重要的产业意义。它解决了大规模大容量SATA硬盘应用背景下的高故障率、低运维效率和存储成本控制等难题,为业界实现更低成本、更高质量数据存储起到示范与引领作用;更具未来发展意义的是,该工具的使用对未来将云盘、归档盘等低成本存储介质引入数据中心奠定了基础,能够使云存储购置成本大幅降低。
如果硬盘里面的数据丢失或者损坏了,需要数据修复,请联系华军行,我们有更加专业的数据恢复工程师为您服务!