业界大数据备份,还看爱数
随着进入信息时代,各行各业的数据都在爆炸性地增长,给人们带来便利的同时,也给人们对安全的担忧更胜一筹。目前,数据容灾备份领域呈现蓬勃发展,尤其在大数据软件灾备板块现实出了极大的市场潜力,比较知名和具有潜力的灾备公司有:爱数、精容数安、鼎甲科技。今天就来聊聊行业龙头“爱数”的大数据保护方案 Anyway。(图没有放,感兴趣可以看看参考资料)
行情介绍
市场情况——大数据平台市场规模持续增长
全球规模:4813.6亿 RMB
中国大数据软硬件:677.3 亿 RMB
中国大数据软件:92.2亿
预计未来5年大数据平台市场平均增长率为 25%
大数据分析业务,很重要,也是主要业务之一
应用行业
金融、医疗、电力、交通 等等各行各业
风险
一旦丢失,业务连续性无法得到保障!
三个主要问题:
-
风险无法预测
-
物资无法调配
-
应急调度无法指挥
挑战与常见问题(各行各业)
- PB 级数据,如何在有限的备份窗口内完成备份?
- 长时间保留海量大数据备份副本,如何降低成本?
- 如何确保备份数据的安全存储与合规保留?
- 如何实现精准备份和异构版本兼容?
爱数——AnyBackup 大数据平台保护方案
整个方案可以为不同大数据平台提供备份和恢复的能力,包括:Apache Hadoop、华为 Inside、CLOUDERA CDH、星环科技 TDH。
在这些大数据平台下,爱数能够提供的备份能力:面向表级别粒度的备份恢复、数据一致性问题、基于 hdfs、hive 等不同组件来实现永久增量备份和多节点之间并发备份,还提供重复数据删除等基本能力。
提供的恢复能力:表级粒度恢复,多并发恢复,任意时间点恢复,不同大数据平台之间异构的恢复能力,
爱数还提供的独有能力:96 倍备份效率,90% 存储资源节省,数据安全存储和规范,面向不同的大数据平台、不同大数据组件提供全面保护
具体说明-爱数的特点
- 提升 96 倍以上备份效率
传统备份方案,全备数据量要备份 1PB,备份时间在 6-7 天。
爱数完成全备后,后续都是增量备份,并且以 10T 为单位。在更短的备份窗口中完成全备
- 节约 90%存储资源
通常在给用户做备份策略配置的时候,是保留一个月备份数据。其中会进行四次全备,每天实现增量备份。
传统备份方案每次备份存储的数据量都在 1PB 以上,四次全备就有 4.06PB 左右的数据。因此至少需要准备 4.06PB 的存储空间来存储全备数据。
而爱数的备份方案中不仅采取永久增量的技术,还采用了重复数据删除的技术。因此只需要在首次备份的时候进行全备,同时进行重删,最后只有 大概 0.4 PB;在之后每次周期性的全备其实是做的永久增量的备份,把这些永久增量数据进行镜像累加之后,也才 0.41 PB 的数据量。所以相比传统备份方案缩减了 1/10
- 数据安全存储与合规归档
勒索病毒的存在,业界推出了不可变存储的技术。把数据存储到爱数的备份存储介质上之后,数据就能实现不可变。
第二个能力是帮助客户实现合规归档。将数据归档到磁带或云存储中保留。
- 大数据平台全面保护
分两个层面:
一、不同用户采用不同的大数据系统。如 Hadoop 、TDF、FI、CDH
二、不同大数据组件的备份恢复。如 HDFS、HBase
具体技术部分
生态体系核心组件:
-
HDFS:提供存储,多节点合并
-
MapReduce:提供计算框架,映射和规约
-
Hive:数据仓库。在 hadoop 上操作数据,能与传统的 SQL 进行结合,让熟悉 SQL 编程的人能够往 Hadoop 平台进行迁移。Hadoop 定义了类似 SQL 的编程语言,将 SQL 转化成 MapReduce 任务并在 Hadoop 上执行。通常用于海量数据离线分析。
-
Hbase:分布式存储系统。建立在 hdfs 之上,设计初衷是为了解决传统数据库在处理海量数据时速度缓慢的问题。高可靠、高性能,可伸缩的非关系型数据库。通常用于海量数据的实时查询。
大数据组件的挑战与困难
HDFS:备份/恢复时间窗口大,备份存储资源成本高
Hive:同HDFS,原数据与数据存储分离,备份数据一致性难保障,Metastore 支持 RDBMS 种类多,原数据备份需要对 RDBMS 分别适配
Hive:同HDFS,数据变化频繁,增量备份要求高。
AnyBackup 大数据平台保护方案
定时备份,实现分层保护。
大数据组件可行性方案
HDFS
-提升备份恢复效率:通过对 HDFS 单副本备份和备份时文件/目录过滤,缩减备份数据源;通过多并发备份恢复,提升备份/恢复性能
- 降低存储资源消耗:通过永久增量备份,避免周期性完备;通过重复数据删除和备份数据压缩,降低每次备份时对存储资源的占用
- 备份数据安全存储:通过对备份数据加密和写入不可变存储,实现备份数据安全存储,抵御勒索病毒侵袭
- 减少生产资源占用:AnyBackup 代理可以仅部署在 HDFS 集群外,避免在用户生产环境中执行不必要操作和占用不必要的资源
Hive
- 表粒度备份:通过 Hive 数据库/表粒度备份,实现海量数据精准备份,提升备份效率
- 在线备份:备份过程中 Hive 服务可正常运行
- 广泛兼容不同格式的 Metastore:方案适用于 Hive Metastore 支持的所有 RDBMS
- 灵活的部署架构:通过部署多个 AnyBackup 代理,实现备份/恢复可靠运行和性能提升;通过将 AnyBackup 代理部署在生产集群意外,避免对用户生产环境造成不必要影响。
Hbase
- 表粒度备份:通过 HBase 命名空间/表力度备份,实现海量数据精准备份,提升备份效率
- 在线备份:备份过程中 HBase 服务可政策运行
- 任意时间点恢复:同指定时间恢复,实现将 HBase 还原至备份副本间的任意时刻
- 灵活的部署架构:通过部署多个 AnyBackup 代理,实现备份/恢复可靠运行和性能提升;通过将 AnyBackup 代理部署在生产集群以外,避免对用户生产环境造成不必要影响
参考资料
[1] 【不止于快】AnyBackup重磅发布大数据平台保护方案
https://mp.weixin.qq.com/s/klpLIBmab6foKgbeyKNJeg
[2] 尚硅谷丨大数据Hadoop 3.x(2021全新升级/部署+源码+实战)
[3] 尚硅谷最新版Hive教程(基于hive3.1.2)
[4] 尚硅谷HBase教程(hbase框架快速入门)
[5] Hadoop体系中,hive和hbase的区别,那么什么又是hdfs呢?