业界大数据备份,还看爱数

11 minute read

随着进入信息时代,各行各业的数据都在爆炸性地增长,给人们带来便利的同时,也给人们对安全的担忧更胜一筹。目前,数据容灾备份领域呈现蓬勃发展,尤其在大数据软件灾备板块现实出了极大的市场潜力,比较知名和具有潜力的灾备公司有:爱数、精容数安、鼎甲科技。今天就来聊聊行业龙头“爱数”的大数据保护方案 Anyway。(图没有放,感兴趣可以看看参考资料)

行情介绍

市场情况——大数据平台市场规模持续增长

全球规模:4813.6亿 RMB

中国大数据软硬件:677.3 亿 RMB

中国大数据软件:92.2亿

预计未来5年大数据平台市场平均增长率为 25%

大数据分析业务,很重要,也是主要业务之一

应用行业

金融、医疗、电力、交通 等等各行各业

风险

一旦丢失,业务连续性无法得到保障!

三个主要问题:

  1. 风险无法预测

  2. 物资无法调配

  3. 应急调度无法指挥

挑战与常见问题(各行各业)

- PB 级数据,如何在有限的备份窗口内完成备份?

- 长时间保留海量大数据备份副本,如何降低成本?

- 如何确保备份数据的安全存储与合规保留?

- 如何实现精准备份和异构版本兼容?

爱数——AnyBackup 大数据平台保护方案

整个方案可以为不同大数据平台提供备份和恢复的能力,包括:Apache Hadoop、华为 Inside、CLOUDERA CDH、星环科技 TDH。

在这些大数据平台下,爱数能够提供的备份能力:面向表级别粒度的备份恢复、数据一致性问题、基于 hdfs、hive 等不同组件来实现永久增量备份和多节点之间并发备份,还提供重复数据删除等基本能力。

提供的恢复能力:表级粒度恢复,多并发恢复,任意时间点恢复,不同大数据平台之间异构的恢复能力,

爱数还提供的独有能力:96 倍备份效率,90% 存储资源节省,数据安全存储和规范,面向不同的大数据平台、不同大数据组件提供全面保护

具体说明-爱数的特点

  1. 提升 96 倍以上备份效率

传统备份方案,全备数据量要备份 1PB,备份时间在 6-7 天。

爱数完成全备后,后续都是增量备份,并且以 10T 为单位。在更短的备份窗口中完成全备

  1. 节约 90%存储资源

通常在给用户做备份策略配置的时候,是保留一个月备份数据。其中会进行四次全备,每天实现增量备份。

传统备份方案每次备份存储的数据量都在 1PB 以上,四次全备就有 4.06PB 左右的数据。因此至少需要准备 4.06PB 的存储空间来存储全备数据。

而爱数的备份方案中不仅采取永久增量的技术,还采用了重复数据删除的技术。因此只需要在首次备份的时候进行全备,同时进行重删,最后只有 大概 0.4 PB;在之后每次周期性的全备其实是做的永久增量的备份,把这些永久增量数据进行镜像累加之后,也才 0.41 PB 的数据量。所以相比传统备份方案缩减了 1/10

  1. 数据安全存储与合规归档

勒索病毒的存在,业界推出了不可变存储的技术。把数据存储到爱数的备份存储介质上之后,数据就能实现不可变。

第二个能力是帮助客户实现合规归档。将数据归档到磁带或云存储中保留。

  1. 大数据平台全面保护

分两个层面:

一、不同用户采用不同的大数据系统。如 Hadoop 、TDF、FI、CDH

二、不同大数据组件的备份恢复。如 HDFS、HBase

具体技术部分

生态体系核心组件:

  • HDFS:提供存储,多节点合并

  • MapReduce:提供计算框架,映射和规约

  • Hive:数据仓库。在 hadoop 上操作数据,能与传统的 SQL 进行结合,让熟悉 SQL 编程的人能够往 Hadoop 平台进行迁移。Hadoop 定义了类似 SQL 的编程语言,将 SQL 转化成 MapReduce 任务并在 Hadoop 上执行。通常用于海量数据离线分析。

  • Hbase:分布式存储系统。建立在 hdfs 之上,设计初衷是为了解决传统数据库在处理海量数据时速度缓慢的问题。高可靠、高性能,可伸缩的非关系型数据库。通常用于海量数据的实时查询。

大数据组件的挑战与困难

HDFS:备份/恢复时间窗口大,备份存储资源成本高

Hive:同HDFS,原数据与数据存储分离,备份数据一致性难保障,Metastore 支持 RDBMS 种类多,原数据备份需要对 RDBMS 分别适配

Hive:同HDFS,数据变化频繁,增量备份要求高。

AnyBackup 大数据平台保护方案

定时备份,实现分层保护。

大数据组件可行性方案

HDFS

-提升备份恢复效率:通过对 HDFS 单副本备份和备份时文件/目录过滤,缩减备份数据源;通过多并发备份恢复,提升备份/恢复性能

- 降低存储资源消耗:通过永久增量备份,避免周期性完备;通过重复数据删除和备份数据压缩,降低每次备份时对存储资源的占用

- 备份数据安全存储:通过对备份数据加密和写入不可变存储,实现备份数据安全存储,抵御勒索病毒侵袭

- 减少生产资源占用:AnyBackup 代理可以仅部署在 HDFS 集群外,避免在用户生产环境中执行不必要操作和占用不必要的资源

Hive

- 表粒度备份:通过 Hive 数据库/表粒度备份,实现海量数据精准备份,提升备份效率

- 在线备份:备份过程中 Hive 服务可正常运行

- 广泛兼容不同格式的 Metastore:方案适用于 Hive Metastore 支持的所有 RDBMS

- 灵活的部署架构:通过部署多个 AnyBackup 代理,实现备份/恢复可靠运行和性能提升;通过将 AnyBackup 代理部署在生产集群意外,避免对用户生产环境造成不必要影响。

Hbase

- 表粒度备份:通过 HBase 命名空间/表力度备份,实现海量数据精准备份,提升备份效率

- 在线备份:备份过程中 HBase 服务可政策运行

- 任意时间点恢复:同指定时间恢复,实现将 HBase 还原至备份副本间的任意时刻

- 灵活的部署架构:通过部署多个 AnyBackup 代理,实现备份/恢复可靠运行和性能提升;通过将 AnyBackup 代理部署在生产集群以外,避免对用户生产环境造成不必要影响

参考资料

[1] 【不止于快】AnyBackup重磅发布大数据平台保护方案

https://mp.weixin.qq.com/s/klpLIBmab6foKgbeyKNJeg

[2] 尚硅谷丨大数据Hadoop 3.x(2021全新升级/部署+源码+实战)

https://www.bilibili.com/video/BV1Qp4y1n7EN?from=search&seid=124821102838140492&spm_id_from=333.337.0.0

[3] 尚硅谷最新版Hive教程(基于hive3.1.2)

https://www.bilibili.com/video/BV1EZ4y1G7iL?from=search&seid=14688213770557754022&spm_id_from=333.337.0.0

[4] 尚硅谷HBase教程(hbase框架快速入门)

https://www.bilibili.com/video/BV1Y4411B7jy?from=search&seid=7548353685853487492&spm_id_from=333.337.0.0

[5] Hadoop体系中,hive和hbase的区别,那么什么又是hdfs呢?

https://www.cnblogs.com/purple5252/p/13801143.html