业界大数据备份，还看爱数

2021-09-02

11 minute read

大数据

随着进入信息时代，各行各业的数据都在爆炸性地增长，给人们带来便利的同时，也给人们对安全的担忧更胜一筹。目前，数据容灾备份领域呈现蓬勃发展，尤其在大数据软件灾备板块现实出了极大的市场潜力，比较知名和具有潜力的灾备公司有：爱数、精容数安、鼎甲科技。今天就来聊聊行业龙头“爱数”的大数据保护方案 Anyway。（图没有放，感兴趣可以看看参考资料）

行情介绍

市场情况——大数据平台市场规模持续增长

全球规模：4813.6亿 RMB

中国大数据软硬件：677.3 亿 RMB

中国大数据软件：92.2亿

预计未来5年大数据平台市场平均增长率为 25%

大数据分析业务，很重要，也是主要业务之一

应用行业

金融、医疗、电力、交通等等各行各业

风险

一旦丢失，业务连续性无法得到保障！

三个主要问题：

风险无法预测
物资无法调配
应急调度无法指挥

挑战与常见问题（各行各业）

- PB 级数据，如何在有限的备份窗口内完成备份？

- 长时间保留海量大数据备份副本，如何降低成本？

- 如何确保备份数据的安全存储与合规保留？

- 如何实现精准备份和异构版本兼容？

爱数——AnyBackup 大数据平台保护方案

整个方案可以为不同大数据平台提供备份和恢复的能力，包括：Apache Hadoop、华为 Inside、CLOUDERA CDH、星环科技 TDH。

在这些大数据平台下，爱数能够提供的备份能力：面向表级别粒度的备份恢复、数据一致性问题、基于 hdfs、hive 等不同组件来实现永久增量备份和多节点之间并发备份，还提供重复数据删除等基本能力。

提供的恢复能力：表级粒度恢复，多并发恢复，任意时间点恢复，不同大数据平台之间异构的恢复能力，

爱数还提供的独有能力：96 倍备份效率，90% 存储资源节省，数据安全存储和规范，面向不同的大数据平台、不同大数据组件提供全面保护

具体说明-爱数的特点

提升 96 倍以上备份效率

传统备份方案，全备数据量要备份 1PB，备份时间在 6-7 天。

爱数完成全备后，后续都是增量备份，并且以 10T 为单位。在更短的备份窗口中完成全备

节约 90%存储资源

通常在给用户做备份策略配置的时候，是保留一个月备份数据。其中会进行四次全备，每天实现增量备份。

传统备份方案每次备份存储的数据量都在 1PB 以上，四次全备就有 4.06PB 左右的数据。因此至少需要准备 4.06PB 的存储空间来存储全备数据。

而爱数的备份方案中不仅采取永久增量的技术，还采用了重复数据删除的技术。因此只需要在首次备份的时候进行全备，同时进行重删，最后只有大概 0.4 PB；在之后每次周期性的全备其实是做的永久增量的备份，把这些永久增量数据进行镜像累加之后，也才 0.41 PB 的数据量。所以相比传统备份方案缩减了 1/10

数据安全存储与合规归档

勒索病毒的存在，业界推出了不可变存储的技术。把数据存储到爱数的备份存储介质上之后，数据就能实现不可变。

第二个能力是帮助客户实现合规归档。将数据归档到磁带或云存储中保留。

大数据平台全面保护

分两个层面：

一、不同用户采用不同的大数据系统。如 Hadoop 、TDF、FI、CDH

二、不同大数据组件的备份恢复。如 HDFS、HBase

具体技术部分

生态体系核心组件：

HDFS：提供存储，多节点合并
MapReduce：提供计算框架，映射和规约
Hive：数据仓库。在 hadoop 上操作数据，能与传统的 SQL 进行结合，让熟悉 SQL 编程的人能够往 Hadoop 平台进行迁移。Hadoop 定义了类似 SQL 的编程语言，将 SQL 转化成 MapReduce 任务并在 Hadoop 上执行。通常用于海量数据离线分析。
Hbase：分布式存储系统。建立在 hdfs 之上，设计初衷是为了解决传统数据库在处理海量数据时速度缓慢的问题。高可靠、高性能，可伸缩的非关系型数据库。通常用于海量数据的实时查询。

大数据组件的挑战与困难

HDFS：备份/恢复时间窗口大，备份存储资源成本高

Hive：同HDFS，原数据与数据存储分离，备份数据一致性难保障，Metastore 支持 RDBMS 种类多，原数据备份需要对 RDBMS 分别适配

Hive：同HDFS，数据变化频繁，增量备份要求高。

AnyBackup 大数据平台保护方案

定时备份，实现分层保护。

大数据组件可行性方案

HDFS

-提升备份恢复效率：通过对 HDFS 单副本备份和备份时文件/目录过滤，缩减备份数据源；通过多并发备份恢复，提升备份/恢复性能

- 降低存储资源消耗：通过永久增量备份，避免周期性完备；通过重复数据删除和备份数据压缩，降低每次备份时对存储资源的占用

- 备份数据安全存储：通过对备份数据加密和写入不可变存储，实现备份数据安全存储，抵御勒索病毒侵袭

- 减少生产资源占用：AnyBackup 代理可以仅部署在 HDFS 集群外，避免在用户生产环境中执行不必要操作和占用不必要的资源

Hive

- 表粒度备份：通过 Hive 数据库/表粒度备份，实现海量数据精准备份，提升备份效率

- 在线备份：备份过程中 Hive 服务可正常运行

- 广泛兼容不同格式的 Metastore：方案适用于 Hive Metastore 支持的所有 RDBMS

- 灵活的部署架构：通过部署多个 AnyBackup 代理，实现备份/恢复可靠运行和性能提升；通过将 AnyBackup 代理部署在生产集群意外，避免对用户生产环境造成不必要影响。

Hbase

- 表粒度备份：通过 HBase 命名空间/表力度备份，实现海量数据精准备份，提升备份效率

- 在线备份：备份过程中 HBase 服务可政策运行

- 任意时间点恢复：同指定时间恢复，实现将 HBase 还原至备份副本间的任意时刻

- 灵活的部署架构：通过部署多个 AnyBackup 代理，实现备份/恢复可靠运行和性能提升；通过将 AnyBackup 代理部署在生产集群以外，避免对用户生产环境造成不必要影响

参考资料

[1] 【不止于快】AnyBackup重磅发布大数据平台保护方案

https://mp.weixin.qq.com/s/klpLIBmab6foKgbeyKNJeg

[2] 尚硅谷丨大数据Hadoop 3.x（2021全新升级/部署+源码+实战）

https://www.bilibili.com/video/BV1Qp4y1n7EN?from=search&seid=124821102838140492&spm_id_from=333.337.0.0

[3] 尚硅谷最新版Hive教程（基于hive3.1.2）

https://www.bilibili.com/video/BV1EZ4y1G7iL?from=search&seid=14688213770557754022&spm_id_from=333.337.0.0

[4] 尚硅谷HBase教程(hbase框架快速入门)

https://www.bilibili.com/video/BV1Y4411B7jy?from=search&seid=7548353685853487492&spm_id_from=333.337.0.0

[5] Hadoop体系中，hive和hbase的区别，那么什么又是hdfs呢？

https://www.cnblogs.com/purple5252/p/13801143.html