GBase GCDW云上逻辑数据仓库助力行业迎接数字化转型新挑战

慧聪通信网 2021-12-28 14:38 来源:搜狐网

【慧聪通信网】近日,以“引领分布式云变革 助力湾区数字经济”为主题的全球分布式云大会在深圳隆重召开,本届大会由全球分布式云联盟、深圳科技交流服务中心、深圳市通信学会、众视Tech联合主办。组委会携手南大通用、阿里云、腾讯云、Google Cloud、华为云、蚂蚁集团、浪潮云、金山云等海内外顶尖云计算团队和分布式云先锋企业,为粤港澳大湾区数字经济发展注入分布式云动力,更将中国分布式云计算发展推上全新高度!

在分布式数据论坛上,天津南大通用数据技术股份有限公司数据智能产品经营部总经理张绍勇发表了题为《GBase GCDW云上逻辑数据仓库助力行业迎接数字化转型新挑战》的精彩演讲。

GBase GCDW云上逻辑数据仓库助力行业迎接数字化转型新挑战

传统企业级数据库面临的六大挑战

一 传统数据库有单机架构、分布式架构和存算一体架构,这三种架构都面临着资源弹性的挑战,硬件资源在业务高峰时成为瓶颈,但在业务低谷时候又出现浪费。

二 随着数据量越来越大,传统的三种架构对数据的承载的能力不足。

三 数据的实时处理的能力要求越来越高。

四 数据类型的复杂性越来越高,传统数仓主要处理结构化数据,但现在结构化、半结构化、非结构化的场景越来越多。

五 用户挖掘数据价值需求越来越高,传统的数据库在支撑一些深入挖掘的算法方面乏力。

安全需求越来越高,尤其随着国家关键信息基础设施安全保护条例等发布,传统数据库在多方面的安全都亟待强化。

为了应对上述挑战,南大通用把新一代的解决方案称为“下一代的企业级数据仓库”。下一代企业级数据仓库应具备的演进方向有两个,一是云化、分布式、融合、智能、实时、安全,这六点对应上述六个痛点,云化是解决资源弹性问题,分布式解决数据容量问题,融合是解决多模问题,智能解决数据价值挖掘问题,实时解决以T+1方式演进到准时方式,在加密权限等多方面解决安全问题。

六个方向相互依赖,基础架构在传统MPP数据库分布式融合智能实时点作为基石,在这个基础之上,提供数据价值挖掘能力;在云计算提供资源池化的基础之上,把分布式、融合、智能、安全、实时的基础产品架构在云上。核心是大数据处理能力,解决最基础的问题,在这一基础上,张绍勇引入了演讲的重心——如何上云的问题。

下一代企业级数据仓库的重要能力

张绍勇从演进的6个方向总结数据仓库的四大重要能力:

第一是数据实时化。有三个方向,第一是数据源,传统的关系数据库的数据如何同步到下一代数仓里;第二是数据流式的处理能力;第三是数据迁入数仓湖以后,如何处理得更快。

第二是多模能力。通过数据虚拟化的能力来解决,数据在底层存储在多个引擎中,但用户不用关注数据位置,需要提供统一的数据访问能力。

第三是数据平民化。数据要更加可视化,并且能够以自行自动配置的方式来使用。

第四是数据协作化,系统面临多种用户,在一个系统之间进行多租户管理和分工协作,非常重要。

张绍勇表示,下一代企业级数据仓库的重要能力就是融合统一。在融合统一的基础之上才是数据湖、数据仓库,下一代企业级数据仓库完全支撑了数据湖、数据仓的能力。数据湖的存储容量更大、成本更低,数据以原始格式保存,数据的使用更加灵活,面向用户多样。数据仓库的模式是对数据提前加工处理,是模式化的。

云上逻辑数据仓库

什么是逻辑数据仓库

Gartner的定义是不再局限于结构化数据,包括非结构化的数据,逻辑上是个大的数据仓库,底层包括各种数据源进行关联处理。

从Gartner的定义中可以总结出以下几点:

第一,处理的不仅仅局限于结构化数据;

第二,逻辑上是个大的数据仓库;

第三,虽然逻辑上一体,用户或多个引擎之间的数据要发生关系,多个数据之间要进行关联和交换。

逻辑数据仓库所达到的目标

随处运行 既可以部署在云上,也可以部署在物理机、虚拟机,无论部署在什么样的环境下都可运行。

随处保存 用户不用关心数据在哪,结构化数据保存在传统数据库和MPP里,非结构化可以保存在Hadoop引擎里,这是数据虚拟化的能力。

随处使用 数据联邦的能力,使用时既可以处理结构化数据的算法,也可以处理非结构化数据的算法,混合场景也能够支持。

逻辑数据仓库的设计理念

传统的数据仓库都有数据采集的过程,把数据源的数据通过ETL采集到链条里;逻辑数据仓库叫做重关联,不需要采集,只需要数据(无论在本地、云端或其他任何地方),使用时只需要做关联处理。张绍勇补充说,这一场景并不绝对,有些数据需要加工处理的,要先经过集中化,实际上还是要经过ETR,但有些数据出于质量或自研的要求,可能在其他数据源里,直接使用就可以,不需要采集,两种场景都有它实际的业务使用之处。

基于这样的设计理念,Gartner在2016年提出来的新一代企业级数据平台概念:它是综合分析场景,以及我们对于批量跟实时的工作模式。为了解决这样的场景,提供数据虚拟化以及数据联邦的能力,数据虚拟化主要体现在数据实现统一接口的能力,数据联邦实现跨数据的访问跟计算。

逻辑数据仓库的核心技术数据虚拟化和数据联邦,数据虚拟化的能力解决了多种数据融合的问题,能够融合管理结构化、半结构化和非结构化的数据,通过统一的入口实现数据的随处保存。数据联邦能力通过融合多种计算模型,能够融合在线分析和关联分析、图计算等多种计算模型,实现各种算法融合,继而让数据随处使用;此外,联邦能力还能够把底层的多种引擎之间的数据进行打通,进行实时流转。

下一代大数据平台架构

中间数据管理层,整个架构是数据采集、数据管理、数据分析挖掘、数据服务计算,传统的平台架构都遵循这样的架构,逻辑数据仓库在数据处理这一层除了IoT平台的实时处理以外的其他场景,全部融合成逻辑处理仓库的模块来进行统一处理。从下一代大数据平台的架构里面也能看出逻辑数据仓库在整个架构里承载着非常重要的功能。

云上逻辑数据仓库架构分为三层,第一层是统一的接口层,由于Hadoop平台的广泛应用,GBase GCDW支持标准的SQL接口。中间层实现了多引擎管理、统一用户、统一元数据以及跨引擎查询计划。最底层实现了多引擎之间的统一数据交换、一致性管理、数据透明实时同步以及数据管理层保障。

通过统一的SQL接口,透明的跨引擎访问以及全数据类型融合处理,跨域和多中心管理几个方面实现数据虚拟化能力;通过全算法的融合,打通计算引擎间的数据的关联,数据生命周期管理实现数据的联邦能力。

中间统一的逻辑数据仓库支持多种存储引擎以及计算引擎,对外提供统一的数据虚拟化层。张绍勇介绍说,整体而言,GBase GCDW通过把不同的存储引擎面向不同场景,对用户来说屏蔽了底层,只需要通过统一的数据虚拟化层来访问不同的引擎,非常方便。

有了逻辑处理仓库的能力,就能够完美支撑数据湖、数据仓库和数据集市。数据湖传统的架构基本是Hadoop+MPP支撑,通过逻辑数据仓库统一把Hadoop+MPP的多引擎统一管理起来支撑数据湖的建设。传统的数据仓库、数据集市,主流是支持结构化数据处理,用逻辑数据仓库也能够完美支持。这样一款逻辑数据仓库产品,能够把架构统一化、简单化,一种技术架构能同时支持数据湖、数据仓库、数据集市。

数据智能的实现

挖掘算法

原有的挖掘算法,实际上是在数据库内部没有进行挖据算法之前,把数据导入前端工具,以Python的方式进行挖掘学习。把算法集成在MPP集群的内部,就实现了分布式计算,从而提升了数据分析的性能且减少了数据搬迁。

数据安全

数据存储加密,且要做到透明加密,把进行关注的列进行加密,只需要使用私钥的Key文件,用户使用是完全透明的,不需要调用加密算法。

存储如果没有加密,还需要对敏感数据进行脱敏。GBase 的动态脱敏技术主要有三种方式,对有关注的数据字段指定脱敏,可指定默认脱敏、随机脱敏、自定义脱敏。脱敏方式指定完后,跟用户权限绑定,仅让有权限用户看到明文数据,没有权限的用户看到是秘文数据。密文有多种表达方式,通过动态数据脱敏实现了数据存储本身没有明文没有加密,但前端根据不同的用户权限控制数据的不同展现方式。

数据集成

下一代大数据平台面临的数据来源是多方面的,输出也是多方面的,因此需要对数据进行集成整合。为了兼顾实时处理,一种是通过流式方法加入,第二种是通过CDC的方式,第三种是通过批量数据加载,此外还可以通过DBlink方式加载。

多种方式接入到逻辑数据仓库以后,能够进行在线库跟离线库的统一处理。处理完的结构我们可以通过标准的开发结果的方式来提供给应用程序,或通过文件方式给到下游,抑或提供给访问者。无论输入或输出,GBase 支持多种的数据集成方式。

数据接入完成后的快速算法

云上逻辑数据仓库支持新一代向量计算引擎,传统按行来处理,面临函数调用开销比较大的问题,无法充分利用现在CPU的SIMD的指令集,要支持新一代的向量计算引擎,能够按块计算,从而提升数据的运行能力。随着国产化的推进,GBase 现在基于NUMA架构,在NUMA架构的基础上,发挥多种架构的优势,提供多实例部署方式,原来是部署一个实例,现在根据NUMA绑定到多个使命,带来的优势是避免了跨NUMA内存访问性能还是比较低的问题,提升了在多NUMA架构上的运算性能。

2020年底,GBase 只需要8台物理机就可以达到894万的Performance值。数据库产品的核心要把硬件能力充分发挥出来,这也是作为基础软件要持续努力要做的工作。

集群规模也是GBase 一直追求的目标,分布式要解决的问题也是数据的容量如何扩大,从GB级到PB级,GBase 做了两方面的测试,一是数据基础能力测试,一个是性能测试。基础能力测试覆盖能各个方面,性能侧在金融和电信两个场景进行了测试。截至目前,GBase 在国内MPP规模最大,单个MPP集群达到4096个节点,并且通过了基于金融电信两个模型的性能测试,是国内首家。

云上数据仓库如何上云

上云是两个方面,一是上私有云,二是上公有云。GBase 支持两种方式,一个是私有云上的块和对象存储,第二个是公有云对象存储。云上逻辑数据仓库完全搬到公有云、私有云上,并且已经有实践案例。数据接入和运维能力管理的核心是中间数据仓库的虚拟仓库层、计算层,实现了数据按照不同的逻辑有分成不同的虚拟仓库,底层存储层实现块跟对象的两种方式,公有云上主要是对象存储,私私有云上可以是块和对象存储。

中间层,即虚拟仓库层,逻辑上对用户来说是上层通过统一的接入层实现了统一的调度管理;中间层,用户根据不同的业务建立独立的虚拟仓,支撑不同的关注业务。不同的虚拟仓库之间,底层数据是共享的,最上层统一调度实现统一访问,在不同的虚拟仓库之间实现了故障隔离、资源的隔离,并且每个独立的虚拟仓库可以独立扩容,用户运维更加简单。

湖仓一体核心有三个特性,第一点,既然是湖仓一体,它的存储是共享的;第二点,湖仓一体多个引擎之间数据之间要融合打通,也就是数据联邦能力,数据关联运算;第三点,一份数据面向不同的场景,有多种计算引擎要支持,需要多种计算引擎多模的能力。

云上逻辑数据仓库能够支持湖仓,数据共享,计算存储分离,满足了上述第一点;逻辑数据仓库支持了多个计算引擎,满足第二点;逻辑数据仓库本身把多引擎数据、关联计算、数据交换打通,满足了第三点。

存储层实现了一站式数据存储。中间弹性计算层支持虚拟机、容器、裸金属多种方式。最上层实现了一站式数据治理,使数据资产化。因此云上逻辑数据仓库的能力,能够完美支持湖仓一体下一代企业级数据仓库建设。平台部署在云上,整个数据存储集成,数据管理、平台管理都属于PaaS,在这基础之上提供SaaS层的数据服务。整个基础架构再加服务,以DaaS的方式对外提供服务。

张绍勇总结说,为了解决传统数仓面临的六大挑战,我们提出了下一代企业级数据仓库主要演进的方向——云化、分布式、实时、智能、安全。通过逻辑数据仓库提供分布式能力,融合处理、实时和安全能力,从而实现了全类型数据的融合,解决整个数据存储和处理的问题。通过机器学习 in Database AI的集成,实现了数据价值的挖掘。把整个逻辑数据仓库搬到云上,以DaaS的方式对外提供服务,实现了DaaS、IaaS、PaaS的融合,继而实现了上云的能力。

综上,云上逻辑数据仓库为数字行业信息化找到了支点,解决了传统数据仓库面临的六个挑战以及下一代企业级大数据库应该解决的六个方面的问题,GBase 能够完美支撑下一代企业级大数据仓库。

GBase 支持多云、混合云,支持海内外的公有云、私有云,通过统一的接口层实现对块存储、对象存储数据的统一访问,通过计算引擎实现了缓冲管理,对象存储的性能比较低,需要进行多级缓冲管理加速执行性能,为用户提供接入的调度层实现统一资源的调度。有了上述几层能力之后,就能够为用户提供云服务的整个订购、服务的入口和统一的管理。

关于南大通用公司

南大通用到目前已经成立17年,专注于数据库跟大数据产品的研发,是国内目前唯一一家在金融电信行业得到规模化应用的数据库企业,在金融电信领域拥有大量客户,形成了主流的三款大数据产品。

南大通用入围2017、2018年Gartner分析型数据库魔力象限,2019年Gartner发布的全球19款数据仓库产品排名,GBase GCDW排名全球第七,是国内唯一上榜产品。

南大通用在中国市场取得了巨大成功,在金融电信领域部署MPP仓库,提供逻辑数据仓库解决方案,也业内相处于领先地位,并覆盖除电信金融外的其他各行业,总节点超过3万。

GBase GCDW助力中国农业银行总行建设了集中化的大数据平台,总的节点数超过2000,稳定运行超2000天。

GBase GCDW在中国银行,中国人民银行、招商银行等大国有银行和股份制银行也都有应用,并覆盖大量城商银行、农信社。

电信行业,南大通用助力中国移动集团总部部署了集中经营分析系统,也超过了上千节点,覆盖了中国移动全国31个省中的22个省,覆盖率超过80%。

在其他的行业,如保险、电力、政务、党政这些行业,南大通用也得到了大规模的应用。无论线下还是上云,GBase GCDW都能够支撑企业下一代的数仓、大数据平台建设。

未来,南大通用将继续专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品服务商。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。