Greenplum数据库软件升级。

Greenplum数据库

Greenplum数据库

Greenplum是业界最快最高性价比的关系型分布式数据库,它在开源的PostgreSQL的基础上采用MPP架构(Massive Parallel Processing,海量并行处理),具有强大的大规模数据分析任务处理能力。

Greenplum架构:

在Greenplum集群中,存在两个Master节点、多个Segment节点以及Master与Segment之间的高效互联技术GNet 。其中Master和Segment本身就是独立的数据库SERVER。不同之处在于,Master只负责应用的连接,生成并拆分执行计划,把执行计划分配给Segment节点,以及返回最终结果给应用,它只存储一些数据库的元数据,不负责运算,因此不会成为系统性能的瓶颈。这也是Greenplum与传统MPP架构数据库的一个重要区别。Segment节点存储用户的业务数据,并根据得到执行计划,负责处理业务数据。也就是用户关系表的数据会打散分布到每个Segment节点。当进行数据访问时,首先所有Segment并行处理与自己有关的数据,如果需要Segment可以通过进行Interconnect进行彼此的数据交互。Segment节点越多,数据就会打的越散,处理速度就越快。因此与Share All数据库集群不同,通过增加Segment节点服务器的数量,Greenplum的性能会成线性增长。

Greenplum数据库采用典型的Shared Nothing架构,每个节点只访问自己的本地资源(内存、存储等),节点之间的信息交互都是通过节点高速互联网络实现,这个过程一般称为数据重分配。Greenplum数据库采用了MPP架构,其主要的优点是大规模的并行处理能力。

1) 大规模存储:Greenplum数据库通过将数据规律地分布到多个节点上来实现大规模数据的存储,支持50PB级海量数据的存储和处理。

2) 并行处理:Greenplum数据库通过外部表并行装载、并行备份恢复与并行查询处理实现强大的并行处理。

Greenplum的特点:

1) 完善的标准支持:Greenplum数据库支持ANSI SQL 2008和SQL OLAP 2003扩展;支持ODBC和JDBC应用编程接口。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL、 NewSQL、Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。

2) 数据的强一致性:Greenplum数据库支持分布式事务,支持ACID,保证数据库中数据的强一致性。

3) 良好的线性扩展能力:Greenplum数据库采用MPP架构,其基本特征是有多台SMP(Symmetric Multi-Processor,对称多处理器)服务器通过节点互联网络连接而成,是一种Share Nothing(完全无共享)结构,因而扩展能力最强,理论上可以无限扩展。目前的技术可以实现512个节点互联,包含数千个CPU。

4) Greenplum经过十多年研发投入,有超过130万行源码。Greenplum有完善的生态系统,可以与很多企业级产品集成,譬如SAS,Cognos,Informatic,Tableau等,也可以和多种开源软件集成,譬如Pentaho,Talend 等。

Greenplum与传统数据库以及Hadoop对比

传统数据库经常会通过分库分表的方式将数据打散到多个数据库实例中。其缺点在于可能会出现不平均的情况:数据在后端被打散成许多数据分片,但是有些分片的数据量很大,热度很高,有些分片相对来说热度较低。当进行数据统计或分析时,一部分用户数据处理速度慢,一部分用户数据处理速度快,使得许多用户的体验下降。

Greenplum数据库采用分而治之的方法,将数据非常均衡的分布在所有节点上。而且当服务器数量不够或者计算能力不够的时候,可以在线横向扩展,此时数据库会重新做二次分片,也就是表数据需要重新分布,在保证强大处理能力的同时也时刻保持用户性能的均衡,提升用户体验。

Greenplum是基于开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指的是并行计算能力,是对大任务、复杂任务的快速高效计算。Greenplum主要定位在OLAP领域,利用Greenplum MPP数据库做大数据计算或分析平台非常适合,例如:数据仓库系统、ODS系统、ACRM系统、历史数据管理系统、电信流量分析系统、移动信令分析系统、自助分析沙箱、数据集市等。

Apache Hadoop是大规模分布式计算的框架,涉及分布式存储HDFS,分布式并行计算框架MapReduce,Hadoop Yarn 作业调度和集群资源管理框架,Hadoop架构相关的框架HBase,Hive,Pig,ZooKeeper,还有Spark。可以看出Hadoop更像是一种分布式计算的框架,会有越来越多的应用框架使用Hadoop框架完成大数据分析,你甚至可以把Greenplum部署到Hadoop上,完成大数据的分析处理。

华毅软件多年以来一直是Greenplum中国区总代,公司参与实施了国内大多数基于Greenplum构建的ODS、传统仓库、实时数仓以及各类数据集市建设项目,公司全球认证得Greenplum专家拥有丰富的Greenplum数据库规划、调优、开发、培训经验,同时拥有大量从Oracle、DB2、Teradata及Hadoop迁移到Greenplum上的案例。如您需要一个稳定、高效、高性价比的大数据平台,请联系我们!

相关新闻

联系我们

联系我们

QQ:951076433

在线咨询:点击这里给我发消息

邮件:951076433@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

分享本页
返回顶部