greenplum pg 性能 greenplum参数调优

Greenplum:你需要知道的PXF高级特性

作为新一代数据平台,Greenplum仅是一个数据库,更是可以作为核心,与各种数据工具协同工作的统一平台。这样大家都非常熟悉的Hadoop生态,就可以通过PXF与Greenplum协同工作。这里向大家介绍PXF组件的定义和功能,和实战展示该组件的使用范例。

  • PXF是什么

PXF是Pivotal Greenplum平台扩展框架(PXF),通过内置连接器提供对外部数据的访问。

PXF作为Greenplum的与Hadoop的集群数据交互的并行通道框架,在标准功能外,还支持自定义开发与扩展,在Greenplum的中通过PXF可以并行加载及并行卸载Hadoop的平台数据。如下图所示:

通过PXF,可以把Greenplum超强的结构化数据超强的存储和计算能力(一般不大于50PB的数据量)与Hadoop的海量半结构化,非结构化数据存储和分析能力结合起来,为企业数字化转型战略提供扎扎实的数据架构基础,其中Greenplum作为企业核心数据仓库(部分企业也通过Greenplum存储和处理半结构化及非结构化数据,如用户访问日志,文档等),Hadoop主要作为海量半结构化数据和非结构化数据的存储及处理平台,以及结构化历史流水数据的检索(Hbase)。

本次主要围绕Greenplum与Hadoop hdfs文件系统的数据交互进行,在Greenplum数据库中通过PXF协议读取hdfs中数据和向hdfs文件系统写入计算查询结果数据。

  • Greenplum PXF实战

Greenplum读取Hadoop hdfs文件

第一步:编写文本文件,并增加数据

第二步:查看数据

第三步:在greenplum中创造外部表

删除外部表jia;

创建外部表jia(位置文本,monthtext,num_orders int,total_sales float8)

位置('pxf://gao/test/jia.txt?PROFILE = Hadoop hdfsTextSimple')

格式'TEXT'(delimiter = E',');

step4:查看表中数据

Greenplum编写Hadoop hdfs文件

本章介绍如何从Greenplum中使用外部表写入Hadoop hdfs文件中。

第1步:创建可写外部表(不可查询)

删除外部表pxf_Hadoop hdfs_writabletbl_1;

创建可写的外部表
pxf_Hadoophdfs_writabletbl_1(位置文本,月份文本,num_orders int,total_salesfloat8)

位置('pxf://gao/test/gao.txt?PROFILE = Hadoop hdfsTextSimple')

格式'TEXT'(delimiter =',');

step2:往外部表写入数据

插入pxf_Hadoop hdfs_writabletbl_1SELECT * FROM pxf_Hadoop hdfs_textsimple;

第三步:查看Hadoop hdfs上的该文本文件

PXF作为GP的一种高级特性,帮助Greenplum与Hadoop相关产品实现数据互通。未来会向大家介绍Greenplum更多的高级特性,帮助大家更好的使用Greenplum这个数据平台。

原文链接:,转发请注明来源!