GP主要用于数据仓库领域,在GP数据库中,如果由于ETL重复跑数导致数据重复的话,就需要进行去重复操作。
对于在Postgresql中,唯一确定一行的位置的是用ctid
,可以用这个ctid
作为一行的唯一标识
;在Oracle中,数据表中的一行的唯一标识可以使用ROWID
进行标识,这作为这一行的物理地址信息。而在GP中,要唯一的标识出一行表数据,需要使用gp_segment_id加上ctid进行标识。 gp_segment_id代表的是GP的segment的节点标识,每个子库的标识是唯一的。
因此删除重复数据的语句可以这么写:
这种语句适合所有的GP表,特别对那种没有唯一主键的数据仓库的表进行去重很有用。
先分析下,第一步:
查出来public.ods_m_automonitor_monitor_hour
表中字段
其中mn_code
,monitor_time
这几个字段是这个表中能够保证唯一性的字段
,也就是这几个字段的值的任一某个组合在这张表只能出现一次,只要出现2次以上,就说明数据重复了。
然后通过row_number() over (partition by mn_code,monitor_time) rows_num
对这几个字段进行分组排序
通过在外层对这个排序字段rows_num
进行条件判断 :where t.rows_num >=2
,就能过滤出重复的表数据
。
然后再通过外部条件进行筛选,获取出这部分重复数据的行数据唯一标识:
就可以去重重复。
另外,如果表中有唯一标识行的pkid,也就是说有主键ID的话,那直接用PKID作为去重字段:
postgresql中去重:
另外:oracle中去重:
以上是Greenplum/PostgreSQL中数据表数据去重的几种方法全部内容。