为了解决greenplum到oracle的数据库的数据互联互通的问题,特在春节后这段时间对postgresql提供的dbi_link做了研究与测试,dbi_link的基本原理是用Perl的DBI和相应数据库的DBD来访问异构数据库,实现数据的互访与数据传递,这次研究的目的是想解决oracle数据仓库到greenplum的数据传输的问题,这次的研究大概可以分为以下三个步骤: 一、配置:有关配置详情请见postgresql的专家我们兄弟公司何伟平(laser)同事写的一篇文章“使用dbi-link在PG里访问异构数据库http://www.pgsqldb.org/mwiki/index.php/%E4%BD%BF%E7%94%A8dbi-link%E5%9C%A8PG%E9%87%8C%E8%AE%BF%E9%97%AE%E5%BC%82%E6%9E%84%E6%95%B0%E6%8D%AE%E5%BA%93”,其中就如何配置dbi_link使postgresql访问异构数据访问有详细的说明与讲解,在这里要对laser表示感谢,在我研究greenplum的期间给于了大量的帮助与支持。 二、调试:由于目前dbi_link连接指的是postgresqlr与导构数据库数的联接,虽然greenplum是基于postgresql的数据库,但greenplum为使数据库有分布式与并行的能力屏蔽了postgresql的部分功能,所以在利用dib_link连接oracle的配置过程中运行:
2009 数据仓库趋势–开源 VS 商业
经过2008的的洗礼,数据仓库在中国得到了迅速的发展,数据给企业带来的高附加值凸现,数据仓库的解决方案百花争艳,
其中商业和开源形成两个阵营,不过也互相借鉴,整体思路上日益融合,共同促进数据在企业中的关键价值的显现。
商业数据仓库经过并购,几个高端厂商形成鼎足之式。oracle ,teradata,db2,greenplum,都争相进入开箱即用dw整体硬软件构建,减少企业在建设dw中的门槛,不过实施门槛的降低是资金的投入,天下无免费的午餐,如何选择就要看企业的技术实力和资金实力了。
开源数据仓库解决方案有yahoo的pig,facebook的hive,hadoop等集群计算平台和基于java的一系列开源软件,版本变化非常快,
小规模使用问题不大,在海量的数据处理上,要有非常强大的技术实力定制到企业的it架构中。
Greenplum数据库系统硬件配置介绍
硬件堆栈概述 Segment处理数据库中大多数的数据库进程,因此特别注意采用好的配置尽可能获得最好的greenplum数据库系统性能。 Greenplum数据库的性能由一组segment服务中最慢的segment决定; 因此要确保基本的运行greenplum数据的硬件与操作系统在同一个性能级别,同样建议在greenplum数据系统中的所有的segment机器有一样的资源与配置; 下面的示图给了一个greenplum数据库segment机器硬件堆栈的实例,在一个机器上的cpu数据决定部署多少个greenplum数据库segment;这个实例显示一个有两个cpu或一个双核cpu机器,注意一个有效的cpu只有一个主segment实例。 每一个cpu应该对应一个逻辑磁盘,一个逻辑磁盘由一组通过I/O通道或磁盘控制器访问一批物理磁盘的文件系统组成。逻辑磁盘与文件系统由操作系统提供。大多数操作系统有提供逻辑磁盘驱动一组RAID物理磁盘的能力; 最优的磁盘阵列方式:
greenplum学习笔记_工作量与资源管理
1- 设定工作量管理服务配置参数 1) 使资源计划默认可用; 2) 可以设置如下资源限制参数: max_resource_queues:设置最资源队列数目 max_resource_portals_per_transaction:设置在一个事物中最大打开游标的数量; resource_select_only:如果设置成ON状态,则只有select /select into /create table as select /declare cursor命包括在内; resource_cleanup_gangs_on_wait:要一个空位之前,把空闲进程清空 stats_queue_level:能够在资源队列使用时统计 3) 在postgresql.conf中修改参数并保存 4) 运行gpstop –u 使参数生效 2- 创建服务队列并设定限制数 1) 用主动阀值创建队列:表示任何时候,当这个队列分配给一个角色后,只能执行队列指定的任务数; 例如:CREATE RESOURCE QUEUE adhoc ACTIVE THRESHOLD 3; 2) 用成本阀值创建队列:表示以磁盘读的页面数做为成本来计算;而不是以query的个数来衡量; 例如: CREATE RESOURCE QUEUE webuser COST THRESHOLD 100000.0; CREATE RESOURCE QUEUE webuser COST THRESHOLD 1e+5;
greenplum学习笔记_备份与恢复及监控
备份和恢复数据库 Greenplum推荐备份,备份一方面可以用来恢复数据,二方面可以用来重建数据系统,另外可以用来迁移数据从一个数据库系统到另一个数据系统。 Greenplum提供gp_dump命令做并行备份,并行备份是指master与各个segment同一时间做backup动作,保证备份的数据是同一时间的数据;另外gp_crondump命令可以定时周期性的备份数据,备份其示意图如下所示: 另外greenplum支持postgresql的非并行式的备份命令pg_dump与
greenplum学习笔记_数据库管理
七、Greenplum数据库的启动与停止 1-常规则的greenplum数据库启动与停止: 启动:gpstart 停止:gpstop 重启服务:gpstop –r 强制停止服务:gpstop -f -c 2-postgresql.conf 与 pg_hba.conf配置文件变后,需要重新装载修改后的参数,而且不停止数据服务: Gpstop –u (注意:之前与数据库的连接不会用新的参数,除非重新连接数据库才应用新的数据库参数) 3-仅仅要启动master: Gpstart –m 当维护完成后必须用gpstop –m来停止master上的服务。 八、Greenplum数据库的参数据配置
greenplum学习笔记_segment Mirror与数据装载
四、Segment Mirror创建与追加 目前Segment Mirror的创建方法有两种:一种是在数据库初始化时创建,一种是在已有的数据库上追加; 4.1初始化创建 在greenplum数据库初始化配置文件gp_init_config中有两个参数: 1-配置mirror的端口号的: MIRROR_PORT_BASE=60000 2-配置mirror的数据库的目录: declare -a MIRROR_DATA_DIRECTORY= (/home/gpadmin/data1/gpdb_p0 /home/gpadmin/data1/gpdb_p1 /home/gpadmin/data1/gpdb_p2 /home/gpadmin/data1/gpdb_p3) 4.2追加方式创建
greenplum学习笔记_mapreduce
三、MapReduce 3.1Mapreduce的程序结构 Greenplum MapReduce使用YAML文件的框架来实现自己的YAML架构,其程序结构包括五个部分: 3.1.1Input input可以多种类型可以是一个外部文本数据文件,一个数据库中的表或查询等,示例如下: 1- 外部文件: – INPUT: NAME: my_file_input FILE: seghostnam e:/var/data/gpfiles/employees.txt COLUMNS – first_name text – last_name text – dept text – hire_date text FORMAT: TEXT DELIMITER: | 2- 数据库表: – INPUT: NAME: my_table_input TABLE: sales 3- 数据库查询: – INPUT: NAME: my_query_input
greenplum学习笔记_安装与初始化
一、系统安装与运行环境需求 1.1操作系统环境 1-RedHat Enterprise Linux 4.0 or higher(RHEL4 or RHEL5) 2-CentOS 5.0 or higher 3-Solaris x86 v10 update 4 1.2硬件环境 1-2 dual-core CPUs (typically Xeon or Opteron) 2-16 GB of RAM 3-2 Gigabit Ethernet interfaces 4-1 SATA RAID disk controller per 8 drives 5-16 SATA 400 GB hard drives

近期评论