mysql数据压缩性能对比(二)

在上一篇文章中,我们用生产环境的真实数据与真实SQL测试了archive和myisampack两种方式下的性能对比情况。我们得到一个对这个测试case有效的结论,那就是在240万数据量的情况下,采用archive引擎将使得某些查询慢得无法忍受! 那么,原因是什么呢? 我们知道,mysql提供archive这种存储引擎是为了降低磁盘开销,但还有一个前提,那就是被归档的数据不需要或者很少被在线查询,偶尔的查询慢一些也是没关系的。鉴于上述原因,archive表是不允许建立自增列之外的索引的。

mysql的数据压缩性能对比(一)

数据魔方需要的数据,一旦写入就很少或者根本不会更新。这种数据非常适合压缩以降低磁盘占用。MySQL本身提供了两种压缩方式——archive引擎以及针对MyISAM引擎的myisampack方式。今天对这两种方式分别进行了测试,对比了二者在磁盘占用以及查询性能方面各自的优劣。至于为什么做这个,你们应该懂的,我后文还会介绍。且看正文:

浅谈企业数据仓库架构的稳中有变

EDW的概念进入中国后,很多企业建了了企业数据仓库,银行,证券,电信,移动,互联网纷纷开展EDW的建设,EDW的建设基本上是分期进行,不过在EDW上线后是一个持续支撑业务发展的平台,随着时间的推移,业务的迅速发展,EDW的后期维护,优化和变化是一个持续的过程,业务变化越快的企业面临的EDW的架构压力越大,很多匆忙上马的edw项目生命周期很短暂,能在业务架构若干次调整后生存下来的edw项目少之又少,究其原因,大部分是上线初期架构设计不合理造成,那么一套成熟的EDW具备什么特征呢?

CloudBase配置和功能测试系列 client端配置手册(2)

CloudBase Server配置好后,可以通过client端jdbc链接,很方便的进行开发和维护。在client端看上去就和通过jdbc链接传统rdbms一样。 首先下载client 端软件,SQuirreL SQL Client 。 http://squirrel-sql.sourceforge.net/ http://jaist.dl.sourceforge.net/sourceforge/squirrel-sql/squirrel-sql-3.0-install.jar 既然是client,一般都是windows下面,后面的演示都以windows为例,由于java的跨平台,在其他系统下基本类似。 对了在安装client之前,我们可以把cloudbase自带的演示schema建立起来。

CloudBase配置和功能测试系列 server端配置手册(1)

假设大家对分布式计算Hadoop已经熟悉,今天介绍一下基于Hadoop的data warehouse软件,如何使用CloudBASE通过使用 ANSI SQL 直接 large-scale log files 进行很方便的查询,通过练习和实际操作例子,大家可以体会到如何利用sql的便捷性和Hadoop强大的分布式计算能力来为大规模高效率的商用计算服务。 看这篇文章的基础知识,hadoop,java,linux,虚拟机,如果你具备了,那么闲话少说,进入正题。如果不具备,可以针对每个基础知识的关键字,通过google,一定能有所收获。

数据仓库架构设计系统(三)

数据仓库的架构设计,有时候一个好的架构设计的出发点往往来源于当前系统的缺陷。如何面对当前系统的缺陷是架构能否持续发展的一个关键点之一。业界存在很多对商业,开源etl工具的评测,那么这些评测要点应该从哪些方面进行才能甄别出适合企业的工具呢?

数据仓库架构设计系列(一)

数据仓库架构,是IT架构的一个分支,随着数据在企业的核心作用的增强,数据仓库的架构日益重要。数据仓库架构由于其技术选择非常广泛,看上去复杂,不过背后有一套比较稳定的思路,这也是数据仓库架构设计的一个要点,稳定中蕴含变化,变化中蕴含稳定。

总体来说,数据仓库架构分成两大块,一是硬件架构,二是软件架构。硬软架构又可以分成封闭式和开放式。封闭式硬件架构代表厂商有teradata,其硬件是专属的,必须使用特殊的硬件才能运行。开放式硬件架构的代表有oracle,可以运行在各种硬件上,不过开放和封闭之间的界限也逐步的融合,oracle也开始打包hp的专属硬件来推广其dw的方案,而teradata也开始用基于suse的os可运行的硬件上提供其dw产品。封闭式硬件好处是开箱即用,经过厂商的严格测试,保障性比较高,开放式硬件则需要企业具备很强大的技术实力,能够有一支具备硬件,存储,操作系统综合知识和能力的团队,在组合成一套可以运行dw软件的基础平台,并且在发现问题的时候要能很快速的定位问题的原因并解决。

数据仓库的软件架构选择更加丰富。从数据库软件,etl软件,展现软件,数据挖掘软件,每一种类型里面都具备非常多的选择。

这些软件的选择是架构设计的一部分,架构设计的重要核心一部分是综合这些软件的一套思路,在一套dw架构设计的思路下,软件可以很灵活的进行选择。