数据倾斜总结

   在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后,总结如下。

用federated引擎在不同服务器间转移mysql表

假设一个场景:在某一天,我需要将my01上的某些表转移到另一台机器my02上,都有哪些方法可以实现?至于转移的目的可能有很多,比如my01磁盘不够了,我对DB进行拆分;比如用性能更好(差)的my02代替my01;比如线上环境与线下环境进行数据备份…. 针对这个问题,你肯定会马上想出下面的方法:

bash下利用trap捕捉信号

我在之前的文章里写了myisam读数据压缩的情况,最近决定把它用在生产环境上,所以避免不了写一个“安全”的处理脚本放在DB服务器上,这就引入了本文所讨论的话题。

紧急招聘数据仓库开发工程师(工作地点—杭州)

职位名称:数据仓库开发工程师
职位描述:

1. 参与设计数据仓库架构设计和开发
2. 参与数据仓库中ETL流程的优化以及数据仓库系统实施过程中ETL相关技术问题的解决
任职资格:
1. 有一定的数据仓库实施经验
2. 大学计算机相关专业本科或硕士毕业, 英语4级以上, 能熟练阅读英文技术文档
3. 具有独立负责项目开发经验者优先
4. 有海量数据分析或者OLAP项目开发经验者优先
职位要求:
1. 精通dw实施方法论和常规etl构架,有整体etl开发经验,深刻理解元数据管理
2. 数据库:熟悉hadoop ,熟悉hive sql 的开发。有一定的sql性能调优经验
3. 熟悉J2EE 框架,基础的java知识
4. 熟悉Python,shell等脚本语言
5. 熟练掌握linux常规命令与工具
6. 性格积极乐观,诚信,有较强的语言表达能力;具备强烈的进取心、求知欲及团队合作精神