分类目录归档:BigData

6个用于大数据处理分析最好工具

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型[……]

继续阅读

LZOP解压查看文件

我们的HDFS中有一部分落地数据是用LZO格式来压缩的(另一部分采用gz压缩的RCFile,MapReduce中间结果采用snappy压缩)。第一是因为它的压缩比和压缩/解压速度综合下来比较令人满意,第二是它只需要少量effort就能支持可切分(生成LZO文件后跑单机或分布式建索引程序),这样能充分[……]

继续阅读

六个超大规模Hadoop集群部署案例

据估计,到2015年,全世界一半以上的数据将涉及hadoop–围绕这个开源平台的生态系统日益庞大,这有力地印证了这个惊人的数字。
  然而,有些人表示,虽然hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测[……]

继续阅读

Hive优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。
使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,
所以需要去掉原有关系型数据库下开发的一些固有思维。

基本原则:
1:尽量尽早地过滤数据,减少每个阶段的[……]

继续阅读

hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。
Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在

ON 子句中设置过[……]

继续阅读

中科院计算所裴建教授免费讲授“大数据分析和数据挖掘”课程

IEEE Fellow、IEEE TKDE主编裴建教授5月5-9日在中科院计算所讲授“大数据分析和数据挖掘”课程。

课程免费,食宿自理;报名请附上姓名、学校和研究方向等信息;为保证授课效果,限额50~60人。

报名截止日期为4月10日,报名结果将于4月15日公布。[……]

继续阅读