Hive优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。
使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,
所以需要去掉原有关系型数据库下开发的一些固有思维。

基本原则:
1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段
select … from A
join B
on A.key = B.key
where A.userid>10
and B.userid<10
and A.dt=’20120417′[……]

继续阅读

hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。
Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在

ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

SELECT a.key, a.value
FROM a
WHERE a.key in
(SELECT b.key
FROM B);
可以被重写为:
SELECT a.key, a.val
F[……]

继续阅读

中科院计算所裴建教授免费讲授“大数据分析和数据挖掘”课程

IEEE Fellow、IEEE TKDE主编裴建教授5月5-9日在中科院计算所讲授“大数据分析和数据挖掘”课程。

课程免费,食宿自理;报名请附上姓名、学校和研究方向等信息;为保证授课效果,限额50~60人。

报名截止日期为4月10日,报名结果将于4月15日公布。[……]

继续阅读

spss clementine视频 + 名校专业课教学

各位同事,又到了分享的时间了。

这次分享“各大名校专业课教学”和“spss clementine视频”,前者可能用处不是太大,

但是有些基础课程还是很好的,特别有些专业课程,考研的话,应该还是很有必要看一看的。

第二个是spss的教程,这个含金量绝对不容小觑。

不多说了,上链接吧。(依旧是要用力“刮才能看到密码的。)[……]

继续阅读

SK电信试水SQL-on-Hadoop开源查询引擎Tajo

一款全新的Hadoop SQL数据库查询引擎Apache Tajo近日赢得了韩国电信运营商SK电信的青睐。 SK电信数据科技实验室的高级经理Geun-tae Park表示:
在广泛调研当前可用的数据分析技术后,我们发现Apache孵化项目Tajo能够实现在Hadoop系统快速进行大规模分析处理,能够更好地分析我们的海量电信运营数据。
Park还透露,随着SK电信在开源领域的人力资源和技术经验的增长,SK电信将启动进一步的开源软件项目。 据Park介绍,SK电信之所以决定采用Tajo,也是SK电信开源战略的一部分,SK并不担心这些开源技术也会被其他公司采用。 作为Hadoop系统的重要补充部[……]

继续阅读

hadoop视频 + 数据挖掘的一些视频

新找了一些hadoop的视频,下载地址:

传智播客hadoop视频资料
链接: http://pan.baidu.com/s/1kT0Xl59 密码: lr6i

数据挖掘学习视频
链接: http://pan.baidu.com/s/1eQ1hxuy 密码: ddaa

可能需要自己找一下csf文件的播放器,很容易就能百度到的。

 

暂时就先这么多吧,还是那句话:自己搭环境是很有必要的!!

 

 

记得帮忙点一下最右的广告啊,谢谢了。 : )[……]

继续阅读

Introduction to Tajo(Apache Tajo介绍)

准实时SQL引擎TAJO从apache毕业, 已经成为Apache顶级项目. 上周才通知, 现在已经migration好, 速度很快。国内网上一搜貌似还没有相关资料。

 
介绍:
Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各[……]

继续阅读

[转]初建军:基于大数据的BI应用

大家好!今天我讲的内容有点偏技术,我们主要是给用户提供工具,我们并不是做某一个行业。我先做一下自我介绍,我是国信达软BI技术顾问。主要基于开源平台上做BI,如果大家做过报表、做过EPR应该了解,在开源领域,开源BI产品是非常少的,只有两个:Pentaho;SPagoBI。

首先看一下我们大数据的整体方案,这是一个比较概念性的方案。这个方案最顶层是展现这层,这层包括报表。在展现层和数据存储层之间可以建立一个业务模型,包括如何做数据挖掘需要做分类的模型……[……]

继续阅读