作者归档:大王

关于大王

标准的80后

Hive优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。
使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,
所以需要去掉原有关系型数据库下开发的一些固有思维。

基本原则:
1:尽量尽早地过滤数据,减少每个阶段的[……]

继续阅读

hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。
Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在

ON 子句中设置过[……]

继续阅读

中科院计算所裴建教授免费讲授“大数据分析和数据挖掘”课程

IEEE Fellow、IEEE TKDE主编裴建教授5月5-9日在中科院计算所讲授“大数据分析和数据挖掘”课程。

课程免费,食宿自理;报名请附上姓名、学校和研究方向等信息;为保证授课效果,限额50~60人。

报名截止日期为4月10日,报名结果将于4月15日公布。[……]

继续阅读

spss clementine视频 + 名校专业课教学

各位同事,又到了分享的时间了。

这次分享“各大名校专业课教学”和“spss clementine视频”,前者可能用处不是太大,

但是有些基础课程还是很好的,特别有些专业课程,考研的话,应该还是很有必要看一看的。

第二个是spss的教程,这个含金量绝对不容小觑。

不多说了,上链接吧。(依旧是要用力“刮才能看到密码的。)[……]

继续阅读

SK电信试水SQL-on-Hadoop开源查询引擎Tajo

一款全新的Hadoop SQL数据库查询引擎Apache Tajo近日赢得了韩国电信运营商SK电信的青睐。 SK电信数据科技实验室的高级经理Geun-tae Park表示:
在广泛调研当前可用的数据分析技术后,我们发现Apache孵化项目Tajo能够实现在Hadoop系统快速进行大规模分析处理,能[……]

继续阅读

[转]初建军:基于大数据的BI应用

大家好!今天我讲的内容有点偏技术,我们主要是给用户提供工具,我们并不是做某一个行业。我先做一下自我介绍,我是国信达软BI技术顾问。主要基于开源平台上做BI,如果大家做过报表、做过EPR应该了解,在开源领域,开源BI产品是非常少的,只有两个:Pentaho;SPagoBI。

首先看一下我们大数据的整体方案,这是一个比较概念性的方案。这个方案最顶层是展现这层,这层包括报表。在展现层和数据存储层之间可以建立一个业务模型,包括如何做数据挖掘需要做分类的模型……[……]

继续阅读