文章标签 ‘hive’

hive版本: 0.11.0

在执行dense_rank

hive语句:

select ta.cookie_id
, ta.interest_ratio
, ta.goods_id
, DENSE_RANK() over (order by ta.COOKIE_ID) as[……]

继续阅读

2014年8月5日16:14 | 没有评论
分类: BigData
标签: , ,

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。
使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,
所以需要去掉原有关系型数据库下开发的一些固有思维。

基本原则:
1:尽量尽早地过滤数据,减少每个阶段的[……]

继续阅读

2014年5月23日12:38 | 没有评论
分类: BigData
标签:

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。
Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在

ON 子句中设置过[……]

继续阅读

2014年5月20日12:13 | 没有评论
分类: BigData
标签:

一款全新的Hadoop SQL数据库查询引擎Apache Tajo近日赢得了韩国电信运营商SK电信的青睐。 SK电信数据科技实验室的高级经理Geun-tae Park表示:
在广泛调研当前可用的数据分析技术后,我们发现Apache孵化项目Tajo能够实现在Hadoop系统快速进行大规模分析处理,能[……]

继续阅读

2014年3月27日23:23 | 没有评论
分类: BigData
标签: , ,

准实时SQL引擎TAJO从apache毕业, 已经成为Apache顶级项目. 上周才通知, 现在已经migration好, 速度很快。国内网上一搜貌似还没有相关资料。

 
介绍:
Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通[……]

继续阅读

2014年3月27日16:20 | 没有评论
分类: BigData
标签: , ,