文章标签 ‘hive’

热度:

hive版本: 0.11.0

在执行dense_rank

hive语句:

select ta.cookie_id
, ta.interest_ratio
, ta.goods_id
, DENSE_RANK() over (order … Read More

2014年8月5日16:14 | 没有评论
分类: BigData
标签: , ,
热度:

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。

使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,

所以需要去掉原有关系型数据库下开发的一些固有思维。

基本原则:

1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段

select … from A

join B

on A.key = … Read More

2014年5月23日12:38 | 没有评论
分类: BigData
标签:
热度:

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。

Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT Read More

2014年5月20日12:13 | 没有评论
分类: BigData
标签:
热度:

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[2])大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

from 百度百度-大数据… Read More

2014年3月28日12:42 | 没有评论
分类:
热度:

一款全新的Hadoop SQL数据库查询引擎Apache Tajo近日赢得了韩国电信运营商SK电信的青睐。 SK电信数据科技实验室的高级经理Geun-tae Park表示:

在广泛调研当前可用的数据分析技术后,我们发现Apache孵化项目Tajo能够实现在Hadoop系统快速进行大规模分析处理,能够更好地分析我们的海量电信运营数据。

Park还透露,随着SK电信在开源领域的人力资源和技术经验的增长,SK电信将启动进一步的开源软件项目。 据Park介绍,SK电信之所以决定采用Tajo,也是SK电信开源战略的一部分,SK并不担心这些开源技术也会被其他公司采用。 作为Hadoop系统的重要补充部分,Tajo这样的SQL-on-Hadoop技术也是Hadoop等大数据技术进入企业级市场的关键所在。 虽然目前Tajo还处于开发的早期阶段,但在测试中已经表现不俗,比Hive快3.7倍。而且支持标准的ANSI SQL,与现有系统集成很容易。此外,Tajo还为CPU和内存占用进行优化,能够加快分析流程,这也受益于Tajo对点对点查询(ad-hoc queries)的低延迟处理技术。… Read More

2014年3月27日23:23 | 没有评论
分类: BigData
标签: , ,
热度:

准实时SQL引擎TAJO从apache毕业, 已经成为Apache顶级项目. 上周才通知, 现在已经migration好, 速度很快。国内网上一搜貌似还没有相关资料。

 

介绍:

Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。

 

功能:

1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等

2.自身支持ETL… Read More

2014年3月27日16:20 | 没有评论
分类: BigData
标签: , ,