文章标签 ‘hadoop’

热度:

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[2])大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

from 百度百度-大数据… Read More

2014年3月28日12:42 | 没有评论
分类:
热度:

一款全新的Hadoop SQL数据库查询引擎Apache Tajo近日赢得了韩国电信运营商SK电信的青睐。 SK电信数据科技实验室的高级经理Geun-tae Park表示:

在广泛调研当前可用的数据分析技术后,我们发现Apache孵化项目Tajo能够实现在Hadoop系统快速进行大规模分析处理,能够更好地分析我们的海量电信运营数据。

Park还透露,随着SK电信在开源领域的人力资源和技术经验的增长,SK电信将启动进一步的开源软件项目。 据Park介绍,SK电信之所以决定采用Tajo,也是SK电信开源战略的一部分,SK并不担心这些开源技术也会被其他公司采用。 作为Hadoop系统的重要补充部分,Tajo这样的SQL-on-Hadoop技术也是Hadoop等大数据技术进入企业级市场的关键所在。 虽然目前Tajo还处于开发的早期阶段,但在测试中已经表现不俗,比Hive快3.7倍。而且支持标准的ANSI SQL,与现有系统集成很容易。此外,Tajo还为CPU和内存占用进行优化,能够加快分析流程,这也受益于Tajo对点对点查询(ad-hoc queries)的低延迟处理技术。… Read More

2014年3月27日23:23 | 没有评论
分类: BigData
标签: , ,
热度:

新找了一些hadoop的视频,下载地址:

传智播客hadoop视频资料
链接: http://pan.baidu.com/s/1kT0Xl59 密码: lr6i

数据挖掘学习视频
链接: http://pan.baidu.com/s/1eQ1hxuy 密码: ddaa

可能需要自己找一下csf文件的播放器,很容易就能百度到的。

 

暂时就先这么多吧,还是那句话:自己搭环境是很有必要的!!Read More

2014年3月27日23:06 | 没有评论
分类: BigData
热度:

准实时SQL引擎TAJO从apache毕业, 已经成为Apache顶级项目. 上周才通知, 现在已经migration好, 速度很快。国内网上一搜貌似还没有相关资料。

 

介绍:

Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略,以及对查询可以做很多优化。

 

功能:

1.快速且低延迟的查询,支持各种SQL操作,如条件查询,GROUP BY,SORT,JOIN等

2.自身支持ETL… Read More

2014年3月27日16:20 | 没有评论
分类: BigData
标签: , ,
热度:

花了一点时间,把3.5G的hadoop实战视频传到了百度云。

这个视频是itcast(传智播客)出的,后面有时间,把另外一家的hadoop也分享了。

个人觉得另外一家是目前看到最好最全的。

链接: http://pan.baidu.com/s/1bnvhRsF 密码: i4bq 自己刮开
hadoop实战 1-14

 … Read More

2014年3月27日11:08 | 没有评论
分类: BigData
标签: