2014年8月 的存档

热度:

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。

在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。

一、Hadoop

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:… Read More

2014年8月19日11:35 | 没有评论
分类: BigData
标签:
热度:

我们的HDFS中有一部分落地数据是用LZO格式来压缩的(另一部分采用gz压缩的RCFile,MapReduce中间结果采用snappy压缩)。第一是因为它的压缩比和压缩/解压速度综合下来比较令人满意,第二是它只需要少量effort就能支持可切分(生成LZO文件后跑单机或分布式建索引程序),这样能充分利用MapReduce分而治之的编程思想和数据本地性。
之前要查看已经put到HDFS的LZO文件,都是先get到本地,再用lzop命令解压出来查看,但是有时候我们只是想预览下lzo文件的几行信息,前面一种方式就比较麻烦了,替代方案可以使用如下命令:

hadoop fs -cat /share/data/log/web/2013-08-22/2013-08-22_log.lzo | lzop -dc | head -1

lzop会接受输入流然后解压输出流给head显示第一行

但是如果不加后面的重定向命令,照道理应该输出到终端上,但是事实并非如此… Read More

2014年8月7日12:41 | 没有评论
分类: BigData
标签:
热度:

hive版本: 0.11.0

在执行dense_rank

hive语句:

select ta.cookie_id
, ta.interest_ratio
, ta.goods_id
, DENSE_RANK() over (order … Read More

2014年8月5日16:14 | 没有评论
分类: BigData
标签: , ,
热度:

据估计,到2015年,全世界一半以上的数据将涉及hadoop–围绕这个开源平台的生态系统日益庞大,这有力地印证了这个惊人的数字。

  然而,有些人表示,虽然hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测彻底改变各种数据密集型解决方案的开源技术未来会如何,而是关注让hadoop越来越火的实际应用案例。

  毫无疑问,现在有几个出众的例子,表明hadoop及相关开源技术(hive和hbase等)在如何重塑大数据公司考虑基础设施的角度。

  不妨阐明几个引人注目的、大规模hadoop部署案例,它们在重塑依赖大数据的公司,这些公司从事社交媒体、旅游和一般商品和服务等行业。

 

案例之一:电子港湾的hadoop环境

  电子港湾公司分析平台开发小组的anil madan讨论了这家拍卖行业的巨擘在如何充分发挥hadoop平台的强大功能,充分利用每天潮水般涌入的8tb至10tb数据。

  虽然电子港湾只是几年前才开始向生产型hadoop环境转移,但它却是早在2007年就率先开始试用hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。

  这些涉及的是少量数据;madan表示,但是就这个试验项目而言很有用;不过随着数据日益增加、用户活动日益频繁,电子港湾想充分利用几个部门和整个用户群当中的数据。

  电子港湾的第一个大型hadoop集群是500个节点组成的athena,这个专门建造的生产型平台可以满足电子港湾内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。

  madan表示,该集群现由电子港湾的许多小组使用,既用于日常生产作业,又用于一次性作业。小组使用hadoop的公平调度器(fair scheduler)来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业,并且设定抢占超时和延迟调度。

  虽然madan经常在台上畅谈hadoop具有的实际价值,他也经常提到工作小组在扩建电子港湾基础设施时面临、继续竭力克服的几个主要挑战。下面列出了与hadoop有关的一系列挑战:Read More

2014年8月5日13:40 | 没有评论
分类: BigData
标签: