2021年6月18日 | 标签:

使用广告插件出来的:[……]

继续阅读

Hi

2020年3月24日 | 标签:

好吧,又找了一个空间,恢复了。。。

也升级到了最新的,然后发现后台写文章这里好陌生。。。

AD:老薛主机

优惠码:

all15off 终身15%折扣

wangnet 首次25%折扣[……]

继续阅读

2016年10月12日 | 标签: ,

第一、Linux VPS系统准备

在写这篇文章之前,老左个人建议在搬瓦工VPS购买机器比较划算,年付9.99美元的512MB方案速度还是比较快的(具体方案参考)。系统环境安装的是centos 5 32位。

第二、检测系统XFCE版本
yum grouplist
检查XFCE版本

看到上图中,我们检测到版本是4.4的,一般都是这个版本。

第三、安装XFCE 4.4版本
yum groupinstall xfce-4.4
在安装过程中会出现两次”Is this ok [y/n]“我们只需要输入y且回车就可以。

第四、安装VNC桌面系统
yum install vnc vnc[……]

继续阅读

2015年4月30日 | 标签:

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!

怎么能快速地掌握Python?这是和朋友闲聊时谈起的问题。

Python包含的内容很多,加上各种标准库、拓展库,乱花渐欲迷人眼。我一直希望写一个快速的、容易上手的Python教程,而且言语简洁,循序渐进,让没有背景的读者也可以从基础开始学习。我将在每一篇中专注于一个小的概念,希望在闲暇时可以很快读完。
小提醒

  1. 教程将专注于Python基础,语法基于Python 2.7 (我会提醒Python 3.x中有变化的地方,以方便读者适应3.X的情况)。测试环境为[……]

    继续阅读

2014年8月19日 | 标签:

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。
一、Hadoop
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠[……]

继续阅读

2014年8月7日 | 标签:

我们的HDFS中有一部分落地数据是用LZO格式来压缩的(另一部分采用gz压缩的RCFile,MapReduce中间结果采用snappy压缩)。第一是因为它的压缩比和压缩/解压速度综合下来比较令人满意,第二是它只需要少量effort就能支持可切分(生成LZO文件后跑单机或分布式建索引程序),这样能充分利用MapReduce分而治之的编程思想和数据本地性。
之前要查看已经put到HDFS的LZO文件,都是先get到本地,再用lzop命令解压出来查看,但是有时候我们只是想预览下lzo文件的几行信息,前面一种方式就比较麻烦了,替代方案可以使用如下命令:

hadoop fs -cat /shar[……]

继续阅读

2014年8月5日 | 标签: , ,

hive版本: 0.11.0

在执行dense_rank

hive语句:

select ta.cookie_id
, ta.interest_ratio
, ta.goods_id
, DENSE_RANK() over (order by ta.COOKIE_ID) as RN
from tm_rec_user_cf_goods_visit ta
where ta.goods_cnt = 6
group by ta.cookie_id,ta.goods_id,ta.interest_ratio

HIVE的报错信息如下:

 

HiveS[……]

继续阅读

2014年8月5日 | 标签:

据估计,到2015年,全世界一半以上的数据将涉及hadoop–围绕这个开源平台的生态系统日益庞大,这有力地印证了这个惊人的数字。
  然而,有些人表示,虽然hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测彻底改变各种数据密集型解决方案的开源技术未来会如何,而是关注让hadoop越来越火的实际应用案例。
  毫无疑问,现在有几个出众的例子,表明hadoop及相关开源技术(hive和hbase等)在如何重塑大数据公司考虑基础设施的角度。
  不妨阐明几个引人注目的、大规[……]

继续阅读

2014年5月23日 | 标签:

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。
使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,
所以需要去掉原有关系型数据库下开发的一些固有思维。

基本原则:
1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段
select … from A
join B
on A.key = B.key
where A.userid>10
and B.userid<10
and A.dt=’20120417′[……]

继续阅读

2014年5月20日 | 标签:

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。
Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在

ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

SELECT a.key, a.value
FROM a
WHERE a.key in
(SELECT b.key
FROM B);
可以被重写为:
SELECT a.key, a.val
F[……]

继续阅读

苏ICP备2021017351号