博客统计信息

51cto博客之星
用户名:Slaytanic
文章数:59
评论数:121
访问量:99580
无忧币:10241
博客积分:2794
博客等级:7
注册日期:2010-08-25

我最近发表的评论

HAProxy+Hive构建.. 回复
感谢指正
RHEL5下构建LAMP.. 回复
我比较喜用AtMail做web客户端
CentOS-5.6-x86_6.. 回复
对,hadoop,不敢当,互相学习。我..
CentOS-5.6-x86_6.. 回复
不,我们用HDFS,但是我很喜欢MFS ..
CentOS-5.6-x86_6.. 回复
非常有用的MFS应用文章

订阅我的博客


google reader 鲜果 QQ邮箱 有道 抓虾
2012-04-14,在北航主南203,第二次easyhadoop开发者聚会
核心主题:Hadoop高可用和性能调优和Hadoop相关软件发布. 网站:www.easyhadoop.com EasyHadoop 交流群:93086930
1.Hadoop 国内外应用,带EasyHadoop v2.0 介绍 [暴风-xiaojun] 2.Hadoop系统监控和Hive负载均衡,带phpHiveAdmin 介绍 [暴风-Slaytanic]3.ganglia监控Hadoop实战 [gamewave-东杰] 4.Hive+Mapreduce 编程性能调优,带HappyETL v0.1介绍 [暴风-凌峰]5.FriDay 快速报表创建 [暴风-同一种调调] 6.LRE v2.0.2958 简单介绍 [暴风-竹叶青]
老婆给录的视频,看..
类别:hadoop|阅读(967)|回复(0)|(1)阅读全文>>
年轻的时候,有大把的时间可以胡折腾。现在这人已经成了过去了,只生存在另一个平行空间了,也许在另外的空间里,另一个我还每天弹着重金属,喝酒吃肉。
昔人已抱吉他去,此地空余效果器。
现在廉颇老矣,只剩下能饭了。琴也N久不摸了,吉中也很久不上了,一切棱角均被"生存"磨平。为什么用这个词?因为在中国不存在生活,只有生存和不生存。每个人年轻的时候都怀揣各种梦想,然后被现实劈头盖脸一顿大嘴巴打到陆地上。
不过老婆不在家的时候至少不会没事干,不至于无聊到看新闻联播去。
录像那会我还是挺瘦的。





hadoop的性能调优是个比较艰难的事情,由于这个系统的整个环境比较复杂,对于接触时间不长的人来说,配置都很难,更别说找出性能优化的点了。
性能优化涉及的方面很广,操作系统,网络配置,配置文件,调度器等等,抓出几点来说,但不敢说这几点就是别人所遇到的性能瓶颈,抛砖引玉而已。应用场景不同,优化配置肯定是各不相同的。
对于操作系统和网络环境的调优,这个需要讲的东西就太多了,无法在一篇文章里赘述。集中于几个关键词:sysctl,ulimit,hosts文件,内网配置。
尽量把hadoop集群配置在内网地址上,这就不用多说了吧。
下..
类别:hadoop|阅读(405)|回复(1)|(2)阅读全文>>
接以前hadoop安装的文章,Hive是什么就不介绍了,网上一大堆。主要介绍在FreeBSD下的安装配置和跟Linux的异同以及几种Metastore的配置方式。
Hive在FreeBSD的安装配置上,跟Linux的差别不是很大,主要要注意一个shell的问题,FreeBSD下默认是没有bash的,所以需要先安装一个bash上去才可以正常的使用Hive。
主要说说配置Metastore的部分。
Hive目前比较流行的有三种数据库当元数据管理的方式,mysql,pgsql,derby。derby属于hive默认安装就带的,无需配置,直接把hive解压缩就可以了。mysql和pgsql是目前使用最广泛的数据库。但是实际..
类别:hadoop|阅读(499)|回复(1)|(1)阅读全文>>
架构图
一、用户的查询和管理需求通过浏览器提交给phpHiveAdmin。
二、phpHiveAdmin将HQL请求发送给HAproxy负载的Hive server集群。
三、phpHiveAdmin读取Metadata的数据,注意这里是只读,并不存在对Metadata的读写。因为元数据非常重要,涉及到底层数据的正确性,所以不能随意修改。
四、phpHiveAdmin目前可以通过Fuse-DFS的方式浏览HDFS中的文件
五、被分配到HQL任务的某个Hive Server,将HQL转换为Map/Reduce的job,并提交给HDFS,进行计算。
六、HDFS将job分配map,提交到大数据云,也就是datanode节点中进行计算,并将计算结果reduce,提交给Hive server,Hive server将结果返回给phpHiveAdmin。
七、phpHiveAdmin 执行ETL任务,将计算结果直接存储到Mysql中,提交给展示层应用查询,并生成用户友好的数据报表。
注释:小云是HAProxy所做的Hive server集群,负载均衡以适应并发查询的要求。由于找不到合适的图标,就拿小云彩代替了。
大云是真正的数据云,是hadoop datanode的物理集群。[/img]..
类别:hadoop|阅读(114)|回复(0)|(0)阅读全文>>
从2012-01-29开始提交到github开始算,现在phpHiveAdmin已经开发了接近两个月。很多是业余时间在写,上班也会写写,但主要工作还是维护hadoop集群,hive集群,跟各部门的数据需求进行对接和偶尔编写一些map/reduce脚本,其实map/reduce脚本写的已经少了,大部分都是我的同事在写。帮我分担了不少工作压力,很感谢他们,也很感谢我的上级,全力支持我做这么一个公司项目外的破玩意。我真觉得我们数据组的人都是最棒的,无论从人品还是技术实力来说。
公司里面已经将phpHiveAdmin内部版作为开放数据平台项目的一部分,在公司各部门推广使..
类别:杂谈|阅读(457)|回复(2)|(2)阅读全文>>

linuxidc.com和linuxso.com与其他复制粘贴的编辑,我作为一个开源世界的爱好者和贡献者,本着开源的精神,并不反对你们转载我的文章,既然写出来就是想与大家分享和交流知识。但是,希望你们也能本着开源的精神,在转载的时候写明原作者和出处,请不要将版权写上来源是Linux公社,即使是Linux的GPL协议也是有版权保护的。我相信你们不会把Linux kernel源代码写上来源是Linux公社,那为何对于其他内容就执行双重标准呢?
#---------------------------------

Ganglia是加州伯克利大学千禧计划的其中一个开源项目,以BSD协议分发。..
类别:集群|阅读(1506)|回复(4)|(6)阅读全文>>
前面说过了NameNode,DataNode的配置方法,这次说Secondary的配置方法。hadoop为实现高可用,支持配置失效备份的Namenode,这样当主的Namenode挂掉了之后,可以从Secondary把数据恢复回去。可以理解为Mysql的Master和Slave,但是不同的是,hadoop的Secondary不能直接当Namenode使用,更多的时候是用它当namenode的数据恢复。
其实secondary的配置有些类似于Datanode
看下配置文件
core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property ..
类别:hadoop|阅读(104)|回复(0)|(0)阅读全文>>
Hive是facebook开源的一个非常伟大的工具,可以将hadoop中的数据用sql方式进行查询,比自己写map/reduce程序要方便很多。但是在实际使用中发现hive其实不够稳定,极少数情况会出现端口不响应或者进程丢失的问题,所以考虑将hive做成负载均衡的方式。或者更严格的说,叫做失效备份,避免出现某台个别的服务器连接数过大造成的端口不响应或者服务器故障造成无法查询。
前提是有2-3台服务器作为hive server,一台放置HAProxy。
一、安装配置HAProxy
#wget http://haproxy.1wt.eu/download/1.4/src/haproxy-1.4.20.tar.gz
#tar zxf haproxy..
类别:集群|阅读(546)|回复(2)|(3)阅读全文>>
先给自己做个广告:
开源Hive管理工具phpHiveAdmin今日更新0.05 beta2
ChangeLog:
1. sql查询页全部重写,复杂查询现在可以用异步非阻塞的方式实时的查看map/reduce进度,简单的带limit查询,仍然采用thrift方式。2. 改变查询结果获取方式,为防止大数据导致的php内存溢出,非limit结果的数据集将直接下载,仅提供30条预览,全部数据可通过下载链接获取。3. 需下载数据,必须保证phpHiveAdmin/tmp目录的权限正确
访问 http://www.phphiveadmin.net 获取更多详细信息。
#-----------------------------------------------------
上次说..
类别:hadoop|阅读(312)|回复(1)|(1)阅读全文>>
上次说到FreeBSD下搭建伪分布式,很简单,但是hadoop集群入门最难的可能就是集群的搭建和配置了,配置文件复杂,概念抽象,我尽可能简单描述真实集群的搭建和配置。
hadoop集群从启动进程上来说,分为四种进程,四种,不是四个。在实际应用中,通常每台服务器只启动两种进程。
首先是主节点和任务跟踪器。以下统称为NameNode和JobTracker
主节点在hadoop中叫namenode。负责管理调度集群的运作,跟随主节点的进程叫做jobtracker,负责计算任务的分派和接收。hadoop之所以可以负责大数据量的运算,主要是因为这个分片的概念。比如一个10G..
类别:集群|阅读(556)|回复(1)|(1)阅读全文>>
最近参与公司一个项目,计划对在线平台的大规模查询做到快速响应,预估数据总量大概在2-3亿条,数据库并发量大概每秒1500,一年后并发大概3000每秒,经过在Redis和mongodb之间艰难的选择之后,决定使用mongodb,主要看中其平行扩展能力和GridFS上的Map/Reduce。预估项目完成上线后,高峰时段每秒并发查询在1500-3000之间。
其实我个人是比较喜欢Redis的,其并发查询能力和超越memcached的速度都很令人心动,不过其持久化和集群扩展性不太适合业务需要,所以最后还是选择了mongodb。
下面是对mongodb测试的代码和结果。虽然公司用的一水..
Hadoop其实本身是Linux下开发的应用,不过得益于虚拟机技术,也可以运行在其他平台。例如FreeBSD。
不过,Linux用的好好的,为什么用FreeBSD呢?
这个问题的回答其实比较复杂,基于几个方面考虑。
一、磁盘IO速度
其实根据我以前的评测,FreeBSD的UFS2写入速度并不如EXT4快,甚至慢很多,但是读取速度明显快于EXT4和EXT3。每读取1G的数据,基本要比EXT4快0.8-1.5秒。Hadoop的HDFS是构建在基本文件系统上的,所以,基本文件系统的读写速度决定了HDFS的读取速度,而HADOOP处理的都是TB级数据,所以,1G感觉不明显,1TB读取就大约快了800-..
类别:集群|阅读(774)|回复(2)|(2)阅读全文>>
Hive 是facebook开源的一个基于hadoop框架的查询工具,也就是说,需要用hive的话,就要先安装hadoop。这次是小结一下最近用hive的心得,经验分享。hadoop和hive,pig,hbase的安装配置以后专门另开个连载说比较好。
所以,我假设你已经有hive了。
1.字段的数据类型。hive实际上为了数据挖掘的需要,对hive表的字段设置了数据类型,对于经常where的,还可以设置index。
数据类型分以下几种
STRING 不定长字符串
TINYINT 3位长整型数
SMALLINT 5位长整型
INT 10位整型
BIGINT 19位整型
FLOAT 浮点数
DOUBLE 双精度
BOOLEAN 布尔型,也就..
类别:hadoop|阅读(581)|回复(0)|(0)阅读全文>>
前两天同事接了一通电话,然后在部门群里提出一个在电话里对方问他的问题。
有10瓶无标签试剂,其中9瓶是盐,1瓶是化学品,该化学品放入水中10分钟后会变色。且无论是否与盐放在一起都会变色。问,最少用多少瓶水可以在10分钟内找出该化学品。也就是一次相溶就需要找到化学品。
在半小时内,大家给出了不同的答案,按照软件开发的方式,我将其分类如下。
敏捷之道:9瓶水,这是最容易想出来也是速度最快的办法。如果其中有一瓶变色,则是该化学品,如9瓶水均无变色,则没放水里的是该化学品。这是最快速解决该问题的办法,但却不是最优..
类别:杂谈|阅读(999)|回复(9)|(12)阅读全文>>
 <<   1   2   3   4   >>   页数 ( 1/4 )