欢迎访问
讨论版列表 - 业界动态 - 主题数: 45 | 文章数: 46 | 管理员: admin

业界动态

版面 | 文摘区 | 马克区

文章数: 1 | 分页: << 1 >>
admin
[回复] [修改] [删除] [返回版面] 1  
作者: admin, 讨论版: 业界动态, 发表时间: 2014-01-14 14:07:05 PST
标题: Yahoo Hadoop
关键字:

Apache Hadoop是开源的大规模数据存储和处理的软件框架. 诞生于2005年, 最初作者是Doug Cutting和Mike Cafarella. 它是Apache的top-level项目, 以Apache 2.0 license发布, 用Java开发, 客服端支持多种语言.

Hadoop框架由以下部分组成:
- Hadoop Common - 包含Hadoop各模块需要的库和组件.
- Hadoop Distributed File System (HDFS) - 分布式文件系统, 提供集群的高通量数据传输.
- Hadoop YARN - 资源管理平台, 用于管理集群的计算资源和用户应用任务调度(scheduling).
- Hadoop MapReduce - 大规模数据处理的编程模型.

Hadoop假设集群硬件出错是常态, 对此的纠错处理全部由软件管理完成. Hadoop的HDFS和MapReduce来自于Google的GFS和MapReduce论文. 

除了HDFS, YARN和MapReduce, 现在一般认为Hadoop框架也包括以下组成部分: Apache Pig, Apache Hive, Apache HBase等. 

2004年, google工程师Jeffrey Dean和Sanjay Ghemawat发表了关于MapReduce的论文. Yahoo的工程师Doug Cutting(照片见下图)受此启发, 决定开发MapReduce的开源版本. Cutting以他儿子的大象玩具的名字来命名了这个项目, 和Mike Cafarella两人一起于2005年起开发了Hadoop, 最初目的是为了支持Nutch搜索引擎. 



Doug Cutting本科毕业于Stanford大学. 曾先后任职于Excite, Apple Inc., Xerox PARC, Yahoo, Cloudera. 他是开源爬虫Nutch和索引器Lucene的作者. Nutch和Lucene成为业界大规模搜索项目的基础. Lucene影响下诞生了Solr. 2004年12月google发表MapReduce的论文以后, 时在Yahoo任职的Doug Cutting意识到这使得Lucene扩展到极大规模并行搜索成为可能, 从而开发了Hadoop框架. 2009年, Cutting跳到Cloudera. 同年7月, 他被选入阿帕奇软件基金会(Apache Software Foundation)董事会(board of directors). 2010年9月, 他当选为阿帕奇软件基金会董事会主席.

Hadoop在许多大公司广为使用. 2008年2月, Yahoo宣布建立了世界上最大的Hadoop集群, 使用了超过10000台linux机器. 2009年6月, Yahoo开源了其使用的Hadoop版本. 2010年, Facebook宣称集成了世界上最大的Hadoop集群, 支持21PB的存储量; 2012年6月, Facebook宣称其Hadoop集群支持100PB的存储量; 到了11月, Facebook宣称其数据量每天增长半个PB. 2013年, 财富前50名公司里的一半都应用了Hadoop技术.

参考文献:
[1] wiki: apache hadoop
[2] wiki: Doug Cutting
[3] 项目主页: http://hadoop.apache.org/
[4] CSDN: 从远程调用框架认识Zookeeper
[5] CSDN: 盘点Hadoop生态圈:13个让大象飞起来的开源工具
[6] CSDN: Hadoop与大数据周刊
[7] 45 questions on setting up Hadoop Cluster

(本文来自homecox.com)


--

※ 来源: homecox.com  [来自: 128.]


Reply

Please log in first.