Hadoop
下载:http://labs.renren.com/apache-mirror/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz
Windows下安装:
http://www.cygwin.com/setup.exe
Cygwin DLL:
http://src.chromium.org/viewvc/chrome/trunk/src/third_party/cygwin/bin/?pathrev=490
安装出错的时候,重装就OK
下载
gzip hadoop-0.20.2.tar.gz
tar xvf hadoop-0.20.2.tar
cd /home/bmb/hadoop-0.20.2
chmod 777 /home/bmb/hadoop-0.20.2/bin
JDK
/home/bmb/jdk1.6.0_16/
vi /etc/profile
export JAVA_HOME=/home/bmb/jdk1.6.0_16/
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin
touch /etc/profile
设置conf/hadoop-env.sh里面的Java_Home
vi conf/hadoop-env.sh
export JAVA_HOME=/home/bmb/jdk1.6.0_16
SSH 处理
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
SSH 信任 无密码 无口令 登录 ssh-keygen
http://www.leakon.com/archives/281
http://plog.longwin.com.tw/post/1/293
修改配置文件(hadoop-0.20.2\docs\quickstart.html )
所有地址,要么用IP,要么用域名。放弃localhost
/home/bmb/hadoop-0.20.2/conf
conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.2.79:9000</value>
</property>
</configuration>
conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/bmb/hadoop-0.20.2/hdfs-name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/bmb/hadoop-0.20.2/hdfs-data</value>
</property>
</configuration>
conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.2.79:9001</value>
</property>
</configuration>
conf/masters
192.168.2.79
conf/slaves
192.168.2.79
HDFS操作
格式化文件系统
bin/hadoop namenode -format
启动Hadoop
bin/start-all.sh
停止
bin/stop-all.sh
用jps命令可以查看启动的Java进程
修改windows文件:C:\WINDOWS\system32\drivers\etc\hosts,添加对IP和机器名的映射
192.168.2.79 webdev
NameNode - http://192.168.2.79:50070/
JobTracker - http://192.168.2.79:50030/
Pseudo-Distributed (可以用来检测按照是否正确)
cd /home/bmb/hadoop-0.20.2
mkdir input
cp conf/*.xml input
bin/hadoop fs -put conf input
bin/hadoop fs -ls /user/root/input
bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
查看结果
bin/hadoop fs -get output output
cat output/*
或者
bin/hadoop fs -cat output/*
批量删除进程
kill -9 `ps -ef |grep hadoop |awk '{print $2}' `
分享到:
相关推荐
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
Apache Hadoop (hadoop-3.3.4.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。官网下载速度非常缓慢,因此将hadoop-3.3.4 版本放在这里,欢迎大家来下载使用! Hadoop 架构是一个开源的、基于 Java 的编程...
内容概要:windows环境下添加snappy源码,并对2.8.5的apache版本hadoop包进行编译,生成指定的hadoop.dll、snappy.dll文件,方便Windows环境下利用idea工具进行Hadoop、Spark的local模式下代码调试。 版本更新:...
hadoop的hadoop.dll和winutils.exe “ Could not locate executable null\bin\winutils.exe in the Hadoop binaries”解决方法:把winutils.exe加入你的hadoop-x.x.x/bin下 包含hadoop.dll, winutils.exe hadoop-...
Hadoop Eclipse是Hadoop开发环境的插件,用户在创建Hadoop程序时,Eclipse插件会自动导入Hadoop编程接口的jar文件,这样用户就可以在Eclipse插件的图形界面中进行编码、调试和运行Hadop程序,也能通过Eclipse插件...
Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和...
hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...
《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合...
调用保存文件的算子,需要配置Hadoop依赖 将文件夹中的 hadoop-3.0.0 解压到电脑任意位置 在Python代码中使用os模块配置:os.environ[‘HADOOP_HOME’] = ‘HADOOP解压文件夹路径’ winutils.exe,并放入Hadoop解压...
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...
书名:Hadoop The Definitive Guide 语言:英文 The rest of this book is organized as follows. Chapter 2 provides an introduction to MapReduce. Chapter 3 looks at Hadoop filesystems, and in particular ...
Title: Hadoop Essentials Author: Shiva Achari Length: 172 pages Edition: 1 Language: English Publisher: Packt Publishing Publication Date: 2015-04-24 ISBN-10: 1784396680 ISBN-13: 9781784396688 Delve ...
基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书...
hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/Mac_OS_X-x86_64-64 下的所有文件 拷到 ...
Eclipse集成Hadoop2.10.0的插件,使用`ant`对hadoop的jar包进行打包并适应Eclipse加载,所以参数里有hadoop和eclipse的目录. 必须注意对于不同的hadoop版本,` HADDOP_INSTALL_PATH/share/hadoop/common/lib`下的jar包...