Hadoop 例子
MR作业的串联
有时候,用一个单独的Map/Reduce作业并不能完成一个复杂的任务,用户也许要链接多个Map/Reduce作业才行。这是容易实现的,因为作业通常输出到分布式文件系统上的,所以可以把这个作业的输出作为下一个作业的输入实现串联。
然而,这也意味着,确保每一作业完成(成功或失败)的责任就直接落在了客户身上。
org.apache.hadoop.examples.Grep
自定义Key,InputFormat,
org.apache.hadoop.examples.MultiFileWordCount
TeraSort
Trie树详解
http://www.cppblog.com/abilitytao/archive/2009/04/21/80598.html
http://www.cnblogs.com/cherish_yimi/archive/2009/10/12/1581666.html
生成TeraSort所需要的随机文件
org.apache.hadoop.examples.RandomTextWriter
3台机器,每台一个Map,产生1G的随机文件(1G对于测试机器负载太大,后来修正为200M)
bin/hadoop fs -rmr tera-sort-source
bin/hadoop jar examples-hadoop.zip org.apache.hadoop.examples.RandomTextWriter -Dtest.randomtextwrite.bytes_per_map=52428800 tera-sort-source
第一次1G:10/04/16 11:34:15--10/04/16 11:39:02
第二次200M(209715200):The job took 53 seconds
第三次50M(52428800):The job took 28 seconds.
bin/hadoop jar examples-hadoop.zip org.apache.hadoop.examples.WordCount tera-sort-source word-count-out
bin/hadoop job -kill job_201004151046_0034
bin/hadoop fs -rmr tera-sort-out
bin/hadoop jar examples-hadoop.zip org.apache.hadoop.examples.AggregateWordCount tera-sort-source tera-sort-out 3
执行TeraSort,同时利用TotalOrderPartition
http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html
org.apache.hadoop.examples.terasort.TeraSort
程序中指定输出结果的replication为1
先测试简单的英文单词文件Sort结果
bin/hadoop fs -mkdir tera-sort-simple
bin/hadoop fs -put tera-sort.txt tera-sort-simple/
bin/hadoop fs -rmr tera-sort-simple-out
bin/hadoop jar examples-hadoop.zip org.apache.hadoop.examples.terasort.TeraSort -Dmapred.reduce.tasks=36 tera-sort-simple tera-sort-simple-out
bin/hadoop fs -rmr tera-sort-out
bin/hadoop jar examples-hadoop.zip org.apache.hadoop.examples.terasort.TeraSort -Dmapred.reduce.tasks=3 tera-sort-source tera-sort-out
第一次,执行的时候,抛出异常,而且test-a机器挂掉。
第二次,中间有异常,但是Job最终执行成功,指定1个Reduce
Task Id : attempt_201004161343_0001_m_000050_0, Status : FAILED
Could not find any valid local directory for taskTracker/jobcache/job_201004161343_0001/attempt_201004161343_0001_m_000023_1/output/spill0.out
10/04/16 13:44:27
10/04/16 13:55:10
第三次,3GB,指定36个Reduce,2.79当机。
第四次600M,指定3个Reduce,OK
10/04/16 15:24:55
10/04/16 15:25:50
查看结果
bin/hadoop fs -get /user/iic/tera-sort-out/part-00000 sort1.txt
自定义Key,Partition,Comparator
org.apache.hadoop.examples.SecondarySort
WordCount
/home/bmb/hadoop-0.20.2/examples/wordcount.jar
bin/hadoop dfs -mkdir /usr/joe/wordcount/input
bin/hadoop dfs -put conf/*.xml /usr/joe/wordcount/input/
bin/hadoop dfs -ls /usr/joe/wordcount/input/
bin/hadoop dfs -rmr /usr/joe/wordcount/input/conf
bin/hadoop jar ./examples/wordcount.jar org.apache.hadoop.examples.WordCount /usr/joe/wordcount/input /usr/joe/wordcount/output
bin/hadoop dfs -cat /usr/joe/wordcount/output/part-r-00000
Hadoop数据库操作例子
测试项目D:\7g\Projects\BMB\Hadoop-Projects\Hadoop-Learning
l 加入驱动ojdbc14.jar到/home/bmb/hadoop-0.20.2/lib,(需要重启)
l 解决不支持oracle的bug: D:\7g\Projects\BMB\Hadoop-Projects\Hadoop-src
http://203.208.39.132/search?q=cache:CGAATmmBKD8J:www.mail-archive.com/core-user%40hadoop.apache.org/msg08342.html+hadoop+oracle&cd=4&hl=zh-CN&ct=clnk&gl=cn&st_usg=ALhdy29MmHdqiAIgRzFMaaE0Z2LnKl6EBw
http://www.nabble.com/HADOOP-2536-supports-Oracle-too--tp21823199p22471395.html
Oracle 报错:java.io.IOException: ORA-00911: invalid character
修改DBOutputFormat的方法constructQuery(),去掉”;”
HSQL DB
bin/hadoop jar hadoop-*-examples.jar dbcount
bin/hadoop jar ./examples/bmb.jar com.bmb.examples.DBCountPageView
bin/hadoop jar ./examples/bmb.jar com.bmb.examples.DBCountPageView2
Bug:
当有2台以上的Datanode,hadoop分配数据出现重复
URL Access Log访问计算
bin/hadoop dfs -mkdir url-access-log
bin/hadoop dfs -put examples/test-data/*.txt url-access-log
bin/hadoop dfs -ls /user/root/url-access-log
bin/hadoop jar examples/bmb.jar com.bmb.examples.URLFileLogTest url-access-log url-access-log-out1
bin/hadoop dfs -cat /user/root/url-access-log-out1/part-r-00000
examples.StoreTableDataMap
计算文件里面各个用","分隔开的词语的出现次数
Hadoop提供的简化MR的Aggregate框架,做各种数学运算
org.apache.hadoop.mapred.lib.aggregate
org.apache.hadoop.examples.AggregateWordCount
分享到:
相关推荐
myeclipse +maven 搭建的hadoop mapreduce 例子项目,运行了单机wordcount
hadoop集群mapreduce例子共52页.pdf.zip
本文作为Hadoop MapReduce的入门篇,首先对MapReduce原理进行简单介绍,然后以一个简单的例子说明如何编写一个简单的MapReuce程序。
提供hadoop1-2-1源码,以及hadoop mapreduce例子
hadoop 框架下 mapreduce源码例子 wordcount ,eclipse下,hadoop 2.2 可以运行
学习完此例子后,你能掌握MapReduce基础编程,及如何编译Java文件,打包jar文件,编写shell执行脚本等。后续学习还可以参看本人的CSDN博客,如有问题也可以在线为你解答,不过本人也学习Hadoop不足一年,现学现卖...
而化简操作指的是对一个列表的元素进行适当的合并(继续看前面的例子,如果有人想知道班级的平均分该怎么做?他可以定义一个化简函数,通过让列表中的奇数(odd)或偶数(even)元素跟自己的相邻的元素相加的方式把列表...
hadoop的例子 Hadoop MapReduce示例 hdfs dfs -rm -r / user / huangzehai / wordcount / output hadoop jar target / hadoop-example-1.0-SNAPSHOT.jar huangzehai.mr.wordcout.WordCount / user / huangzehai / ...
hadoop1.1.2操作例子 包括hbase hive mapreduce相应的jar包
主要描述MapReduce 2.0的应用场景及实现原理与基本架构
mapReduce 例子源码 以及hadoop相关jar包
对应的博客地址:http://blog.csdn.net/huhui_cs/article/details/9907951
这个小例子用于求2008-2015年双色球普通号码出现的次数
Hadoop的分割程序的例子。程序显示我们如何在Hadoop的MapReduce程序使用一个分区.zip
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUI CLI,即Shell命令行 JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似 Web...
学习hadoop的比较全的中文资料。文中几乎综合了所有入门用户需要的内容,包括hadoop项目的单机,为分布式,分布式的搭建和环境配置,以及具体的hdfs的内部结构等。
这是MapReduce的小例子,计算单词量,其中就只是用到小框架,只不过每个人的算法不一样而已。 对应博客地址: https://blog.csdn.net/magic_ninja/article/details/80071394
hdfs的api操作、mapreduce以及重写patitioner的例子,eclipse项目格式,导入就可以了