博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《Flume日志收集与MapReduce模式》一3.3 小结
阅读量:6077 次
发布时间:2019-06-20

本文共 546 字,大约阅读时间需要 1 分钟。

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第3章,第3.3节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.3 小结

本章介绍了在数据处理管道中常用的两类通道。

内存通道提供了更快的速度,这是以故障事件出现时数据丢失为代价的。
此外,文件通道提供了更可靠的传输,因为它能容忍代理故障与重启,这是以牺牲性能为代价的。
你需要确定哪种通道更适合于你的使用场景。在确定内存通道是否适合时,请问问自己丢失一些数据的经济上的代价如何。在考虑是否使用持久化通道时请衡量它与添加更多的硬件以弥补性能上的差异时的代价相比如何。另一个考虑就是数据问题了。写入到Hadoop中的数据不一定都来自于流式应用日志。如果接收的是每天的数据下载,那么就可以使用内存通道了,因为一旦遇到了问题还可以重新导入。
image

下一章将会介绍接收器。特别是将事件写到HDFS中的HDFS接收器;此外,还会介绍事件序列化器,它指定了如何将Flume事件转换为更加适合于接收器处理的输出。最后,下一章将会介绍接收处理器以及如何在分层配置中创建负载均衡与故障路径,从而实现更为健壮的数据传输。

转载地址:http://wwogx.baihongyu.com/

你可能感兴趣的文章
某公司面试java试题之【二】,看看吧,说不定就是你将要做的题
查看>>
BABOK - 企业分析(Enterprise Analysis)概要
查看>>
Linux 配置vnc,开启linux远程桌面
查看>>
NLog文章系列——如何优化日志性能
查看>>
Hadoop安装测试简单记录
查看>>
CentOS6.4关闭触控板
查看>>
ThreadPoolExecutor线程池运行机制分析-线程复用原理
查看>>
React Native 极光推送填坑(ios)
查看>>
Terratest:一个用于自动化基础设施测试的开源Go库
查看>>
修改Windows远程终端默认端口,让服务器更安全
查看>>
扩展器必须,SAS 2.0未必(SAS挺进中端存储系统之三)
查看>>
Eclipse遇到Initializing Java Tooling解决办法
查看>>
while((ch = getchar()) != '\n')
查看>>
好程序员web前端分享JS检查浏览器类型和版本
查看>>
Oracle DG 逻辑Standby数据同步性能优化
查看>>
exchange 2010 队列删除
查看>>
「翻译」逐步替换Sass
查看>>
H5实现全屏与F11全屏
查看>>
处理excel表的列
查看>>
C#数据采集类
查看>>