选择和配置数据压缩

选择和配置数据压缩

选择压缩类型的指导

  • GZIP压缩比Snappy或LZO使用更多的CPU资源,但提供了更高的压缩比。GZip通常是冷数据的不错选择,不经常访问。 Snappy或LZO是热门数据的更好选择,频繁访问。
  • 对于某些类型的文件,BZip2还可以产生比GZip更多的压缩,压缩和解压缩时需要一定的速度。 HBase不支持BZip2压缩。
  • Snappy经常表现比LZO好。
  • 对于MapReduce,如果您需要压缩数据是可拆分的,则可以拆分BZip2和LZO格式。 Snappy和GZip块不是可拆分的,但是可以拆分诸如SequenceFile或Avro之类的容器文件格式的Snappy块的文件
  • Snappy旨在与容器格式(如SequenceFiles或Avro数据文件)一起使用,而不是直接用于纯文本,例如,由于后者不可分割,并且不能使用MapReduce并行处理。可分离性与HBase数据无关。

配置数据压缩

使用Cloudera Manager配置数据压缩

要使用Cloudera Manager配置对LZO的支持,您必须安装GPL Extras Parcle,然后配置服务才能使用。请参阅
安装GPL附加包

配置服务以使用GPL附加包裹

Configuring Data Compression Using the Command Line