概述
ORC指的是Optimized Record Columnar,就是说相对于其他文件格式,它已更优化方式存储数据.ORC能将原始的大小缩减75%,从而提升数据处理速度。ORC比Text,Squence和RC文件格式有更好的性能,而且ORC是目前是hive唯一支持事物的文件格式。
ORCFILE格式的输出包是:1
org.apache.hadoop.hive.ql.io.orc
注意:
本段文字来自《Hadoop构建数据仓库实践》书籍6.2.1章节
案例
建立ORCFILE格式表
1 | create table t_orcfile( |
向表中导入数据
注意
:不能直接向ORCFILE表插入数据,需要从其他表向ORCFILE表插入数据。1
insert overwrite table t_orcfile select * from t_textfile