本文共 413 字,大约阅读时间需要 1 分钟。
™ 数据仓库软件使用SQL,方便读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。我们都知道,Hive作为数据仓库工具,传统文件数据处理大都是搭配Hadoop使用。此处将描述如何搭配内存加速使用,让你的批处理任务速度飞起来。
本节将使用apache-hive-3.1.2与alluxio2.3|2.4结合,验证数仓功能使用。先下载Hive-3.2.1版本,如果你需要在Hadoop MapReduce上运行Hive(简单使用时,可以不安装hadoop),hive安装只需要在hadoop的master节点安装即可。当然也可以使用Spark SQL作为处理引擎,有关这部分将在后续章节呈现。
添加以下配置项到你的Hive安装目下的conf目录里的hive-env.sh文件中:
转载地址:http://ujcpi.baihongyu.com/