一、hive介绍

hiveData Warehouse,面向分析的存储系统

特点:面向主题的(Subject Oriented)、集成的(Integrate)、不可修改的(Non-Volatile)、反映历史 变化(Time Variant)的数据集合,用于数据分析、辅助管理决策。

应用环境:大数据企业做数据仓库首选的解决方案

数据仓库应用开发、数据分析、数据挖掘最常用的工具之一。

大数据技术应用最简单、直接的入口

二. 数据仓库与数据库比较

两者之间的联系

·都是用来存储数据

·数据仓库也是数据库,是数据库的衍生

·数据仓库的数据来自于数据库中的在线数据

主要区别

·数据库是面向事务,数据仓库是面向主题

·数据库处理在线数据,实时性强,数据仓库一般处理历史数据,实时性若,但是空间庞大

·数据库设计是尽量避免冗余数据,数据仓库有意引入数据冗余

·数据库吞吐量低,数据仓库吞吐量高

三、Hive架构设计原理

1 切换到可以使用hive 的用户 —-自己的用户即可

2 hive + 回车 进入hive

常用命令—- show databases;

create database xuyunfeng; 创数据库

use xuyunfeng; 切换数据库

set hive.cli.print.current.db=true; 设置当前数据库名称

show tables; 显示数据库中的表

create table userinfo(id int,username string); 创表

insert into userinfo values(1,”one”); 向表中插入数据

select * from userinfo; 查看表

drop table 表名称; 删除表