Apache Hive

Apache Hive
Apache Hive
Тип	Система управления базами данных
Автор	Facebook
Разработчик	Apache Software Foundation
Написана на	Java
Операционная система	Кроссплатформенное программное обеспечение
Языки интерфейса	Английский
Первый выпуск	9 ноября 2011[1]
Аппаратная платформа	Java Virtual Machine
Последняя версия	3.1.2 (26 августа 2019)[2];
Состояние	Активный
Лицензия	Apache License 2
Сайт	hive.apache.org

Apache Hive — система управления базами данных на основе платформы Hadoop. Позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop.

Apache Hive был создан корпорацией Facebook и передан под открытой лицензией в собственность фонду Apache Software Foundation. На сегодняшний день эта система используется компанией Netflix и доступна в Amazon Web Services через Amazon Elastic MapReduce[3].

Возможности

Работа с данными используя SQL-подобный язык запросов;
Поддержка различных форматов хранения данных;
Работа напрямую с HDFS и Apache HBase;
Выполнение запросов через Apache Tez, Apache Spark или MapReduce.[4]

HiveQL

Apache Hive поддерживает язык запросов Hive Query Language, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. HiveQL имеет функции для работы с форматами XML и JSON, поддержку нескалярных типов данных, таких как массивы, структуры, ассоциативные массивы[5], поддерживает широкий набор агрегирующих функций, определяемые пользователем функции (User Defined Functions), блокировки.

Подсчёт количества слов

Запрос подсчитывает, сколько раз каждое слово встречалось в файле:

DROP TABLE IF EXISTS docs;
CREATE TABLE docs (line STRING);
LOAD DATA INPATH 'input_file' OVERWRITE INTO TABLE docs;
CREATE TABLE word_counts AS
SELECT word, count(1) AS count FROM
 (SELECT explode(split(line, '\s')) AS word FROM docs) temp
GROUP BY word
ORDER BY word;

Примечания

Внешние ссылки

Официальный сайт
The Free Hive Book Архивная копия от 1 февраля 2014 на Wayback Machine
Apache Hive Wiki

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[_d44c640260838a93-1] ttps://projects.apache.org/json/projects/hive.json

[_aabb92ea4608c077-2] ttp://hive.apache.org/downloads.html

[3] Amazon Elastic MapReduce Developer Guide

[4] About Apache Hive

[5] SQL Differences Between Impala and Hive