Apache Hive
Apache Hive — система управления базами данных на основе платформы Hadoop. Позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop.
Apache Hive | |
---|---|
Тип | Система управления базами данных |
Автор | |
Разработчик | Apache Software Foundation |
Написана на | Java |
Операционная система | Кроссплатформенное программное обеспечение |
Языки интерфейса | Английский |
Первый выпуск | 9 ноября 2011[1] |
Аппаратная платформа | Java Virtual Machine |
Последняя версия |
|
Состояние | Активный |
Лицензия | Apache License 2 |
Сайт | hive.apache.org |
Apache Hive был создан корпорацией Facebook и передан под открытой лицензией в собственность фонду Apache Software Foundation. На сегодняшний день эта система используется компанией Netflix и доступна в Amazon Web Services через Amazon Elastic MapReduce[3].
Возможности
- Работа с данными используя SQL-подобный язык запросов;
- Поддержка различных форматов хранения данных;
- Работа напрямую с HDFS и Apache HBase;
- Выполнение запросов через Apache Tez, Apache Spark или MapReduce.[4]
HiveQL
Apache Hive поддерживает язык запросов Hive Query Language, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. HiveQL имеет функции для работы с форматами XML и JSON, поддержку нескалярных типов данных, таких как массивы, структуры, ассоциативные массивы[5], поддерживает широкий набор агрегирующих функций, определяемые пользователем функции (User Defined Functions), блокировки.
Подсчёт количества слов
Запрос подсчитывает, сколько раз каждое слово встречалось в файле:
DROP TABLE IF EXISTS docs;
CREATE TABLE docs (line STRING);
LOAD DATA INPATH 'input_file' OVERWRITE INTO TABLE docs;
CREATE TABLE word_counts AS
SELECT word, count(1) AS count FROM
(SELECT explode(split(line, '\s')) AS word FROM docs) temp
GROUP BY word
ORDER BY word;
Примечания
Внешние ссылки
- Официальный сайт
- The Free Hive Book Архивная копия от 1 февраля 2014 на Wayback Machine
- Apache Hive Wiki