LLVM

LLVM
LLVM
Тип	компилятор
Разработчик	Викрам Адве[d] и Крис Латтнер[d]
Написана на	C++[1], Си[2] и Язык ассемблера[2]
Операционная система	кроссплатформенность
Первый выпуск	24 октября 2003[3]
Последняя версия	13.0.1 (2 февраля 2022)[4];
Тестовая версия	13.0.1-rc3 (21 января 2022)[5];
Лицензия	открытая лицензия Иллинойсского университета[d][6] и Apache License 2.0[7]
Сайт	llvm.org (англ.)
	Медиафайлы на Викискладе

LLVM (ранее Low Level Virtual Machine[8]) — проект программной инфраструктуры для создания компиляторов и сопутствующих им утилит. Состоит из набора компиляторов из языков высокого уровня (так называемых «фронтендов»), системы оптимизации, интерпретации и компиляции в машинный код. В основе инфраструктуры используется RISC-подобная платформонезависимая система кодирования машинных инструкций (байткод LLVM IR), которая представляет собой высокоуровневый ассемблер, с которым работают различные преобразования.

Написан на C++, обеспечивает оптимизации на этапах компиляции, компоновки и исполнения. Изначально в проекте были реализованы компиляторы для языков Си и C++ при помощи фронтенда Clang, позже появились фронтенды для множества языков, в том числе: ActionScript, Ада, C#[9], Common Lisp, Crystal, CUDA, D, Delphi, Dylan, Fortran, Graphical G Programming Language, Halide, Haskell, Java (байткод), JavaScript, Julia, Kotlin, Lua, Objective-C, OpenGL Shading Language, Ruby, Rust, Scala, Swift, Xojo.

LLVM может создавать машинный код для множества архитектур, в том числе ARM, x86, x86-64, PowerPC, MIPS, SPARC, RISC-V и других (включая GPU от Nvidia и AMD).

Некоторые проекты имеют собственные LLVM-компиляторы (например LLVM-версия GCC), другие используют инфраструктуру LLVM[10], например таков Glasgow Haskell Compiler.

Разработка начата в 2000 году в Университете Иллинойса. К середине 2010-х годов LLVM получил широкое распространение в индустрии: использовался, в том числе, в компаниях Adobe, Apple и Google. В частности, на LLVM основана подсистема OpenGL в Mac OS X 10.5, а iPhone SDK использует препроцессор (фронтенд) GCC с бэкэндом на LLVM. Apple и Google являются одними из основных спонсоров проекта, а один из основных разработчиков — Крис Латтнер — 11 лет проработал в Apple (с 2017 года — в Tesla Motors[11], с 2020 года — в разработчике процессоров и микроконтроллеров на архитектуре RISC-V SiFive[12]).

Особенности

В основе LLVM лежит промежуточное представление кода (Intermediate Representation, IR), над которым можно производить трансформации во время компиляции, компоновки и выполнения. Из этого представления генерируется оптимизированный машинный код для целого ряда платформ, как статически, так и динамически (JIT-компиляция). LLVM 9.0.0 поддерживает статическую генерацию кода для x86, x86-64, ARM, PowerPC, SPARC, MIPS, RISC-V, Qualcomm Hexagon, NVPTX, SystemZ, Xcore. JIT-компиляция (генерация машинного кода во время исполнения) поддержана для архитектур x86, x86_64, PowerPC, MIPS, SystemZ, и частично ARM[13].

LLVM написана на C++ и портирована на большинство Unix-подобных систем и Windows. Система имеет модульную структуру, отдельные её модули могут быть встроены в различные программные комплексы, она может расширяться дополнительными алгоритмами трансформации и кодогенераторами для новых аппаратных платформ.

В LLVM включена обёртка API для OCaml.

Платформы

LLVM поддерживает работу на следующих платформах:

Операционная система	Архитектура	Компилятор
Linux	x86/AMD64	GCC, Clang
FreeBSD	x86/AMD64	GCC, Clang
OpenBSD	x86/AMD64	GCC, Clang
Mac OS X	PowerPC	GCC
Mac OS X	x86/AMD64	GCC, Clang
Solaris	UltraSPARC	GCC
Cygwin/Win32	x86	GCC 3.4.X, Binutils 2.15
MinGW/Win32	x86	GCC 3.4.X, Binutils 2.15

LLVM имеет частичную поддержку следующих платформ:

Операционная система	Архитектура	Компилятор
AIX	PowerPC	GCC
Linux	PowerPC	GCC
AmigaOS	m68k, PowerPC	GCC
Windows	x86	MSVC

Типы данных

Простые типы

Целые числа произвольной разрядности	iразрядность	i1 — булево значение — 0 или 1 i32 — 32-разрядное целое i17 i256
Генерация машинного кода для типов очень большой разрядности не поддерживается. Но для промежуточного представления никаких ограничений нет. Числа считаются представленными в дополнительном коде. Различий между знаковыми и беззнаковыми целыми на уровне типов не делается: в тех случаях, когда это имеет значение, с ними работают разные инструкции.
Числа с плавающей точкой	float, double, типы, специфичные для конкретной платформы (например, x86_fp80)
Пустое значение	void

Производные типы

Указатели	тип*	i32* — указатель на 32-разрядное целое
Массивы	[число элементов x тип]	[10 x i32] [8 x double]
Структуры		{ i32, i32, double }
Вектор — специальный тип для упрощения SIMD-операций. Вектор состоит из 2ⁿ значений примитивного типа — целого или с плавающей точкой.	< число элементов x тип >	< 4 x float > — вектор XMM
Функции		i32 (i32, i32) float ({ float, float }, { float, float })

Система типов поддерживает суперпозицию/вложенность, то есть можно использовать многомерные массивы, массивы структур, указатели на структуры и функции и т. д.

Операции

Большинство инструкций в LLVM принимают два аргумента (операнда) и возвращают одно значение (трёхадресный код). Значения определяются текстовым идентификатором. Локальные значения обозначаются префиксом %, а глобальные — @. Локальные значения также называют регистрами, а LLVM — виртуальной машиной с бесконечным числом регистров. Пример:

%sum = add i32 %n, 5
%diff = sub double %a, %b
%z = add <4 x float> %v1, %v2 ; поэлементное сложение
%cond = icmp eq %x, %y ; Сравнение целых чисел. Результат имеет тип i1.
%success = call i32 @puts(i8* %str)

Тип операндов всегда указывается явно, и однозначно определяет тип результата. Операнды арифметических инструкций должны иметь одинаковый тип, но сами инструкции «перегружены» для любых числовых типов и векторов.

LLVM поддерживает полный набор арифметических операций, побитовых логических операций и операций сдвига, а также специальные инструкции для работы с векторами.

LLVM IR строго типизирован, поэтому существуют операции приведения типов, которые явно кодируются специальными инструкциями. Набор из 9 инструкций покрывает все возможные приведения между различными числовыми типами: целыми и с плавающей точкой, со знаком и без, различной разрядности и пр. Кроме этого есть инструкции преобразования между целыми и указателями, а также универсальная инструкция для приведения типов bitcast (ответственность за корректность таких преобразований возлагается на программиста).

Память

Помимо значений-регистров, в LLVM есть и работа с памятью. Значения в памяти адресуются типизированными указателями. Обратиться к памяти можно с помощью двух инструкций: load и store. Например:

%x = load i32* %x.ptr        ; загрузить значение типа i32 по указателю %x.ptr 
%tmp = add i32 %x, 5         ; прибавить 5 
store i32 %tmp, i32* %x.ptr  ; и положить обратно

Инструкция malloc транслируется в вызов одноимённой системной функции и выделяет память на куче, возвращая значение — указатель определённого типа. В паре с ней идёт инструкция free.

%struct.ptr = malloc { double, double } 
%string = malloc i8, i32 %length 
%array = malloc [16 x i32] 
free i8* %string

Инструкция alloca выделяет память на стеке.

%x.ptr = alloca double ; %x.ptr имеет тип double* 
%array = alloca float, i32 8 ; %array имеет тип float*, а не [8 x float]!

Память, выделенная alloca, автоматически освобождается при выходе из функции при помощи инструкций ret или unwind.

Операции с указателями

Для вычисления адресов элементов массивов, структур и т. д. с правильной типизацией используется инструкция getelementptr.

%array = alloca i32, i32 %size 
%ptr = getelementptr i32* %array, i32 %index ; значение типа i32*

getelementptr только вычисляет адрес, но не обращается к памяти. Инструкция принимает произвольное количество индексов и может разыменовывать структуры любой вложенности.

Также существует инструкции extractvalue и insertvalue. Они отличаются от getelementptr тем, что принимают не указатель на агрегатный тип данных (массив или структуру), а само значение такого типа. extractvalue возвращает соответственное значение подэлемента, а insertvalue порождает новое значение агрегатного типа.

%n = extractvalue { i32, [4 x i8*] } %s, 0 
%tmp = add i32 %n, 1 
%s.1 = insertvalue { i32, [4 x i8*] } %s, i32 %tmp, 0

Примечания

The llvm Open Source Project on Open Hub: Languages Page — 2006.
The llvm Open Source Project on Open Hub: Languages Page (англ.)
Латтнер К. The LLVM 1.0 Release is finally available!
https://github.com/llvm/llvm-project/releases/tag/llvmorg-13.0.1
https://github.com/llvm/llvm-project/releases/tag/llvmorg-13.0.1-rc3
License (англ.)
http://releases.llvm.org/9.0.0/LICENSE.TXT — 2019.
LLVMdev: The name of LLVM, Chris Lattner (Apple), 2011-12-21 «„LLVM“ is officially no longer an acronym. The acronym it once expanded too was confusing, and inappropriate almost from day 1.»
LLILC (неопр.).
Projects built with LLVM (англ.). llvm.
Welcome Chris Lattner | Tesla
Основатель LLVM присоединился к SiFive
The LLVM Target-Independent Code Generator раздел Target Feature Matrix (англ.)

Литература

Андрей Боровский. LLVM: Генератор быстрого кода // Linux Format. — Вып. 2010, № 2 (128). — С. 76—79.
Amy Brown and Greg Wilson (eds.). Chapter 11. LLVM (Chris Lattner) // The Architecture of Open Source Applications. — 2011. — P. 155—170. — 432 p. — ISBN 978-1-257-63801-7. (перевод)
Арпан Сен. Создание действующего компилятора с помощью инфраструктуры LLVM. Часть 1 (неопр.). IBM developerWorks (12.11.2012). Дата обращения: 15 мая 2015., Часть 2
Chris Lattner. The Design of LLVM (неопр.). Dr. Dobb’s Journal (May 29, 2012). Дата обращения: 15 мая 2015.
John Siracusa. Mac OS X 10.6 Snow Leopard: the Ars Technica review → LLVM and Clang (неопр.). Ars Technica (Sep 1, 2009). Дата обращения: 15 мая 2015.

Ссылки

llvm.org — официальный сайт LLVM
SAFECode
libJIT Linear Scan Register Allocator

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[_81066ecd641da218-1] The llvm Open Source Project on Open Hub: Languages Page — 2006.

[_447223ade0b4e4a6-2] The llvm Open Source Project on Open Hub: Languages Page (англ.)

[_1a5e13d546ec5c22-3] Латтнер К. The LLVM 1.0 Release is finally available!

[_cfd678dd434fc3c9-4] ttps://github.com/llvm/llvm-project/releases/tag/llvmorg-13.0.1

[_cd28dd6bbf6e15a3-5] ttps://github.com/llvm/llvm-project/releases/tag/llvmorg-13.0.1-rc3

[_4f8af69b41e512ee-6] License (англ.)

[_261c7b9ad02b2b39-7] ttp://releases.llvm.org/9.0.0/LICENSE.TXT — 2019.

[8] LLVMdev: The name of LLVM, Chris Lattner (Apple), 2011-12-21 «„LLVM“ is officially no longer an acronym. The acronym it once expanded too was confusing, and inappropriate almost from day 1.»

[9] LLILC (неопр.).

[10] Projects built with LLVM (англ.). llvm.

[11] Welcome Chris Lattner | Tesla

[12] Основатель LLVM присоединился к SiFive

[13] The LLVM Target-Independent Code Generator раздел Target Feature Matrix (англ.)

Свободное и открытое программное обеспечение
Главное	СПО Определение Критерии Debian Gratis versus libre Сравнение хостингов СПО Открытое ПО Определение Определение свободных произведений культуры Дистрибутив Linux Сравнение ПО с открытым и закрытым кодом
Сообщество	Движение СПО История GNU Linux Open-source-software movement организации Linux-конференции
Организации	ASF Blender Foundation Eclipse Foundation FreeBSD Foundation freedesktop.org FSF FSMI GNOME Foundation Проект GNU Google Code KDE e.V. Linux Foundation Mozilla Foundation OSGF OSI Software Freedom Conservancy SourceForge The Document Foundation Xiph.Org XMPP Standards Foundation X.Org Foundation
Лицензии	Apache Artistic Beerware BSD GNU GPL GNU LGPL ISC MIT MPL Ms-PL/RL zlib Public domain / CC0 WTFPL Разрешительные лицензии Apple Public Source License Python Software Foundation License Копилефт
Проблемы	Разнообразие лицензий Безопасность Блоб Программные патенты DRM Тивоизация Trusted Computing Графическое оборудование и СПО Конфликт SCO — Linux
Прочее	Сообщество Форк Microsoft Open Specification Promise Проприетарное ПО Собор и Базар Ради удовольствия Revolution OS
Категория Викисклад Портал