Cloudera
Cloudera — американская компания, разработчик дистрибутивов Apache Hadoop и ряда программных продуктов экосистемы Hadoop.
Cloudera, Inc. | |
---|---|
Тип | Публичная компания |
Листинг на бирже | NYSE: CLDR |
Основание | 2009 |
Основатели |
Кристофе Бишилья, Амр Авадалла, Джеффри Хаммербахер, Майкл Ольсон |
Расположение | США: Пало-Альто |
Ключевые фигуры |
Рейли, Том (генеральный директор), Дуг Каттинг (главный архитектор) |
Отрасль |
разработка программного обеспечения (МСОК: 6201 ) |
Продукция | Коммерческая версия Hadoop, Cloudera Impala |
Оборот | ▲$301 млн (2018) |
Операционная прибыль | ▼−$389 млн (убыток, 2018) |
Чистая прибыль | ▼−$386 млн (убыток, 2018) |
Капитализация | $2,66 млрд (7 сентября 2018)[1] |
Сайт | cloudera.com |
Деловую модель компании сравнивают с бизнесом Red Hat — Cloudera создаёт дистрибутивы программных продуктов для организаций на основе свободного программного обеспечения и извлекает прибыль, оказывая техническую поддержку поставляемых решений[2][3]. С бумом технологий «больших данных», Cloudera неоднократно отмечена как одна из самых многообещающих компаний, способных решать задачи соответствующего класса[4][5].
В 2018 году поглотила основного конкурента на рынке Hadoop-дистрибутивов — американскую компанию Hortonworks.
История
Компания была основана в октябре 2008 года в Бёрлингейме (штат Калифорния) со стартовым капиталом $5 млн, основной целью бизнеса выбрана коммерциализация проекта Hadoop. Основатели компании — Кристофе Бишилья (англ. Chirstophe Bischiglia), ранее работавший в Google, Амр Авадалла (Amr Awadallah, вице-президент корпорации Yahoo, отвечавший за системы анализа и хранилища данных), Джеффри Хаммербахер (Jeff Hammerbacher, менеджер проекта Hive в компании Facebook) и Майкл Ольсон (Michael Olson), вице-президент корпорации Oracle, ранее генеральный директор Sleepecat, разрабатывавшей и развивавшей Berkeley DB и поглощённой в 2006 году Oracle)[6]. Хаммербахер организовал начальное финансирование проекта фондом Accel Partners, а Ольсон возглавил компанию. Суммарно на начальной стадии было привлечено $11 млн, а кроме Accel среди инвесторов указывается Greylock Partners и бизнес-ангелы Гидеон Ю (Gideon Yu) и Катерина Фейк (Caterina Fake)[7].
Среди нанятых в первые месяцы сотрудников были создатели Hadoop Дуг Каттинг (англ. Doug Cutting) и Майкл Кафарелла (Mike Cafarella), бывшие руководители компаний VMware (Дайен Грин, Diane Green) и MySQL AB (Мартен Микос, Marten Mikos)[8]. Благодаря факту перехода Каттинга в Cloudera, компания была охарактеризована как «новый знаменосец Hadoop»[9].
В 2009 году Бишилья вошёл пятым в список из 22-х лучших молодых технологических предпринимателей еженедельника Businessweek[10], а Хаммербахер попал в этот список на седьмую (из 15) позицию в 2010 году. При номинации Бишильи Cloudera была охарактеризована как сервисная компания, оказывающая технические консультации по Hadoop, тогда как вклад Хаммербахера в 2010 году отмечен как трансформация бизнеса компании, сделавшая её поставщиком тиражируемого программного обеспечения для организаций[11].
В ноябре 2011 года компания получила дополнительное финансирование в размере $40 млн[12], в декабре 2012 года — ещё $65 млн[13], среди инвесторов очередных раундов указываются Ignition Partners, Greylock, Accel, Meritech Capital Partners и In-Q-Tel[14][13].
В октябре 2012 года компания представила продукт Impala, обеспечивающий доступ на языке SQL к данным в кластере под управлением Hadoop, появление такого продукта было встречено как неожиданность, так как преобладающей риторикой компаний, сфокусированных на технологиях «больших данных», являлся отказ от традиционных технологий, имеющих в основе SQL (англ. old SQL, по созвучию со «старой школой» — old school)[15].
В июне 2013 года на должность генерального директора приглашён Том Райли (Tom Reilly), ранее приведший две технологические компании к поглощению крупными игроками (компания-производитель MDM-системы Trigo была куплена IBM в 2004 году, а фирма ArcSight была выведена на IPO и вскоре поглощена Hewlett-Packard в 2010 году), событие оценено как подготовка либо к первичному размещению, либо продаже бизнеса[16]. Ольсон перешёл на пост стратегического директора и председателя правления. В июле 2013 года фирма поглотила британскую компанию Myrryx, основанную Шоном Оуэном (Sean Owen), одним из основных авторов входящего в экосистему Hadoop масштабируемого фреймворка для машинного обучения Apache Mahout, объявлено о назначении Оуэна на должность «директора по науке о данных» (англ. director of data science)[17].
К середине 2013 года за пять раундов инвестиций компания получила в общей сумме $141 млн[16], а в очередном раунде в марте 2014 года компания привлекла ещё $160 млн[18]. В марте 2014 года, после шестого раунда инвестиций, Intel за $740 млн приобрела долю в компании в размере 18 %, таким образом, оценив бизнес Cloudera приблизительно в $4 млрд[19]; при этом Intel отказалась от развития созданного годом ранее собственного дистрибутива Hadoop в пользу продвижения решений от Cloudera[18]. В июне 2014 году компания приобрела фирму-разработчика технологии шифрования данных Gazzang[20].
В апреле 2017 года компания провела первичное размещение на Нью-Йоркской фондовой бирже, в результате которого привлекла $215 млн[21]. Осенью 2017 года поглощена нью-йоркская фирма-разработчик алгоритмов машинного обучения Fast Forward Labs, сделка была отмечена как ответ на тесную интеграцию Hortonworks с IBM, делающим упор на развитие систем искусственного интеллекта в рамках программы Watson, и отказавшимся от своего дистрибутива Hadoop в пользу Hortonworks[22].
В октябре 2018 года объявлено о слиянии с Hortonworks, притом структура сохранила наименование Cloudera, листинг на бирже и генерального директора, а акционеры Hortonworks получили 40 % акций объединённой компании[23]. Сделка завершена 3 января 2019 года, несмотря на суммарную оценку двух компаний в момент объявления в $5,2 млрд, по её завершению капитализация объединённого бизнеса составила около $3 млрд[24]. Поглощение фактически завершило этап консолидации на рынке коммерческих дистрибутивов Hadoop (из сколь-либо заметных других участников рынка осталась только компания MapR с годовым оборотом около $175 млн за 2018 год), сместив фокус конкуренции на более широкие сегменты — инструментов больших данных и аналитических платформ[25].
В конце 2020 года компания совершила обратный выкуп акций у Intel за $314 млн (что на $426 млн дешевле инвестиций 2014 года)[26].
CDH
CDH (англ. Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop, включающий ряд смежных программ и библиотек и собственных утилит разработки Cloudera, бесплатно распространяемый и коммерчески поддерживаемый для определённых дистрибутивов Linux (Red Hat Enterprise Linux, CentOS, Ubuntu, SuSE SLES, Debian). Среди смежных с Hadoop программных проектов Apache в дистрибутив включены: Flume, HBase, Hive, Mahout, Oozie, Pig, Sqoop, Whirr, Zookeeper. Кроме того, в дистрибутив входит собственная подсистема управления кластером Cloudera Manager, включающая сценарии развёртывания Hadoop-инфраструктуры как в локальных, так и в облачных средах (Rackspace, Amazon EC2, Softlayer), а также утилиты и конфигурации для поддержки автоматизации сборки средствами Apache Maven.
К началу 2012 года поставлялись две версии CDH — CDH2 (на основе Hadoop 0.20.1) и CDH3 (на основе Hadoop 0.20.2). Дистрибутив CDH3 включён в поставку аппаратно-программного комплекса Oracle Big Data appliance[27], притом первую линию поддержки заказчиков по Hadoop обеспечивает корпорация Oracle, а Cloudera предоставляет техническое сопровождение по более сложным проблемам. В середине 2012 года вышла версия CDH4 на основе Hadoop 2.0 (включающей модуль YARN), в состав CDH4 включены также три собственных продукта фирмы — Hue (браузерный интерфейс управления Hadoop-кластером), Impala и Search (полнотекстовый и фасетный поиск в средах HDFS и HBase). В 2014 году выпущена версия CDH5; версия CDH6, вышедшая весной 2018 года, создана на основе Hadoop 3.0 (ключевым новшеством которой стала поддержка помехоустойчивого кодирования для HDFS, позволяющая существенно снизить физические размеры кластеров)[28].
Impala
Cloudera Impala — массово-параллельный механизм интерактивного выполнения запросов на языке SQL к данным, хранимым в HDFS и HBase, распространяется по лицензии Apache 2.0. В отличие от Hive, обеспечивающего трансляцию запросов на SQL-подобном языке (HiveQL) в MapReduce-задания, выполняемые в пакетном режиме, Impala выполняет запросы в распределённой среде интерактивно, распределяя запрос по узлам обработки на основе собственного механизма, не прибегая к MapReduce.
Cloudera Manager
Cloudera Manager — специализированный компонент, позволяющий автоматизировать создание и модификацию Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий на обработку, настраивать оповещения по наступлению тех или иных событий, связанных с эксплуатацией инфраструктуры распределённой обработки. Годовая стоимость технического сопровождения составляет около $4 тыс. за узел кластера[29]. Для Cloudera Manager существует бесплатная редакция (англ. free edition), работающая только на кластерах, состоящих из менее, чем 50-ти узлов и лишённая ряда свойств, доступных коммерческим подписчикам (таких, как мониторинг производительности, управление версиями конфигурации, поддержка Kerberos).
Тематические продукты
Вслед за прогнозом Garnter в цикле хайпа технологий управления данными 2017 года, предполагающим устаревание самой концепции «дистрибутива Hadoop» в скором времени, компания сместила акцент в продуктовом предложении на тематические комплекты, составленные фактически из тех же компонентов, что собираются в CDH, но нацеленные на те или иные специфические задачи. Так, в 2018 году появились продукты под наименованиями Data Warehouse (сборка для хранилищ данных, с фокусом на Impala), Operational DB (для операционных баз данных, вокруг HBase, Kudu и Spark), Data Engineering (для ETL и интерактивного доступа к данным), Data Science (для задач «науки о данных»), Enterprise Data Hub (для платформ данных корпоративного уровня — фактически полная сборка дистрибутива Hadoop плюс каталог данных на основе собственного компонента SDX).
Стоимостная политика с 2018 года формируется вокруг тематических продуктов; в зависимости от комплектации, подписчики ежегодно платят от $4 тыс. за поддержку каждого узла продуктов Data Engineering и Data Science до $10 тыс. за узел продукта Enterprise Data Hub.
Примечания
- Cloudera Inc . Morning Star (7 сентября 2018). Архивировано 7 сентября 2018 года.
- Малик, 2009, I see some interesting parallels between Hadoop and Red Hat, which rose to prominence on the back of Red Hat Linux, a version of Linux optimized for corporate users.
- Рао, 2011, Cloudera helps distribute Hadoop, and provides practical services around the technology, similar to what Red Hat does for the Linux framework.
- Нэрн, 2010, Storage giant EMC has teamed up with Cloudera, a specialist in database software, to create technologies to better support “big data” … Startup Cloudera is using the open source Hadoop software package to analyse very large sets of data.
- Вэнс, 2011, “It will be guys like Jeff who understand what to do with big data”.
- Прикетт-Морган, 2009, …Christophe Bisciglia, who led the partnership between Google, IBM, and the National Science Foundation to create Hadoop grids for academics to play around with; Amr Awadallah, a former Yahoo vice president of engineering that led the data warehousing and analytics effort behind that company's mail, search, finance, and news services; - Mike Olson, formerly the chief executive officer of open source database maker Sleepycat Software (now owned by Oracle); and Jeff Hammerbacher, formerly of social networking giant Facebook and the manager who created the Hive project, which is a data warehousing layer that works in conjunction with Hadoop and that Facebook uses to do data analysis on its many petabytes of information stored in its user data warehouse.
- Businessweek, 2010, Funding: $11 million from Accel Partners, Greylock Partners, and angel investors that include Gideon Yu and Caterina Fake.
- Прикетт-Морган, 2009, …Doug Cutting and Mike Cafarella as advisors as well as Diane Green (founder and former CEO at virtualization specialist VMware) and Marten Mikos.
- Handy, Alex. Hadoop creator goes to Cloudera (англ.) (недоступная ссылка). SD Times (9 октября 2009). Дата обращения: 25 декабря 2011. Архивировано 11 марта 2012 года.
- Businessweek, 2010, Cloudera co-founder Christophe Bisciglia was one of Bloomberg BusinessWeek's Best Young Tech Entrepreneurs of 2009.
- Businessweek, 2010, Toughest decision: Changing Cloudera's business model to make it into a software vendor.
- Worthen, Ben. Tide Shifts on Web Start-Ups (англ.), N. Y.: The Wall Street Journal (22 November 2011). Дата обращения 28 декабря 2011. «More big-funding deals have been struck since then, including $85 million for human-resources-software maker Workday Inc., $81 million for online file-sharing site Box.net Inc., $50 million for marketing company Marketo Inc. and $40 million for data-management company Cloudera Inc».
- Darrow, Barb Cloudera snares $65M more to boost international, enterprise growth (англ.) (недоступная ссылка). Gigaom (6 декабря 2012). — «The funding round was led by Accel Partners with help from Greylock Partners, Ignition Partners, In-Q-Tel, and Meritech Capital Partners». Дата обращения: 10 декабря 2012. Архивировано 17 декабря 2012 года.
- Рао, 2011, Cloudera just announced $40 million in new funding led by Ignition Partners, Greylock, Accel, Meritech Capital Partners, and In-Q-Tel.
- Brust, Andrew Cloudera’s Impala brings Hadoop to SQL and BI. Big Data darling Cloudera's Impala product promotes SQL to peer-level with MapReduce (англ.). ZDNet (25 октября 2012). — «Instead of beckoning “old school” database and BI professionals (i.e. the majority of enterprise developers and DBAs) to move to Hadoop, it announced the beta of a new product, Impala, that brings Hadoop to them». Дата обращения: 1 января 2014.
- Prickett Morgan Cloudera taps new CEO for inevitable IPO push or acquisition. Former CEO becomes chairman and chief strategist (англ.). The Register (20 июня 2013). Дата обращения: 1 января 2014.
- Clark, Jack Cloudera acquisition: It’s a Myrrix (cle). Elephant snorts baby elephant for machine learning skills (англ.) (недоступная ссылка). The Register (16 июля 2013). Дата обращения: 17 июля 2013. Архивировано 31 августа 2013 года.
- Harris, Dereck Intel jettisons its Hadoop distro and puts millions behind Cloudera (англ.). Gigaom (27 марта 2014). Дата обращения: 1 апреля 2014.
- Clark, Jack Don’t touch my trunk! Intel is $740m lighter after Cloudera cash shot. Huge funding deal keeps Oracle, IBM away from upstart’s yellow elephant (англ.). The Register (31 марта 2014). Дата обращения: 1 апреля 2014.
- Liam Tung. Cloudera buys big data encryption outfit Gazzang. Cloudera buys Gazzang to offer enterprise customers encryption for data at rest in Hadoop clusters . ZDNet (15 июня 2014).
- Anita Balakrishnan. Cloudera shares close more than 20% higher on Day 1 . CNBC (28 апреля 2017).
- Rebecca Hill. Cloudera bags AI biz, eyes up IBM customers… and continues to report operating losses. Someone’s noticed Big Blue’s deal with Hortonworks . The Register (8 сентября 2017).
- Kevin Kelleher. Cloudera, Hortonworks Stocks Soar as the Big-Data Rivals Announce a $5.2B Merger . Fortune (3 октября 2018). Дата обращения: 4 октября 2018.
- Rebecca Hill. Cloudera, Hortonworks merge into amorphous data-managing blob after stockholder vote. New-look firm turns attention to PR offensive . The Register (7 января 2019).
- Andrew Brust. Cloudera and Hortonworks' merger closes; quo vadis Big Data?. The two biggest Hadoop distribution vendors are now one. What does this mean for the Big Data world, for customers and for Apache Hadoop? . ZDNet (4 января 2019).
- Max A. Cherney. Cloudera Buys Back $314 Million Intel Stake. Here’s What It Means for the Stock . Barron’s (23 декабря 2020).
- Pricket Morgan, Timothy Oracle mounts Cloudera's elephant for big data ride (англ.) (недоступная ссылка). The Register (10 января 2012). Дата обращения: 13 января 2012. Архивировано 6 сентября 2012 года.
- Tony Baer. Cloudera Enterprise 6 hits the streets. Hadoop 3.0 takes a starring role in the next release of Cloudera's platform . ZDNet (22 мая 2018). Дата обращения: 23 сентября 2018.
- Pricket Morgan, Timothy. Cloudera gets proactive with Hadoop management (англ.) (недоступная ссылка). The Register (8 сентября 2011). Дата обращения: 15 апреля 2013. Архивировано 18 апреля 2013 года.
Ссылки
- Vance, Ashlee. Hadoop, a Free Software Program, Finds Uses Beyond Search (англ.) (HTML), N. Y.: The New York Times (17 March 2009), С. B3. Дата обращения 13 декабря 2011.
- Prickett Morgan, Timothy Cloudera floats commercial Hadoop distro (англ.) (недоступная ссылка). The Register (16 марта 2009). Дата обращения: 13 декабря 2011. Архивировано 11 марта 2012 года.
- Taft, Darryl New Cloudera Desktop GUI Simplifies Hadoop for Users (англ.) (недоступная ссылка). eWeek (2 октября 2009). Дата обращения: 13 декабря 2011. Архивировано 17 мая 2012 года.
- Malik, Om Is Hadoop Champion Cloudera the Next Red Hat? (англ.) (недоступная ссылка). GigaOm (2 октября 2009). Дата обращения: 13 декабря 2011. Архивировано 17 мая 2012 года.
- Nairn, Geoff. Big Data, Big Blue and Going Green (англ.) (HTML), L.: Financial Times (27 September 2010). Дата обращения 29 мая 2011.
- Cloudera’s Olson Interview About Data Use (англ.) (недоступная ссылка). Cloudera's Olson Interview About Data Use. Bloomberg (22 марта 2011). Дата обращения: 13 декабря 2011. Архивировано 17 мая 2012 года.
- 7. Cloudera. Entrepreneur: Jeff Hammerbacher, 27 (англ.) (недоступная ссылка). Best Young Tech Entrepreneurs 2010. Bloomberg Businessweek (20 апреля 2010). Дата обращения: 27 декабря 2011. Архивировано 17 мая 2012 года.
- Vance, Ashlee. This Tech Bubble Is Different (англ.) (HTML), Businessweek, N. Y.: Bloomberg (14 April 2011). Дата обращения 29 мая 2011.
- Jackson, Joab. SGI launches Cloudera Hadoop BI clusters (англ.) (HTML), Framingham: Computerworld (17 October 2011). Дата обращения 29 мая 2011.
- Rao, Leena Cloudera Updates Hadoop Management App With Health Checks, Reporting Features And More (англ.) (недоступная ссылка). TechCrunch (8 декабря 2011). Дата обращения: 27 декабря 2011. Архивировано 17 мая 2012 года.