Nutch
Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, Tika, Hadoop и Gora, адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера.
Apache Nutch | |
---|---|
![]() | |
Тип | библиотека Java[d], библиотека функций и поисковый робот |
Разработчик | Apache Software Foundation |
Написана на | Java |
Операционная система | Кроссплатформенное программное обеспечение |
Аппаратная платформа | Java Virtual Machine |
Последняя версия |
|
Читаемые форматы файлов | Web ARChive файл |
Создаваемые форматы файлов | Web ARChive файл |
Состояние | Активный |
Лицензия | Apache License 2 |
Сайт | nutch.apache.org |
Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД.
Использование
На базе Nutch 2.0, запущенного поверх 34-узлового Hadoop-кластера, построен поисковый сервис компании Kalooga, в индексе которого находится более миллиарда страниц[2].
На основе Nutch построены поисковые системы:
- Creative Commons Search — запущен в 2004 году, имплементация Nutch заменена в 2006[3][4][5]
- DiscoverEd — прототип поиска по открытым образовательных ресурсам, разрабатывается Creative Commons
- Krugle
- MozDex
- Wikia Search — запущен в 2008 году, закрыт в 2009[6][7]
- search2.net
Примечания
- https://nutch.apache.org/index.html#11-october-2019-nutch-24-release
- Релиз поискового движка Apache Nutch 2.0
- Our Updated Search . Creative Commons (3 сентября 2004).
- Creative Commons Unique Search Tool Now Integrated into Firefox 1.0 (недоступная ссылка). Creative Commons (22 ноября 2004). Архивировано 22 июля 2013 года.
- New CC search UI . Creative Commons (2 августа 2006).
- Where can I get the source code for Wikia Search? (недоступная ссылка). Дата обращения: 9 января 2017. Архивировано 4 ноября 2011 года.
- Update on Wikia – doing more of what’s working
Ссылки
- nutch.apache.org — официальный сайт Nutch
- Официальная вики
- Building Nutch: Open Source Search(2004)- ACM Queue vol. 2, no. 2
- Статья о Nutch(2003)- Search Engine Watch
- Еще статья о Nutch(2003)- Tech News World
- Официальная страница проекта Hadoop