Apache Software Foundation запустила шесть проектов верхнего уровня
04 мая 2010 года, 22:17 |
Текст: Юрий Стрельченко
Некоммерческая организация Apache Software Foundation (ASF), занимающаяся развитием открытого ПО, объявила о создании сразу шести проектов верхнего уровня.
Apache Hadoop, новомодный Java-фреймворк, наделяющий распределённые приложения возможностью работы в кластерах с тысячами узлов и петабайтами данных. (Показан Hadoop-кластер с физическим распределением задач обработки и хранения.)
Впервые одновременно положено начало столь большому количеству первичных проектов. Статус первичности предполагает высший уровень, которого может достичь задача, обычно разбиваемая на несколько подпроектов. Инициатива включает следующие разработки: Traffic Server, Mahout, Tika, Nutch, Avro и HBase.
Apache Traffic Server — многофункциональный, быстрый, масштабируемый, расширяемый и HTTP/1.1-совместимый кеширующий прокси-сервер. Прежде проект представлял коммерческую разработку Yahoo!, в прошлом году отдавшую в руки организации её исходные коды. Traffic Server, способный обрабатывать более 75 тыс. запросов в секунду, выступает критическим компонентом «облачных» инфраструктур вроде Yahoo!, ежедневно справляющейся с 400 Тб данных и 30 млрд различных веб-объектов.
Apache Mahout — масштабируемая реализация алгоритмов машинного обучения в рамках Apache Hadoop, открытой реализации Google MapReduce, программного фреймворка распределенных кластерных вычислений над гигантскими объемами данных. Mahout включает алгоритмы для совместной фильтрации, кластеризации, классификации, отбора признаков и добычи данных.
Apache Tika — встраиваемый легковесный инструментарий для обнаружения и анализа контента на основе MIME-спецификаций, который позволяет находить и извлекать метаданные и структурированное содержимое из различных документов. Используется в веб-ресурсах НАСА и проекте «Архив Интернета».
Apache Nutch — модульная поисковая Java-система, расширенная веб-спецификой типа пауков, баз данных графов ссылок и парсеров HTML.
Apache Avro — быстродействующая Hadoop-система сериализации данных на базе насыщенных и динамических схем.
Apache HBase — распределенная Hadoop-база данных в концепциях распределённой системы хранения Google Bigtable, предназначенная для хранения огромных таблиц данных с миллиардами строк и миллионами колонок. Успешно применяется на сайтах Adobe, Flurry, Meetup, Mozilla, StumbleUpon, Trend Micro и Twitter.
Некоммерческая организация ASF курирует и продвигает вверенные ей проекты открытого ПО. ASF появилась в июне 1999 года. За всё время деятельности под эгидой ASF нашли пристанище 65 открытых проектов, а число членов организации превысило 300 человек — самых талантливых и известных в открытом сообществе.