The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Релиз системы извлечения контента Apache Tika 1.0

16.11.2011 21:01

Представлен релиз Apache Tika 1.0, набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ.

Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

  1. Главная ссылка к новости (https://blogs.apache.org/found...)
Лицензия: CC-BY
Тип: Программы
Короткая ссылка: https://opennet.ru/32321-apache
Ключевые слова: apache, tika, parser, content
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (3) RSS
  • 1.2, ваноним (?), 21:24, 16/11/2011 [ответить]  
  • +/
    1200 форматов? o_O
    text/en-us
    text/utf-8
    text/cp1251
    ...
    html/en-us
    ...
    xhtml/en-us
    ...
    xxxhtml/en-us
    ...
     
  • 1.4, AntonB (ok), 22:23, 16/11/2011 [ответить]  
  • +/
    Потенциально штука интересная, надо будет познакомиться поближе.
     
  • 1.7, hummermania (ok), 09:46, 17/11/2011 [ответить]  
  • +/
    Ковыряю непосредственно, т.к. необходим внешний движок для извлечения метаданных из приаттаченных ODF (odt,ods) файлов к докам на CouchDB. Жаль правда что на яве, хотелось бы переписать на эрланг. А так полный список feauters-ов для своего круга задач - более чем. Пригодится даже для написания анализатора того или иного формата файлов на своем языке.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2021 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру