The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

В рамках проекта Sweble подготовлен полноценный парсер Викитекста

03.05.2011 16:34

В развитии Википедии был сделан потенциально важный шаг. Вышедший на днях парсер викитекста под названием Sweble по мнению разработчиков проекта поможет решить проблемы сообщества Википедии. Главной из проблем является обособленность, плохая документированность и привязанность к движку MediaWiki языка разметки, использующегося при создании статей в Википедии и в других проектах фонда Викимедиа.

Инициатива по созданию независимого парсера викитекста была выдвинута несколько лет назад профессором Университета города Эрланген (Нюрнберг, Германия) Дирком Рилом, привлекшим к проекту аспиранта Ханнеса Дорна (Hannes Dohrn), который помог ему осуществить задуманное. По словам профессора, "Викитекст не имеет формальной грамматики, чётких правил обработки и вывода. По иронии судьбы викитекст является закрытым стандартом, описанным только в виде 5000 строк кода на языке PHP."

В прошлом было около тридцати неудачных попыток создания парсера викитекста. Кроме того, были предприняты попытки упростить процесс создания материалов для википедии через создание оболочек визуального редактирования, но они тоже потерпели неудачу, поскольку для их реализации необходимо знание грамматики викитекста. Это также привело к проблемам при редактировании страниц в Википедии, которые до сих пор не решены.

По словам авторов анализатора, Sweble успешно решает эту и другие проблемы, будучи полноценным синтаксическим парсером для Викитекста, способным "понимать" его шаблоны и таблицы, и на основе полученной информации поддерживающим генерацию абстрактных синтаксических деревьев (AST). В будущем возможности Sweble планируется расширить средствами создания объектных моделей документов (DOM), которыми смогут манипулировать другие инструменты.

Производительность Sweble пока ниже, чем у оригинального парсера MediaWiki, написанного на языке PHP, но этой скорости достаточно для обеспечения основы для будущего развития языка разметки Викитекст. Профессор Дирк Рил отметил, что "разделяя между собой содержание (контент) и данные, мы содаём своеобразную экосистему инструментов и технологий вокруг фонда Викимедиа и связанных с ним проектов, тем самым эти проекты получают более высокую скорость работы и становятся более распространёнными".

Sweble написан на языке Java и распространяется под лицензией Apache 2.0. На специальной странице проекта пользователям предоставлена возможность проверить работу парсера. Например, можно провести анализ, предварительную обработку и конвертацию уже имеющихся в Википедии статей в пользовательский текстовый формат, или, например в HTML. Разработчики надеются, что программисты смогут использовать Sweble в своих проектах, а также ждут сообщений об ошибках и отзывов пользователей.

  1. Главная ссылка к новости (http://www.h-online.com/open/n...)
  2. OpenNews: Архитектура Wikipedia
  3. OpenNews: Технологии Wiki
  4. OpenNews: Инициатива по привлечению Wikipedia для продвижения свободного видео в сети
  5. OpenNews: Humane Reader - свободное устройство для чтения Wikipedia с телевизора
  6. OpenNews: Компания Google пожертвовала 2 млн. долларов на развитие Wikipedia
Автор новости: timurkin
Тип: Программы
Короткая ссылка: https://opennet.ru/30435-wiki
Ключевые слова: wiki, parser, opensource
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение (26) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Anonus (?), 17:42, 03/05/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +8 +/
    Это хорошо или плохо?
     
  • 1.2, Crazy Alex (??), 17:49, 03/05/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Чудо на Java, которое медленнее PHP-варианта? Ну умудрились, что тут скажешь...
     
     
  • 2.4, VoDA (ok), 18:02, 03/05/2011 [^] [^^] [^^^] [ответить]  
  • +5 +/
    они делают разбор грамматики и построение AST. PHP вариант вероятно гонит wiki-разметку в HTML не запариваясь на тему грамматик и прочего.

    конечно прямой однопроходный конвертер будет быстрее грамматического анализатора и построения AST, а затем только по AST построения HTML.

     
     
  • 3.14, Аноним (-), 00:42, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Тобишь правильный подход Java медленнее PHP, ЧИТД.
     
     
  • 4.17, DeadLoco (ok), 03:07, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Вы, видимо, о проблеме P/NP не слыхали. И о том, что сгенерить текст и распарсить его - существенно разные задачи - тоже.
     
     
  • 5.20, Vitold S (?), 10:11, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Проблема в использовании Java! Надо переписать на C/C++ и будет работать быстрее чем на PHP. Думаю, что просто в Java есть какой-нить встроенный класс JParser на котором все и держится...
     
     
  • 6.22, Sarmat (?), 10:29, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Мне бы вашу уверенность ;) Поймите на PHP и на Java решались разные задачи поэтому и разница в скорости.
     
  • 6.23, VoDA (ok), 12:02, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +2 +/
    чтобы рассуждать о предмете лучше хоть немного владеть темой. а не обсуждать предмет информацией почерпнутой на ЛОРе ;)
     
  • 4.27, Аноним (-), 11:08, 10/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Ты новость прочитай, для начала
     

  • 1.3, Аноним (-), 17:50, 03/05/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Sweble написан на языке Java
    > Производительность Sweble пока ниже, чем у оригинального парсера MediaWiki, написанного на языке PHP

    Молодцы ребята.

     
  • 1.5, VoDA (ok), 19:18, 03/05/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Пора бы уже инфраструктуру Wikipedia переводить на Java + Cassandra а не мутить недо-кластера из MySQL master + 10 MySQL slave + memcached и еще бантик сверху ;)
     
     
  • 2.6, Аноним (-), 19:20, 03/05/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Пора делать распределённую censhorship-resistant p2p-википедию.
     
     
  • 3.9, Анонимко (?), 19:48, 03/05/2011 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Она и так резистант. А еще сильнее не надо, а то дети в рефератах и докладах будут писать, что кошки, это няшные животные.
     
  • 2.8, Ононим (?), 19:47, 03/05/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Java + Cassandra

    Не смешите. Эта гадость только в ынтырпрайзе может работать на откаты поставщикам новых серверов, греющих воздух.

     

  • 1.7, Ононим (?), 19:45, 03/05/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    А идея сделать нормальную грамматику им в голову не пришла?
     
     
  • 2.10, ascrzy (?), 21:29, 03/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    А потом переписывать всю вики с применением этой грамматики?
     
     
  • 3.11, the joker (ok), 21:39, 03/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > А потом переписывать всю вики с применением этой грамматики?

    А потом из информации, полученной с помощью этого парсера, генерить тот же контент в новой грамматике, не?

     
     
  • 4.12, тоже Аноним (ok), 21:55, 03/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Осталось только дать здесь ссылку на описание этой более лучшей грамматики, пришедшей в светлые головы комментаторов. Ждем-с...
     
     
  • 5.16, Avator (ok), 02:55, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Может быть Dita или Docbook? )
     
     
  • 6.26, anonymous (??), 20:05, 05/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > Может быть Dita или Docbook? )

    то есть, из нормально читабельного и понятного вики-форматирования делать совершенно нечитабельный жирный и тупой xml? гениальный ход, ага. нет, не зря таки «деловые машины» в своё время разрабатывали железный акселератор для парзинга xml. и зря бросили: все люди с xml головного мозга будут дико рады этой ерунде. заместо выкинуть xml и забыть, как страшный сон и постыдную ошибку прошлого.

     
  • 5.19, eSyr (ok), 08:40, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    А что, creole отменили?
     
  • 4.28, Аноним (-), 11:09, 10/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    >> А потом переписывать всю вики с применением этой грамматики?
    > А потом из информации, полученной с помощью этого парсера, генерить тот же
    > контент в новой грамматике, не?

    Но для начала, надо старую распарсить, не?

     

  • 1.15, Сергей (??), 02:47, 04/05/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Так в репозитриях и не смог отыскать формального описания грамматики...
     
     
  • 2.18, VoDA (ok), 06:30, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    возможно что формального описания грамматики просто нет ;)

    иначе почему провалились все 30 попыток написания парсеров? )))

     
     
  • 3.21, Vitold S (?), 10:13, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > иначе почему провалились все 30 попыток написания парсеров? )))

    потому что писали студенты?


     
     
  • 4.24, zazik (ok), 12:47, 04/05/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >> иначе почему провалились все 30 попыток написания парсеров? )))
    > потому что писали студенты?

    Потому что писали на Java?

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2021 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру