The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"В рамках проекта Sweble подготовлен полноценный парсер Викит..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от opennews on 03-Май-11, 17:42 
В развитии Википедии был сделан потенциально важный шаг. Вышедший (http://osr.cs.fau.de/2011/05/01/announcing-the-open-source-s.../) на днях парсер викитекста под названием Sweble (http://sweble.org/) по мнению разработчиков проекта поможет решить проблемы сообщества Википедии. Главной из проблем является (http://dirkriehle.com/2011/05/01/the-parser-that-cracked-the.../) обособленность, плохая документированность и привязанность к движку MediaWiki языка разметки, использующегося при создании статей в Википедии и в других проектах фонда Викимедиа.


Инициатива по созданию независимого парсера викитекста была выдвинута несколько лет назад профессором Университета города Эрланген (Нюрнберг, Германия) Дирком Рилом (http://dirkriehle.com/about/half-page-bio/), привлекшим  к проекту аспиранта  Ханнеса Дорна (Hannes Dohrn), который помог ему осуществить задуманное. По словам профессора, "Викитекст не имеет формальной грамматики, чётких правил обработки и в...

URL: http://www.h-online.com/open/news/item/Wikitext-parser-Swebl...
Новость: http://www.opennet.ru/opennews/art.shtml?num=30435

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +8 +/
Сообщение от Anonus on 03-Май-11, 17:42 
Это хорошо или плохо?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  –1 +/
Сообщение от Crazy Alex (??) on 03-Май-11, 17:49 
Чудо на Java, которое медленнее PHP-варианта? Ну умудрились, что тут скажешь...
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

4. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +5 +/
Сообщение от VoDA (ok) on 03-Май-11, 18:02 
они делают разбор грамматики и построение AST. PHP вариант вероятно гонит wiki-разметку в HTML не запариваясь на тему грамматик и прочего.

конечно прямой однопроходный конвертер будет быстрее грамматического анализатора и построения AST, а затем только по AST построения HTML.

Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

14. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от Аноним (??) on 04-Май-11, 00:42 
Тобишь правильный подход Java медленнее PHP, ЧИТД.
Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

17. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +1 +/
Сообщение от DeadLoco (ok) on 04-Май-11, 03:07 
Вы, видимо, о проблеме P/NP не слыхали. И о том, что сгенерить текст и распарсить его - существенно разные задачи - тоже.
Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

20. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  –1 +/
Сообщение от Vitold S email on 04-Май-11, 10:11 
Проблема в использовании Java! Надо переписать на C/C++ и будет работать быстрее чем на PHP. Думаю, что просто в Java есть какой-нить встроенный класс JParser на котором все и держится...
Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

22. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +1 +/
Сообщение от Sarmat on 04-Май-11, 10:29 
Мне бы вашу уверенность ;) Поймите на PHP и на Java решались разные задачи поэтому и разница в скорости.
Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

23. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +2 +/
Сообщение от VoDA (ok) on 04-Май-11, 12:02 
чтобы рассуждать о предмете лучше хоть немного владеть темой. а не обсуждать предмет информацией почерпнутой на ЛОРе ;)
Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

27. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от Аноним (??) on 10-Май-11, 11:08 
Ты новость прочитай, для начала
Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

3. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от Аноним (??) on 03-Май-11, 17:50 
> Sweble написан на языке Java
> Производительность Sweble пока ниже, чем у оригинального парсера MediaWiki, написанного на языке PHP

Молодцы ребята.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от VoDA (ok) on 03-Май-11, 19:18 
Пора бы уже инфраструктуру Wikipedia переводить на Java + Cassandra а не мутить недо-кластера из MySQL master + 10 MySQL slave + memcached и еще бантик сверху ;)
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

6. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +1 +/
Сообщение от Аноним (??) on 03-Май-11, 19:20 
Пора делать распределённую censhorship-resistant p2p-википедию.
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

9. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +6 +/
Сообщение от Анонимко on 03-Май-11, 19:48 
Она и так резистант. А еще сильнее не надо, а то дети в рефератах и докладах будут писать, что кошки, это няшные животные.
Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

8. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +1 +/
Сообщение от Ононим on 03-Май-11, 19:47 
> Java + Cassandra

Не смешите. Эта гадость только в ынтырпрайзе может работать на откаты поставщикам новых серверов, греющих воздух.

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

7. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +2 +/
Сообщение от Ононим on 03-Май-11, 19:45 
А идея сделать нормальную грамматику им в голову не пришла?
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

10. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от ascrzy email on 03-Май-11, 21:29 
А потом переписывать всю вики с применением этой грамматики?
Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

11. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от the joker (ok) on 03-Май-11, 21:39 
> А потом переписывать всю вики с применением этой грамматики?

А потом из информации, полученной с помощью этого парсера, генерить тот же контент в новой грамматике, не?

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

12. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от тоже Аноним email(ok) on 03-Май-11, 21:55 
Осталось только дать здесь ссылку на описание этой более лучшей грамматики, пришедшей в светлые головы комментаторов. Ждем-с...
Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

16. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от Avator (ok) on 04-Май-11, 02:55 
Может быть Dita или Docbook? )
Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

26. "В рамках проекта Sweble подготовлен полноценный парсер..."  +/
Сообщение от anonymous (??) on 05-Май-11, 20:05 
> Может быть Dita или Docbook? )

то есть, из нормально читабельного и понятного вики-форматирования делать совершенно нечитабельный жирный и тупой xml? гениальный ход, ага. нет, не зря таки «деловые машины» в своё время разрабатывали железный акселератор для парзинга xml. и зря бросили: все люди с xml головного мозга будут дико рады этой ерунде. заместо выкинуть xml и забыть, как страшный сон и постыдную ошибку прошлого.

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

19. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от eSyr email(ok) on 04-Май-11, 08:40 
А что, creole отменили?
Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

28. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от Аноним (??) on 10-Май-11, 11:09 
>> А потом переписывать всю вики с применением этой грамматики?
> А потом из информации, полученной с помощью этого парсера, генерить тот же
> контент в новой грамматике, не?

Но для начала, надо старую распарсить, не?

Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

15. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от Сергей email(??) on 04-Май-11, 02:47 
Так в репозитриях и не смог отыскать формального описания грамматики...
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

18. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +1 +/
Сообщение от VoDA (ok) on 04-Май-11, 06:30 
возможно что формального описания грамматики просто нет ;)

иначе почему провалились все 30 попыток написания парсеров? )))

Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

21. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +/
Сообщение от Vitold S email on 04-Май-11, 10:13 
> иначе почему провалились все 30 попыток написания парсеров? )))

потому что писали студенты?


Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

24. "В рамках проекта Sweble подготовлен полноценный парсер Викит..."  +1 +/
Сообщение от zazik (ok) on 04-Май-11, 12:47 
>> иначе почему провалились все 30 попыток написания парсеров? )))
> потому что писали студенты?

Потому что писали на Java?

Ответить | Правка | ^ к родителю #21 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Inferno Solutions
Ideco
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2021 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру