The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Как на Perl правильно выделить все A HREF ссылки из HTML файла.
use HTML::TokeParser;
my $p = HTML::TokeParser->new("index.html");
if ($p->get_tag("title")){
   my $title = $p->get_trimmed_text; # Содержимое <title>
}
while (my $token = $p->get_tag("a")) {  # перибираем все <a href>
   my $url = $token->[1]{href} || "";
   my $text = $p->get_trimmed_text("/a"); # Текст между <a ...> и </a>
}
 
08.04.2003
Ключи: html, parser, file, tex, loop, text, perl / Лицензия: CC-BY
Раздел:    Корень / Программисту и web-разработчику / Perl / Полезные подпрограммы на Perl / Подпрограммы для WEB

Обсуждение [ RSS ]
  • 1, Igor (??), 16:23, 15/06/2006 [ответить]  
  • +/
    Предложенный вариант у меня не сработал, зато сработал вот этот:

    use HTML::TokeParser;
    $p = HTML::TokeParser->new("temp.htm");

      while ($token = $p->get_tag("a")) {
          $url = $token->[1]{href} || "-";
          $text = $p->get_trimmed_text("/a");
          print "$url\t$text\n";
      }

     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:




    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру