The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

форумы  помощь  поиск  регистрация  майллист  ВХОД  слежка  RSS
"Выписать адреса из html (awk, sed)"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы OpenNET: Виртуальная конференция (Public)
Изначальное сообщение [Проследить за развитием треда]

"Выписать адреса из html (awk, sed)" 
Сообщение от Колян Боков emailИскать по авторуВ закладки on 01-Июн-05, 15:20  (MSK)
Привет всем!

Скопировал из интернета свою адресную книгу в формате html и хочу занести все адреса (более 50) в текстовую таблицу для дальнейшей обработки, но всё никак не могу написать подходящий скрипт (нет опыта).

Пробовал что-то типа:

user@pc :> cat adress.html | sed />*@\.*</

...и ничего не получилось... :(

Покажите пожалуйста на примере, как можно из целого списка html-кода выписать все emails в файл при помощи awk,sed и т.д.?

ps: код сохранился сплошным текстом, т.е. нет пробелов между тэгами.

  Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

 Оглавление

Индекс форумов | Темы | Пред. тема | След. тема
Сообщения по теме

1. "Выписать адреса из html (awk, sed)" 
Сообщение от AMDmi3 Искать по авторуВ закладки on 01-Июн-05, 16:45  (MSK)
>Покажите пожалуйста на примере, как можно из целого списка html-кода выписать все
>emails в файл при помощи awk,sed и т.д.?
>ps: код сохранился сплошным текстом, т.е. нет пробелов между тэгами.

это?

% cat test
<table>
<tr><td>some@email1</td><td>some@email2</td><td>some@email3</td></tr>
<tr><td>some@email4</td><td>some@email5</td><td>some@email6</td></tr>
</table>
% cat test | grep -oE "[^<>]+@[^<>]+"
some@email1
some@email2
some@email3
some@email4
some@email5
some@email6

  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

2. "Выписать адреса из html (awk, sed)" 
Сообщение от Колян Боков emailИскать по авторуВ закладки on 01-Июн-05, 17:09  (MSK)
>>Покажите пожалуйста на примере, как можно из целого списка html-кода выписать все
>>emails в файл при помощи awk,sed и т.д.?
>>ps: код сохранился сплошным текстом, т.е. нет пробелов между тэгами.
>
>это?

Нет. Такой же результат, как и в моём варианте... на экран выводится вся html лабуда... :(

  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

3. "Выписать адреса из html (awk, sed)" 
Сообщение от AMDmi3 Искать по авторуВ закладки on 01-Июн-05, 17:28  (MSK)
>>>Покажите пожалуйста на примере, как можно из целого списка html-кода выписать все
>>>emails в файл при помощи awk,sed и т.д.?
>>>ps: код сохранился сплошным текстом, т.е. нет пробелов между тэгами.
>>
>>это?
>
>Нет. Такой же результат, как и в моём варианте... на экран выводится
>вся html лабуда... :(

html лабуда принципиально не может выводиться, ибо [^<>]. Тюнь regexp если не работает.

  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

4. "Выписать адреса из html (awk, sed)" 
Сообщение от AMDmi3 Искать по авторуВ закладки on 01-Июн-05, 17:33  (MSK)
>html лабуда принципиально не может выводиться, ибо [^<>].
Разве что твой grep -o не понимает. Тогда man grep, что у тебя за система ты не написал.


  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

5. "Выписать адреса из html (awk, sed)" 
Сообщение от Колян Боков emailИскать по авторуВ закладки on 01-Июн-05, 17:43  (MSK)
>>html лабуда принципиально не может выводиться, ибо [^<>].
>Разве что твой grep -o не понимает. Тогда man grep, что у
>тебя за система ты не написал.

QNX 6.2 Пробовал и rgrep... HTML-Текст у меня примерно такой:

8<-----------------------8<---------------------------

<a target="_popup" class="core_button_normal" onclick="javascript:top.__js_popup('/xml/webmail/adressenUebersicht;jsessionid=43526663988A433803721CBD2D8B01D7.TC156b?__frame=_top&__lf=AdresseBearbeitenFlow&__sendingdata=1&createMail.Action=create&createMail.To=user@xxx.com&__jumptopage=mailNew&__pageflow=AdresseBearbeitenFlow&__CMD[adressenUebersicht]:SELWRP=createMail','','750','850');return(false);" href="/xml/webmail/adressenUebersicht;jsessionid=43526663988A433803721CBD2D8B01D7.TC156b?__frame=_top&__lf=AdresseBearbeitenFlow&__sendingdata=1&createMail.Action=create&createMail.To=userKLP_lo@server.net&

8<-----------------------8<---------------------------

и т.д.

  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

6. "Выписать адреса из html (awk, sed)" 
Сообщение от AMDmi3 Искать по авторуВ закладки on 01-Июн-05, 18:17  (MSK)
>>>html лабуда принципиально не может выводиться, ибо [^<>].
>>Разве что твой grep -o не понимает. Тогда man grep, что у
>>тебя за система ты не написал.
>
>QNX 6.2 Пробовал и rgrep... HTML-Текст у меня примерно такой:

ну так бы и сказал сразу
тогда что-то ближе к [a-zA-Z0-9_.]+@[a-zA-Z0-9_.]+

  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

7. "Выписать адреса из html (awk, sed)" 
Сообщение от bokov emailИскать по авторуВ закладки(??) on 01-Июн-05, 18:36  (MSK)

>тогда что-то ближе к [a-zA-Z0-9_.]+@[a-zA-Z0-9_.]+

И это тоже не идёт... Дело в том, что grep то всё находит и выдаёт строки с адресом, а не само искомое значение. sed мне что-то тоже не поддаётся...


  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

8. "Выписать адреса из html (awk, sed)" 
Сообщение от MaximKuznetsov Искать по авторуВ закладки on 01-Июн-05, 19:52  (MSK)
>
>>тогда что-то ближе к [a-zA-Z0-9_.]+@[a-zA-Z0-9_.]+
>
>И это тоже не идёт... Дело в том, что grep то всё
>находит и выдаёт строки с адресом, а не само искомое значение.
>sed мне что-то тоже не поддаётся...

можно вообще избавиться от html тегов и парсить как обычный тектовый файл.
man lynx

(он точно умеет это делать, остальные текстовые броузеры наверное тоже)


  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

9. "Выписать адреса из html (awk, sed)" 
Сообщение от vt Искать по авторуВ закладки(ok) on 02-Июн-05, 13:20  (MSK)
awk 'BEGIN{RS="&";FS="="}/@/{print $NF}'
  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх


Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ]
Пожалуйста, прежде чем написать сообщение, ознакомьтесь с данными рекомендациями.




Спонсоры:
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2022 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру