с помощью регулярных выражений надо вытащить из исходного кода название продукта. Это то что стоит в ковычках после слова title (т.е. "Leitz 24230095 Stehsammler, A4, Hartpappe, schwarz"):<a class="a-link-normal s-access-detail-page a-text-normal" title="Leitz 24230095 Stehsammler, A4, Hartpappe, schwarz" href="http://www.amazon.de/Leitz-24230095-Stehsammler-Hartpappe schwarz/dp/B0007OEHFS/ref=sr_1_1?ie=UTF8&qid=1442901446&sr=8-1&keywords=Leitz+24230095"><h2 class="a-size-medium a-color-null s-inline s-access-title a-text-normal">Leitz 24230095 Stehsammler, A4, Hartpappe, schwarz</h2></a>
Примерно выражение выглядит так:
<a class=\"[^\"]*title\"(.*?)</a>
Но это выражение не работает. Помогите кто может!
>[оверквотинг удален]
> то что стоит в ковычках после слова title (т.е. "Leitz 24230095
> Stehsammler, A4, Hartpappe, schwarz"):
> <a class="a-link-normal s-access-detail-page a-text-normal" title="Leitz 24230095
> Stehsammler, A4, Hartpappe, schwarz" href="http://www.amazon.de/Leitz-24230095-Stehsammler-Hartpappe
> schwarz/dp/B0007OEHFS/ref=sr_1_1?ie=UTF8&qid=1442901446&sr=8-1&keywords=Leitz+24230095"><h2
> class="a-size-medium a-color-null s-inline s-access-title a-text-normal">Leitz 24230095
> Stehsammler, A4, Hartpappe, schwarz</h2></a>
> Примерно выражение выглядит так:
> <a class=\"[^\"]*title\"(.*?)</a>
> Но это выражение не работает. Помогите кто может!/ title=\"(.+)\" href/
Это если после title всегда идёт href, конечно.
> / title=\"(.+)\" href/
> Это если после title всегда идёт href, конечно.проще будет / title=\"(.+)\" /
афтору https://regex101.com/ в помощь
>> / title=\"(.+)\" href/
>> Это если после title всегда идёт href, конечно.
> проще будет / title=\"(.+)\" /
> афтору https://regex101.com/ в помощьНе пойдёт, если регулярка "жадная" - см ниже.
>> проще будет / title=\"(.+)\" /
> Не пойдёт, если регулярка "жадная" - см ниже.Как дети малые,
/title=\"([^\"]+)\"/
>>> проще будет / title=\"(.+)\" /
>> Не пойдёт, если регулярка "жадная" - см ниже.
> Как дети малые,
> /title=\"([^\"]+)\"/Andrey Mitrofanov, благодарю! регулярка работает идеально!!!
>>> / title=\"(.+)\" href/
>>> Это если после title всегда идёт href, конечно.
>> проще будет / title=\"(.+)\" /
>> афтору https://regex101.com/ в помощь
> Не пойдёт, если регулярка "жадная" - см ниже.работает, но действительно жадная ...очень-очень жадная )) Находит название и ссылку, но прихватывает ещё море мусора из исходника, который стоит после ссылки (не буду кодом засорять тему - пара страниц)
Аноним, благодарю за ссылку на regex101, потестю. Сейчас пользуюсь http://regexpal.com/
>[оверквотинг удален]
> то что стоит в ковычках после слова title (т.е. "Leitz 24230095
> Stehsammler, A4, Hartpappe, schwarz"):
> <a class="a-link-normal s-access-detail-page a-text-normal" title="Leitz 24230095
> Stehsammler, A4, Hartpappe, schwarz" href="http://www.amazon.de/Leitz-24230095-Stehsammler-Hartpappe
> schwarz/dp/B0007OEHFS/ref=sr_1_1?ie=UTF8&qid=1442901446&sr=8-1&keywords=Leitz+24230095"><h2
> class="a-size-medium a-color-null s-inline s-access-title a-text-normal">Leitz 24230095
> Stehsammler, A4, Hartpappe, schwarz</h2></a>
> Примерно выражение выглядит так:
> <a class=\"[^\"]*title\"(.*?)</a>
> Но это выражение не работает. Помогите кто может!Можно так - "нежадное" выражение (синтаксис perl):
/ title=\"(.+?)\"/
>>[оверквотинг удален]
> Можно так - "нежадное" выражение (синтаксис perl):
> / title=\"(.+?)\"/Аноним, премного благодарен! Ваша регулярка тоже работает идеально!!!