Блог

Python/Заметка: парсинг html, вывести содержимое

Парсинг html страницы, используя lxml.html для поиска по содержимому веб-страницы. На http://lxml.de/ – в меню “developing with lxml” описано больше вариантов обработки и поиск с помощью lxml.

Использование:

CSS селектор:

imgs = dom.cssselect('img')

XPath:

meta = dom.xpath('//meta[@name="description"]')

Есть необходимость получить все содержимое тега и распечатать.

#!/usr/bin/env python
from lxml import html

dom = html.document_fromstring(content)
td = dom.xpath('/html/body/table[2]/tr[1]/td')[0]

# Выводим содержимое тега td
print ''.join([html.tostring(child) for child in td.iterdescendants()])