Mini Readability

Из всего HTML-документа сразу берём только тег body
Удаляем элементы, которые явно не содержат полезной информации (теги script, style, iframe и т.д.; элементы с css-классами или аттрибутами id вида sidebar, subscribe и т.д.)
Если на странице есть тег header и в нём есть тег-заголовок (h1-h6), то заменяем header на соответствующий заголовок
Удаляем все лишние атрибуты у тегов (кроме атрибута href у тега a)
Итеративно разворачиваем вложенные теги, удаляем пустые теги, удаляем теги, в которых малый процент текста
Заменяем оставшиеся теги на символ перевода строки, ссылки преобразуем к нужному виду
Ограничиваем длину строк
Сохраняем результат в файл

(см. файл test.py)

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
resources		resources
.gitignore		.gitignore
README.md		README.md
config.json		config.json
mini_readability.py		mini_readability.py
requirements.txt		requirements.txt
test.py		test.py

Provide feedback