- Из всего HTML-документа сразу берём только тег body
- Удаляем элементы, которые явно не содержат полезной информации (теги script, style, iframe и т.д.; элементы с css-классами или аттрибутами id вида sidebar, subscribe и т.д.)
- Если на странице есть тег header и в нём есть тег-заголовок (h1-h6), то заменяем header на соответствующий заголовок
- Удаляем все лишние атрибуты у тегов (кроме атрибута href у тега a)
- Итеративно разворачиваем вложенные теги, удаляем пустые теги, удаляем теги, в которых малый процент текста
- Заменяем оставшиеся теги на символ перевода строки, ссылки преобразуем к нужному виду
- Ограничиваем длину строк
- Сохраняем результат в файл
- Считать оценку "информации" для тега и вырезать низкоинформативные теги
- Добавить поддержку микроразметки https://schema.org/
- Добавить поддержку отдельных правил вырезания тегов для отдельных сайтов
(см. файл test.py)
- https://lenta.ru/news/2018/11/14/sankcii/
- https://lenta.ru/news/2018/11/15/itsaprotest/
- https://www.gazeta.ru/culture/photo/yubilei_svetlany_surganovoi.shtml
- https://www.gazeta.ru/science/photo/buran-2018.shtml
- https://www.gazeta.ru/business/2018/11/15/12059587.shtml
- https://journal.tinkoff.ru/no-diploma-cash/
- https://journal.tinkoff.ru/ask/bolnichniy-bez-raboty/
- https://medium.com/@KKruglov/127915b78ce2
- https://medium.com/@KKruglov/%D0%B1%D1%83%D0%BC-%D0%BF%D0%BE%D0%B4%D0%BA%D0%B0%D1%81%D1%82%D0%BE%D0%B2-766495006408