Два года назад я засел писать себе веб-архиватор в виде сервиса - и ниасилил. Заткнулся на TDD с RSpec и на DevOps-перфекционизме.
Год назад я подумал, что компромиссным решением будет написание CLI-утилиты для архивации страниц, в надежде на то что GUI потом как-нибудь сам вырастет. Тут дело пошло быстрее. Проект, прозванный Веб-Плюшкиным, начал обретать формы и набираться данных. Внезапно выяснилось что вытягивать читабельные данные из страниц - дело отнюдь нетривиальное. Классический readability морально устарел. Альтернативные решения типа pismo или wombat тоже не блещут новизной. С Telegram'овским Instant View снаружи не заинтегрируешься. На внешние сервисы закладываться не хочется.
И тут я случайно натыкаюсь на проект Shiori, который делает примерно половину того чего бы мне хотелось и делает её очень неплохо. По сути - это такой персональный Pocket: многопользовательский архиватор страниц с поддержкой readability mode. До настоящего Pocket'a эта поделка конечно не дотягивает, но пилится активно и надежды есть.
Вот я теперь в раздумьях: допиливать своего Плюшкина или дописывать недостающие фичи в Шиори? Главное осложнение - что Шиори написан на богомерзком Говне, который у меня не вызывает ничего кроме омерзения. И шо ж делать?
no subject
Date: 2019-10-09 09:43 am (UTC)Разве мало готовых парсеров? Имхо, десятки, и на любом языке.
З.Ы. Вопрос почти риторический. Когда делал что-то похожее, проклял все и сделал ручками. На плюсах. Пусть кривое, пусть тупое, но блэкджек правильного цвета и шлюхи родные.
no subject
Date: 2019-10-09 04:23 pm (UTC)no subject
Date: 2019-10-10 08:40 am (UTC)no subject
Date: 2019-10-10 05:31 pm (UTC)no subject
Date: 2020-04-21 07:15 am (UTC)https://minnie.tuhs.org/pipermail/tuhs/2020-March/020702.html
Может после него extraction-тулы будут работать нормально...