recoder: (Default)
recoder ([personal profile] recoder) wrote2019-10-07 07:07 am
Entry tags:

Шиори

Два года назад я засел писать себе веб-архиватор в виде сервиса - и ниасилил. Заткнулся на TDD с RSpec и на DevOps-перфекционизме.

Год назад я подумал, что компромиссным решением будет написание CLI-утилиты для архивации страниц, в надежде на то что GUI потом как-нибудь сам вырастет. Тут дело пошло быстрее. Проект, прозванный Веб-Плюшкиным, начал обретать формы и набираться данных. Внезапно выяснилось что вытягивать читабельные данные из страниц - дело отнюдь нетривиальное. Классический readability морально устарел. Альтернативные решения типа pismo или wombat тоже не блещут новизной. С Telegram'овским Instant View снаружи не заинтегрируешься. На внешние сервисы закладываться не хочется.

И тут я случайно натыкаюсь на проект Shiori, который делает примерно половину того чего бы мне хотелось и делает её очень неплохо. По сути - это такой персональный Pocket: многопользовательский архиватор страниц с поддержкой readability mode. До настоящего Pocket'a эта поделка конечно не дотягивает, но пилится активно и надежды есть.

Вот я теперь в раздумьях: допиливать своего Плюшкина или дописывать недостающие фичи в Шиори? Главное осложнение - что Шиори написан на богомерзком Говне, который у меня не вызывает ничего кроме омерзения. И шо ж делать?

[identity profile] the-drmad.livejournal.com 2019-10-09 09:43 am (UTC)(link)
> вытягивать читабельные данные из страниц - дело отнюдь нетривиальное.

Разве мало готовых парсеров? Имхо, десятки, и на любом языке.

З.Ы. Вопрос почти риторический. Когда делал что-то похожее, проклял все и сделал ручками. На плюсах. Пусть кривое, пусть тупое, но блэкджек правильного цвета и шлюхи родные.

[identity profile] the-drmad.livejournal.com 2019-10-10 08:40 am (UTC)(link)
Эт да. У меня решалось просто: самый большой кусок текста. А в общем случае хз как искать контент, если нет никаких маркеров. Нырнуть по всем сцылкам, посмотреть, что там лежит? Выполнить все скрипты и аппплеты в собственной песочнице? Круто. :(

[identity profile] ulrith.livejournal.com 2020-04-21 07:15 am (UTC)(link)
А вот - blast from the past - нормализатор html написанный стопяцот лет назад:

https://minnie.tuhs.org/pipermail/tuhs/2020-March/020702.html

Может после него extraction-тулы будут работать нормально...