recoder: (Default)
[personal profile] recoder

Придумал ещё одно паллиативное решение проблеме протухающих ссылок - на этот раз с помощью старого доброго Гугля. Когда я записываю URL мне же обычно на самом деле важен сам документ, а не его легкопортящийся адрес. Поэтому приходится делать content addressing на коленке. Помню, на заре интернетостроения сетяне развлекались Googlewhacking'ом - подбирали поисковые слова к Гуглю так, чтобы в результате поиска была всего одна ссылка. Я решил идти аналогичным способом - чтобы записать ссылку на текстовые документ, я выбираю из него набор ключевых слов и составляю поисковый запрос с ними. (Вот к примеру эта заметка должна быть доступна по ссылке на https://www.google.com/search?q="паллиативное решение проблеме протухающих ссылок"&btnI=.) В результате: пока в интернетах остаются копии этого документа, я легко смогу снова прочитать его.

Сразу появляется интересная задачка: как автоматизировать такой процесс? Мне-то довольно очевидно какие фразы являются ключевыми, и после одного-двух-трёх экспериментальных запросов в Google я могу выбрать оптимальный. Есть идея попробовать TF-IDF алгоритм для определения наиболее значимых слов (примерно так как это делает SMMRY.com) и пробовать искать их в разных комбинациях, пока нужный результат не окажется в топе. Главное - чтобы за эксперименты в Гугле не забанили.

Метод конечно не супер-надёжный, ибо подвержен Googlebombing'у, да и вообще говоря документ может просто пропасть из интернетов. Однако за примерно год что я этим методом пользуюсь, он чаще срабатывал чем нет.

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

December 2024

S M T W T F S
1234567
891011121314
15161718192021
22232425 262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 8th, 2026 05:10 am
Powered by Dreamwidth Studios