recoder | Гуглёвые Закладки

Придумал ещё одно паллиативное решение проблеме протухающих ссылок - на этот раз с помощью старого доброго Гугля. Когда я записываю URL мне же обычно на самом деле важен сам документ, а не его легкопортящийся адрес. Поэтому приходится делать content addressing на коленке. Помню, на заре интернетостроения сетяне развлекались Googlewhacking'ом - подбирали поисковые слова к Гуглю так, чтобы в результате поиска была всего одна ссылка. Я решил идти аналогичным способом - чтобы записать ссылку на текстовые документ, я выбираю из него набор ключевых слов и составляю поисковый запрос с ними. (Вот к примеру эта заметка должна быть доступна по ссылке на https://www.google.com/search?q="паллиативное решение проблеме протухающих ссылок"&btnI=.) В результате: пока в интернетах остаются копии этого документа, я легко смогу снова прочитать его.

Сразу появляется интересная задачка: как автоматизировать такой процесс? Мне-то довольно очевидно какие фразы являются ключевыми, и после одного-двух-трёх экспериментальных запросов в Google я могу выбрать оптимальный. Есть идея попробовать TF-IDF алгоритм для определения наиболее значимых слов (примерно так как это делает SMMRY.com) и пробовать искать их в разных комбинациях, пока нужный результат не окажется в топе. Главное - чтобы за эксперименты в Гугле не забанили.

Метод конечно не супер-надёжный, ибо подвержен Googlebombing'у, да и вообще говоря документ может просто пропасть из интернетов. Однако за примерно год что я этим методом пользуюсь, он чаще срабатывал чем нет.

Flat | Top-Level Comments Only

"Паллиативное решение", ну и шуточки у вас, боцман, мне аж загуглить пришлось, а ведь еще месяц назад мне какой-то тест показывал, шо я знаю где-то 120000 русских слов... Это я прошел в утешение после англоязычных тестов, которые выше 10к мне так и не показывают. Хотя за 3 года в америке раза в два выросло :).

А способ с гуглем кажется ненадежным (это я так мягко назвал его тотальную бестолковость и хрупкость, все жеж зависит от стольких переменных, начиная от алгоритмов поиска, заканчивая возможной редактурой конечных статей). Или это чисто фо фан? :)

Ну так я и говорю что так себе способ, однако в моей практике - чаще работает чем нет.

Ещё одно применение этому способу - если хочется прочитать какую-то статейку за paywall'ом, но не хочется заморачиваться с BugMeNot и его аналогами - то ищещь ключевые слова из статейки и откладываешь этот поиск на несколько дней. С вероятностью больше 50% через несколько дней эта статейка всплывает у кого-нибудь в бложике или в каком-нибудь кеше.

Гуглёвые Закладки

no subject

no subject