recoder: (Default)
recoder ([personal profile] recoder) wrote2018-10-05 07:07 am
Entry tags:

Гуглёвые Закладки

Придумал ещё одно паллиативное решение проблеме протухающих ссылок - на этот раз с помощью старого доброго Гугля. Когда я записываю URL мне же обычно на самом деле важен сам документ, а не его легкопортящийся адрес. Поэтому приходится делать content addressing на коленке. Помню, на заре интернетостроения сетяне развлекались Googlewhacking'ом - подбирали поисковые слова к Гуглю так, чтобы в результате поиска была всего одна ссылка. Я решил идти аналогичным способом - чтобы записать ссылку на текстовые документ, я выбираю из него набор ключевых слов и составляю поисковый запрос с ними. (Вот к примеру эта заметка должна быть доступна по ссылке на https://www.google.com/search?q="паллиативное решение проблеме протухающих ссылок"&btnI=.) В результате: пока в интернетах остаются копии этого документа, я легко смогу снова прочитать его.

Сразу появляется интересная задачка: как автоматизировать такой процесс? Мне-то довольно очевидно какие фразы являются ключевыми, и после одного-двух-трёх экспериментальных запросов в Google я могу выбрать оптимальный. Есть идея попробовать TF-IDF алгоритм для определения наиболее значимых слов (примерно так как это делает SMMRY.com) и пробовать искать их в разных комбинациях, пока нужный результат не окажется в топе. Главное - чтобы за эксперименты в Гугле не забанили.

Метод конечно не супер-надёжный, ибо подвержен Googlebombing'у, да и вообще говоря документ может просто пропасть из интернетов. Однако за примерно год что я этим методом пользуюсь, он чаще срабатывал чем нет.

[identity profile] akeepaki.livejournal.com 2018-10-09 02:57 am (UTC)(link)
"Паллиативное решение", ну и шуточки у вас, боцман, мне аж загуглить пришлось, а ведь еще месяц назад мне какой-то тест показывал, шо я знаю где-то 120000 русских слов... Это я прошел в утешение после англоязычных тестов, которые выше 10к мне так и не показывают. Хотя за 3 года в америке раза в два выросло :).

А способ с гуглем кажется ненадежным (это я так мягко назвал его тотальную бестолковость и хрупкость, все жеж зависит от стольких переменных, начиная от алгоритмов поиска, заканчивая возможной редактурой конечных статей). Или это чисто фо фан? :)