recoder: (Default)
[personal profile] recoder

Придумал ещё одно паллиативное решение проблеме протухающих ссылок - на этот раз с помощью старого доброго Гугля. Когда я записываю URL мне же обычно на самом деле важен сам документ, а не его легкопортящийся адрес. Поэтому приходится делать content addressing на коленке. Помню, на заре интернетостроения сетяне развлекались Googlewhacking'ом - подбирали поисковые слова к Гуглю так, чтобы в результате поиска была всего одна ссылка. Я решил идти аналогичным способом - чтобы записать ссылку на текстовые документ, я выбираю из него набор ключевых слов и составляю поисковый запрос с ними. (Вот к примеру эта заметка должна быть доступна по ссылке на https://www.google.com/search?q="паллиативное решение проблеме протухающих ссылок"&btnI=.) В результате: пока в интернетах остаются копии этого документа, я легко смогу снова прочитать его.

Сразу появляется интересная задачка: как автоматизировать такой процесс? Мне-то довольно очевидно какие фразы являются ключевыми, и после одного-двух-трёх экспериментальных запросов в Google я могу выбрать оптимальный. Есть идея попробовать TF-IDF алгоритм для определения наиболее значимых слов (примерно так как это делает SMMRY.com) и пробовать искать их в разных комбинациях, пока нужный результат не окажется в топе. Главное - чтобы за эксперименты в Гугле не забанили.

Метод конечно не супер-надёжный, ибо подвержен Googlebombing'у, да и вообще говоря документ может просто пропасть из интернетов. Однако за примерно год что я этим методом пользуюсь, он чаще срабатывал чем нет.

Date: 2018-10-09 02:57 am (UTC)
From: [identity profile] akeepaki.livejournal.com
"Паллиативное решение", ну и шуточки у вас, боцман, мне аж загуглить пришлось, а ведь еще месяц назад мне какой-то тест показывал, шо я знаю где-то 120000 русских слов... Это я прошел в утешение после англоязычных тестов, которые выше 10к мне так и не показывают. Хотя за 3 года в америке раза в два выросло :).

А способ с гуглем кажется ненадежным (это я так мягко назвал его тотальную бестолковость и хрупкость, все жеж зависит от стольких переменных, начиная от алгоритмов поиска, заканчивая возможной редактурой конечных статей). Или это чисто фо фан? :)

December 2024

S M T W T F S
1234567
891011121314
15161718192021
22232425 262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 24th, 2025 04:43 pm
Powered by Dreamwidth Studios