recoder: (Default)
recoder ([personal profile] recoder) wrote2007-07-03 10:23 am
Entry tags:

Вопросы классификации

Меня на днях спросили про классификацию, теги и всё такое прочее. Подумав, я выделил несколько видов классификации:

Categories

Категории, как правило призваны поделить множество классифицируемых объектов на более-менее близкие по размеру группы. При этом обычно эти группы не пересекаются и образуют из себя дерево. Поскольку техника классификации зависит от предметной области (чтобы дерево под-категорий было сбалансированным), то при построении таксономической структуры категорий её надо очень хорошо себе представлять. На крайняк - взять стандартную от Open Directory или Yahoo.

Keywords

Ключевые слова - это обычно слова/фразы, выбраные из описания объекта, по которым потом можно легко находить нужные объекты, делая срезы по выбранному ключевому слову. Впрочем, иногда ключевые слова используются наоборот - чтобы проассоциировать с текстом слова, не встречающиеся в нём, но семантически связаные с ним. Но в любом случае, ключевые слова затачиваются под последующий поиск по ним.

Facets

Фасеты - это разбиения объектов на группы по определённому признаку. При просмотре множеств объектов эти разбиения могут применяться в произвольном порядке (причём некоторые могут и не применяться). Пример: деление продуктов во Froogle (см.внизу).

Tags

Теги, вообще говоря, это просто некое слово или словосочетание, ассоциированное с классифицируемым объектом. В результате в общем множестве объектов выделяются пересекающиеся кластеры, над которыми в принципе можно работать методами теории множеств (хотя практических применений этого я не видел).

Громкий успех тегов на волне Web 2.0 объясняется довольно просто. Признаемся себе: создать хорошую схему классификации - сложно. Заставить (даже себя) заняться организацией тысяч объектов в полезных группы - практически невозможно. А вот попросить всех пользователей приписать каждому объекту несколько слов-тегов - несложно, особенно если у пользователей есть своя мотивация. Потом эти теги статистически обработали (вот пример моего облака ссылок) - и получили ad hoc классификацию, которая и работает за счёт статистики. Фолксономия во всей её красе. Яркий пример: del.icio.us.


А основная мораль всего этого - прежде чем заниматься классификацией чего-либо, надо задуматься и понять как будет работать эта классификация и какие цели она преследует.

[identity profile] akeepaki.livejournal.com 2007-07-03 07:52 am (UTC)(link)
Как-то мало вариантов =).
Я бы включил токо теги и иерархическую структуру. (якобы категории)

А если уж пошла такая пьянка, как фасеты, то имхо можно еще десяток включить подобных мелочей =)

[identity profile] akeepaki.livejournal.com 2007-07-03 09:01 am (UTC)(link)
кому надо, уже ходил и читал в более удобоваримых русскоязычных источниках =). Важны же не длинные слова и как что обзывается, а суть! :)

[identity profile] akeepaki.livejournal.com 2007-07-03 09:21 am (UTC)(link)
Почему сразу претензии? :)
Суть изложена верно, линки правильные. Мне кажется не хватает, как бы это лучше сказать, популизма =) То есть можно было бы написать тоже самое более популярным языком.

[identity profile] apelsin.livejournal.com 2007-07-03 07:56 am (UTC)(link)
Не понял, чем отличаются ключевые слова от тегов. :)

[identity profile] apelsin.livejournal.com 2007-07-03 08:09 am (UTC)(link)
Понял, спасибо.

Видимо, многие современные сайты неправильно интерпретируют понятие «тег».

[identity profile] russuv.livejournal.com 2007-07-03 08:19 am (UTC)(link)
перечитал..... еще раз перечитал....
полез в словари "фолксономический инструмент" - первый раз такое слово слышу ;-)
Андрюха кончай умничать ;-)

[identity profile] akeepaki.livejournal.com 2007-07-03 09:05 am (UTC)(link)
+1 =)
тоже раза три перечитывать пришлось =) списывал это на непроснувшийся организм.

[identity profile] russuv.livejournal.com 2007-07-03 09:21 am (UTC)(link)
да у нас и не утро совсем ;-)

[identity profile] sprocket1.livejournal.com 2007-07-03 02:10 pm (UTC)(link)
Блин, два раза с удивлением прочитал как "фаллосометрический инструмент", пока не заставил себя разобрать слово по буквам. ;-)

[identity profile] the-drmad.livejournal.com 2007-07-03 10:23 am (UTC)(link)
"...Он специализировался в области естественнонаучной классификации, наловчился с быстротой акробата пробегать всю лестницу типов, групп, классов, подклассов, отрядов, семейств, родов, подродов, видов и подвидов. Но его познания на этом и кончались. Классифицировать - это была его стихия, дальше он не шел. Сведущий в теории классификации, но слабо подготовленный практически, он, я думаю, не сумел бы отличить кашалота от беззубого кита!".
Персонаж? Автор? Произведение? Чур, в гугли, рамблеры и тындексы не подглядывать! :)

[identity profile] larubin.livejournal.com 2007-07-03 10:41 am (UTC)(link)
Аффтар - Жюль Верн, Произведение - 20000 льё под водой. Персонажа хоть убей не помню как зовут, помощник главного героя-ученого.

[identity profile] sprocket1.livejournal.com 2007-07-03 02:05 pm (UTC)(link)
Точно. То есть, обобщая вывод: прежде чем что-либо делать, нужно задуматься над тем, зачем и кому всё это нужно. Философично. :-)

[identity profile] kinjeiro.livejournal.com 2007-07-04 07:13 am (UTC)(link)
А вообще к чему это применяется? зачем так конкретизировать теорию? Интуитивных основных знаний (ну категории, древовидная структура) ведь хватает для использования в жизни.

Мне кажется, что передо мной катая-то огромная дверь в новые понимания мира: "Тук-тук, Сизам откройся".

[identity profile] kinjeiro.livejournal.com 2007-07-04 07:29 am (UTC)(link)
=))
Тогда понял, теория информации для необозримых объемов ;)