Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов
Представлены результаты сравнительного анализа двух алгоритмов кластерного анализа Lingo и STC. В качестве корпуса документов для оценки возможности кластеризации использован набор документов, полученных в ходе мониторинга сайтов определенной тематической направленности. Показано, что для корпуса документов указанной тематики алгоритм Lingo обеспечивает более высокое качество кластеризации.
Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
УДК: 025.4.03
Применение методов кластеризации для анализа
неиндексируемых интернет-ресурсов
1
1 <...> Н.Э. Баумана, Москва, 105005, Россия
Представлены результаты сравнительного анализа двух алгоритмов
кластерного анализа Lingo и STC. <...> В качестве корпуса документов для
оценки возможности кластеризации использован набор документов,
полученных в ходе мониторинга сайтов определенной тематической
направленности. <...> Показано, что для корпуса документов указанной
тематики алгоритм Lingo обеспечивает более высокое качество кластеризации. <...> Одним из направлений подобной
обработки является кластеризация, которая призвана решить
следующие задачи:
– разбиение исходного множества на группы схожих объектов
и предоставление возможности работы с каждой группой в отдельности;
–
сокращение объема хранимых данных путем оставления по одному
представителю от каждого кластера;
– выделение нетипичных объектов, не подходящих ни к одному
из кластеров (так называемые аномалии). <...> Несмотря на то что для поиска
информации в сети Интернет существуют поисковые системы
Яндекс, Google, Yahoo, Mail, Rambler и др., значительный объем данных
содержится в так называемом сером, темном или глубинном Интернете
— сайтах, не проиндексированных каким-либо общедоступным
поисковиком. <...> Одним из направлений решения задачи обработки
информации неидексированных сайтов является создание собственной
ИПС с последующим ее совершенствованием. <...> Архитектура ИПС
В представленной ИПС можно выделить три подсистемы: <...> 2) подсистема обработки и хранения данных — материалы из базы
данных обрабатываются (морфологический разбор, нормализация
слов) и индексируются (индексы заносятся в специальную базу индексов
поисковой платформы); <...> Эти модули
могут лечь в основу создания специализированной ИПС, среди них:
АОТ, MySQL fulltext, Xapian, PostgreSQL Textsearch, Apache Lucene,
ApacheSolr. <...> Одной из наиболее глубоко проработанных с математической и
программной точек зрения является платформа ApacheSolr, основанная <...>
** - вычисляется автоматически, возможны погрешности
Похожие документы: