РУсскоязычный Архив Электронных СТатей периодических изданий
Инженерный журнал: наука и инновации/2013/№ 2/
В наличии за
50 руб.
Купить
Облако ключевых слов*
* - вычисляется автоматически
Недавно смотрели:

Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов

Представлены результаты сравнительного анализа двух алгоритмов кластерного анализа Lingo и STC. В качестве корпуса документов для оценки возможности кластеризации использован набор документов, полученных в ходе мониторинга сайтов определенной тематической направленности. Показано, что для корпуса документов указанной тематики алгоритм Lingo обеспечивает более высокое качество кластеризации.

Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
УДК: 025.4.03 Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов 1 1 <...> Н.Э. Баумана, Москва, 105005, Россия Представлены результаты сравнительного анализа двух алгоритмов кластерного анализа Lingo и STC. <...> В качестве корпуса документов для оценки возможности кластеризации использован набор документов, полученных в ходе мониторинга сайтов определенной тематической направленности. <...> Показано, что для корпуса документов указанной тематики алгоритм Lingo обеспечивает более высокое качество кластеризации. <...> Одним из направлений подобной обработки является кластеризация, которая призвана решить следующие задачи: – разбиение исходного множества на группы схожих объектов и предоставление возможности работы с каждой группой в отдельности; – сокращение объема хранимых данных путем оставления по одному представителю от каждого кластера; – выделение нетипичных объектов, не подходящих ни к одному из кластеров (так называемые аномалии). <...> Несмотря на то что для поиска информации в сети Интернет существуют поисковые системы Яндекс, Google, Yahoo, Mail, Rambler и др., значительный объем данных содержится в так называемом сером, темном или глубинном Интернете — сайтах, не проиндексированных каким-либо общедоступным поисковиком. <...> Одним из направлений решения задачи обработки информации неидексированных сайтов является создание собственной ИПС с последующим ее совершенствованием. <...> Архитектура ИПС В представленной ИПС можно выделить три подсистемы: <...> 2) подсистема обработки и хранения данных — материалы из базы данных обрабатываются (морфологический разбор, нормализация слов) и индексируются (индексы заносятся в специальную базу индексов поисковой платформы); <...> Эти модули могут лечь в основу создания специализированной ИПС, среди них: АОТ, MySQL fulltext, Xapian, PostgreSQL Textsearch, Apache Lucene, ApacheSolr. <...> Одной из наиболее глубоко проработанных с математической и программной точек зрения является платформа ApacheSolr, основанная <...>
** - вычисляется автоматически, возможны погрешности

Похожие документы: