РУсскоязычный Архив Электронных СТатей периодических изданий
Инженерный журнал: наука и инновации/2012/№ 3/
В наличии за
50 руб.
Купить
Облако ключевых слов*
* - вычисляется автоматически
Недавно смотрели:

МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Представлен метод автоматизированной минимизации ошибок идентификации лексем в текстах, написанных на естественном языке. Метод основан на совместном использовании словарной морфологии и аналитического метода. Применение метода позволит улучшить качество автороведческой экспертизы, что повысит вероятность идентификации автора по написанным им текстам.

Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
Е.А. Тихомирова МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ Представлен метод автоматизированной минимизации ошибок идентификации лексем в текстах, написанных на естественном языке. <...> Метод основан на совместном использовании словарной морфологии и аналитического метода. <...> Применение метода позволит улучшить качество автороведческой экспертизы, что повысит вероятность идентификации автора по написанным им текстам. <...> Широко используемый в задачах идентификации текстов метод частотных словарей предполагает подсчет частоты употребления того или иного слова в тексте. <...> При попытке автоматизации этого процесса исследователи сталкиваются с трудностями идентификации лексем, связанных с множеством словоформ одного и того же слова. <...> Несмотря на то, что перечисленные методы используются исследователями при составлении частотных словарей, они обладают недостаточно высокой способностью идентификации лексем. <...> Частота употребления некоторых встречающихся в этом отрывке слов, подсчитанная вручную, приведена в табл. <...> 2012 131 Таблица 1 в отрывке повести Н.В. Гоголя «Старосветские помещики», подсчитанная вручную Частота употребления некоторых слов, встречающихся Слово Говорить Обед Обедать Обыкновение Обыкновенный употребления 5 Частота 4 1 1 3 Слово Он Пирожок Попробовать Рыжик Что употребления 11 Частота 3 2 3 6 Результат работы метода подсчета частоты употребления словоТаблица 2 метода подсчета частоты употребления словоформ Слово Результат работы Говорил Говорила Обеда Обедать Обедом Обеду Обыкновению Обыкновенно употребления 4 1 2 1 1 1 1 3 Частота Слово Он Пирожками Пирожков Попробуем Попробуйте Рыжиками Рыжиков Что употребления 3 1 2 1 1 1 2 3 Частота Методы словарной морфологии основаны на применении словарей для определения лексемы по словоформе, встречающейся в тексте. <...> А.А. Зализняка создана база данных, пример таблицы которой представлен на рис. <...> Часть таблицы <...>
** - вычисляется автоматически, возможны погрешности

Похожие документы: