МИНИМИЗАЦИЯ ОШИБОК ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ, НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Представлен метод автоматизированной минимизации ошибок идентификации лексем в текстах, написанных на естественном языке. Метод основан на совместном использовании словарной морфологии и аналитического метода. Применение метода позволит улучшить качество автороведческой экспертизы, что повысит вероятность идентификации автора по написанным им текстам.
Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
Е.А. Тихомирова
МИНИМИЗАЦИЯ ОШИБОК
ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ,
НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Представлен метод автоматизированной минимизации ошибок
идентификации лексем в текстах, написанных на естественном языке. <...> Метод основан на совместном использовании словарной морфологии
и аналитического метода. <...> Применение метода позволит улучшить
качество автороведческой экспертизы, что повысит вероятность
идентификации автора по написанным им текстам. <...> Широко используемый в задачах идентификации текстов
метод частотных словарей предполагает подсчет частоты употребления
того или иного слова в тексте. <...> При попытке автоматизации
этого процесса исследователи сталкиваются с трудностями идентификации
лексем, связанных с множеством словоформ одного и того
же слова. <...> Несмотря на то, что перечисленные методы используются исследователями
при составлении частотных словарей, они обладают недостаточно
высокой способностью идентификации лексем. <...> Частота употребления некоторых встречающихся в этом
отрывке слов, подсчитанная вручную, приведена в табл. <...> 2012
131
Таблица 1
в отрывке повести Н.В. Гоголя «Старосветские помещики»,
подсчитанная вручную
Частота употребления некоторых слов, встречающихся
Слово
Говорить
Обед
Обедать
Обыкновение
Обыкновенный
употребления
5
Частота
4
1
1
3
Слово
Он
Пирожок
Попробовать
Рыжик
Что
употребления
11
Частота
3
2
3
6
Результат работы метода подсчета частоты употребления словоТаблица
2
метода подсчета частоты употребления словоформ
Слово
Результат работы
Говорил
Говорила
Обеда
Обедать
Обедом
Обеду
Обыкновению
Обыкновенно
употребления
4
1
2
1
1
1
1
3
Частота
Слово
Он
Пирожками
Пирожков
Попробуем
Попробуйте
Рыжиками
Рыжиков
Что
употребления
3
1
2
1
1
1
2
3
Частота
Методы словарной морфологии основаны на применении словарей
для определения лексемы по словоформе, встречающейся в тексте. <...> А.А. Зализняка создана база данных, пример таблицы которой представлен
на рис. <...> Часть таблицы <...>
** - вычисляется автоматически, возможны погрешности
Похожие документы: