Автоматический морфологический анализ и процедура лемматизации.

Обычно способы морфологического анализа делят на способы с декларативной и с процедурной ориентацией. Для способов декларативной ориентации типично наличие полного словаря всех вероятных словоформ для каждого слова. При всем этом любая словоформа снабжается полной и конкретной морфологической информацией, куда входят как неизменные, так и переменные морфологические характеристики. Задачка морфологического анализа в Автоматический морфологический анализ и процедура лемматизации. данном случае сводится к поиску подходящей словоформы в словаре и копированию морфологической инфы, соответственной отысканной словоформе, в программку.

В способах, обычно именуемых процедурными, каждое слово делится на базу (псевдоснову) и аффикс (псевдофлексию), и словарь содержит только базы слов вкупе со ссылками на надлежащие строчки в таблице вероятных аффиксов Автоматический морфологический анализ и процедура лемматизации.. Главный аспект при разбиении слова на базу и аффикс: база должна оставаться постоянной во всех вероятных словоформах данного слова. За счёт циклических аффиксов сокращается суммарный объем словаря в сопоставлении с декларативными способами. Процедура морфологического анализа сводится к выбору всех основ, совпадающих с исходными знаками анализируемого слова, из словаря Автоматический морфологический анализ и процедура лемматизации. основ, и для каждой таковой базы перебираются все вероятные для нее аффиксы. В случае четкого совпадения еще одного варианта "база+аффикс" с анализируемым словом вариант анализа считается удачным и в программку передается морфологическая информация, соответственная данной базе и данному аффиксу. При всем этом, обычно, неизменные морфологические характеристики определяются основой слова, а Автоматический морфологический анализ и процедура лемматизации. переменные — аффиксом.

Этот способ на самом деле является модификацией, усовершенствованием декларативного (каковым и будем его дальше именовать). Тут точно так же задается вся парадигма. В грубом приближении все словоформы задаются в виде:

- списка основ;

- списка аффиксов;

- списка словоформ или в виде списка индексов основ и аффиксов, или в виде Автоматический морфологический анализ и процедура лемматизации. списка основ и перечня аффиксов их парадигмы.

Предлагаемый нами подход имеет еще больше прав принадлежать к числу способов с процедурной ориентацией. Он подразумевает наличие словаря исходных форм и грамматической инфы, нужной для словоизменения (как-то, часть речи, род и т.д.), также массивов окончаний и программной реализации правил Автоматический морфологический анализ и процедура лемматизации. чередования в базе. Подход заключается в том, что слово поочередно причисляется к каждой из частей речи. Поочередно выбираются окончания для этой части речи. В случае, если окончание одной из косвенных форм совпадает с концовкой слова, совпадающая часть отбрасывается, выполняются чередования в базе, если слово соответствует шаблону чередования, и к приобретенной Автоматический морфологический анализ и процедура лемматизации. базе добавляется окончание леммы. При построении леммы запоминается промежная информация – сведения о том, как конкретно была построена данная лемма. Все леммы, которые можно выстроить таким макаром, вкупе с промежной информацией собираются в перечень. Каждое слово этого перечня ищется в словаре лемм. Результатом лемматизации является перечень слов, отысканных в словаре Автоматический морфологический анализ и процедура лемматизации., для которых промежная информация соответствует грамматической инфы из словаря. Данный способ был программно реализован в виде модуля (динамически подключаемой библиотеки) и в текущее время удачно употребляется.

К числу преимуществ предложенного способа следует отнести:

- за отправную точку принимаются флексии, а не псевдофлексии, число которых на порядок больше числа флексий, и Автоматический морфологический анализ и процедура лемматизации. тем паче не псевдоосновы;

- отсутствие необходимости в построении парадигмы (от 6 словоформ – у местоимений и до 30 у прилагательных) каждого из слов, база которого совпадает с началом начального слова;

- возможность модификации представления входных данных.

Примером, когда нужна модификация представления входных и внутренних данных, может служить задачка построения системы распознавании речи Автоматический морфологический анализ и процедура лемматизации., созданной для диктовки случайного естественно-языкового текста. В данном случае нужно или хранить образцы (будь то фонетическая транскрипция, последовательность кодовых векторов либо сокрытая марковская модель слова) всех словоформ для каждого из слов, или хранить только часть из их - допустим, исходные формы - и иметь функцию преобразования образца хоть какой словоформы к Автоматический морфологический анализ и процедура лемматизации. этим хранимым формам. Смотрим ту же ситуацию, что и с морфологическим анализом текстов – вероятен декларативный и процедурный подход к решению трудности. При декларативном подходе придется в той либо другой форме задавать все образцы и надлежащие им словоформы, также указывать их связь с леммой. При процедурном подходе – отыскать то преобразование, которое Автоматический морфологический анализ и процедура лемматизации. позволит установить связь меж куском речи и образцом исходной формы слова. Выбор способа решения описанной задачки для речи постоянно воздействует и на выбор способа морфологического анализа. Использовать различные подходы в данном случае - означает из 2-ух зол избрать оба. Задачка выбора подхода к решению задачи становится ещё более животрепещущей, если Автоматический морфологический анализ и процедура лемматизации. не добиваться от диктора пауз меж словами (это требование делает диктовку ненатуральной).

Главным недочетом декларативных способов является чрезвычайно большой объем словаря, порождающий ряд технических заморочек:

1. Огромные издержки труда на создание и поддержание словаря.

Связаны в главном с шагом морфологического анализа. Для предыдущего ему шага обширно всераспространена практика Автоматический морфологический анализ и процедура лемматизации. автоматического синтеза стандартов.

2. Невозможность полного размещения словаря в оперативки компьютера при анализе.

3. Огромные временные издержки на поиск слова, в особенности для слитной речи.

Плюсами способа является простота (и, как следствие, высочайшая скорость) анализа, также универсальность по отношению ко огромному количеству всех вероятных словоформ российского языка.

Для процедурных способов время анализа Автоматический морфологический анализ и процедура лемматизации. 1-го слова может быть значительно выше, но объем применяемых словарей в маленьких системах позволяет загружать словари полностью в оперативку. Не считая того, такие словари существенно легче создавать (шаг лемматизации), так как неизменные характеристики каждого слова вводятся однократно.

Опишем, каким образом должен быть изменен предложенный нами процедурный способ морфологического анализа Автоматический морфологический анализ и процедура лемматизации. для использования в системе диктовки случайного текста.

Измененный способ лемматизации

Измененный модуль лемматизации (в предстоящем: модуль лемматизации) отличается от начального входными и внутренними данными. Входные данные модуля лемматизации – словарь и итог работы предыдущих шагов обработки (тогда как для начального модуля – это словарь и слово в виде строчки). Выходные данные Автоматический морфологический анализ и процедура лемматизации. – перечень лемм слова, если таковые имеются в словаре, и соответственной этим леммам морфологической инфы (МИ). МИ – информация о части речи и форме слова – нужна на последующем шаге обработки.

Словарь содержит в себе только исходные формы слов, снабженные разметкой, которая содержит всю информацию о построении парадигмы. Итог работы прошлых Автоматический морфологический анализ и процедура лемматизации. шагов – структура, которая содержит: транскрипцию словоформы, варианты написания слова. Вариант написания слова представлен:

а) перечнем вариантов знаков;

б) перечнем вероятных “вставок”;

в) перечнем вероятных “замещений”.

Поясним структуру входных данных на примерах слов “дерётся” и “местный”.

На рисунке 1 приведен перечень вариантов знаков.

Набросок 1. – Варианты знаков при фонетическом декодировании слов: а) “дерётся” ; б)“местный Автоматический морфологический анализ и процедура лемматизации.”

Для слова “дерётся” перечень вероятных “вставок” пуст. Перечень вероятных “замещений” состоит 2-ух частей, которые содержат последующую информацию: номер знака, строчка, на которую заменяем, условие подмены. Для слова “дерётся” этот перечень смотрится так:

1.Номер знака – 5. “тьс”. Условие: 5-й знак – предпоследний, 6-й знак - ‘я’.

2.Номер знака – 5. “тс”. Условие: нет Автоматический морфологический анализ и процедура лемматизации..

Для слова “местный” перечень вероятных “замещений” пуст. Перечень вероятных “вставок” содержит два элемента, которые содержат последующую информацию: номер знака, перед которым вероятна вставка, вставляемый знак. Для слова “местный” этот перечень смотрится так:

1. Номер знака – 4. ‘т’.

2. Номер знака – 4. ‘д’.

Сейчас опишем модификацию модуля лемматизации на примере слова “дерётся”.

Её можно Автоматический морфологический анализ и процедура лемматизации. обрисовать последующей последовательностью действий:

1. Поиск в массиве стандартных окончаний. Окончания хранятся в инверсионном алфавитном порядке[1].

Если длина окончания меньше расстояния от конца слова до места наиблежайшей “вставки” либо “замещения”, то ищем вхождение окончания в перечень знаков (см. рис.1). Таким макаром получаем окончания -а, -я, -о, -ё, -е. По другому Автоматический морфологический анализ и процедура лемматизации. учитываем воздействие “вставки” либо “замещения”, рассматривая все варианты, когда они происходят и вариант, когда вставки/замещения не происходит. Таким макаром получаем окончание -ётся.

В итоге получим 5 копий уточнённой входной структуры, которая будет содержать только 1 вариант 6-го знака, соответственный окончанию, и полагать вероятное “замещение” и одну копию длиной 7 знаков, последние из которых Автоматический морфологический анализ и процедура лемматизации. -ётся, в какой замещения не подразумевается.

2. Для каждой из копий пытаемся строить лемму от формы, соответственной МИ окончания. По мере надобности уточняем последние знаки базы.

3. Поиск леммы в словаре и отбор настоящих лемм. Начальный и измененный подход отличаются принципом, по которому отсортирован словарь. В начальном варианте принцип Автоматический морфологический анализ и процедура лемматизации. сортировки – алфавитный порядок, а в измененном - алфавитный порядок, но учитываются только совершенно точно интерпретируемые знаки.

http://www.dialog-21.ru/Archive/2001/volume2/2_50.htm

http://www.lomonosov-fund.ru/enc/ru/encyclopedia:0127430


avtomatizirovannie-informacionnie-tehnologii-formirovaniya-obrabotki-i-predstavleniya-dannih-v-nalogovoj-sluzhbe-referat.html
avtomatizirovannie-informacionnie-tehnologii-v-uchete-denezhnih-sredstv.html
avtomatizirovannie-koagulometri.html