Автоматизация автороведческих исследований
В последние годы в криминалистической литературе получает широкое признание как принципиальная возможность применения математических методов в криминалистических научных исследованиях, так и необходимость их использования для решения практических задач судопроизводства, в том числе судебной экспертизы. Рассматривая эту проблему в различных аспектах, криминалисты неизменно подчеркивали, что применение математических методов открывает новые возможности как в развитии криминалистической науки, так и в практике борьбы с преступностью, а постановка проблемы свидетельствует о достижении данной наукой такого уровня развития, когда она испытывает потребность в точных методах познания своего предмета.
В связи с этим одним из важных направлений в области судебной экспертизы являются разработка и внедрение в экспертную практику современных методов исследования, основанных на самых последних достижениях науки и техники.
Практика показывает, что только такой путь может обеспечить повышение надежности и наглядности экспертных заключений, сокращение сроков производства экспертиз при высоком качестве исследований. Широко используя традиционные методы исследования, эксперты все чаще сталкиваются с необходимостью нового подхода к обработке информации об объектах судебной экспертизы, что объясняется рядом причин.
Во-первых, современные технические средства и методы позволяют детально исследовать объекты как на макроуровне, так и на микроуровне, в том числе при наличии невидимых невооруженным глазом объектов. При этом, учитывая быстротечность процессов анализа микроколичеств веществ, с одной стороны, извлечь интересующую информацию без применения ЭВМ невозможно, а с другой — объем общей информации, полученной в результате единичного измерения, настолько огромен, что эксперт не в состоянии обработать ее в короткие сроки.
Во-вторых, в настоящее время накоплен огромный объем информации о различных объектах судебной экспертизы, оперативный доступ к которой, а также последующий ее анализ возможны только на базе ЭВМ.
В-третьих, эксперту в процессе своей деятельности приходится сталкиваться с рядом задач, для решения которых необходима не только предварительная переработка большого объема информации, но и проведение сложных расчетов, выполнение которых обычными средствами либо требует длительного времени, либо вообще невозможно.
Основная база внедрения математических методов и ЭВМ в экспертную практику — экспериментальные научные исследования, которые превратились в одну из главных движущих сил развития судебной экспертизы и позволяют получать новую информацию об изучаемом объекте, явлении и систематизировать ее для дальнейшего использования при решении конкретных экспертных задач.
Далее остановимся на проблеме применения математических методов при криминалистическом исследовании текстов.
Говоря об особенностях взаимодействия языкознания и математики, следует иметь в виду, что как естественный язык, так и язык математики являются знаковыми (семиотическими) системами передачи информации. Основные расхождения между этими языками связаны с различным построением языкового знака и знака математического.
Во-первых, лингвистический знак (слово, словосочетание, предложение) обычно включает в себя четыре компонента — «имя» (материальный носитель информации), «денотат» (отражение предмета из внешнего мира), «десигнат» (понятие о предмете) и «коннотат» (комплекс чувственно-оценочных оттенков, связанных с предметом и понятием о нем); знак математического языка включает только «имя» и «десигнат» (математическое понятие).
Во-вторых, лингвистический знак многозначен; математический знак имеет, как правило, одно концептуальное значение.
В-третьих, лингвистический знак потенциально метафоричен. У знака математического метафоричность полностью отсутствует.
Особенности построения лингвистического языка приводят к тому, что естественный язык представляет собой не жестко организованную
диффузную систему, которая воспринимается и используется человеком в значительной мере интуитивно.
Напротив, язык математики является хорошо организованной системой, существующей и функционирующей в виде логического построения, каждый элемент которого имеет осознанную значимость.
Конфронтация естественного языка и языка математики требует, чтобы каждому лингвистическому объекту был поставлен в соответствие некоторый математический объект. Лингвистический знак, например словосочетание или слово и составляющие этот знак фигуры — фонемы, буквы, слоги, должен интерпретироваться с помощью знаков математических. Эта математическая интерпретация связана с расчленением лингвистического объекта и выделением в нем одного смыслового или сигнального компонента, который становится предметом дальнейшего исследования. Остальные сигнальные и смысловые элементы лингвистического объекта, а также разного рода метафорические оттенки из рассмотрения исключаются.
Применение математических методов в языкознании имеет своей целью заменить обычно диффузную, интуитивно сформулированную и не имеющую полного решения лингвистическую задачу одной или несколькими более простыми, логически сформулированными и имеющими алгоритмическое решение математическими задачами. Такое расчленение сложной лингвистической проблемы на более простые алгоритмизуемые задачи называется математической экспликацией лингвистического объекта или явления.
Математическая экспликация интересна не только с чисто познавательной и теоретической точки зрения. Она совершенно необходима при решении прикладных вопросов, связанных с анализом и синтезом устной речи или информационной переработкой текста на ЭВМ. Математическая экспликация лингвистических объектов применяется не только при решении на ЭВМ несложных, хотя и трудоемких задач такого типа, как составление частотных и алфавитных словников или пословного и пооборотного машинного перевода, но также при составлении и реализации таких эвристических алгоритмов искусственного интеллекта, как семантический анализ текста.
Далее от достаточно общих размышлений о применении математических методов в судебной экспертизе перейдем к некоторым проблемам проведения автороведческих экспертиз в наше время.
Одним из основных элементов расследования по ряду уголовных дел является проведение криминалистического исследования письменной речи (автороведческие и лингвистические исследования), целью которых является либо определение автора текста (идентификационная задача), либо определение его обликовых характеристик (диагностическая задача), либо установление факта наличия в текстах определенных призывов (лингвистическое исследование). При проведении подобных исследований объектами исследований обычно являются газеты, листовки, содержание страниц Интернета, книги, серии публикаций одного или нескольких авторов большого объема. Так, по ряду уголовных дел суммарный объем исследуемых материалов составил более 1000 страниц печатного текста. Такие объемы материалов практически исключают возможность их качественного «ручного» анализа, существенно увеличивают время, необходимое для проведения исследований.
Выходом из сложившейся ситуации является применение автоматизированной системы анализа текстов на русском языке, которая позволит при проведении криминалистических исследований письменной речи (при большом объеме фактического материала) значительно повысить качество получаемых результатов, а также существенно сократить сроки проведения исследований.
В процессе автороведческих исследований (при традиционном подходе), установив ряд закономерностей, эксперт вынужден давать им лишь качественную оценку, в то время как применение системы, основанной в том числе и на методах математической статистики, позволит дать и точную количественную оценку исследуемым параметрам.
После проведенного исследования возможностей современного прикладного программного обеспечения был сделан вывод о том, что системы автоматического анализа текстов на русском языке, отвечающей требованиям, позволяющим использовать ее при проведении криминалистического исследования письменной речи, в настоящее время не существует.
В результате в Институте криминалистики ФСБ России была создана система автоматизированного анализа текстов на русском языке, отвечающая поставленным требованиям (система «Lingster 3.0»).
Система «Lingster 3.0» обеспечивает: организацию и управление базой текстов на русском языке, автоматизированный морфологический анализ, частичное автоматизированное решение вопроса о грамматической омонимии, генерацию словников текстов различного вида, наложение словников двух текстов, поиск совпадений и различий, наложение на словник текста тематических словарей русского языка с целью профессиональной атрибуции текстов, получение различной статистической информации об анализируемых текстах, поиск пользователем произвольных грамматических конструкций в исследуемых текстах, анализ исследуемого массива текстов с целью поиска различных словарных рядов, получение отчетов в Microsoft Word XP по результатам анализа текстов.
Подробнее остановимся на проблеме грамматической омонимии русского языка при автоматическом анализе текстов. Процент омонимичных словоформ русского языка достаточно велик (не различных словоформ — словарь омонимии русского языка включает порядка 5000 слов, — а их общего числа в тексте). Так слово «пасть» может встретиться в тексте 100 раз, и в каждом конкретном случае необходимо решать вопрос о том, к какой части речи принадлежит эта словоформа: «пасть» зверя — существительное, «пасть» смертью храбрых — глагол. Автоматизированное решение проблемы омонимии русского языка представляет собой чрезвычайно сложную задачу. На настоящий момент автору не известна ни одна программа, полностью решающая данную проблему, но нельзя не отметить тот факт, что ведутся активные исследования по созданию подобных систем. Разработанный нами модуль автоматического снятия омонимии позволяет после обработки снизить процент оставшихся омонимичных словоформ до 15%.
Структурно система автоматического анализа текстов на русском языке состоит из следующих модулей.
Модуль графематического анализа текста. Основная задача модуля — анализ исходного текста с целью выделения его структурных единиц: абзацев, предложений, слов. В задачу этого модуля входит также поиск сложных предлогов, вводных слов и конструкций, устойчивых словосочетаний, чисел, дат, электронных адресов, собственных имен и т.д.
Модуль морфологического анализа текста. Основная задача модуля — анализ исходных словоформ текста с целью их лемматизации (приведения к начальной форме с учетом всех возможных форм).
Модуль постморфологического анализа текста. Основная задача этого модуля — автоматическое решение проблемы грамматической омонимии в случаях, для которых разработаны соответствующие лингвистические алгоритмы.
Модуль статистического анализа текста. В задачу этого модуля входит обработка исходного текста с целью вычисления различных статистических характеристик текста. К таким характеристикам относятся распределение слов текста по частям речи (как для всех слов текста, так и для первых или последних слов предложений), средняя длина предложений и отдельных грамматических конструкций и т. д.
Генератор словников. При помощи генератора словников пользователь автоматизированной системы может получать словники исследуемого текста различных видов (упорядоченные по частоте встречаемости словоформ, по алфавиту, словники отдельных частей речи, слова с ошибками и т. д.), кроме того, существует возможность осуществлять наложение словников различных текстов.
Менеджер тематических словарей. При помощи менеджера тематических словарей осуществляется возможность профессиональной атрибуции исследуемых текстов. В настоящий момент составлены следующие тематические словари русского языка: «Вооруженные силы», «Животный мир», «Культура», «Наука», «Промышленность», «Растительный мир», «Связь», «Сельское хозяйство», «Техника», «Финансовая лексика». Тематические словари русского языка составлены на основе «Тематического словаря русского языка» под редакцией В.В. Морковкина (Москва, издательство «Русский язык», 2000).
Менеджер грамматических запросов позволяет осуществлять поиск в исследуемом тексте произвольных грамматических конструкций. Причем поиск осуществляется по выбору пользователя либо с учетом омонимичных словоформ, либо без их учета.
Модуль поиска словарных рядов используется для практической реализации ряда методик, основанных на использовании различных статистических методов, применение которых экспертом вручную весьма затруднительно.
По результатам опытной эксплуатации системы автоматизированного анализа текстов на русском языке «Lingster 3.0» было принято решение о ее дальнейшей модификации. Целью проводимой модификации системы «Lingster 3.0» является включение в нее модуля, использующего методы содержательной интерпретации полученных цифровых данных, — так называемый контент-анализ, а также доработку модуля статистического анализа текстов, направленную на возможность использования при анализе текстов аппарата проверки статистических гипотез.
Одной из проблем сравнительного статистического анализа текстов является кластеризация текстов (объединение текстов, близких по каким- либо признакам, в группы). В качестве признаков для сравнительного анализа текстов могут выступать определенные слова, словосочетания, длины слов, длины предложений, различные грамматические конструкции и прочее, частоту появления которых в тексте можно подсчитать. Такие признаки назовем частотными. Частоты появления признаков можно рассматривать как количественные характеристики текстов. Тексты, близкие по характеристикам, можно объединять в группы похожих по данным признакам. Однако характеризовать близость текстов непосредственно по наблюдаемым частотам некорректно из-за статистических отклонений частот, особенно заметных при малых объемах исследуемых текстов.
В связи с этим при модификации автоматизированной системы анализа текстов «Lingster 3.0» мы строим меру близости текстов («расстояния» между текстами) на основе принятия решений при проверке нулевой гипотезы H0 о равенстве генеральных частот одних и тех же признаков для каждой пары разных текстов против двусторонней альтернативы H1 об их неравенстве. Естественной характеристикой расхождения частот является достигнутый уровень значимости (р-уровень) критерия сравнения частот (например, хи-квадрат). Если р-уровень меньше критического (обычно равного 5%), принимается решение о статистически значимом различии частот (гипотеза H1). В противном случае принимается решение об отсутствии статистически значимого различия частот (гипотеза H0). Введем булеву переменную, которая в случае принятия гипотезы H1 принимает значение 1, а в противном случае — значение 0. Тогда при сравнении некоторого текста с набором других текстов (пусть всех текстов N, включая испытуемый) эта булева переменная станет N-мерным булевым вектором, компоненты которого принимают значения 0, если нет статистически значимого отличия частот признаков текстов (включая результат сравнения испытуемого текста с самим собой), и значение 1 в противном случае. Совокупность N таких векторов для всех текстов образует симметричную булеву индикаторную матрицу размерности NxN. Частота несоответствия элементов любых двух столбцов (или строк) индикаторной матрицы, соответствующих двум разным текстам, может служить мерой расстояния между этими текстами (известно, что она обладает всеми свойствами расстояния (Жамбю М. Иерархический кластер-анализ и соответствия М.: Финансы и статистика, 1988.)), на основе которой может быть корректно проведена кластеризация текстов.
Задача кластеризации текстов несколько осложняется, если сравнение текстов производится одновременно по нескольким разнородным признакам. В этом случае мы получим несколько булевых матриц описанного выше типа, каждая из которых соответствует одному из M рассматриваемых признаков. В качестве меры расстояния между текстами может быть использована суммарная частота рассогласования элементов любых двух одних и тех же столбцов (или строк) всех M индикаторных матриц.
Кроме работ практической направленности по созданию и модификации автоматизированной системы анализа текстов, в Институте криминалистики ведется большая теоретическая работа по построению статистических моделей текста и вероятностных характеристик норм языка.
Автор:
М.П. Захаров — старший научный сотрудник Института криминалистики ФСБ России.