Проблема создания методики идентификации иноязычных лиц

Лингвистическая экспертиза - Подать заявкуЛингвистическая экспертиза - Стоимость
Проблема создания методики идентификации иноязычных лиц

Проблема создания методики идентификации иноязычных лиц

Проблема исследования речи лиц, говорящих не на русском языке, с целью решения задачи их идентификации в последнее время чрезвычайно остро встала перед экспертными подразделениями правоохранительных органов. Вопрос возможности проведения идентификационных исследований по речи специалистом, не владеющим языком (диалектом), который используется идентифицируемым лицом, не нашел пока единого подхода к решению в экспертных учреждениях различных ведомств. В настоящей статье предлагается один из вариантов разрешения обозначенной проблемы с точки зрения специалистов Экспертно-криминалистического центра МВД России[1].

Анализ запросов о возможности проведения фоноскопической экспертизы на материалах иноязычной речи, поступивших в ЭКП ОВД России в 2006-2007 гг. из органов следствия в системе МВД России и прокуратуры, показал, что имеется насущная потребность идентификации лиц по речи на таких языках, как кабардинский, дагестанский, мегрельский, сванский, грузинский, чеченский, армянский, азербайджанский, узбекский, татарский, башкирский и т.д. Известно, что любой язык как система является уникальным по фонемному, лексическому и грамматическому строю, поэтому структура идентификационных признаков для всех уровней речевого исследования методами акустического и лингвистического анализов должна разрабатываться применительно к каждому языку или к группе сходных языков (с использованием результатов сравнительной лингвистики) специалистами в области каждого из исследуемых языков.

Лингвистическая экспертиза - Онлайн-заявка

Перечисленные языки можно распределить следующим образом: кавказские языки (по их географическому распространению), армянский, представляющий армянскую группу индоевропейской семьи языков, и тюркская семья языков. Так как только кавказские языки представлены абхазско-адыгской группой, нахскодагестанской группой и картвельской, в каждой из которых имеются свои разновидности языков и диалекты (общее количество кавказских языков и диалектов составляет более 35), а тюркская семья имеет не менее представительный перечень входящих в нее языков, становится очевидным, что задача обеспечения методической базы проведения идентификационных фоноскопических экспертиз лиц, говорящих не на русском языке, применительно к каждому конкретному языку недостижима в ближайшей перспективе. Поэтому рассмотрение возможности идентификации иноязычных дикторов должно начинаться с изучения фонологических систем интересующих исследователей языков, затем должно осуществляться выявление языков, обладающих сходством систем фонем, и разработка критериев оценки близости фонем этих языков, и только после этого можно решать вопрос о возможности создания методики, являющейся универсальной в применении к речи на сходных языках.

Современные данные [2] о восприятии речи свидетельствуют о том, что слушающий формирует окончательное представление о речевом сигнале в виде звуковой цепочки, интерпретируя физические данные с учетом имеющейся информации о звуковой системе языка, словарных знаний, контекста и т.д. Разделение речевого потока на какие-либо сегменты упирается прежде всего в проблему описательного исследования физических границ, присутствующих в акустическом и артикуляционном речевом потоке, аудитивного анализа и специальных правил и критериев соотнесения единиц языка с единицами речи.

Проблема создания методики идентификации иноязычного диктора имеет аналогию с исследованием и описанием неизвестных ранее языков или кодифицированием языков, не имеющих письменности, поэтому обратимся к опыту этих исследований, в частности описанию систем минимальных единиц (фонем) таких языков. В связи с новыми возможностями техники в 1960-е гг. перед исследователями языков встала задача четкого формулирования исходных понятий, в частности выделения в элементарных единицах языка (фонемах) «элементов элементов» — фонологических различительных признаков, по которым фонемы противопоставляются друг другу. Расширение возможностей применения технических средств при исследовании звуков речи позволило осуществлять исследование фонем языка в строгом соотношении между их акустическими и артикуляционными признаками. Так как основным критерием выделения фонем является языковое чутье носителя языка, фонологический подход всегда связан с обращением к языковой интуиции человека. Этот подход был осуществлен в изучении языков, не имеющих письменности (например, на материале кавказских языков — Усларом) [3], где исследователь производил деление звукового отрезка на звуковые единицы, а затем собирал данные, необходимые для фонологической классификации этих единиц, обращаясь к интуиции человека, говорящего на языке, совсем не известном исследователю. Обратная задача — соотнесение реальной последовательности звуков речи, воспринимаемых человеческим ухом и регистрируемых приборами, с абстрактной фонологической системой языка — была решена в 40-х гг. XX в. Р. Якобсоном в теории элементарных признаков фонем, которые могли быть выражены на языке объективных фонетических данных. В соответствии с теорией Р. Якобсона и его последователей число различительных признаков, пучки которых образуют одну фонему, не превышают 12: «Внутренние различительные признаки, обнаруживаемые в языках мира и лежащие в основе всего лексического и морфологического состава языков, сводятся к двенадцати бинарным противопоставлениям:

  1. гласный — негласный;
  2. согласный — несогласный;
  3. прерванный — непрерывный;
  4. глоттализованный -неглоттализованный;
  5. резкий — нерезкий;
  6. звонкий — глухой;
  7. компактный — диффузный;
  8. низкий — высокий;
  9. бемольный — простой;
  10. диезный — простой;
  11. напряженный — ненапряженный;
  12. носовой — неносовой».

Согласно теории Р. Якобсона сочетаемость или несовместимость этих признаков в одном и том же языке или в одной и той же фонеме определяется законами импликации, которые обладают статистически высокой вероятностью и имеют следующий вид:

X имплицирует наличие Y и (или) отсутствие Z.

Таким образом, законы импликации дают возможность произвести стратификацию фонологических систем и свести их кажущееся разнообразие к ограниченному набору структурных типов, разбивая фонему на внутренние различительные признаки (минимальные дискретные сигналы). Если свести эти признаки к таким, которые требуют ответов «да-нет», то фонологическую систему любого языка можно представить в виде таблицы аналитической транскрипции. Важно при составлении аналитической транскрипции фонем языка определять количество значимой информации, отграничивая значимые признаки от избыточных. Кроме того, можно помечать возможность объединения двух противоположных значений в одной фонеме знаком ±. Нам представляется, если фонологическая система каждого языка будет описана таким образом, то изменение любого из описанных различительных признаков может иметь значение для определения междикторской или внутридикторской вариативности речи говорящих на исследуемом языке.

Существенно, что предложенные Р. Якобсоном, Г.М. Фантом и М. Халле различительные признаки имеют акустические корреляты, представляющие собой источник информации в оптимальном наборе параметров. «Анализ речи показывает, что в различных языках мира для передачи смысловых различий используется лишь весьма ограниченное число характеристик источника и передающей функции». Исследователями описаны два основных типа источников — периодические источники (опознаются по гармонической структуре спектрограммы) и источники шума (дающие нерегулярное распределение энергии во временном измерении). При произнесении одной фонемы могут одновременно действовать источники обоих родов, в таком случае один из них локализован в гортани (голос), другой находится в точке максимального сужения голосового тракта выше гортани и производит антирезонанс в передающей функции. Важно также изучение спектральной картины способа включения и выключения источника (различаются резкие и ровные приступы и завершения фонем).

В соответствии с предложенным Р. Якобсоном, Г.М. Фантом и М. Халле описанием различительных признаков фонем исследователь языка может получить представление:

  • о спектральной картине различительного признака фонемы (акустическом корреляте);
  • об артикуляции (образовании) фонемы, обладающей различительным признаком;
  • о восприятии на слух различительного признака фонемы;
  • о распространенности данного различительного признака в различных языках или диалектах одного языка.

Современные лингвисты, специализирующиеся в области экспериментальной фонетики, такие, например, как Потапова [4], при проведении исследований внутридикторской и междикторской вариативности руководствуются подходом, разработанным Р. Якобсоном, Г.М. Фантом и М. Халле.

На основании вышеизложенного предварительные условия исследования звучащей речи на языке, неизвестном исследователю, таковы. Если описание аналитической транскрипции фонем языка и его диалектов производится специалистами в области лингвистики и акустики речи, являющимися носителями языка и знающими его диалектные разновидности, или специалистами-лингвистами и акустиками, не владеющими языком, но в тесной взаимосвязи с носителями языка с опорой на их языковую интуицию, то из этих представлений может быть составлена объемная картина фонологической системы языка, которая может служить опорой для восприятия звуковых единиц не только носителями исследуемого языка.

Итогом описания фонологической системы языка при таком подходе должен быть атлас всех фонем языка, включающий акустическое, артикуляционное, перцептивное представление о каждом различительном признаке фонемы исследуемого языка и его диалектных разновидностей, а также о взаимозависимостях между различительными признаками в пределах фонемы и всей фонологической системы. К слову сказать, количество фонем некоторых кавказских языков составляет 70-80 (максимальная представительность по сравнению с другими языками), поэтому можно предположить, как велик объем работ по составлению и описанию атласа фонем каждого кавказского языка. Так как фонемы как языковые единицы проявляются во взаимодействии друг с другом, Р. Якобсоном предлагается элементарная фонологическая модель — слог СГ (согласная + гласная), являющаяся единственной универсальной моделью. Таким образом, решение проблемы исследования речи иноязычного диктора включает необходимое условие (условие №1) — составление атласа фонем используемого им языка (при наличии диалектов — диалектных разновидностей), позволяющего проводить комплексное идентификационное исследование сегментных единиц речи экспертом-лингвистом и экспертом-акустиком.

Другое необходимое условие для решения вопроса о создании методики в случае выполнения условия №1 — сбор и обработка экспериментального речевого материала. С учетом опыта создания речевой базы, реализованного при создании автоматизированной системы «Диалект», следует производить сбор массива речевых представлений лиц следующим образом. Должно быть проведено несколько десятков сеансов записи речи 1 лица, при этом каждый сеанс отделен от другого промежутком времени; количество лиц, представляющих речь на родном языке должно быть не менее 35, представительность речи каждого лица — не менее 3 минут свободной диалоговой речи и 2 минут подготовленной (чтения или монолога) за каждый сеанс записи, при наличии диалектных разновидностей — по 25-30 лиц на каждую разновидность языка. Таким образом, для создания экспериментального массива речи лиц, использующих кавказские языки (из расчета не менее 35 языков и их диалектных разновидностей), должно быть собрано порядка 24 500 записей, общей длительностью около 2 000 часов звучания. Эти записи требуют обработки с участием специалистов-носителей языка — перевод, сегментация, выделение звуков, соотнесение их с фонемами и т.д. Для разработки математического алгоритма принятия решения по результатам акустического анализа (по опыту создания системы «Диалект») использовался речевой материал нескольких тысяч дикторов, говорящих только на русском языке, поэтому вес каждого из 645 акустических признаков и порог принятия решения статистически был рассчитан применительно к русской речи. Так как подобного математического алгоритма, пригодного для исследования речевых сигналов иноязычных лиц, не существует, для разработки системы признаков интегрального и микроанализа для получения пороговых значений для принятия решения необходимо проведение квалифицированного исследования всех полученных экспериментальных фонограмм с учетом междикторской и внутридикторской вариативности. Особо отметим, что экспериментальный речевой материал должен иметь технические параметры, соответствующие требованиям, предъявляемым к типовым фонограммам (частотный диапазон не менее 300-3400 Гц, среднее отношение сигнал/шум — не менее 15 дБ, длительность отсегментированных речевых сигналов — не менее 100 сек, также должны отсутствовать существенные нелинейные искажения сигналов). Следовательно, исследование иноязычного диктора возможно в случае сбора и обработки массива представительного экспериментального речевого материала (условие № 2).

Очевидно, что для адекватного восприятия речи говорящего необходимо иметь фонематический слух. В случае с восприятием речи диктора, говорящего на неизвестном исследователю языке, слух исследователя может не различать нюансов произнесения фонем, в частности их различительных признаков, отсутствующих в системе языка, которым владеет исследователь. В таком случае исследователь может опираться на спектральные характеристики различительных признаков фонем. Например, по признаку глоттализованный смычный (с точным срезом в конце согласного звука на спектрограмме) — неглоттализованный (с постепенным завершением) в черкесском языке противопоставляются различные слова, имеющие для носителя русского языка сходное звучание, но различающиеся по спектральной картине:

/t’a/ «копай!» — /ta/ «мы»,

/c’a/ «имя» — /са/ «зуб»,

/р’а/ «место» — /ра/ «задыхайся!».

Другой пример касается такого различительного признака фонем, как резкий — нерезкий согласный, различающиеся противопоставлением на спектрограммах формами волн — регулярной (для нерезких) или нерегулярной, неправильной (для резких), при этом, если рассматриваемые звуки должным образом нормализованы, нерезкие звуки будут иметь большую автокорреляцию, чем соответствующие резкие. В русском языке существенным и постоянным является лишь противопоставление смычный — фрикативный, а резкость является избыточной, так как система фонем содержит класс резких смычных (аффрикат). Языки Северного Кавказа имеют все четыре члена противопоставления, в них имеется резкий фрикативный, нерезкий смычный, нерезкий фрикативный и резкий смычный, таким образом, различаются два независимых противопоставления: «фрикативный — смычный» и «резкий — нерезкий», аналога которого нет в русском языке. Следует признать, что некоторые различительные признаки фонем являются универсальными, например признак компактности — диффузности гласных.

Решение задачи исследования речи говорящих на языке (диалекте), неизвестном исследователю, может быть осуществлено с использованием автоматического распознавания фрагментов речи, основанного на спектральном анализе акустических коррелятов различительных признаков фонем, в частности формант гласных. Однако в выявлении формант имеется сложность, связанная с необходимостью учета коартикуляционных процессов в речевом потоке. Идеальный алгоритм определения положения формант должен был бы сначала проводить распознавание фонем, а уже потом определять положения формант, учитывая взаимное влияние фонем. На XVI Международной научной конференции «Информатизация и информационная безопасность правоохранительных органов», проходившей в мае 2007 г. в Академии управления МВД России, М. Лобановой был представлен доклад «Разработка метода сравнительной оценки близости дикторов на основе треугольника Фанта», в котором исследователь предложила новый метод поиска близких по своим формантным характеристикам речевых фрагментов при проведении исследований внутридикторской и медждикторской вариативности[5]. Разработка данного метода началась в рамках работы по созданию универсального комплекса для автоматизации проведения фоноскопической экспертизы (НИОКР «Сапфир» для МВД России). Разрабатываемый метод сориентирован на получение изображения треугольника Фанта на скатерограммах, где автоматическим алгоритмом определяются и нумеруются все возможные пары формант (а именно — первая и третья, вторая и третья, а также пара формант, имеющих наибольшую интенсивность в спектре) в речи одного диктора или сравниваемых лиц. Таким образом, формируется «треугольник» внутридикторской или междикторской вариативности. М. Лобанова предлагает сравнивать положения вершин треугольников, обосновывая данное предложение тем, что сравнение дикторов в вершинах треугольника соответствует сравнению их в формантных областях, отвечающих различающимся (экстремальным) положениям артикуляционных органов. «Эти экстремальные положения можно считать (с некоторой долей приближения) как бы ортогональным базисом в пространстве реализаций гласных фонем» [6]. Нам представляется, данный метод удобен для проведения сравнительных исследований в силу своей наглядности и многомерности, однако применение в настоящее время этого метода ограничено отсутствием критериев для сравнения.

Становится очевидным, что специалист, исследующий речь на неизвестном языке, может стать лишь оператором в той или иной степени автоматизированной системы распознавания фрагментов речи, и его работа определяется точностью описания фонем и поиска идентичных фрагментов. Учитывая вышеизложенное, исследование иноязычного диктора возможно при условии (условие №3) решения проблемы автоматизированного распознавания идентичных фрагментов речи (не менее слога) для исследования внутридикторской и междикторской вариативности.

Не менее важным вопросом в рамках проблемы идентификации лица, использующего не знакомый эксперту язык, является необходимость выделения и описания признаков голоса, о также извлечения характеристик говорящего на основе этих признаков. Кроме фонетики, «в речевом сигнале отражаются и остальные аспекты речи: интонация, эмоции, функциональное состояние органов речеобразования, физиологическое, психологическое и интеллектуальное состояние говорящего. Поэтому если суммировать всю информацию, содержащуюся в речевом сигнале, то показатель будет весьма высоким. Каким — пока еще не известно» [7]. Здесь так же, как и при исследовании сегментного уровня, возможен комплексный подход в решении проблемы идентификации. Исследования российских ученых (Щукина, Манерова, Галунова) [8] показали, что имеется определенная зависимость между некоторыми характеристиками облика говорящих (возраст, телосложение) и характеристиками (спектральными и аудитивно воспринимаемыми) их голоса.

По результатам НИОКР «Облик» в МВД России в 2007 г. было выявлено, что применение акустического метода исследования признаков голоса и в ручном, и в автоматическом режиме может дать определенный положительный результат на речевом материале достаточного объема и лингвистической представительности, применение метода экспертных оценок может давать устойчивый положительный результат при условии представительности лингвистического материала и наличия специальной подготовки экспертов, осуществляющих оценку обликовых признаков. При решении задачи идентификации лиц, говорящих не на русском языке, не исключена возможность использования комплексного метода раздельного определения обликовых характеристик и последующего их сравнения. Однако комплексный метод определения обликовых характеристик как криминалистически значимой информации пока не может считаться надежным и требует значительной доработки.

В 2005-2006 гг. в ЭКЦ МВД России была проведена научно-исследовательская работа по криминалистическому исследованию признаков голоса, результатом которой явились методические рекомендации [9]. В указанной работе нами были предложены способы оптимизации описания особенностей речевого голоса и навыков речеобразования для решения идентификационных и диагностических задач. На основе созданной базы структурного исследования голоса расширены критерии оценки его свойств и систематизированы особенности, обусловливающие тембрально-мелодические характеристики.

Методические рекомендации были успешно внедрены в практику производства фоноскопических экспертиз и активно используются в системах регионального фоноучета. Разработанная схема анализа компонентов тембра является лингвонезависимой, однако требует апробации и дополнения компонентами тембра, которые, возможно, могут быть выявлены в речи лиц, говорящих на языке, отличающемся составом и различительными признаками фонем. Так, например, присутствие в кавказских языках такого явления, как глоттализация фонем, безусловно, накладывает отпечаток на тембральные характеристики голоса и требует особого исследования. Следовательно, для решения проблемы идентификации лица, говорящего не на русском языке, необходимо проведение дальнейших масштабных исследований по использованию характеристик речевого голоса для комплексного описания его свойств и извлечения криминалистически значимой информации, что является также необходимым условием (условие № 4) создания методики.

Если принять в качестве исходной позиции, что решение вопроса о возможности проведения комплексных сравнительных исследований сегментных единиц речи говорящих не на русском языке (в случае выполнения условий № 1-4) возможно, то вопрос о возможности комплексного анализа признаков уровня фразы и слова при проведении исследования по иноязычной речи на языке, не понятном эксперту, остается пока открытым.

Так как предложенная концепция исследования речи иноязычных дикторов базируется на анализе сегментных единиц речи и криминалистически значимой информации голоса, сравниваемые фонограммы должны соответствовать высоким критериям качества и сопоставимости фонограмм, в противном случае результаты исследования могут быть некорректными. Поэтому в рамках выполнения условий 1-4 мероприятия по созданию методики следует организовывать по следующим направлениям:

  • привлечение ведущих ученых и специалистов в области речевых технологий;
  • подбор и обучение специалистов, владеющих исследуемыми языками, для формирования и обработки экспериментального массива материалов устной иноязычной речи;
  • рассмотрение возможности обучения (в период создания методики) иноязычных специалистов общим методам и подходам проведения идентификационного исследования для привлечения их в дальнейшем в качестве экспертов;
  • обеспечение надлежащего методического сопровождения каждого этапа создания методики;
  • подбор наиболее точных способов визуализации звучания речевых сегментов, позволяющих максимально приблизить форму частотно-временного амплитудного описания к качеству слухового восприятия, таких как, например, способ описания сигнала с помощью сонелей, предложенный профессором В. Женило ;
  • разработка новых методов исследования визуализированных фрагментов речи;
  • рассмотрение проблемы принятия решения по той совокупности признаков, которую эксперт, не владеющий языком, выявляет в речи иноязычных лиц, и алгоритма формулирования категорированных выводов.

Резюмируя вышеизложенное, можно сказать, что решение проблемы создания методики идентификации лиц, говорящих не на русском языке, принципиально возможно, и специалисты ЭКЦ МВД России, начиная с 2004 г. по настоящее время, организуют и проводят мероприятия по различным направлениям исследования данной проблемы, которые легли в основу настоящей концепции создания методики.

Автор:
Т. В. Назарова — Зам. начальника отдела ЭКЦ МВД России.


  1. Существует другое, вполне обоснованное, мнение экспертов, что проведение фоноскопических экспертиз (идентификационных либо по установлению признаков монтажа, либо по установлению дословного содержания разговоров) на материалах любого нерусского языка в принципе невозможно и должно осуществляться только специалистами-носителями исследуемого языка.
  2. Кодзасов C.B., Кривнова О.Ф. Общая фонетика. М., 2001.
  3. Новое в лингвистике. М., 1962. Вып. II.
  4. Потапова Р.К. Экспериментально-фонетическое исследование сегментного уровня языков: Текст лекций спецкурса МГУ. М., 1979.
  5. Однако автоматическое определение положения различительных признаков фонем, имеющих спектральные корреляты, — довольно сложная задача, и можно утверждать, что в настоящее время не существует ни одной автоматической системы, безошибочно ее решающей.
  6. Информатизация и информационная безопасность правоохранительных органов: Материалы XVI Международной конференции. М., 2007.
  7. Женило В.Р. Компьютерная фоноскопия. М., 1995.
  8. Автоматическое распознавание слуховых образов: Материалы Арсо-15. Tallinn, 1989.
  9. Хуртилов В.О., Назарова Т.В., Лебедев К.А., Авдюхина О.А., Алешина В.А. Криминалистическое исследование тембрально-мелодических характеристик голоса и речи: Методич. рекомендации. М., 2007.
Нашли в тексте ошибку? Выделите её, нажмите Ctrl + Enter, и мы всё исправим!