Исследование речевого тракта при идентификации личности

Лингвистическая экспертиза - Подать заявкуЛингвистическая экспертиза - Стоимость
Инструментальное исследование характеристик источника возбуждения речевого тракта при идентификации личности

Инструментальное исследование характеристик источника возбуждения речевого тракта при идентификации личности

Характерной особенностью криминалистической идентификации личности по голосу и звучащей речи является то, что в процессе решения этой задачи органически переплетаются методы и приемы различных наук, лежащих в основе прикладной лингвистики. Именно этим объясняется тот факт, что части единого комплексного идентификационного исследования находятся в отношениях взаимодополнения и (частично) взаимосоответствия.

Не останавливаясь в данной статье подробно на анализе аудитивных и лингвистических идентификационных признаков, характеризующих личность говорящего, затронем здесь только такой важный аспект инструментальной части исследования, как анализ акустических признаков, характеризующих функционирование источника возбуждения речевого тракта конкретного индивидуума.

Из работы Г. Гельмгольца[1] известно, что процесс речеобразования состоит из двух независимых компонентов: возбуждения звука как такового и формирования акустического качества звука за счет возбуждения резонансных частот артикуляционного тракта (у Гельмгольца) или фильтрации (в современном рассмотрении).

Лингвистическая экспертиза - Онлайн-заявка

В соответствии с такой моделью логичным представляется подход, при котором первый этап инструментальной части идентификационного исследования личности говорящего направлен на оценку индивидуальных акустических признаков, характеризующих функционирование источника возбуждения его речевого тракта. В частности, на первом этапе оцениваются такие характеристики источника, как среднее, максимальное и минимальное значения частоты основного тона (ЧОТ) голоса индивидуума; значение относительного диапазона изменения основного тона (D), за который принимают величину, равную отношению максимальной ЧОТ (среднее значение ЧОТ плюс удвоенное значение среднеквадратичного отклонения (СКО)) к минимальной (среднее значение ЧОТ минус удвоенное значение СКО). На этом же этапе исследования целесообразно оценить временные характеристики речи индивидуума: темп речи (количество слогов в единицу времени) и (или) среднезвуковую длительность. Известно, что указанные характеристики отражают не только анатомию речевых складок, но и определенные речевые навыки говорящего.

В параметрах основного тона голоса и временных характеристиках речи находят свое отражение функционально-динамические комплексы (ФДК) навыков, носителем которых является тот или иной говорящий[2]. С юридической точки зрения ФДК навыков индивидуума занимают значительный объем в системе материальных источников информации, используемой в доказывании.

ФДК навыков — это явление психофизиологической природы. Сущность таких комплексов составляют навыки или системы навыков совершения определенных действий (осуществления деятельности). Под навыком принято понимать «умение выполнять целенаправленные действия, доведенные до автоматизма в результате сознательного многократного повторения одних и тех же движений или решения типовых задач в производственной или учебной деятельности»[3]. Таковы, в частности, навыки речи, письма, ходьбы и т.д. В артикуляторном укладе, в почерке, в походке проявляются ФДК навыков конкретного индивидуума.

Будучи материально отображенными в обстановке расследуемого события, ФДК навыков служат источниками криминалистической информации.

Обращаясь к рассматриваемой нами задаче, отметим, что криминалистическая идентификация — это установление наличия или отсутствия тождества того или иного материального объекта (в данном случае — человека) по его отображениям. Интуитивно ясно, что для установления указанного тождества в качестве идентификационных следует использовать лишь устойчивые признаки, которые могут быть выявлены путем анализа ФДК навыков[4].

Первый этап инструментальной части идентификационного исследования личности говорящего включает в себя:

  • анализ характеристик основного тона и статистических параметров его огибающей, отражающих ФДК навыков говорящего (в том числе и в условиях ограниченного объема речевого материала);
  • получение абсолютных и относительных характеристик основного тона как критериев оценки свойств источника возбуждения речевого тракта индивидуума;
  • сравнительное исследование идентификационной значимости («веса») и устойчивости абсолютных и относительных характеристик основного тона как идентификационных признаков говорящего.

Перейдем к рассмотрению поставленных вопросов.

Определение характеристик основного тона и статистических параметров его огибающей представляет собой достаточно сложную и трудоемкую задачу и требует отдельного рассмотрения.

Известно, что в процессе голосообразования вырывающаяся из голосовой щели воздушная струя благодаря эффекту Бернулли приводит достаточно близко сведенные голосовые связки в колебательное движение. В результате этого на выходе гортани образуются колебания воздуха, воспринимаемые ухом как звуки голоса, которые характеризуются высотой, силой и тембром. Если сила и тембр, проходя через надгортанные полости, значительно видоизменяются в зависимости от параметров этих полостей, то высота голоса — частота смыкания складок[5] — сохраняется, представляя собой одну из основных индивидуальных особенностей голоса. Таким образом, ЧОТ остается стабильным показателем.

Параметры частоты основного тона связаны, с одной стороны, с анатомическими характеристиками голосовых складок, а с другой — с устойчивыми динамическими стереотипами управления голосовым источником, т.е. с упомянутыми выше функционально-динамическими комплексами навыков звучащей речи.

Кроме того, следует отметить тот факт, что в параметрах частоты основного тона находит свое отражение психофизиологическое состояние и семантика речи говорящего. Соглашаясь с О.Ф. Кривновой, можно сказать, что огибающую основного тона индивидуума (F0), т.е. мелодическую кривую, следует рассматривать как акустический комплекс, окончательный вид которого обусловлен достаточно разнородными явлениями[6]. Так, например, максимальный диапазон ЧОТ характеризует фразовый выделительный акцент, который является выражением максимально важного в рамках высказывания[7].

Опыт работы с многообразием речевого материала реальных криминалистических экспертиз показал, что такие параметры частоты основного тона, как F0 — значение средней частоты основного тона (ЧОТ) [Гц]; F0 max — максимальное значение ЧОТ [Гц]; F0 min — минимальное значение ЧОТ [Гц]; σF0 — среднеквадратическое отклонение средней ЧОТ; DFo — относительный диапазон изменения ЧОТ, показали свою устойчивость, в силу чего они могут быть использованы в качестве идентификационных признаков, характеризующих личность говорящего.

С целью иллюстрации устойчивости идентификационных признаков, характеризующих работу голосовых складок индивидуума, рассмотрим сравнение характеристик среднего значения частоты основного тона (F0) и относительного диапазона изменения основного тона[8] (DFo) на примере реальных экспертиз.

Для сравнительного анализа были выбраны материалы тех исследований, в которых речевая ситуация исходных записей (в основном телефонных разговоров) не совпадала с речевой ситуацией, характерной для получения образцов голоса и речи фигурантов экспертиз (образцы представляли собой, как правило, беседу со следователем или допрос фигуранта в судебном заседании).

В первом случае мы имели дело с диалогической речью в частотном диапазоне 0…3500 Гц, во втором — с монологической и диалогической речью в частотном диапазоне 0…5000 Гц и выше[9].

Статистический анализ, проведенный по результатам целого ряда экспертных исследований, показал, что средневзвешенное относительное отклонение[9] средних значений ЧОТ (F0) исходных и сравнительных записей составило 12,8%. В то же время средневзвешенное относительное отклонение относительного диапазона изменения основного тона (DFo) на данной выборке составило менее 5,4% (поясним, что для оценки полученных результатов была использована метрика:
issledovanie-rechevogo-trakta-pri-identifikacii-lichnosti-1 показывающая средневзвешенное относительное отклонение по сумме анализируемых параметров в процентах).

Хотя и тот, и другой показатели в силу своей устойчивости находятся в пределах внутридикторской вариативности, из приведенных результатов видно, что относительный диапазон изменения основного тона явился в данном случае более «сильным» идентификационным признаком, чем среднее значение частоты основного тона. Другими словами, можно сказать, что как идентификационный признак относительный диапазон изменения основного тона обладает большим «весом», чем среднее значение частоты основного тона.

Важно пояснить, что в каждой из экспертиз, включенной в анализируемую выборку, выявленные в результате тотального анализа звучащей речи идентификационное признаки составляли устойчивый по статистическим данным комплекс, достаточный для установления индивидуально-конкретного тождества между голосом того диктора, речевая продукция которого была зафиксирована на фонограммах исходных разговоров (в телефонном тракте), и голосом фигуранта, образцы которого были представлены для сравнения (тракт записи обычного звукозаписывающего устройства).

Далее из проанализированной выборки следует отобрать те случаи, в которых в качестве исходных записей были представлены телефонные разговоры фигурантов, проводимые по мобильным телефонам в условиях наличия в телефонном тракте сотовой связи шумов и помех.

Статистический анализ относительных отклонений среднего значения частоты основного тона речевого материала исходных записей от средней ЧОТ образца, проведенный по результатам исследования около 50 фигурантов реальных экспертиз, показал, что средневзвешенное относительное отклонение среднего значения ЧОТ составило 18,3%, т.е. оказалось близким к предельно допустимой внутридикторской вариативности. В то же время средневзвешенное относительное отклонение относительного диапазона изменения основного тона[11] по метрике (1) на данной выборке составило всего 3,8 %.

Полученные данные могут быть объяснены большими различиями в речевой ситуации исходных и сравнительных записей: наличием шумов и помех в трактах мобильной связи, что повлекло за собой форсирование голоса и, как следствие, значительные изменения параметров ЧОТ (среднее значение основного тона было выбрано нами лишь в качестве примера), в то время как образцы звучащей речи фигурантов были получены в кабинете следователя с помощью обычного бытового магнитофона и не требовали форсирования голоса.

Приведенные данные являются типичными в том смысле, что в процессе проведения инструментальной части исследования идентификационных акустических признаков, характеризующих функционирование источника возбуждения речевого тракта говорящего, необходимо учитывать тот факт, что речевой материал, полученный в результате оперативно-розыскных мероприятий, и образцы голоса и речи фигуранта, записанные в ходе следствия или судебного заседания, оказываются во многих случаях трудно сопоставимыми по речевой ситуации и условиям записи. Чаще всего в первом случае приходится сталкиваться со спонтанной эмоционально окрашенной речью, во втором — с чтением текста юридического или исторического характера, а также с рассказом автобиографии. Кроме того, низкое качество записи (наличие на фонограмме сильных шумов, помех и частотных искажений) также усложняет проведение идентификации. Достаточно отметить, что при воздействии акустического шума с уровнем около 80-90 дБ уровень речи говорящего возрастает на 10-15 дБ по сравнению с нормой[12]. При этом значения формант, форма спектра речевого сигнала (и тембр) заметно изменяются, в силу чего спектральный анализ часто оказывается невозможным.

В этих ситуациях роль тех идентификационных признаков инструментальной группы, которые связаны с анализом основного тона и статистических параметров его огибающей, значительно возрастает, поскольку современные звуковые анализаторы обеспечивают устойчивое выделение контура основного тона на фоне шумов.

В практике криминалистической идентификации личности говорящего в экспертных учреждениях различных министерств и ведомств накоплен значительный опыт акустического анализа фонограмм и их инструментальной обработки с применением различных аппаратно-программных комплексов, например комплекса SIS, разработанного Центром речевых технологий (г. Санкт-Петербург)[13], а также программных пакетов последнего поколения «Юстифон» (г. Орел) и «OTExpert» (г. Москва). При разработке этих программных пакетов были использованы подходы, применяемые в СЭУ Минюста России. В упомянутых средствах инструментального исследования в качестве идентификационных признаков рассматриваются и признаки, связанные с анализом основного тона.

Полученные результаты свидетельствуют о важной различительной роли параметров основного тона, которые (благодаря своей стабильности) широко используются при решении задачи криминалистической идентификации личности по голосу и звучащей речи. Это положение убедительно иллюстрирует мысль Э. Локара о том, что для установления наличия или отсутствия тождества того или иного материального объекта (в данном случае — человека) по его отображениям могут быть использованы лишь стабильные характеристики[14].

Продолжим исследование первой независимой компоненты процесса речеобразования по Г. Гельмгольцу и сравним акустические характеристики речи по признаку F0 в разных речевых условиях и в разном эмоциональном состоянии говорящего.

В качестве примера рассмотрим характеристики частоты основного тона, полученные при чтении в нормальном темпе текста-образца фигурантом I (мужчиной)1, с одной стороны, и характеристики ЧОТ для спонтанной диалогической речи этого же фигуранта, записанной в ходе оперативно-розыскных мероприятий, — с другой.

Запись образца производилась в ходе следствия в служебном помещении, запись спонтанной речи — в условиях воздействия шумов при заметном эмоциональном возбуждении участников исходного диалога (собеседники спорили о сумме взятки). Характеристики основного тона сильно отличались друг от друга: среднее значение частоты основного тона для фонограммы-образца равно 109 Гц, для исходной записи — 125 Гц. Такое отличие характеристик ЧОТ объясняется неодинаковой речевой ситуацией: спонтанная разговорная речь (СРР) фигуранта I в исходной записи и чтение текста в пассивном, пониженном эмоциональном состоянии этим же диктором в образце.

Различались и временные характеристики сравнительной и исходной записей: в первом случае (в исходном разговоре) темп речи оказался равным семи-восьми слогам в секунду, а во втором (при чтении) — около шести.

Диалогическая разговорная речь типична для условий неофициального личного общения собеседников. Для такой речи характерно наличие импровизации, пауз, частое использование незнаменательной лексики (так называемых слов-«сорняков»).

Анализируемый диалог проходил при непосредственном контакте собеседников, т.е. поддерживался мимикой, жестами, сигналами членения — паузами и др. Стиль произношения фигуранта I — беглый, артикуляция нечеткая, наблюдается сильная редукция гласных в слабых неударных слогах (не плат[ят], ты/с[яч]) значительная вариативность произношения согласных, сопровождающаяся редукцией согласных в интервокальном положении, упрощением групп из двух-трех звуков, особенно в высокочастотных словах, в позиции конца слова (это са[мое]).

Интересно отметить, что параметры частоты основного тона фигуранта I для выборки, составленной в процессе исследования, из отдельных функционально ненагруженных слов (так называемых слов-«сорняков») исходной записи общей длительностью 6 с (табл. 1, столбец 1б), оказались заметно ближе к параметрам фонограммы-образца (т.е. к чтению фигурантом I, находившимся в пассивном, пониженном эмоциональном состоянии, предложенного ему следователем текста) по сравнению с данными, полученными для непрерывного отрезка этой же исходной записи длительностью 13 с (табл. 1, столбец 1а). Последнее объясняется тем, что эмоциональная окраска высказываний в первом случае была близка к нейтральной (афункциональная лексика в данном примере не несла эмоциональной нагрузки, поскольку использовалась фигурантом I только в качестве слов-связок. Голосовые складки при произнесении этих слов не были напряжены). Во втором случае (непрерывный отрезок записи длительностью 13 с) эмоциональная окраска высказываний фигуранта I в целом несла характер угрозы.

issledovanie-rechevogo-trakta-pri-identifikacii-lichnosti-2

Оценка меры близости просодических характеристик речи выборок 1а и 1б речевого материала исходной записи к характеристикам образца, проведенная с использованием метрики (1), показывает, что средневзвешенное относительное отклонение параметров ОТ и темпа речи выборок исходного речевого материала от соответствующих параметров фонограммы-образца составляет соответственно 14,5 % и 8,7%.

Хотя и тот, и другой показатели находятся в пределах внутридикторской вариативности, из приведенных результатов видно, что во втором случае, т.е. на выборке 1б, составленной из эмоционально ненагруженных слов-«сорняков» (это самое; это самое, значит) и нецензурной лексики, значения анализируемых характеристик ЧОТ оказались по применяемой метрике (1) заметно ближе к значениям сравнительной записи, чем значения этих же характеристик на исходном материале в целом. Данный факт объясняется тем, что случай 1б оказался ближе к образцу по эмоциональной окраске высказываний: для случая 1б характерна пониженная четкость артикуляции и ослабленная интонационная выразительность речевого материала, свойственные в данном контексте незнаменательной лексики.

Возвращаясь к обсуждению речевого материала фонограммы-образца, заметим, что подготовленная разговорная речь (далее — ПРР) является результатом чтения текста полным стилем произношения в нормальном темпе. Интонационно звучание фраз и четкая артикуляция сближает ПРР по фонетическим характеристикам с кодифицированной литературной речью[15].

Отметим, что характеристики ПРР при чтении в быстром темпе выглядят иначе: артикуляция становится нечеткой, мелодическое оформление фраз менее выразительным. Для иллюстрации сказанного в табл. 2 приведены данные, полученные в описанном выше исследовании для собеседника фигуранта I — фигуранта II.

issledovanie-rechevogo-trakta-pri-identifikacii-lichnosti-3

Напомним, что исходная запись речи фигуранта II сделана на шумной улице (отношение сигнал/шум менее 10 дБ), диалог фигуранта II с собеседником (т.е. с фигурантом I) характерен для разговорной спонтанной речи: в речи обоих участников разговора наблюдаются речевые сбои, форсирование голоса и употребление экспрессивно-выразительных речевых средств. Образцы голоса и речи фигуранта II получены следователем в служебном помещении и по своим признакам характерны для подготовленной речи: чтение подготовленного текста в ускоренном темпе — столбец 2а и рассказ автобиографии — столбец 2б.

Проанализируем приведенные данные. Параметры речи фигуранта II при ускоренном темпе чтения — столбец 2а — оказались ближе к исходной записи по сравнению с рассказом на заданную тему — столбец 2б. Оценка меры близости акустических и временных характеристик речи исходной записи к характеристикам образцов показывает, что средневзвешенное относительное отклонение параметров ОТ и темпа речи исходного речевого материала от соответствующих параметров фонограмм-образцов составляет соответственно 0,9 % и 13,6%. Хотя и тот, и другой показатели находятся в пределах внутридикторской вариативности, из приведенных результатов видно, что в первом случае, т.е. при убыстренном темпе чтения, значения анализируемых характеристик ЧОТ оказались заметно ближе к значениям исходной записи, чем значения этих же характеристик при рассказе на заданную тему. Этот факт объясняется характерной для первого случая пониженной четкостью артикуляции и ослабленной интонационной выразительностью из-за убыстренного темпа речи.

Таким образом, правильно выбранные методы отбора речевого материала, предназначенного для анализа параметров основного тона, могут оказать существенную помощь в проведении той части криминалистического идентификационного исследования личности говорящего, которая связана с анализом характеристик источника возбуждения его речевого тракта.

Приведенные примеры показывают, что определение численных характеристик идентификационных признаков, связанных с анализом основного тона, сопряжено со значительными трудностями. Эти трудности вызваны не только описанными выше случаями плохой сопоставимости реального речевого материала исходных и сравнительных записей[16], но и тем, что наличие на фонограммах сильных шумов, помех и искажений еще больше усложняет проведение инструментальных измерений.

В то же время полученные результаты доказывают, что при правильном подборе речевого материала исходных и сравнительных записей (методы и приемы подбора речевого материала для анализа определяются качеством и объемом имеющихся в распоряжении эксперта исходных и сравнительных фонограмм), а также при надлежащем контроле полученных в процессе исследования результатов анализ индивидуальных акустических признаков, характеризующих функционирование источника возбуждения речевого тракта говорящего, дает возможность выявления тех устойчивых идентификационных признаков инструментальной группы, которые связаны с просодическими характеристиками речи.

Автор:
А. Ш. Каганов — Зав. лабораторией РФЦСЭ при Минюсте России, канд. техн. наук, с.н.с.


  1. Helmholts H. Die Lehre von den Tonempfindungen als physiologische Grundlage fir die Theorie der Musik, Braunschweig, 1870.
  2. Орлова В.Ф. и др. Основы судебной экспертизы. М.: РФЦСЭ, 1997.
  3. Советский энциклопедический словарь. М., 1979.
  4. Каганов А.Ш. Перцептивный и акустический аспекты криминалистической идентификации личности по голосу и звучащей речи. Н. Новгород: ПРЦСЭ, 2006.
  5. Более точным представляется говорить именно о голосовых складках, а не о голосовых связках, поскольку анатомически голосовая связка — это только тонкая перепонка, идущая по краю голосовой складки.
  6. Кривнова О.Ф. Составляющая несущего тона в структуре мелодической фразы // Исследования по структурной и прикладной лингвистике. М.: МГУ, 1975.
  7. Изард К.Э. Психология эмоций. СПб.: Питер, 2006.
  8. За значение относительного диапазона изменения частоты основного тона (DFo) принята величина, равная отношению максимального значения ЧОТ (среднее значение ЧОТ плюс удвоенное значение СКО) к минимальному (среднее значение ЧОТ минус удвоенное значение СКО).
  9. Верхняя граница диапазона в первом случае ограничена параметрами телефонного тракта, во втором — частотной характеристикой канала записи звукозаписывающего устройства.
  10. Верхняя граница диапазона в первом случае ограничена параметрами телефонного тракта, во втором — частотной характеристикой канала записи звукозаписывающего устройства.
  11. За значение относительного диапазона изменения частоты основного тона, как и ранее, принята величина, равная отношению максимального значения ЧОТ (среднее значение ЧОТ плюс удвоенное значение СКО) к минимальному (среднее значение ЧОТ минус удвоенное значение СКО).
  12. Златоустова Л.В., Михайлов В.Г. Измерение параметров речи. М.: Радио и связь, 1987.
  13. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами. СПб.: Центр речевых технологий, 1998.
  14. Локар Э. Руководство по криминалистике. М.: Юридическое издательство НКЮ СССР, 1941.
  15. ЩербаЛ.В. Языковая система и речевая деятельность. Л.: Наука, 1974.
  16. Каганов А.Ш., Михайлов В.Г. Особенности оценивания параметров основного тона при фонографической экспертизе // Тезисы междунар. конф. «Информатизация правоохранительных систем». М., 1999.
Нашли в тексте ошибку? Выделите её, нажмите Ctrl + Enter, и мы всё исправим!