Идентификация личности по голосу

Лингвистическая экспертиза - Подать заявкуЛингвистическая экспертиза - Стоимость
Устойчивость идентификационных признаков в задаче криминалистической идентификации личности по голосу и звучащей речи

Устойчивость идентификационных признаков в задаче криминалистической идентификации личности по голосу и звучащей речи

Вопросы оценки близости речевых характеристик того или иного индивидуума к заранее известному эталону-образцу тесно связаны с понятием стабильности голосовых и речевых характеристик фигуранта. Известно, что голос лица, подлежащего идентификации, не может быть охарактеризован одним единственным произнесением[1], поскольку и голос и речь индивидуума по своей природе вариативны. Необходимо обработать ряд произнесений статистически (говоря математическим языком — обработать полученную в процессе исследования выборку), чтобы определить характерные особенности голоса конкретного индивидуума.

Сказанное естественным образом иллюстрирует ту мысль, что проблемы вариативности речи, причины ее возникновения и формы проявления многоаспектно востребованы в криминалистической экспертизе звукозаписей (далее — КЭЗ). Один из аспектов исследования вариативности связан с выявлением устойчивых идентификационных признаков в речи говорящего.

Как отмечается в ЛЭС, вариативность присуща речи человека как в области лексики, морфологии, синтаксиса, так и в области фонетики и интонации. Концепция речевой вариативности восходит к идеям Ф. де Соссюра. Представляется существенным обратить внимание на мысль де Соссюра об экземпляре-варианте языковой единицы, с одной стороны, и принципе линейности речи — с другой. Как считает де Соссюр, на одно место в речевой цепи может быть помещен только один экземпляр-вариант языковой единицы. Поэтому речь по своей природе вариативна[2].

Лингвистическая экспертиза - Онлайн-заявка

Опыт выполнения реальных экспертиз показывает, что вариативность речи фигурантов имеет множественность признаков, среди которых выделяются наиболее устойчивые, сохраняющиеся в различных речевых ситуациях и в неодинаковых условиях записи[3].

Вариативность различных параметров речевого сигнала складывается из разнообразных компонентов, сознательно или подсознательно участвующих в процессе речеобразования. Этими компонентами могут быть факторы, вызванные, с одной стороны, анатомическими и физиологическими особенностями тех артикуляторных органов речевого тракта, которые принимают участие в дыхательном акте, в процессе голосообразования (фонации) и в процессе речеобразования (артикуляции), и, с другой, ситуационными артикуляционными программами, порождаемыми центральной нервной системой и приводимыми в действие механизмом речеобразования.

В результате участия всех перечисленных факторов речь человека может быть квалифицирована как нормативная, патологическая, преднамеренно измененная, эмоционально насыщенная и т.д. С этой точки зрения те видоизменения, которым подвержен речевой сигнал, и оценка пределов варьирования его характеристик требуют отдельного рассмотрения.

Однако прежде чем решать поставленную задачу комплексно, необходимо исследовать исходную вариативность речевого сигнала, наблюдаемую в условиях естественной речевой активности человека. Здесь имеется в виду, с одной стороны, изменчивость параметров сигнала, присутствующая в речи различных фигурантов (интериндивидуальная, или междикторская изменчивость), а с другой — та спонтанная вариативность, которая присуща речи каждого говорящего в результате коартикуляционных процессов, независимо от его старания говорить в свойственной ему манере (интраиндивидуальная, или внутридикторская изменчивость).

Начнем с того, что в зависимости от пола, возраста, профессии и натренированности для людей характерны различные типы дыхания (ключичный, грудной, или иначе реберный и брюшной, или иначе диафрагменный) и неодинаковый объем легких (примерно от 6000 см3 при хорошей натренированности дыхания до 1000 см3 — у маленьких детей). При наиболее глубоком и сильном диафрагменно-реберном дыхании и большом объеме вдыхаемого воздуха фаза выдоха в процессе речи может оказаться значительно (иногда — более чем на порядок) дольше фазы вдоха, тогда как при спокойном дыхании различие в длительности указанных фаз хотя и сохраняется, но оказывается гораздо менее существенным. Удлинение времени выдоха при этом происходит как за счет перераспределения продолжительностей фаз вдоха и выдоха, так и за счет увеличения продолжительности всего цикла примерно в два-три раза. В результате этого продолжительность речевого выдоха может достичь 6-8 с вместо 1,5-2 с при спокойном дыхании. Речевая активность в таком случае протекает свободно и без принуждения. Речь при этом является мобильной и динамичной. Она не прерывается частыми вдохами.

Обратная картина имеет место, когда физические показатели говорящего ограничены или же когда он утомлен или испытывает нервное потрясение. Если говорящий хронически страдает такими болезнями, как бронхиальная или кордиальная астма, сердечная недостаточность, эмфизема легких и др., речь человека является тяжелой и принужденной, изобилует частыми вдохами (одышка), а значит, и дыхательными паузами. Все эти показатели существенно влияют на просодическую картину речи, в частности на ее темп и ритмическую структуру, и по этой причине могут служить источником идентификационных признаков речи конкретного индивидуума.

Необходимо отметить, что для продолжительного и экономичного речевого выдоха обязательным условием является наличие высокого подсвязочного давления. От величины этого давления, а также от размеров самих колеблющихся голосовых складок1 и, конечно, размеров гортани и других частей речевого аппарата зависит и качество самого генерируемого голоса. Голос уже на этапе выхода из гортани характеризуется определенной высотой, силой и тембром. Последние две характеристики, однако, существенно видоизменяются в зависимости от параметров речеобразующего тракта.

Высота голоса, проявляющаяся в параметрах частоты основного тона речевого сигнала, является одним из наиболее ярких характеристик голоса говорящего. Она меняется в довольно широких пределах в зависимости от длины, толщины и натяжения голосовых складок. В таблице приводятся данные зависимости тембральной окраски голоса, диапазона его средней высоты и пределов их изменения в процессе разговорной и певческой речи от длины голосовых связок[4]. Из материалов таблицы наглядно видно, насколько различаются голоса по средним показателям частоты основного тона, а также насколько мобилен в этом отношении речевой аппарат каждого индивидуума. Очевидно, что вместе с междикторской вариативностью этот параметр сигнала может испытывать и существенные вариации в условиях речевой активности каждого конкретного фигуранта. Еще шире пределы этой изменчивости оказываются в тех случаях, когда налицо преднамеренное изменение высоты голоса (подражание, процесс пения и т.д.).

Однако, как было показано нами ранее[5], даже в условиях натурального речевого процесса характерная для говорящего частота основного тона голоса претерпевает флуктуационные изменения, выражающиеся некоторой систематической ее дисперсией, составляющей примерно 15% от среднего значения. Систематическое колебание высоты голоса еще более отчетливо обнаруживается у дикторов в связи с резкими изменениями темпа их речи, интонационного ее окрашивания, утомленности голоса, а также в связи с влиянием таких факторов, как простуда, похмелье и т.д.1. Это играет важную роль как при выборе метрики, так и при оценке меры близости речевых параметров того или иного индивидуума к заранее известному эталону-образцу.

ekspertiza-lichnosti-po-zvuchashhey-rechi-1

Помимо общего показателя высоты голоса, характерного для конкретного человека, индивидуальной может оказаться и манера интонирования в процессе речи (которая может быть связана, например, с диалектным или иноязычным влиянием). Динамика частоты основного тона речевого сигнала обусловлена, с одной стороны, интонационным строем данного языка или наречия, который проявляется в определенных коммуникативных типах предложений, а с другой — специфической для данного говорящего (или для данной речевой ситуации) манерой их выполнения (например, функциональным стилем речи).

Таким образом, вариативным от диктора к диктору, а также (что для нас особенно важно) в пределах речи одного диктора, может оказаться не только среднее значение частоты основного тона голоса, но и характер его изменения во времени.

Вслед за рассмотренными факторами, характеризующими зарождаемые в гортани голосовые импульсы, следует отметить и спектральную огибающую этих импульсов, с которой коррелирует тембровая окраска голоса. Спектр голосовых импульсов, зависящий от их форм, периода Т0, скважности (интервалов смыкания Тс и расхождения Тр голосовой щели) и, конечно, интенсивности звука J, так же как и частота основного тона, может меняться в довольно широких пределах как интериндивидуально, так и интраиндивидуально.

Исследование спектров, характеризующих разнообразные формы голосовых импульсов, встречающихся у различных дикторов, позволяет заключить, что вариации спектра от среднего значения достигают ±(3-6) дБ, в особенности в верхней части спектра (в области формант F3 и F4) Эта область, как известно, в меньшей степени характеризует фонетическое качество речевого сигнала и гораздо больше отражает индивидуальные особенности голоса[6].

Изменчивым, и в довольно значительных пределах (6-12 дБ / октаву1), оказался также и наклон спектра, который может еще больше увеличиваться (выше 500 Гц) при малых интенсивностях голосовых импульсов.

Отмечая большую вариативность в спектральных картинах импульсов голосового источника, ряд отечественных и зарубежных авторов высказывают предположения, что человеку все же свойственно сохранять характерную для себя форму импульсов, ее частоту и скважность в процессе естественной для него речевой активности. Сохранение характерной для него формы импульсов обеспечивает относительное постоянство тембральной окраски голоса индивидуума[7][8].

Наконец, нельзя особо не отметить, что интенсивность звуков речи также изменяется в процессе речепроизводства в довольно широких пределах, охватывающих диапазон более чем в 50 дБ.

Сказанным, однако, не ограничиваются те факторы, которые участвуют в видоизменении физической картины речевого сигнала от случая к случаю в процессе его порождения в голосовом аппарате человека. Одним из самых важных вопросов в формировании звуков речи является процесс фильтрации голосовых импульсов надгортанной частью голосового аппарата, а именно ротовой и носовой полостями. Здесь, как и ранее, мы сталкивается как с анатомическим своеобразием тракта конкретного фигуранта, так и с индивидуальным характером приведения артикуляторов в действие, обусловленным работой центральной нервной системы.

Основными характеристиками речеобразующего тракта, «повинными» в отмеченной вариативности, являются параметры его конфигурации: длина полости в глотке, узкий проход в области поднятого языка, переменный по величине проход, образуемый небной занавеской в носовой полости, ширина передней части ротовой полости, излучающие отверстия между губами, зубами и ноздрями и др.

При определении формы полостей обычно оперируют функцией А(х), представляющей собой изменение площади поперечного сечения вдоль воображаемой осевой линии х от голосовой щели до губ. На индивидуальную формантную F-структуру существенно влияет длина тракта l0 которая находится в обратно пропорциональной связи со средними формантными частотами F1- F4. Именно этим объясняется 20-процентное различие формантных частот одних и тех же фонем в произношении средним мужским и средним женским голосами, а также такое же 20-процентное различие для средних детских голосов[9]. С характером А(х) связана также ширина формант B которая может колебаться в пределах ±100% от среднего их значения независимо от качества произносимой фонемы. Изменение структуры F-картины во многом зависит и от позиций каждого из артикуляторов. Именно этим объясняется то, что большинство различительных признаков речи (т.е. признаков как способа порождения звука, так и места его образования, или иначе — признаков, создающих различные виды артикуляции) могут служить в равной степени и индивидуализирующими характеристиками голосов. Такими признаками могут быть признаки лабиализации, назализации и аспирации, степень которых по-разному влияет на спектральную картину звуков. В результате назализации, например, в спектре гласных звуков происходит сдвиг формант F1 и F3 в сторону низких частот, ослабляются их амплитуды, появляются ложные пики в области 1000 и 2000 Гц, а также субформанты и антиформанты, суммарный уровень речевого сигнала понижается и т.д.

Помимо отмеченных здесь особенностей речевого сигнала, обусловленных анатомическими свойствами речеобразующего тракта и отдельных артикуляторов, немаловажным фактором, предопределяющим индивидуальность речи каждого отдельного фигуранта в каждом конкретном случае, следует считать ряд физиологических особенностей, влияющих на мобильность артикуляторов. Эта специфика, известная в теории речеобразования как инерционность, накладывает свой отпечаток не только на ритмику и темп речи, но и на более тонкую картину организации сложных слоговых конструкций[10].

Известно, что максимальная скорость речи, лимитируемая подвижностью языка, челюсти, мягкого неба и губ, достигает 7 слогов в секунду. Однако реально, с учетом времени, необходимого для вдоха и перестройки органов артикуляции, за максимальную скорость речи принимают 5 слогов в секунду[11]. Если к этому добавить еще и возможно низкую мобильность артикуляторов, определяемую инерционностью этих последних и задержками в организации артикуляторных программ, то темп речи может упасть и до 2 слогов в секунду[12]. Необходимо отметить, что с инерционностью моторных движений артикуляторов связаны также характеристики затухания элементов тракта (задержки артикуляционных движений), что вместе с часто наблюдающимися преждевременными их включениями вызывает так называемую модификацию звуков речи. Этому может способствовать также наличие антагонистических движений артикуляторов, что в свою очередь может повлиять и на временную организацию речи, а именно на ее внутрислоговую структуру. Это явление во многом схоже с озвучиванием или оглушением соседних согласных, имеющим место при задержке выключения голоса при переходе от звонкого звука к глухому или наоборот[13].

Наконец, междикторская (равно как и внутридикторская) вариативность речи может быть обусловлена уже на уровне формирования артикуляторных программ в центральном речевом аппарате. Зарождаемые здесь команды, управляющие совместными движениями артикуляторных органов, при организации каждого конкретного речевого сообщения носят индивидуальный характер и определены такими факторами, как социально обусловленные речевые навыки говорящего, его индивидуальный опыт, психический склад, в частности его темперамент, характерологические особенности и даже интеллект. В результате артикуляторные программы предопределяют не только структуру произносимой синтагмы как последовательности входящих в ее состав отдельных элементов, включающих словосочетания, слова и слоги, но и в основном управляют, так называемыми, просодическими характеристиками произнесения, распространяющимися на всю синтагму как на целую смысловую единицу[14]. К этим характеристикам относятся частота основного тона речи, ее ритмическая организация, темп, словесные и фразовые ударения и др.

Рассмотренным выше параметрам речевого сигнала — частоте основного тона, интенсивности, темпоральным и спектральным характеристикам речи, а также тесно связанной с ними просодике произнесения — свойственны те же глубокие междикторские (интериндивидуальные), а вместе с тем и внутридикторские (интраиндивидуальные) изменения, которые констатировались при рассмотрении статических пределов их вариаций.

Таким образом, вопрос об установлении границы между междикторской и внутрикторской вариативностью для тех параметров речевого сигнала, которые используются в качестве идентификационных признаков, становится важнейшим при разработке алгоритмов криминалистической идентификации личности говорящего. Пользуясь терминологией теории распознавания образов, можно сказать, что речь идет о формировании дискриминантной функции, а технически (программно) — о разработке классификатора[15].

Известно, что часть предлагаемого в ряде работ математического аппарата (в частности, элементы аппарата статистического распознавания образов и функционального анализа) могут быть с успехом применены в задаче криминалистической идентификации личности по голосу и звучащей речи [3]. Наиболее распространенными из указанных инструментов являются вероятностные методы, использующие условные плотности вероятности, а также топологические методы, построенные с использованием метрики.

Обычная интуиция подсказывает, что наиболее привлекательным является правило, согласно которому объект относится к тому классу, к которому он наиболее близок по своим признакам. Математическое средство, позволяющее формализовать интуитивное понятие близости, заключено в топологическом понятии «метрики»[16]. Все подобные методы принятия решения основаны на вычислении расстояния, определяющего степень различия между векторами — параметрами, соответствующими (в случае решения нашей задачи) выборкам произнесений[17]. Было исследовано большое количество различных метрик расстояний, среди которых самой популярной является простая евклидова метрика:

ekspertiza-lichnosti-po-zvuchashhey-rechi-2

Простейшее правило принятия решения — это метод «ближайшего соседа». В отношении задачи криминалистической идентификации личности говорящего это означает, что расстояния вычисляются между вектором наблюдения неизвестного диктора X и всеми эталонными векторами подозреваемых Yi. В конечном итоге считается опознанным тот из подозреваемых, речевые параметры которого соответствуют минимальному расстоянию. Другими словами, понятие расстояния между двумя точками можно многими способами расширить до понятия расстояния δ(х, ω) между точкой и множеством. Например, можно положить:
ekspertiza-lichnosti-po-zvuchashhey-rechi-3 задав расстояние δ(х, ω) ( как топологическое расстояние между точкой x и ее ближайшим соседом во множестве ω. Используя такое определение, можно придать точный смысл понятию классификации, которое широко используется в теории распознавания образов: x ωj. тогда и только тогда, когда
ekspertiza-lichnosti-po-zvuchashhey-rechi-4 где полагается, что минимизация проводится по формуле (2) для каждого j на множестве {yIωj}.

Для окончательного решения о том, принять или отвергнуть j-го претендента, в задаче идентификации говорящего необходимо сравнение минимального расстояния δ ( x, yij) с некоторым заранее заданным порогом. За указанный порог для частоты основного тона, например, может быть принято среднее значение флуктуационных изменений, свойственных натуральному речевому процессу и составляющее, по данным ряда авторов, которые подтверждены нашими материалами, примерно 15-20% от среднего значения.

Возвращаясь к вопросу выбора метрики, отметим, что в конкретном многообразии криминалистических экспертиз идентификации личности по голосу и звучащей речи удобной оказалась метрика:
ekspertiza-lichnosti-po-zvuchashhey-rechi-5 показывающая средневзвешенное относительное отклонение по сумме анализируемых параметров (т.е. по компонентам вектора наблюдения) в процентах.

Рассмотренные в данной статье подходы к формированию группы устойчивых идентификационных признаков в совокупности с математическими методами принятия решений и оценки полученных результатов составили основу инструментальных исследований просодических и спектральных характеристик речи в задаче криминалистической идентификации личности говорящего.

Автор:
А. Ш. Каганов — Заведующий лабораторией криминалистической экспертизы видео- и звукозаписей РФЦСЭ при Минюсте России, канд. техн. наук, ст.науч.сотр.


  1. Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. Тбилиси, 1976.
  2. Лингвистический энциклопедический словарь. М., 1990.
  3. Каганов А.Ш. Перцептивный и акустический аспекты криминалистической идентификации личности по голосу и звучащей речи. Нижний Новгород, 2006.
  4. Рамишвили Г.С., Чикоидзе Г.Б. Криминалистическое исследование фонограмм речи и идентификация личности говорящего. Тбилиси, 1991.
  5. Каганов А.Ш., Михайлов В.Г. Соотношение перцептивных признаков и формантных частот гласных в речевом потоке // Сборник трудов. XIII сессия российского акустического общества. М., 2000. Том 3. Акустика речи. Медицинская и биологическая акустика.
  6. Коваль С.Л. и др. Использование метода формантного выравнивания для проведения инструментальной части идентификационного исследования говорящего // Современные методы, технические и программные средства, используемые в криминалистической экспертизе звукозаписей: Методич. пособие для экспертов. М., 2003.
  7. Варшавский Л.А., Литвак И.М. Исследование формантного состава и некоторых других физических характеристик звуков русской речи // Проблемы физиологической акустики. 1955. Т.3.
  8. Rosenberg A.E. Effect of glottal pulse on the quality of natural vowels // JASA. 1971. 49. № 2.
  9. Фант Г. Анализ и синтез речи. Новосибирск, 1970.
  10. Чистович Л.А. и др. Речь, артикуляция и восприятие. М., 1965.
  11. В настоящее время отмечается процесс убыстрения темпа речи, который идет практически во всех европейских языках.
  12. Определяя темп речи, правильно говорить, по-видимому, о срднезвуковом времени, которое, на наш взгляд, является более точной величиной по сравнению с количеством слогов.
  13. Каганов А.Ш., Михайлов В.Г. Идентификация личности по голосу с использованием формантных признаков и параметров основного тона // Сборник трудов. IX сессия российского акустического общества. М., 1999. Том 3. Акустика речи. Медицинская и биологическая акустика.
  14. Норман Б.Ю. Язык: знакомый и незнакомый. Минск, 1987.
  15. Фукунага К. Введение в статистическую теорию распознавания образов. М., 1979.
  16. Данфорд Н., Шварц Дж. Т. Линейные операторы. Общая теория. М., 1962.
  17. Оговоримся, что под «произнесением» в данном случае понимается выборка, сделанная на исходном (или, соответственно, на сравнительном) речевом материале ограниченного объема.
Нашли в тексте ошибку? Выделите её, нажмите Ctrl + Enter, и мы всё исправим!