Voice recognition что это
Перейти к содержимому

Voice recognition что это

  • автор:

Вы отправили слишком много запросов, поэтому ваш компьютер был заблокирован.

Для того, чтобы предотвратить автоматическое считывание информации с нашего сервиса, на Linguee допустимо лишь ограниченное количество запросов на каждого пользователя.
Пользователям, браузер которых поддерживает Javascript, доступно большее количество запросов, в отличие от пользователей, чей браузер не поддерживает Javascript. Попробуйте активировать Javascript в настройках вашего браузера, подождать несколько часов и снова воспользоваться нашим сервером.
Если же ваш компьютер является частью сети компьютеров, в которой большое количество пользователей одновременно пользуется Linguee,сообщитеоб этом нам.

Перевод «voice-recognition» на русский

Потребители наслаждаются своим приложениями для вызова такси, потоковой музыки и распознавания голоса.

Both companies’ assistants employ voice-recognition technology to prevent devices from acting on certain commands unless they recognize the user’s voice.

Специалисты обеих компаний используют технологию распознавания голоса, чтобы запретить устройствам выполнять команды, если они не распознают голос пользователя.

Workable systems are appearing, particularly when a voice-recognition system can be trained or remains limited to certain vocabulary word groupings.

Появляются вполне работоспособные системы, особенно в тех случаях, когда системы распознавания речи могут обучаться или ограничиваются определенными сочетаниями словарных слов.

IBM’s voice-recognition technology is integrated into the car’s audio system so that driving instructions can be heard over the speakers.

Технологии распознавания речи IBM интегрированы с автомобильной аудиосистемой, поэтому маршрутные инструкции воспроизводятся через ее громкоговорители.

Meanwhile, voice-recognition is gaining momentum as a mobile interface, slowly upending traditional search.

Между тем распознавание голоса набирает обороты как мобильный интерфейс, медленно опережая традиционный поиск.

In the future, more accurate voice-recognition and language-processing will help people to say commands in their own words.

В будущем более точное распознавание голоса и обработки речи помогут людям сказать команды своими словами.

A voice-recognition component lets users check their pronunciation.
Компонент распознавания голоса позволяет пользователям проверить их произношение.

Measuring 8.0 inches, it features a colour touchscreen, updated mapping software, and a new voice-recognition system.

Имея размеры 8,0 дюйма, он оснащен цветным сенсорным экраном, обновленным программным обеспечением для картирования и новой системой распознавания голоса.

Mozilla plans to open source its voice-recognition system by the end of the year.
Mozilla планирует до конца года открыть свою систему распознавания голоса.

Special equipment such as microscopic and telescopic glasses and voice-recognition software can make school and homework easier.

Специальное оборудование, такое как микроскопические и телескопические очки и программное обеспечение для распознавания голоса, может упростить школьные и домашние задания.

Siri was one of the earliest voice-recognition technologies released to the public.

Siri была одной из самых первых технологий распознавания голоса, выпущенных для широкой общественности.

Or the system 102 can use the voice-recognition mode as the sole mode in which the user interacts with the system 102.

Или система 102 может использовать режим распознавания голоса в качестве единственного режима, в котором пользователь взаимодействует с системой 102.

If the vehicle-based system is equipped with a microphone and a form of voice-recognition technology, this input can be done using the microphone.

Система на базе транспортного средства снабжена микрофоном и технологией распознавания голоса, реализованной в некоторой форме, при этом ввод информации может быть осуществлен посредством микрофона.

Both robots come equipped with voice-recognition and face-recognition technology, as well as a camera, emotion recognition and natural language processing.

Оба робота оснащены технологией распознавания голоса и лица, а также камерой, распознающей эмоции и обработкой естественного языка.

Because typing Chinese characters is fiddly, voice-recognition services are more popular than in the West; they should improve faster as a result.

Поскольку печатать китайские иероглифы неудобно, услуги распознавания голоса более популярны, чем на Западе; в результате они быстрее улучшаются.

Thomas’ work computer uses a voice-recognition system that requires him to say a short phrase; it recognizes him and confirms that he has permission to access all programs and files on the computer network.

Рабочий компьютер использует систему распознавания голоса, которая требует короткой фразы; он узнает его и подтверждает, что у него есть разрешение на доступ ко всем программам и файлам в компьютерной сети.

Today, for example, voice-recognition programs can identify words quite well, but a far greater challenge will be building machines that can understand what those words mean in context.

Сегодня, например, программы распознавания голоса в состоянии достаточно хорошо распознавать слова, однако значительно более трудная задача — создание машин, способных определять, что эти слова означают с учетом контекста.

Lawyers must be geographically mobile and able to reach their clients in a timely matter, so they might use electronic filing, web and videoconferencing, and voice-recognition technology to share information more effectively.

Юристы должны быть географически мобильным и способным достигать своих клиентов в своевременном вопросе, так что они могли бы использовать электронную подачу, веб-и видеоконференций, мобильных электронных устройств, а также распознавания голоса технологию обмена информацией более эффективно.

Without technological solutions, such as user interfaces that feature text-to-speech and voice-recognition capabilities, people who have not attained basic language proficiency will struggle to engage with Internet content.

Без технологических решений, таких как пользовательские интерфейсы с функциями преобразования текста в речь и распознавания голоса, людям, не получившим базовых знаний языка, будет крайне сложно взаимодействовать с интернет-контентом.

The Department plans to optimize the use of technology in the conference-servicing processes by, among other things, emphasizing the use of voice-recognition, computer-assisted and digital recording methods in translating documents.

Департамент планирует оптимально использовать технологию в процессах конференционного обслуживания с упором, среди прочего, на использование методов распознавания голоса, перевода с помощью компьютера и цифровой записи при письменном переводе документов.

Возможно неприемлемое содержание

Примеры предназначены только для помощи в переводе искомых слов и выражений в различных контекстах. Мы не выбираем и не утверждаем примеры, и они могут содержать неприемлемые слова или идеи. Пожалуйста, сообщайте нам о примерах, которые, на Ваш взгляд, необходимо исправить или удалить. Грубые или разговорные переводы обычно отмечены красным или оранжевым цветом.

Зарегистрируйтесь, чтобы увидеть больше примеров. Это просто и бесплатно
Ничего не найдено для этого значения.
Предложить пример
Больше примеров Предложить пример

Предложения, которые содержат voice-recognition

Новое: Reverso для Windows

Переводите текст из любого приложения одним щелчком мыши .

Скачать бесплатно
Перевод голосом, функции оффлайн, синонимы, спряжение, обучающие игры

Результатов: 78 . Точных совпадений: 78 . Затраченное время: 86 мс

Помогаем миллионам людей и компаний общаться более эффективно на всех языках.

Распознавание и анализ речи с помощью библиотеки SPEECH RECOGNITION, PYAUDIO и LIBROSA

В основе систем распознавания речи стоит скрытая марковская модель, суть модели заключается в том, что при рассмотрении сигнала в промежутке небольшой длительности (от пяти до 10 миллисекунд), возможна его аппроксимация как при стационарном процессе.

Если простыми словами скрытую марковскую модель можно объяснить на примере.

Допустим, есть два человека, которые каждый вечер созваниваются и обсуждают свои действия в течение дня. Выбор одного из друзей: ходил за покупками; гулял в парке; занимался домашними делами. При выборе активности, он полагался лишь на погоду. Второй же знал о погоде, которая была на тот момент в месте первого и, основываясь на выборе первого, мог догадаться, какая погода была в какой-то момент.

То есть, допустим, мы делим сигнал на фрагменты скажем в 10 миллисекунд и выделяем кепстральные коэффициенты, которые, по сути, являются графиком зависимости мощности от частоты сигнала отображающегося на векторе действительных чисел. Результатом скрытой марковской модели является последовательность этих векторов.

В последствии мы сопоставляем фонемы и эти векторы, а так как звук фонемы изменяется от источника к источнику, то процесс сопоставления требует обучения.

Для python существует несколько пакетов которые используются в данной сфере речи, такие как apiai, assemblyai и другие, но Speech Recognition выделяется среди них довольно высокой простотой использования.

Библиотека Speech Recognition — это, инструмент для передачи речевых API от компаний (google, microsoft, sound hound, ibm, а также pocketsphinx), который в отличие от остальных имеет возможность работы офлайн.

Для демонстрации работы в данной статье я буду использовать дефолтный Google Speech API.

Также для работы с инструментами потребуется библиотека pyAudio.

Установим библиотеку для распознавания речи:

pip install SpeechRecognition 

Для работы с инструментами звукозаписи

pip install pyAudio 

Бываю некие сложности с установкой pyaudio через pip, поэтому альтернативный вариант — установка pipwin или conda

Для анализа звуковых данных

pip install librosa 

Для работы с wave файлами

pip install wave 

и импортируем в код

import speech_recognition as speech_r import pyaudio import wave

Для начала нужно выставить параметры записи звука:

CHUNK = 1024 # определяет форму ауди сигнала FRT = pyaudio.paInt16 # шестнадцатибитный формат задает значение амплитуды CHAN = 1 # канал записи звука RT = 44100 # частота REC_SEC = 5 #длина записи OUTPUT = "output.wav"

Далее нужно создать объект для обращения к устройству звукозаписи:

p = pyaudio.PyAudio()

и открыть поток для записи звука:

stream = p.open(format=FRT,channels=CHAN,rate=RT,input=True,frames_per_buffer=CHUNK) # открываем поток для записи print("rec") frames = [] # формируем выборку данных фреймов for i in range(0, int(RT / CHUNK * REC_SEC)): data = stream.read(CHUNK) frames.append(data) print("done") и закрываем поток stream.stop_stream() # останавливаем и закрываем поток stream.close() p.terminate()

Дальше нам нужно записать оцифрованную звуковую дорожку в файл.

Для этого нам и пригодится библиотека wave:

w = wave.open(OUTPUT, 'wb') w.setnchannels(CHAN) w.setsampwidth(p.get_sample_size(FRT)) w.setframerate(RT) w.writeframes(b''.join(frames)) w.close()

В итоге мы получаем готовую звуковую дорожку записанную с микрофона устройства и готовую к распознаванию для этого нам потребуется библиотека Speech Recognition:

sample = speech_r.WavFile('C:\\Users\\User\\Desktop\\1\\pythonProject\\output.wav')

Непосредственно для распознавания текста нам потребуется класс Recognizer он имеет множество функций, а также определяет каким API мы будем пользоваться:

r = speech_r.Recognizer()

Открываем записанный файл.

Для расшифровки сигнала мы будем использовать метод recognize_google().

Для использования данного метода необходим объект AudioData и для дальнейшей работы требуется преобразовать сигнал в объект модуля Speech_recognition для этого существует метод record():

with sample as audio: content = r.record(audio)

но, перед тем как передать сигнал на расшифровку, нужно очистить его от шумов. У библиотеки speech_recognition есть для этого метод adjust_for_ambient_noise()

with sample as audio: content = r.record(audio) r.adjust_for_ambient_noise(audio)

Так как выбранный нами Api поддерживает русский язык мы можем им воспользоваться:

print(r.recognize_google(audio, language="ru-RU"))

Распознаватель возвращает: «Привет»

Таким образом у нас получается небольшой распознаватель речи буквально в пару строк кода. В момент, когда речь прекращается он автоматически переводит ее в текст.

Далее можно приступить к получению аналитических данных с помощью библиотеки librosa. Для начала загружаем наш файл:

A_Data = 'C:\\Users\\User\\Desktop\\1\\pythonProject\\output.wav' y , sf = librosa.load(A_Data)

в данном случае мы получаем значения временного ряда звука в качестве массива с частотой дискретизации.

Далее мы можем вернуть график массива нашей звуковой дорожки. Для работы с графиком импортируем pyplot из библиотеки matplotlib и используем librosa.display.waveplot() для построения графика массива:

import matplotlib.pyplot as plt import librosa.display plt.figure(figsize=(14, 5)) librosa.display.waveplot(y, sr=sf)

В самом начале я упоминал про кепстральные коэффициенты, они обычно используются для определения тембральных аспектов музыкального инструмента или голоса и мы можем построить их тепловую карту и хроматограмму.

fcc = librosa.feature.mfcc(y=y, sr=sf, hop_length=8192, n_mfcc=12) import seaborn as sns from matplotlib import pyplot as plt fcc_delta = librosa.feature.delta(fcc) sns.heatmap(fcc_delta) plt.show()

chromo = librosa.feature.chroma_cqt(y=y, sr=sf) sns.heatmap(chromo) plt.show()

Надеюсь, что данный материал будет полезен при решении задач по распознаванию речи.

Распознавание голоса (voice recognition module v3.1)

Модуль распознавания голоса — Voice Recognition Module V3.1 — это компактный и простой в управлении модуль распознавания речи. На базе данного модуля можно создавать проекты с голосовым управлением.

Для работы модуля его необходимо обучить — записать через микрофон собственные голосовые команды в энергонезависимое хранилище голосовых команд модуля. Вы можете записать до 80 голосовых команд (каждая команда не более 1,5 сек., примерно одно, максимум два слова) и все они будут храниться в модуле, даже после отключения питания. Стоит отметить, что записывать можно не только голос (слова), но и различные звуки.

У модуля есть два вида памяти: память хранилища (где голосовые команды просто хранятся) и память распознавателя (где голосовые команды участвуют в сравнении со звуком поступившем через микрофон).

Перед распознаванием голосовых команд их нужно загрузить из памяти хранилища в память распознавателя. Память распознавателя рассчитана на 7 голосовых команд, значит модуль способен одновременно сравнивать до 7 голосовых команд с поступающим звуковым сигналом.

Термины:

  • Хранилище голосовых команд – энергонезависимая память состоящая из 80 ячеек, в каждую ячейку можно записать одну голосовую команду с текстовым комментарием.
  • Распознаватель голосовых команд – основная часть модуля распознавания речи, блок содержащий ОЗУ из 7 ячеек, в каждую ячейку можно загрузить одну голосовую команду из хранилища голосовых команд модуля. Блок распознавателя сравнивает загруженные в него голосовые команды с поступающим звуковым сигналом.
  • Номер ячейки – совпадает с номером записи. Память хранилища и память распознавателя разбита на ячейки. Одна ячейка может хранить одну запись (голосовую команду). Доступ к записям хранилища и записям распознавателя осуществляется по номерам ячеек.
  • Обучение – процесс записи ваших голосовых команд в хранилище.
  • Загрузка – копирование записанной голосовой команды из хранилища в распознаватель.
  • Подпись – текстовый комментарий (до 10 символов) к голосовой команде записанной в хранилище.
  • Группа – список содержащий 7 номеров ячеек хранилища. Поддерживаются, системные группы и пользовательские группы. Загрузка группы приводит к загрузке в распознаватель тех голосовых команд хранилища, номера которых указаны в группе.
    Более подробно о группах читайте в разделе Группы.

Видео:

Спецификация:

  • Точность распознавания речи: 99% (при идеальных условиях).
  • Объем хранилища: до 80 голосовых команд длительностью не более 1,5 сек.
  • Одновременное распознавание: до 7 голосовых команд.
  • Напряжение питания: 4,5 … 5,5 В (постоянного тока).
  • Потребляемый ток: до 40 мА.
  • Цифровой Интерфейс: UART и GPIO уровень TTL 5В.
  • Аналоговый интерфейс: разъем микрофона jack 3,5-мм моноканальный.
  • Габариты платы: 31х50 мм.

Подключение:

  • Колодка из 4 выводов (GND, VCC, RXD, TXD) используется для подключения модуля к аппаратной или программной шине UART Arduino.

В примерах библиотеки «VoiceRecognitionV3» используется программная шина UART, где вывод модуля RXD подключается к выводу 3 Arduino UNO, а вывод модуля TXD подключается к выводу 2 Arduino UNO (выводы можно переназначить в скетче). Вместо Arduino UNO можно использовать Piranha Uno.

  • Колодка из 4 выводов (IN0, IN1, IN2, GND) может быть использована для загрузки требуемых групп голосовых команд из хранилища в распознаватель голосовых команд.

Более подробно о группах читайте в разделе Группы.
Все выводы IN-0. IN-2 внутрисхемно подтянуты до уровня Vcc.
По умолчанию, загрузка групп при помощи выводов IN-0. IN-2 отключена.

  • Колодка из 8 выводов (OUT0-OUT6, GND) может быть использована для управления маломощными устройствами напрямую или мощными устройствами через реле, или силовые ключи.
    Выходы OUT модуля, так же как и ячейки распознавателя, пронумерованы от 0 до 6. Опознание модулем голосовой команды приводит к соответствующей реакции выхода OUT модуля, номер которого совпадает с номером ячейки распознавателя содержащей опознанную голосовую команду.

По умолчанию выводы OUT реагируют на опознание голосовой команды отрицательным импульсом, но реакцию можно настроить так, что выводы будут менять, устанавливать, или сбрасывать логический уровень при каждом совпадении голосовой команды.

Питание:

Входное напряжение питания 5В постоянного тока, подаётся на выводы Vcc и GND модуля.

Подробнее о модуле:

У модуля распознавания голоса — Voice Recognition Module V3.1 есть два вида памяти: память хранилища (где голосовые команды просто хранятся, даже после отключения питания) и память распознавателя (где голосовые команды участвуют в сравнении со звуком поступившем через микрофон).

Оба типа памяти состоят из ячеек, в одну ячейку записывается одна голосовая команда. Память хранилища голосовых команд состоит из 80 ячеек пронумерованных от 0 до 79, а память распознавателя голосовых команд состоит из 7 ячеек пронумерованных от 0 до 6. Значит модуль способен хранить до 80 голосовых команд, а одновременно сравнивать до 7 голосовых команд с поступающим звуковым сигналом.

Для работы модуля его необходимо обучить — записать столько голосовых команд в энергонезависимое хранилище, сколько требуется для Вашего проекта. В распознаватель, голосовые команды не записываются, а загружаются из памяти хранилища. Модуль позволяет указать номера ячеек хранилища, голосовые команды которых будут автоматически загружаться в распознаватель при подаче питания модуля.

Такая организации памяти позволяет разделить длинные голосовые команды (произношение которых занимает более 1,5 сек.) на две и более маленьких голосовых команд, которые будут подгружаться из хранилища в распознаватель по мере опознания модулем предыдущих частей длинной голосовой команды.

Пример:

  • Предположим, мы желаем создать голосовое управление светом в коридоре, комнате и на кухне, а так же управление жалюзи в комнате и на кухне.
  • Записываем в ячейки хранилища следующие голосовые команды: «свет», «жалюзи», «в коридоре», «в комнате» и «на кухне».
  • Голосовые команды «свет» и «жалюзи» загружаем из хранилища в распознаватель изначально.
  • При распознавании голосовой команды «свет», загружаем в распознаватель голосовые команды «в коридоре», «в комнате» и «на кухне».
  • При распознавании голосовой команды «жалюзи», загружаем голосовые команды «в комнате» и «на кухне» (не загружая «в коридоре», если конечно у Вас там нет жалюзей).
  • Таким образом Вы можете произнести «свет, в коридоре», «свет, в комнате», «свет, на кухне», «жалюзи, в комнате», «жалюзи, на кухне», а модуль сначала распознает первое слово («свет» или «жалюзи»), а потом оставшуюся часть Вашей длинной голосовой команды.
  • Осталось добавить в программу условие, что через определённое Вами время, после опознания команды «свет» или «жалюзи», они опять должны быть загружены в распознаватель. Так модуль перейдёт в состояние готовности принять следующую длинную голосовую команду, вне зависимости от того была ли корректно распознана предыдущая, или нет.

В данный пример можно добавить немного интерактивности включив в проект MP3-плеер и записав в него несколько сообщений. Вы говорите «свет», MP3-плеер воспроизводит сообщение «где?», Вы говорите «на кухне», MP3-плеер воспроизводит сообщение «свет на кухне включён!», или «свет на кухне выключен», в зависимости от текущего состояния реле управления светом. Стоит учитывать, что модуль распознавания речи и MP3-плеер должны находиться на разных шинах UART.

Еще одним плюсом наличия двух типов памяти модуля (хранилища и распознавателя), является возможность создания голосового управления несколькими людьми (до 7 человек) на одном модуле. Каждый человек записывает одинаковые слова голосовых команд в разные ячейки хранилища модуля, а так же записывает одно стартовое слово, например, «Окей дом». В таком случае в распознаватель изначально загружаем все голосовые команды «Окей дом» записанные разными людьми. Если кто то скажет «Окей дом, свет, в коридоре», то по номеру ячейки опознанной модулем голосовой команды «Окей дом», Вы сможете определить кем она была сказана и подгрузить в распознаватель следующие команды «свет» и «жалюзи» записанные именно этим человеком.

Управление модулем может осуществляться 2 способами:

  • Через последовательный порт UART (полный функционал).
    Управление осуществляется командами протокола VR3, или методами библиотеки VoiceRecognitionV3 (некоторые примеры описаны в настоящей статье).
  • Через выводы модуля IN и OUT (частичный функционал).
    Входы IN позволяют загрузить требуемые группы голосовых команд из хранилища в распознаватель, а выходы OUT позволяют определить номер распознанной голосовой команды и управлять устройствами.

Примеры:

В данном разделе содержатся примеры с использованием библиотеки VoiceRecognitionV3.

Пример обучения модуля:

Скетч примера поставляется вместе с библиотекой «VoiceRecognitionV3» и предназначен для записи голосовых команд в хранилище, загрузки голосовых команд из хранилища в распознаватель, удаления записанных голосовых команд, проверки состояния хранилища и распознавателя, получения комментариев к записям и проверки состояния модуля.

  1. Откройте скетч из примеров: Файл -> Примеры -> VoiceRecognitionV3 -> vr_sample_train.
  2. Выберите Вашу плату Arduino (Инструменты -> Плата), выберите порт (Инструменты -> Порт).
  3. Нажмите кнопку «Загрузить», дождитесь загрузки скетча в Arduino.
  4. Откройте «Монитор последовательного порта». Установите скорость передачи 115200 бод, установите отправку с добавлением символа новой строки (NL — NewLine), или с добавлением символов возврата каретки и новой строки (NL & CR).

В мониторе последовательного порта появится таблица со списком команд, которые Вы можете вводить:

5. Отправьте команду «settings» (настройки) чтобы проверить настройки модуля.
Для отправки команды введите «settings» и нажмите кнопку «Отправить», как на картинке ниже:

В ответ на команду «settings» (настройки) в мониторе последовательного порта появятся текущие настройки модуля:

Эти настройки означают следующее:

Baud rate (скорость передачи данных по шине UART) 9600 бит/сек.
Output IO Mode (режим работы выходов OUT) Импульсный.
Pulse Width (ширина импульса) 10 миллисекунд.
Auto Load (автозагрузка записей в распознаватель) Отключена.
Group control by external IO (управление группами при помощи входов IN 0-2) Отключено.

6. Обучение модуля распознавания голоса. Введите строку «sigtrain 0 On».

Команда «sigtrain» указывает библиотеке что мы хотим записать голосовую команду, далее следует номер записи (ячейки) — «0» и завершает строку текстовое описание голосовой команды — «On». Вместо подписи «On» Вы можете ввести любое слово до 10 байт, например, «Вкл».

В ответ на команду «sigtrain 0 On» (sigtrain номер подпись) в мониторе последовательного порта появится надпись «Speak now» (говорите сейчас). Вам нужно произнести свою голосовую команду (это может быть любое слово, например «Включить»). Через пару секунд в мониторе последовательного порта появятся надпись «Speak again» (говорите снова) . Вам нужно повторно произнести свою голосовую команду.

Если обе произнесённые голосовые команды совпали, то в мониторе последовательного порта появятся надписи: «Record: 0 — Success» (Запись: 0 — Успех), «Record 0 — Trained» (Запись 0 — Обучена), «SIG: On» (Подпись: «On»).

Это означает что Ваша голосовая команда записана в хранилище голосовых команд.

Но если, по «мнению» модуля, голосовые команды не совпадают, то в мониторе последовательного порта появится надпись «Record: 0 — Cann’t matched» (Запись: 0 — не соответствует):

После чего опять появится надпись «Speak now» (говорите сейчас), а затем «Speak again» (говорите снова).

Вам нужно повторить голосовые команды пока запись не будет сохранена в хранилище.

Что такое подпись? Подпись — это текстовое описание голосовой команды. В нашем случае мы записали команду 0 с подписью «On». После завершения обучения модуль может отображать подпись произнесённой (распознанной) голосовой команды.

Во время обучения можно смотреть не в монитор последовательного порта, а на два светодиода расположенные рядом с разъёмом микрофона: SYS_LED (желтый) и STATUS_LED (красный).

  • Желтый светодиод быстро мигает – приготовьтесь произнести голосовую команду.
  • Красный светодиод горит – произнесите голосовую команду.
  • Желтый светодиод мигает – приготовьтесь повторно произнести голосовую команду.
  • Красный светодиод горит – произнесите голосовую команду.
  • Оба светодиода мигают одновременно – голосовые команды совпали и записаны.
  • Желтый светодиод медленно мигает – сравнение звукового сигнала с записями распознавателя.

7. Попробуйте обучить модуль следующей голосовой команде.

Ведите строку «sigtrain 1 Off». Эта строка указывает модулю что Вы собираетесь записать голосовую команду в 1 ячейку хранилища с подписью «Off». После появления надписей «Speak now» (говорите сейчас) и «Speak again» (говорите снова), произнесите слово «Отключить».

Таким образом Вы можете записать в хранилище до 80 голосовых команд (с номерами от 0 до 79). При записи голосовых команд не обязательно соблюдать очерёдность следования номеров ячеек памяти хранилища. Можно записать голосовую команду, сначала в 3 ячейку, потом в 0, а потом, например, в 27. Главное помнить, в какой ячейке какая команда, чтоб их случайно не затереть, вот для этого то мы и указываем подпись при записи голосовых команд. Но, если Вы уверены, что подпись Вам не нужна, то вводите строку «sigtrain номер» без подписи.

Для того что бы модуль, после обучения (записи голосовых команд), мог опознать голосовую команду, её нужно загрузить из хранилища в распознаватель. В распознаватель модуля можно загрузить до 7 из 80 записанных команд.

8. Загрузка голосовых команд из хранилища в распознаватель модуля. Введите строку «load 0 1» для загрузки записей из 0 и 1 ячеек хранилища в память распознавателя.

Процесс загрузки не удаляет записи из памяти хранилища, а копирует записи из указанных ячеек хранилища голосовых команд в память распознавателя по порядку.

В ответ на команду «load 0 1» (загрузить записи 0 и 1) в мониторе последовательного порта появятся надписи «Record 0 Loaded» (запись 0 загружена) и «Record 1 Loaded» (запись 1 загружена).

В память распознавателя можно загружать записи из любых ячеек хранилища голосовых команд, например, строка «load 3 21 17» приведёт к загрузке записей из ячеек 3, 21 и 17 хранилища голосовых команд, в память распознавателя, по порядку указания ячеек. То есть запись 3 хранилища скопируется в ячейку 0 распознавателя, запись 21 хранилища скопируется в ячейку 1 распознавателя, а запись 17 хранилища скопируется в ячейку 2 распознавателя. Но пока делать этого не стоит, ведь мы записали только 2 голосовые команды в память хранилища (ячейки 0 и 1) и загрузили их в в память распознавателя (так же ячейки 0 и 1).

Теперь если Вы произнесёте слова «Включить» и «Отключить», то увидите сообщения

  • Распознана голосовая команда загруженная в ячейку распознавателя 0, запись загружена не группой, запись загружена из ячейки хранилища 0, голосовая команда имеет подпись «On».
  • Распознана голосовая команда загруженная в ячейку распознавателя 1, запись загружена не группой, запись загружена из ячейки хранилища 1, голосовая команда имеет подпись «Off».

Пример управления светодиодом на плате Arduino:

Скетч примера поставляется вместе с библиотекой «VoiceRecognitionV3».

  1. Откройте скетч из примеров: Файл -> Примеры -> VoiceRecognitionV3 -> vr_sample_control_led.
  2. Выберите Вашу плату Arduino (Инструменты -> Плата), выберите порт (Инструменты -> Порт).
  3. Нажмите кнопку «Загрузить», дождитесь загрузки скетча в Arduino.
  4. Откройте «Монитор последовательного порта». Установите скорость передачи 115200 бод, установите отправку с добавлением символа новой строки (NL — NewLine), или с добавлением символов возврата каретки и новой строки (NL & CR).

В мониторе последовательного порта появится следующий текст:

Так как в предыдущем примере Вы уже записали 2 команды в распознаватель, то произнесите их. Произнесение первой команды приведёт к включению светодиода на плате Arduino, а произнесение второй к выключению. При этом в мониторе последовательного порта будут отображаться те же сведения, что и при опознании голосовых команд в предыдущем примере:

  • Распознана голосовая команда загруженная в ячейку распознавателя 0, запись загружена не группой, запись загружена из ячейки хранилища 0, голосовая команда имеет подпись «On».
  • Распознана голосовая команда загруженная в ячейку распознавателя 1, запись загружена не группой, запись загружена из ячейки хранилища 1, голосовая команда имеет подпись «Off».

Остальные примеры включённые в библиотеку «VoiceRecognitionV3»:

Файл -> Примеры -> VoiceRecognitionV3 -> vr_sample_multi_cmd: раскрывает принцип работы с группами голосовых команд. Голосовая команда записанная в 0 ячейку хранилища (RECORD 0) используется для переключения между двумя группами голосовых команд. Первая группа содержит номера ячеек хранилища RECORD 0,1,2,3,4,5,6, а вторая группа содержит номера ячеек хранилища RECORD 0,7,8,9,10,11,12. Перед запуском данного примера необходимо обучить модуль (записать) голосовые команды от 0 до 12.

Файл -> Примеры -> VoiceRecognitionV3 -> vr_sample_check_baud_rate: позволяет узнать установленную скорость передачи данных по шине UART. Может пригодиться если Вы забыли пользовательские настройки.

Файл -> Примеры -> VoiceRecognitionV3 -> vr_sample_bridge: позволяет отправлять команды протокола VR3 без кода заголовка, длины кадра и кода конца кадра. Например, для отправки команды «Check Recognizer», вместо байтов «AA 02 01 0A», нужно ввести только 01. Протокол VR3 описан в разделе Wiki — Протокол VR3 для модуля распознавания голоса.

Группы:

Группы используются для удобства загрузки нескольких голосовых команд из хранилища в распознаватель. Каждая группа может включать до 7 номеров ячеек хранилища голосовых команд. Загрузка группы приводит к загрузке в распознаватель всех ячеек хранилища, номера которых указаны в группе. Группы можно загружать командами UART или при помощи входов модуля IN 0-2.

Существует два вида групп: системные группы и пользовательские группы.

Системные группы имеют жесткую структуру и включают в себя 7 номеров ячеек хранилища голосовых команд:

№ системной группы № ячеек хранилища голосовых команд входящих в группу:
00 00, 01, 02, 03, 04, 05, 06
01 07, 08, 09, 0A, 0B, 0C, 0D
02 0E, 0F, 10, 11, 12, 13, 14
03 15, 16, 17, 18, 19, 1A, 1B
04 1C, 1D, 1E, 1F, 20, 21, 22
05 23, 24, 25, 26, 27, 28, 29
06 2A, 2B, 2C, 2D, 2E, 2F, 30
07 31, 32, 33, 34, 35, 36, 37
08 38, 39, 3A, 3B, 3C, 3D, 3E
09 3F, 40, 41, 42, 43, 44, 45
0A 46, 47, 48, 49, 4A, 4B, 4C

Пользовательские группы Вы можете создавать по своему усмотрению (Вы сами решаете какие ячейки хранилища голосовых команд будут входить в группу). Допускается создание до 8 пользовательских групп с номерами от 00 до 07. Каждая пользовательская группа может содержать до 7 голосовых команд хранилища.

Управлять группами можно, как с использованием методов библиотеки VoiceRecognitionV3, так и при помощи команды протокола VR3.

Ссылки:

  • Модуль распознавания голоса — Voice Recognition Module V3.1.
  • Библиотека VoiceRecognitionV3.
  • Wiki — Установка библиотек в Arduino IDE.
  • Wiki — Протокол VR3 для модуля распознавания голоса.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *