Знакомство
Автор: Евгений Рыжков Дата публикации:
Web Speech API дает возможности распознования и воспроизведения речи. Как применить:
- проговаривание текстовых блоков (по типу как работают голосвые браузеры);
- распознование речи (этому можно найти множество применений, например, реализация диктофона или голосовое заполнение форм).
Где работает
На данный момент только в Chrome 25+.
Mozilla работает над внедрением, по идее скоро тоже должныначать поддерживать.
Как использовать
Небольшой пример, который распознает речь на русском языке и записывает ее в текстовое поле:
var start_button = document.getElementById('start_button'), recognizing = false, // флаг идет ли распознование final_transcript = ''; // проверяем поддержку speach api if (!('webkitSpeechRecognition' in window)) { start_button.style.display = "none"; showInfo("info_upgrade"); } else { /* инициализируем api */ /* создаем объект */ var recognition = new webkitSpeechRecognition(); /* базовые настройки объекта */ recognition.lang = 'ru'; // язык, который будет распозноваться. Значение - lang code recognition.continuous = true; // не хотим чтобы когда пользователь прикратил говорить, распознование закончилось recognition.interimResults = true; // хотим видеть промежуточные результаты. Т.е. мы можем некоторое время видеть слова, которые еще не были откорректированы /* метод вызывается когда начинается распознование */ recognition.onstart = function() { recognizing = true; showInfo('info_speak_now'); // меняем инфо текст start_button.style.background = 'url(mic-animate.gif)'; // меняем вид кнопки }; /* обработчик ошибок */ recognition.onerror = function(event) { if (event.error == 'no-speech') { start_button.style.background = 'url(mic.gif)'; showInfo('info_no_speech'); } if (event.error == 'audio-capture') { start_button.style.background = 'url(mic.gif)'; showInfo('info_no_microphone'); } }; /* метод вызывается когда распознование закончено */ recognition.onend = function() { recognizing = false; start_button.style.background = 'url(mic.gif)'; showInfo('info_start'); }; /* метод вызывается после каждой сказанной фразы. Параметра event используем атрибуты: - resultIndex - нижний индекс в результирующем массиве - results - массив всех результатов в текущей сессии */ recognition.onresult = function(event) { var interim_transcript = ''; /* обход результирующего массива */ for (var i = event.resultIndex; i < event.results.length; ++i) { /* если фраза финальная (уже откорректированная) сохраняем в конечный результат */ if (event.results[i].isFinal) { final_transcript += event.results[i][0].transcript; } else { /* иначе сохраянем в промежуточный */ interim_transcript += event.results[i][0].transcript; } } final_span.innerHTML = final_transcript; interim_span.innerHTML = interim_transcript; }; } /* показ нужного сообщения */ function showInfo(id) { var messages = document.querySelectorAll('p'); for(i=0; i<messages.length; i++) messages[i].style.display = 'none'; document.getElementById(id).style.display = 'block'; } /* обработчик клика по микрофону */ function startButton(event) { if (recognizing) { // если запись уже идет, тогда останавливаем recognition.stop(); return; } recognition.start(); }
В живую (работает только в Chrome).
Управление голосом
Простой пример по управлению голосом внешним видом страницы. Распознается две команды: "фон" и "текст". Плюс три цвета: "черный", "белый", "синий". Сначала говорим команду, затем цвет. Т.е. команда звучит так - "фон черный".
var start_button = document.getElementById('start_button'), recognizing = false, // флаг идет ли распознование final_transcript = ''; // проверяем поддержку speach api if (!('webkitSpeechRecognition' in window)) { start_button.style.display = "none"; showInfo("info_upgrade"); } else { /* инициализируем api */ /* создаем объект */ var recognition = new webkitSpeechRecognition(); /* базовые настройки объекта */ recognition.lang = 'ru'; // язык, который будет распозноваться. Значение - lang code recognition.continuous = true; // не хотим чтобы когда пользователь прикратил говорить, распознование закончилось /* метод вызывается когда начинается распознование */ recognition.onstart = function() { recognizing = true; showInfo('info_speak_now'); // меняем инфо текст start_button.style.background = 'url(mic-animate.gif)'; // меняем вид кнопки }; /* обработчик ошибок */ recognition.onerror = function(event) { if (event.error == 'no-speech') { start_button.style.background = 'url(mic.gif)'; showInfo('info_no_speech'); } if (event.error == 'audio-capture') { start_button.style.background = 'url(mic.gif)'; showInfo('info_no_microphone'); } }; /* метод вызывается когда распознование закончено */ recognition.onend = function() { recognizing = false; start_button.style.background = 'url(mic.gif)'; showInfo('info_start'); }; /* метод вызывается после каждой сказанной фразы. Параметра event используем атрибуты: - resultIndex - нижний индекс в результирующем массиве - results - массив всех результатов в текущей сессии */ recognition.onresult = function(event) { /* обход результирующего массива */ for (var i = event.resultIndex; i < event.results.length; ++i) { /* если фраза финальная (уже откорректированная) сохраняем в конечный результат */ if (event.results[i].isFinal) { final_transcript += event.results[i][0].transcript.toLowerCase(); } } final_span.innerHTML = final_transcript; /* анализируем строку и ищем в ней команды сперва ищем команду "фон" */ var commandStart = final_transcript.indexOf("фон"), commandEnd, colorText, color; if( commandStart != -1 ) { commandEnd = commandStart + 4; colorText = final_transcript.substring(commandEnd, final_transcript.length); // получили цвет по русски switch(colorText) // переводим ру текст в en { case 'черный' : color = 'black'; break; case 'синий' : color = 'blue'; break; case 'белый' : color = 'white'; break; default: break; } document.body.style.backgroundColor = color; // меняем цвет } commandStart = final_transcript.indexOf("текст"); // ищем команду "текст" if( commandStart != -1 ) { commandEnd = commandStart + 6; colorText = final_transcript.substring(commandEnd, final_transcript.length); switch(colorText) { case 'черный' : color = 'black'; break; case 'синий' : color = 'blue'; break; case 'белый' : color = 'white'; break; default: break; } document.body.style.color = color; // меняем текст } final_transcript = ''; // очищаем рапознанный текст }; } /* показ нужного сообщения */ function showInfo(id) { var messages = document.querySelectorAll('p'); for(i=0; i<<messages.length; i++) messages[i].style.display = 'none'; document.getElementById(id).style.display = 'block'; } /* обработчик клика по микрофону */ function startButton(event) { if (recognizing) { // если запись уже идет, тогда останавливаем recognition.stop(); document.getElementById('final_span').innerHTML = ''; return; } recognition.start(); }
В живую (работает только в Chrome).
Материалы
- Web Speech API Specification
- Voice Driven Web Apps: Introduction to the Web Speech API