На этой стораничке Вы можете ознакомиться с научной работой студента
Донецкого Национального Технического Университета
Факультета ВТИ (Кафедра ЭВМ) группы ВТ-97б
Николаенко Дениса Владимировича
Текст предоставлен на государственном языке - украинском.
|
ВІДОМОСТІ
про автора і наукового керівника науково-дослідної роботи на тему:
Розробка і дослідження алгоритмів побудови динамічного портрета мовного сигналу
1. Прізвище: Нiколаєнко
2. Ім'я: Денис
3. По батькові: Володимирович
4. Вищий навчальний заклад, у якому навчається автор: Донецький національний технічний університет (ДонНТУ)
5. Факультет: Обчислювальної техніки й інформатики (ОТІ)
6. Напрямок: 6.0915 "Комп'ютерна інженерія" Спеціальність: 7.091501 "Комп'ютерні інтелектуальні системи і мережі"
7. Курс, група: 5, ВТ-97б
8. Домашня адреса: 84646, м. Горлівка, вул. Капітана Остапенко, 10/39
9. Громадянство: Україна
НАУКОВИЙ КЕРІВНИК
1. Прізвище: Ковальов
2. Ім'я: Сергій
3. По батькові: Олександрович
4. Кафедра, посада: доцент, кафедра ЕОМ
5. Учений ступінь: кандидат технічних наук
6. Учене звання: доцент
7. Домашня адреса 83055 м. Донецьк, пр. Грінкевича 8/6
Робота рекомендована для участі в конкурсі 2001 навчального року за результатами вузівського конкурсу 2001р.
Реферат
Об'єктом дослідження є мовний сигнал. Мета наукової праці є розробка і дослідження алгоритмів побудови динамічного портрета мовного сигналу. Як метод дослідження використовувався аналіз вже існуючих методів розпізнавання речових сигналів. Апаратура: звукова карта ПК - SoundBlaster. Результати: отримані динамічні портрети, що дозволяють аналізувати мовний сигнал, виділяти інформативні ознаки мовного сигналу.
Область застосування: системи голосового керування персональним комп'ютером, розвідка, голосове керування побутовими предметами.
Вступ
Подальше поширення і поглиблення використання різних інформаційних систем приводить до необхідності надання користувачу максимальних зручностей при роботі з ЕОМ у режимі діалогу. Тенденція удосконалювання комунікаційного інтерфейсу веде до спрощення діалогу користувача з ЕОМ. В останні роки розробці зручного інтерфейсу приділяється пильна увага з боку ведучих виробників програмних продуктів. Звичним стандартом стали многооконные системи, оснащені візуальними засобами керування відповідно до принципів GUI (Graphical Users Interface). Керування інформаційними системами більше не вимагає пошуку потрібної клавіші на клавіатурі. Усе здійснюється наочно, і користувач бачить результати своїх дій на моніторі комп'ютера, у будь-який момент він може звернутися до системи допомоги, що стала невід'ємним компонентом будь-якої інформаційної структури.
Огляд ринку програм розпізнавання мови.
Були випробувані чотири лідируючих продукти - Dragon NaturallySpeaking
Preferred, IBM ViaVoice 98 Executive Edition, Lernout & Hauspie Voice
Xpress Professional і Philips FreeSpeech 98. Усі пакети були установлени
на комп'ютері Pentium II-266 з оперативною пам'яттю 128 Мбайт і звуковою
платою Sound Blaster. З кожним пакетом було проведено експерименти по
диктуванню тексту в основному екрані (звичайном варіанті Windows WordPad),
а також у середовищі текстового процесора, електронної таблиці і поштової
програми. Серед тестових документів був діловий лист, що містив багато
виділень жирним шрифтом, центрованих абзаців і незвичайних слів, а також
URL і таблицю, були прості електронні листи і вірші.
У цілому допустившей найменше число помилок і одночасно найпростіший у
використанні виявилася програма Dragon NaturallySpeaking Preferred, хоча
і з нею було достатнє незручно працювати в електронних таблицях і керувати
переміщеннями по екрану. У кожного з розглянутих пакетів є і сильні та
слабкі сторони. От як вони співвідносяться по основних параметрах.
Первинне навчання. В описах усіх пакетів затверджується, що їх
досить установити, зачитати вголос кілька пропозицій - і можна приступати
до диктування добре поставленим голосом. Допускаю, що це так, але
результати будуть набагато краще, якщо витратити від 10 до 50 хв на
навчання програми особливостям свого голосу. Відповідна процедура
складається в зачитанні серії тестових фрагментів; вона стомлююча,
але виконується всього один раз. У цілому найменш обтяжним виявилося
навчання Dragon.
Спочатку треба виконатинавчання по тестах. Далі потрібно дати системам
розпізнавання слова, що отсутствовали в їхньому убудованому словнику
(обсягом від 30 до 64 тис. слів). Створювати додатковий словник треба у
всіх розглянутих пакетах, але Dragon NaturallySpeaking краще усіх
розпізнавав, як пишеться нове чи незвичайне слово. У загальному і цілому,
чим більше проводити навчання програми і працювати з нею, тим точніше
вона розпізнає слова.
Диктування. Усі чотири пакети розраховані в першу чергу на те, щоб
забезпечити введення в документ ніяк не оформленого потоку тексту. З цією
задачею краще усіх справляється Dragon. Він єдиний з усіх досяг заявленої
безпомилковості розпізнавання - 95%. Безпомилковість 95% означає, що
кожне двадцяте слово інтерпретується неправильно, а виправлення вимагає
часу. У IBM ViaVoice 98, Philips FreeSpeech 98 і L&H Voice Xpress Pro
точність розпізнавання була близько 90%.
Підтримка інших програм. Усі чотири пакети забезпечують диктування
безпосередньо у вікні будь-якої програми, що працює з текстами, зокрема
Microsoft Word, Excel і таких популярних поштових клієнтів, як Outlook
Express і Netscape Messenger. Правда, на комп'ютерах щодо старих моделей
обробка вимовлених слів може відбуватися з затримкою.
Команди і керування. Можна не тільки диктувати програмам, але і
давати їм інструкції - відкрити той чи інший файл, надрукувати ту чи іншу
сторінку, - а крім того, керувати переміщеннями по Робочому столі.
Відповідні функції працювали у всіх чотирьох програмах, але не завжди.
Деякі команди, наприклад click File (клацнути по пункту File) чи click
Save (клацнути по пункту Save) у Word, приходиться повторювати по
декілька разів, перш ніж програма розпознає слово і виконує команду, -
особливо при роботі з Philips FreeSpeech 98. Керування Робочим столом
найкраще виходило в IBM ViaVoice 98.
Звукова апаратура. Усі програми припускають використання
визначених звукових плат - включаючи такі популярні марки, як Sound
Blaster. До трьох з чотирьох пакетів (виключенням є Philips) додається
стандартний мікрофон з навушниками. Але щоб домогтися кращих результатів
має сенс купити більш високоякісний мікрофон із шумозаглушенням.Нижче
розглянемо усі ці пакети окремо і дітальніше
Dragon NaturallySpeaking Preferred.
Достоїнства: найвища безпомилковість розпізнавання, простота використання.
Недоліки: незручне введення чисел, посереднє керування екраном.
Єдина програма, що наблизилася до того, щоб виконати рекламні обіцянки, -
160-доларова Dragon NaturallySpeaking Preferred - добре вводить текст і
дозволяє легко переключатися між диктуванням, виправленням і форматуванням.
Пакет компанії Dragon набагато перевершив інші в розпізнаванні тексту
ділового листа, дивно точно записавши такі складні імена власні, як
О'кееffе, Bernardo і Peterborough. У цілому він дуже близько підійшов до
досягнення заявленої безпомилковості розпізнавання - 95%.
Коли Dragon усе-таки припускається помилки, ви можете ввійти в режим
виправлення, просто сказавши "delete that" (видалити) чи "scratch that"
(викреслити), а потім повторити чи слово словосполучення правильне.
Форматувати текст також дуже просто: ви виділяєте текст і вимовляєте
слова типу "set font Arial 24" (установити шрифт Arial кегля 24),
"center that" (центрувати) чи "bold that" (виділити жирним шрифтом).
Але от набір команд переміщення і виправлення в Dragon, як і в інших
трьох пакетах, складний. Результат диктування було набагато швидше і
простіше поправити за допомогою миші і клавіатури.
З Dragon можна працювати двома способами: по-перше, пакет дозволяє
диктувати у своєму текстовому вікні (отриманий документ потім
вставляється в потрібну програму), по-друге, він містить убудовані
утиліти, що забезпечують уведення безпосередньо у вікні текстового
процесора, поштової програми, електронної таблиці. Що простіше, залежить
від ваших особистих переваг і від використовуваної вами програми. Зовсім
не важко перенести надиктований текст у вікно поштової програми, а в
електронній таблиці зручніше диктувати числа прямо в кумірки.
Модуль NaturalWord для диктування у вікні Microsoft Word 97 (з більш
ранніми версіями він не працює) дуже схожий на основний екран мовного
введення Dragon. Він надає також доступ до команд меню Word, але
доводиться зробити кілька спроб, перш ніж Word виконав команду, та й
після цього швидше було діяти за допомогою клавіатури і миші. Компанія
попереджає, що на комп'ютерах з відносно повільним процесором
розпізнавання може відбуватися з паузами, але на Pentium II-266 цього
жодного разу не случилося.
Утиліта NaturalText забезпечує диктування в середовищі практично будь-якої
програми для Windows 95/98. Після її установки в системному лотку на
Панелі задач з'являються значки тексту і мікрофона. Щоб почати працювати
з NaturalText, досить клацнути по значку мікрофона - і можна говорити.
IBM ViaVoice 98 Executive Edition.
Достоїнства: гарне розпізнавання простих слів, удосконалені
переміщення по екрану і дизайн.
Недоліки: низька якість розпізнавання імен власних і скорочених
слів, повільна робота в середовищі деяких програм.
Пакет добре справляється з чисто текстовими секціями тестового листа,
але спіткнувся на деяких іменах власних і скороченнях. Наприклад,
прізвище Bernardo він записав як Bernad O, назва містечка Westwood - як
West would it, а Peterborough - як Peter burrow. Це істотно знизило
підсумковий відсоток помилок розпізнавання.
Як і Dragon, корпорація IBM забезпечує просте переключення між режимами
диктування, виправлення, диктування по буквах і введення команд. Досить
сказати, що ви збираєтеся зараз робити, і пакет, як правило, зрозуміє вас
вірно. Епізодично в процесі тестування приходилося зіштовхуватися з
незначними проблемами при спробі змусити ViaVoice 98 сприйняти команду
переміщення, таку як move up four lines - піднятися на чотири рядки.
Найкраще це вдається, якщо давати команди уривчасто і монотонно; при цьому
часом виникає неприємне відчуття, що не Ви навчаєте програму, а вона Вас.
Можна використовувати ViaVoice безпосередньо усередині таких програм, як
Word, Excel і Internet Explorer Mail. Диктування в Word відбувається
майже без затримок, але в інших програмах приходиться мало-мало почекати,
поки продиктований текст буде оброблений. Зате в ViaVoice 98 більш
природна робота з числами, чим у Dragon: щоб записати в осередок Excel
суму 23 432 дол., потрібно сказати "twenty-three thousand four hundred
thirty-two dollars" (двадцять три тисячі чотириста тридцять два долари).
Ще одне достоїнство ViaVoice 98 - чудово організоване керування Робочим
столом Windows. Щоб запустити Excel, досить сказати "open Excel", щоб
розгорнути пункт меню, досить його назвати. Можна вибирати кнопки,
вимовляючи написані на них слова (такі, як OK чи Cancel). На випадок,
якщо програма не буде розпізнавати команди, у ній передбачене навчання,
до цієї тактики рідко приходиться прибігати.
L&H Voice Xpress Professional.
Достоїнства: просте і швидке виправлення неправильне сприйнятих
слів, чудове розпізнавання чисел.
Недоліки: причепливість до вимови команд, нерівномірна якість
розпізнавання.
На перший погляд Voice Xpress Professional компанії Lernout & Hauspie
дуже схожий на NaturallySpeaking Preferred. Але, хоча в цього 150-доларового
пакета і є визначені переваги - гарне розпізнавання чисел, тісна
інтеграція з компонентами Office 97, - він уступає програмі Dragon як
розпізнавання слів і команд.
Процедура навчання в Voice Xpress Pro - сама довга з усіх. Займає вона
понад 50 хв, за які треба прочитати 230 екранів з текстом - списки команд,
вправи в диктуванні по буквах і уривки з книги про Антарктику з такими
труднопроізносимими пасажами, як vulpine Russian glaciologist (хитрий
росіянин гляціолог).
З розпізнаванням ділового листа програма в основному справилася, але час
від часу з її роботою щось случалося. Westwood Park перетворився в west
with a park, June twenty-second - у June twenty seconds, quarter - у
water. Реальною проблемою були також артиклі і короткі службові слова
(такі як a, the, that). Дефекти розпізнавання, можливо, зв'язані з
невеликим обсягом основного словника - 30 тис. слів, що приблизно вдвічі
менше, ніж в інших пакетах.
З розпізнаванням деяких команд переміщення і керування, наприклад go to
the end of the document (перейти в кінець документа), у Voice Xpress Pro
також виникли складності. Удається зменшити число помилок, почавши
говорити повільно і неприродно чітко. Ще кращий результат дало злиття
слів - потрібно було вимовити щось начебто "downtwoparagraphs" (на два
абзаца вниз), зробивши паузу перед командою і після її.
Що стосується позитивних сторін Voice Xpress Pro, те цей пакет володіє
кращої з усіх розглянутих системою виправлення помилок. Ви говорите
"correct that" (виправити), і на екрані з'являється список варіантів.
Якщо придатний варіант є в списку, потрібно вимовити "take" (прийняти)
і номер правильного слова, після чого воно вставляється в документ.
Інше достоїнство пакета - гарна інтеграція з компонентами Microsoft
Office 97: робота з ними відбувається без яких би то ні було затримок.
Крім того, Voice Xpress Pro блискуче вводить числа: диктувати їх у Excel
можна зовсім природно. І усе-таки він істотно уступає Dragon по якості
розпізнавання і IBM Via Voice по простоті керування.
Philips FreeSpeech 98.
Достоїнства: наявність безкоштовної спробної версії, дешевина.
Недоліки: посередня якість розпізнавання при диктуванні, деякі
команди не розпізнаються, відсутність мікрофона.
З чотирьох розглянутих нами програм Philips FreeSpeech 98 має сама точна
назва: його можна протестувати зовсім безкоштовно (одне зі значень
англійського free - "безкоштовний". - Прим. перши.), просто одержавши із
сервера www.freespeech98.com настановний файл обсягом у 30 Мбайт.
Користування пакетом після іспитового періоду, що триває сім днів, коштує
39 дол.
Незважаючи на дуже низьку ціну, пакет FreeSpeech 98 функціонально повний.
Він підтримує і стандартне вікно диктування типу WordPad, і можливість
диктувати в будь-якій програмі для Windows, де є введення тексту, і
керування переміщеннями по меню і вікнам на Робочому столі. На відміну
від інших пакетів, FreeSpeech вимагає ручного переключення між диктуванням,
керуванням, диктуванням по буквах і режимом "сну". Передбачається, що
відповідні команди можна подавати голосом, але вони спрацьовували так
рідко, що краще віддати перевагу миші.
Стартова якість розпізнавання FreeSpeech 98 робило не занадто сприятливе
враження. У тестовому діловому листі він прекрасно розпізнавав базову
лексику, але будь-яке незвичайне слово вибивало його з колії. Прізвище
О'кееffе була записана як both keys, а Bernardo - як burn our goal.
Числа, як і в Dragon NaturallySpeaking, орієнтуються тільки якщо
диктувати їх по одній цифрі.
Команди переміщення і форматування FreeSpeech 98 дуже схожі на наявні в
інших пакетах (у дійсності ряд команд просто збігається). Але FreeSpeech
часто з разючою упертістю ігнорував мої указівки виділити чи текст
перемістити курсор.
Огляд вітчизняного ринку.
При тім що вітчизняні розроблювачі дуже сильні в розпізнаванні символів
(продукти компаній ABBYY і Cognitive Technologies відомі усьому світу),
можна було б очікувати, що й у розпізнаванні звучної мови вони процвітають
не менше. Однак на дійсний момент єдиним пакетом для ПК, що дозволяє
диктувати по-російському, є "Комбат" московської фірми "Вайт Груп"
(www.orc.ru/~kombat)-русифікована версія програми Dragon Dictate (про
перший варіант пакета, що назывались "Горыныч", див. "Мир ПК", № 9/97, с. 181).
"Комбат" забезпечує введення російських текстів, а також керування Робочим
столом російських версій Windows 3.x, 95/98 і NT. Обсяг його словника -
26 тис. словоформ із можливістю розширення до 30 тис., тобто досить
скромний (не забудемо, що російська словозміна значна багаче англійського),
зате ціна - всього 15 дол. Як повідомляють розроблювачі, вона була
знижена в передодні випуску наступної версії, уже на основі Dragon
NaturallySpeaking.
Створення власної системи диктування в нинішніх російських умовах не
окупиться - вважають у петербурзькому Центрі мовних технологій
(www.stc.rus.net),-але в розпізнавання мови є маса інших корисних
застосувань. Там активно займаються системами мовного керування (причому
не обов'язково комп'ютером - розроблений Центром пульт "Труффальдино"
призначений для мовного керування побутовою електронікою типу
відеомагнітофона), розпізнаванням голосу, комп'ютерною обробкою записів.
Розпізнавання голосу знаходить застосування в криміналістиці, а також для
захисту комп'ютера (і не тільки комп'ютера) "голосовим паролем". А розроблений
Центром спеціальний текстовий редактор "Цезар" придасться усім, кому
часто приходиться розшифровувати неякісні записи: він дозволяє не тільки
будь-яке число раз "прокручивать" той чи інший фрагмент оцифрований запис
мови, але і прослухувати його в уповільненому темпі без перекручування
тембру, а також знаходити необхідне місце запису по введеному тексті.
Московський Клуб голосових технологій (web.science.park.ru/pcv)зосередив
свої зусилля на синтезі мови. У співробітництві з лінгвістами з Лабораторії
експериментальної фонетики Філологічного факультету МГУ він випустив диск
"миша, ЩоГоворить," (видавцем виступив Міжнародний центр фантастики).
"Миша" позиціоніруєтся як розважальний продукт (і реклама розробленого
Клубом програмістського інструментарію для синтезу), але цілком може
придатися людям з ослабленим зором, яким важко читати напису на екрані.
Але саме цікаве відбувається, мабуть, у "ИстраСофт"
(www.istrasoft.ru)-компанії, відомої в першу чергу пакетом для навчання
англійській мові з візуальним контролем вимови "Професор Хиггинс"
(див. "Мир ПК", № 9/98, с. 48). Розвиваючи "Хиггинса", співробітники
"Истрасофт" зробили технологічний прорив, значення якого важко
переоцінити: вони навчилися членувати слова на елементарні сегменти, що
відповідають звукам мови, незалежно від диктора і від мови! (Існуючі
системи розпізнавання мови не роблять сегментації: найменшою одиницею для
них є слово.) Демонстрація нової технології виглядає поки не дуже ефектно:
це всього-на-всього упакування і розпакування звукових файлів із записом
мови - правда, з надзвичайно високими коефіцієнтами стиску. Якщо файл був
стиснутий сильно, то після розпакування в ньому з'являються чітко чутні
границі між сегментами; використанню програми по прямому призначенню вони,
звичайно, заважають, але фахівцю дозволяють переконатися в правильності
членування.
Щоб створити засновану на новій технології систему розпізнавання,
необхідно "прив'язати" сегментацію до конкретної мови за допомогою двох
словників - "звукового", що зіставляє реальним звукам мови визначені
фонеми, тобто смислоразлічітельні одиниці (на слух ми, як правило,
сприймаємо саме фонеми рідної мови, не зауважуючи розходжень між їх
варіантами, обумовленими, наприклад, позицією), і "фонетико-орфографічного",
що буде переводити фонемний запис у письмову. Принципово нічого складного
тут немає: це цілком рутинна, помірковано трудомістка технічна задача.
Проте на її рішення потрібні робочі руки і засоби, яких у "ИстраСофт" не
так багато.
Висновок: автоматичне розпізнавання мови зручно для диктування
коротких записок і електронних листів, причому тут краще усіх виявилася
програма NaturallySpeaking компанії Dragon. Але ця технологія погано
підходить для редагування і форматування надиктованого тексту. Вона
навряд чи придасться майстрам таблиць і графікам-віртуозам у нашому
комп'ютерному світі, де головну роль грає миша.
Мета роботи.
Метою роботи є розробка автоматизованого робочого місця (АРМ) для
дослідження динамічних портретів звуків.
Провівши аналіз існуючих систем, можна зробити висновок, що для
ефективного акустичного аналізу важливо, з яким представленням вихідного
сигналу працює система автоматичного розпізнавання мови, які параметри
виділяються для наступної фонетичної обробки і як ці параметри можуть
бути надійно виділені в мовному сигналі.
Динамічні портрети - досить удала форма представлення мовного сигналу,
що дозволяє виявити найбільш характерні, порівняно інваріантні
властивості звуків, розпізнавальні ознаки окремих звуків і їхніх класів.
Динамічний портрет складається з трьох складових:
1. Масив максимальних значень (контур інтенсивності) - усі значення
звітів (вибірок) параметричного коду сигналу заміняються значенням
максимального відліку на інтервалі часу Т визначеної тривалості.
Отриманий масив нормується по амплітуді для всього аналізованого
відрізка мовного сигналу;
2. Контур числа переходів через нуль - підраховується число переходів
через нуль на тім же інтервалі часу Т, що й у випадку контуру
інтенсивності;
3. Контур числа нулів - підраховується число нулів на інтервалі часу Т.
Результати проведеної наукової праці
Проведено аналіз існуючих на даний момент систем і алгоритмів
розпізнавання мови, виділені достоїнства і недоліки, наприклад, диктування
здійснюється строго за словами, тобто після кожного слова потрібно робити
паузу, що не зовсім зручно і знижує швидкість набору тексту; тривале
настроювання програми інтерфейсу на конкретного диктора, тобто навчання
системи, для одержання деякої бази слів (іноді дуже великий, наприклад,
для програми "Горыныч" фірми VoiceLock цей обсяг складає 5000 слів, а в
комерційній версії 10000, причому ця база постійно поповнюється) для
того, щоб блок програми мови, що відповідає за розпізнавання, найбільше
коректно розпізнавав команди користувача; висока ціна.
Розроблено програму АРМ призначена для полегшення процесу проведення
подальших досвідів і експериментів у напрямку вивчення і виділення
інформативних ознак (фонем) у звучній мові.
Опис програми.
Розроблена програма дозволяє на базі сучасних технічних засобів і
стандартів представлення акустичної інформації в персональному
комп'ютері створювати динамічні портрети з будь-якого оцифрованного звуку
для наступного аналізу мовних сигналів і виявлення інформативних ознак
фонем звучної мови і побудови технічних систем, що використовують мовне
керування.
Як технічні засоби дослідження мовного сигналу, обраний звичайний
мультимедийный набір персонального комп'ютера, до складу якого в даний
час обов'язково входить звукова карта, що дозволяє оцифровати будь-який
звук у діапазоні частот від 8000 Гц до 48000 Гц. Для експериментів
частота дискретизації була обрана рівної 44100 Гц, що порозумівається
психофізичним ефекту згладжування в слуху [4], і частота дискретизації
складає 44100 Гц, що дозволяє здійснювати комплексне дослідження мовного
сигналу, зокрема, рішення задачі ідентифікації по голосі, що припускає
обробку тонкої тимчасової структури сигналу. Нижній поріг частоти
дискретизації визначається на підставі теорії Котельникова В.А. і не
перевищує 20 кгц [5].
Як формат звукового файлу був обраний WAV формат, переваги якого
полягають у відсутності компресії файлу, поширеності формату, надійності
збереження даних, наявності найбільш повної технічної документації.
Файл оцифровати з частотою дискретизації 44100Гц і 16-бітной оцифровкой,
що дає граничне співвідношення сигнал/шум близько 98 дБ.
Як мову програмування була обрана мова високого рівня Delphi 6, що
порозумівається наявністю в цій мові програмування всіх необхідних
бібліотек і методів для об'єктів, використовуваних у програмі. Була
написана програма, що дозволяє одержувати динамічні портрети мовного
сигналу. На малюнку 2 представлена вихідна форма звукового сигналу, а
нижче на малюнку 3 приведений динамічний портрет цього звукового сигналу.
Як звуковий сигнал було використане слово "сочитися"
АРМ має вікно з двома закладками. Одна для відображення динамічного
портрета, інша для відображення вихідної (реальної) хвилі мовного
потоку. АРМ дозволяє зберігати отриманий динамічний портрет у форматі
BMP файлу, роздруковувати на принтері, масштабировать зображення
динамічного портрета, відображати экстремумы або крапками, або у виді
числових значень для зручності аналізу і сприйняття.
Процес розпізнавання образа
Схематично алгоритм розпізнавання можна представити у виді послідовності
з 4-х етапів:
1. Користувач вимовляє слово в мікрофон.
2. Аналоговий сигнал з мікрофона попадає вхід звукової карти.
3. У звуковій карті аналоговий сигнал перетвориться в цифровий шляхом
проходження його через АЦП. Програма звукозапису за допомогою драйвера
звукової карти генерує звуковий файл формату WAV.
4. АРМ зчитує дані з цього файлу і на підставі цих даних будує динамічний
портрет, що потім виводиться на екран для подальшого аналізу.
Записувати звуковий файл для аналізу можна за допомогою будь-якої програми
звукозапису, наприклад, SoundForge чи стандартними засобами Windows як
"Звукозапис". При цьому необхідно установити у властивостях файлу, що
зберігається, частоту дискретизації 44100 Гц 16-битий моно.
Перспективи ПО розпізнавання мови.
Оглядачі відзначають, що 1998 рік був присвячений ПО розпізнавання мови.
Практично всі програми, починаючи від клієнтів електронної пошти і
закінчуючи браузерами, почали оснащуватися різними засобами розпізнавання мови.
Технології розпізнавання голосу і перетворення тексту в голосове
представлення зайняли одне з найбільш почесних місць на виставці
Comdex'97 у Лас-Вегасе.
Але яка імовірність того, що засобу перетворення мови в текстову форму і
розпізнавання безупинного диктування незабаром з'являться на кожнім
корпоративному настільному комп'ютері?
Аналитики вважають, що швидше за все цього не відбудеться. Офісні ПК, що
найчастіше дотепер працюють з 16-розрядними додатками і Windows 3.x,
просто не зможуть забезпечити необхідну обчислювальну потужність.
"Я думаю, що корпоративні користувачі одержать можливість працювати з
технологією розпізнавання мови тільки після того, як у них буде
встановлене устаткування, що підтримує Windows 98 чи Windows NT", -
відзначила редактор інформаційного бюлетеня TrendsLetter Эми Воль. Зараз
вона готує до публікації матеріал, присвячений системам розпізнавання
мови.
Утім, корпоративні покупці уже включилися в процес відновлення
інфраструктури. По оцінках IDC, конфігурація типового здобува сьогодні ПК
припускає наявність процесора Pentium MMX з тактовою частотою 200 Мгц і
32 Мбайт оперативної пам'яті.
Компанія Lotus Development абсолютно упевнена в тім, що голосові
технології чекає велике майбутнє. Недавно Lotus умонтувала програмне
забезпечення ViaVoice, розроблене IBM, в офісний пакет Lotus SmartSuite 97
і інтегрувала його з текстовим процесором WordPro 97.
Корпорація Microsoft також вважає, що недооцінювати переваги голосових
технологій не можна. У вересні глава Microsoft Білл Гейтс оголосив, що
його компанія за 45 млн. дол. здобуває 18% акцій фірми Lernhout & Hauspie
Speech Products. Microsoft приділяє велику увагу обробці природної мови,
що складає один із ключових компонентів розпізнавання мови.
Джерела, близькі до компанії Corel, затверджують, що вона розглядає
можливість убудовування технології розпізнавання мови в пакет WordPerfect
Office.
Актуальним є питання первинного опису мови, пошуку таких форм його
представлення, що забезпечували б просте і надійне виділення
інформативних ознак сигналу.
Висновок
Проведено аналіз існуючих методів розпізнавання мови.
Дано обґрунтування і показана доцільність використання динамічних
портретів мовних сигналів, дискретизированных з урахуванням
психофізичного ефекту згладжування в слуху, для рішення задач акустичного
аналізу мови.
Запропоновано метод обробки мовних сигналів по їхніх динамічних портретах.
Створений АРМ для побудови динамічних портретів.
Список використаних джерел
[1] - www.art.bdk.com.ru/govor
[2] - О.И. Федяев, С.А. Гладунов Мовний компонент в інтерфейсах інформаційних систем. - Научн. тр. Донецького нац. тех. університету. Серія Інформатика, кібернетика й обчислювальна техніка, вип. 2001 - с. 100-105
[3] - Л.Г. Доросинский, А.Н. Миколаїв Особливості застосування методів розпізнавання мови в задачах аналізу дефектів мови //http://www.sakrament.com/it-rus/index.htm
[4] - В.Л. Николаенко Математичні моделі згодних сегментів мовного потоку і їхнє використання в системах автоматичної обробки мови. Харків 1988.
[5] - Технологія розпізнавання голосу //http://www.cs.msiu.ru/ projects/kurs/1999/9311/AI_CURSOVIK/kozlowa/docum2.html
[6] - Ми можемо поговорити http://www.osp.ru/pcworld/1999/ 03/042.htm
[7] - Перспективи ПО розпізнавання мови http://www/osp.ru/cw/ 1998/03/41.htm
[8] - И.П. Іванов Застосування нейросетевых систем прогнозування в системах керування якістю при виробництві електронної апаратури // Молодіжна науково-технічна конференція "Наукомісткі технології й інтелектуальні системи в XXI столітті". - Збірник наукових праць. Москва. 16-17 березня 2000 р. С.126-130.
[9] - Г.Л. Яковлева Застосування нейросетевых методів при побудові сучасних аналітичних систем// Молодіжна науково-технічна конференція "Наукомісткі технології й інтелектуальні системи в XXI столітті". - Збірник наукових праць. Москва. 16-17 березня 2000 р. С.126-130.
[10] - Хвальків Н.С., Жидков Н.П., Кобельков Г.М. Чисельні методи.-М.:Наука,1987.
[11] - Вентцель Е.С. Дослідження операцій.-М.:Наука,1988.
[12] - Вокодерная телефонія. Методи і проблеми. Під ред. А.А.Пирогова.М.:Зв'язок,1974.
[13] - Рабинер Л.Р., Боярин Р.В. Цифрова обробка мовних сигналів. Пер. с англ.-М.:Радіо і зв'язок,1981.
[14] - Цвикер Э., Фельдкеллер Р. Вухо як приймач інформації. Пер. с нем. під общ. ред. Б.Г.Белкина.-М.:Зв'язок,1971.
|
Праця подана на конкурс 23.11.01
Николаенко Денис Владимирович
|