Ученые из Санкт-Петербурга разработали технологию, позволяющую компьютеру автоматически распознавать слова и вести диалог с пользователем практически на любые заданные темы.
Математики и программисты из Санкт-Петербургского института информатики и автоматизации РАН, который в этом году празднует свой 30-летний юбилей, вместе с коллегами из Дрезденского технологического института и российской компании NewVoice разработали российскую технологию распознавания голоса, не только не уступающую зарубежным аналогам, но и по некоторым позициям ее превосходящую. В первую очередь потому, что создают ее люди не менее талантливые, но живущие и работающие в той же, русскоязычной языковой среде.
Система SIRIUS (Spiiras Interface for Recognition and Integral Understanding of Speech), которую авторы представили на недавней, V Международной специализированной выставке "Робототехника" (17-20 октября 2007, Москва) - это, как и следует из названия, система автоматического распознавания и интегрального понимания русской речи. Пока в словаре системы тысяча слов, которые компьютер уверенно выделяет и распознает в слитной, что очень важно, речи пользователя. Однако это не предел.
В принципе система позволяет оперативно пополнять словарь новыми словами и оборотами, что интересно - с учетом фонологических и морфологических особенностей русской разговорной речи. То есть всякие, например, московские "аканья" или вологодские "оканья" ее не смутят. Кто бы и как бы ни произнес уже известное системе слово, она уверенно выделит его из словесного потока и среагирует заданным образом - переадресует звонок тому, кто обладает нужной информацией, если это SIRIUS-секретарь, или перейдет к следующему, уточняющему вопросу, если это SIRIUS-справочная.
Однако всякого рода справочно-информационные службы - вовсе не единственное направление деятельности SIRIUSa. Есть и другие. Так, например, по замыслу авторов, он может быть частью системы, позволяющей управлять ПК в бесконтактном режиме - только движением глаз, лица и голосом. Соответствующую систему специалисты из СПИИ РАН разрабатывают не первый год, и значительно продвинулись в этом направлении. Они уже создали одну из первых российских многомодальных систем, названную ICanDo, которая позволяет управлять курсором без мышки - только движениями лица или вообще взглядом. Для этого видеокамера отлеживает перемещения пяти точек на лице человека (зрачки, кончик носа, центр верхней губы и середина переносицы) и использует полученную информацию так же, как и сигнал, полученный при перемещении мышки. Если же информация компьютеру будет поступать синхронно двумя потоками - звуковым, благодаря использованию системы распознавания речи, и оптическим, это существенно повысит и эффективность, и точность работы всей системы в целом. А уж область применения подобных универсальных систем практически безгранична - от помощи инвалидам, лишенным возможности двигаться, до бесконтактного управления бытовой техникой и "умными домами".
Источник: Российская Академия Наук