В помощь студентам и журналистам
Практически любой журналист мечтает о том, чтобы записи всевозможных интервью, выступлений докладчиков на конференциях и круглых столах транскрибировались быстро, качественно и, по возможности, без его участия.
"Облако речи" (пока это рабочее название) как раз и возьмёт на себя эту функцию. По замыслу его создателей, это будет большой интернет-сервис, хранилище информации, куда каждый пользователь сможет загружать свои аудио- и видеоматериалы. Эти записи будут обрабатываться специальной программой. Результатом такой обработки на первых порах станет текстовый индекс, с помощью которого будет намного проще найти необходимый фрагмент записи. В дальнейшем программа научится максимально точно распознавать речь, то есть транскрибировать её практически без потери смысла.
Полученный текст будет интерактивен. Нажимая на те или иные слова в транскрипте, пользователь сможет перескакивать на соответствующие фрагменты записи. К тому же по текстовому индексу материал под силу будет искать внутри всех своих записей, даже сделанных несколько лет назад. Надо просто набрать в поисковой строке запрос, и система найдёт то, что нужно, и даже проранжирует по определённым параметрам.
Допустим, вы готовитесь к экзамену. Чтобы найти ответ на вопрос, необходимо прослушивать и перематывать всю запись лекции в надежде наткнуться на нужный отрывок. Новый сервис, который, как обещают его создатели, заработает в полную силу к середине 2011 года, упростит эту задачу. Ведь размещённая на платформе запись автоматически станет интерактивным материалом, которым можно будет делиться, причём не пересылая несколько десятков, а то и сотен мегабайт по почте, что для большого числа соучеников сделать порой невозможно. Достаточно просто дать ссылку на сервис.
К тому же после работы с тем или иным материалом остаётся история поиска, которая в дальнейшем позволит следующим пользователям более эффективно находить необходимую информацию.
Предполагается, что "Облако речи" будет доступно практически отовсюду: с компьютера, мобильного телефона.
Новое поколение компьютерных технологий
"На самом деле прямых аналогов нашему проекту пока нет. Подобные технологии существуют в корпоративном сегменте. Скажем, большие медиакомпании могут развернуть подобную платформу, которая позволила бы им не только работать со своими записями, но и мониторить большинство СМИ. Есть компании, которые специализируются на медийном поиске. Но эти технологии доступны узкой группе пользователей в крупных корпорациях. Используя модель SaaS, мы делаем сложную и дорогую технологию доступной среднему и малому бизнесу, а также частным пользователям", - рассказывает один из авторов стартапа, выпускник экономического факультета МГУ Роман Медведев.
Роману - 28 лет, его коллеге, физтеховцу Алексею Иванову, отвечающему за технологическую сторону проекта, - 38. С ним мы общаемся по скайпу, потому что сейчас Алексей работает в итальянском Университете Тренто, где участвует в проектах Европейского союза в области обработки естественно-языковой информации. Он уточняет, что в настоящий момент основная задача, стоящая перед разработчиками систем распознавания речи, - реализация таких систем, которые будут иметь менее жёстко заданные рамки своей работы и более человеческий стиль поведения в разговоре.
"Наш сервис - это уже следующее поколение компьютерных приложений, которые приходят на смену базовым программам, - поясняет он. - В настоящий момент происходит постепенная трансформация компьютеров от объектов программирования к более автономным системам, которые обладают сложным и зачастую неочевидным механизмом принятия решений. Такие системы можно будет обучать, давая им ощутить положительные и отрицательные примеры через достаточно развитую компьютерную когнитивную систему. Эта парадигма развития идёт на смену жёсткому диктату алгоритмов действия".
Компьютеры начинают вторгаться в область принятия решений. Конечно, пока этим решениям стопроцентно доверять нельзя. Ведь естественную разговорную речь даже людям трудно распознавать вне контекста беседы. Без каких-либо знаний об обсуждаемом предмете не существует однозначной возможности совершенно чётко определить, что было сказано. Следовательно, основная задача учёных, занимающихся этой проблематикой, - сделать так, чтобы компьютеры не только транслировали речь в текст, но и "понимали" смысл сказанного либо написанного.
По словам г-на Иванова, такое развитие компьютерных систем приведёт к возникновению семантического интернета - сети, в которой отдельные агенты (люди или машины) обмениваются смыслом, а не символическими последовательностями, доступными для понимания только конечным пользователям (людям).
Бизнес и наука в одной упряжке
Распознавание речи - это междисциплинарная область, где сочетаются знания инженеров, лингвистов и медиков (от специалистов по анатомии и физиологии речевого тракта до нейрофизиологов). Чтобы разработать и внедрить такую технологию, необходимо иметь доступ к самым современным методикам и исследованиям во всех этих областях, а также к уникальным специалистам.
"Однако для того чтобы иметь большое количество узких, но очень хорошо подготовленных профессионалов, необходимо тратить огромные деньги, - замечает Алексей Иванов. - В мире существует немного университетов, которые могут себе это позволить. Например, Стэнфорд. Всем остальным нужно как-то приспосабливаться".
В рамках проекта "Облако речи" создаётся межуниверситетская научная сеть, включающая учёных, специализирующихся в самых различных областях науки, и географически покрывающая практически всю Европу: Университет Тренто (University of Trento), МФТИ, СПбГУ, Католический университет Лёвена (Katholieke Universiteit Leuven), Эрлангенский университет (Friedrich-Alexander-University of Erlangen).
"На передний план выходит схема работы, когда индивидуальные высококлассные специалисты имеют большую связь с университетами и участвуют во множестве проектов, где их экспертиза находит применение. Компании же работают в ортогональной плоскости. Они концентрируются на одном продукте, услуге, конкретной технологии. Плюс контактируют с множеством технических специалистов. Например, мы делаем именно так", - с гордостью заявляет г-н Иванов.
"Концепция, когда ключевые учёные, участвующие в подобных бизнес-проектах, остаются при университете, в настоящее время более выигрышна. Компании, которые используют такую модель, в долгосрочной перспективе получают колоссальные конкурентные преимущества", - поддерживает его Роман Медведев.
Работа на перспективу
Сейчас создатели "Облака речи" находятся только на стадии запуска продукта, но работа проделана колоссальная. Пока проект развивается за счёт собственных средств его авторов. В будущем они надеются привлечь инвестиции либо со стороны частного капитала бизнес-ангелов, либо Фонда посевных инвестиций. Предполагается, что уже в начале 2011 года новый интернет-сервис начнёт функционировать в закрытом тестовом режиме, а уже к июлю заработает в полную силу.
"Мы находимся на подготовительном этапе, - рассказывает г-н Медведев. - Всё финансирование проекта мы ведём за свой счёт. Наша команда работает на перспективу и объединяет лучших специалистов в своей области. Мы поставили перед собой очень амбициозную задачу - это мотивирует людей гораздо сильнее краткосрочной финансовой выгоды. Мы стараемся сделать как можно больше, прежде чем привлечём ещё кого-то в компанию. По сути, мы с Алексеем инвестируем в проект собственное время и деньги".