26.08.2010 19:43 пресс-центр ИжГТУ
Печать PDF
ImageКорпорация IBM и Европейский Союз расширили свое исследовательское партнерство, в котором теперь участвуют около тридцати национальных библиотек, научно-исследовательских институтов, университетов и организаций со всей Европы. Цель этого расширенного партнерства - создать новую технологию, которая позволит с высокой точностью и на массовой основе преобразовывать в цифровую форму исторически и культурно значимые текстовые материалы.

В отличие от предыдущих проектов по оцифровке текстов, результаты которых оказались статичными и не получили дальнейшего развития, эта уникальная крупномасштабная инициатива, получившая название IMPACT (IMProving ACcess to Text; "улучшение доступа к тестам"), предложит европейским институтам новые инструменты и наилучшие методики, которые дадут им возможность эффективно продолжать создание высококачественных цифровых копий редких исторических текстов, размещая их в Интернете и делая широко доступными для поиска и онлайнового редактирования.

Исследовательский проект IMPACT, финансируемый Евросоюзом, сочетает в себе возможности нового инновационного Web-ориентированного программного обеспечения для адаптивного оптического распознавания символов (OCR) с мощью технологии "crowd computing" - быстроразвивающейся концепции, основанной на совместном использовании коллективных знаний, навыков и опыта многочисленных групп людей (или "толп" людей) для расширения, углубления и совершенствования процесса или продукта с целью коренного улучшения его качества и эффективности. Объединение этих технологий позволит заинтересованным сторонам впервые адаптировать процедуры оцифровки и распознавания текста к особенностям древних шрифтов, к искажениям и аномалиям, и даже к специфическим терминологиям и лексиконам - при сокращении показателей частоты появления ошибок на 35% и частоты замещений и подстановок символов и сочетаний символов на 75%.

"IMPACT замечателен тем, что он не только дает этим знаменитым культурным центрам возможность поближе познакомить людей с редчайшими историческими текстами, которых они, возможно, никогда не видели раньше, но также реально позволяет этим людям стать частью процесса сохранения этого наследия, - считает доктор Тал Дрори (Tal Drory), руководитель группы обработки документов в отделении IBM Research в Хайфе. - IMPACT предлагает первую в своем роде систему преобразования текста в цифровую форму, которая сочетает мощь технологии "crowd computing" и адаптивного OCR-решения для распознавания и корректуры оцифрованного текста. Такая комбинация позволяет достичь выдающихся результатов для всех видов исторических документов, от 15 века до 19 века".

OCR-технологии сегодня прекрасно справляются с современными печатными текстами, однако старые выцветшие чернила и типографская краска, необычная форма древних шрифтов способны снизить показатели распознавания текста до 50%, что потребует большого объема последующих ручных операций вычитки и правки. Следовательно, для крупномасштабных проектов подобно этому, эффективность последующей обработки оцифрованного текста является критически важным условием. "Единственным путем осуществления крупномасштабного проекта по преобразованию текстов в цифровую форму является коренное улучшение качества первоначального оптического распознавания текста и максимально возможное сокращение последующей ручной обработки, - подчеркнула Хильделиз Балк (Hildelies Balk), руководитель отдела европейских проектов Национальной библиотеки Нидерландов (Koninklijke Bibliotheek) и координатор проекта IMPACT. - С помощью IMPACT мы надеемся достичь значимого улучшения продуктивности процесса оцифровки текстов".

В основе проекта оцифровки лежит уникальная система коллективной корректуры, разработанная исследователями IBM, которая через интерактивный Web-интерфейс облегчает большим группам добровольцев-корректоров со всего континента проверку правильности обработки текста и исправление ошибок оптического распознавания. Кроме того, система обладает способностью "обучаться" на обнаруженных OCR-ошибках и автоматически адаптироваться к специфике шрифтов.

Технология IMPACT оптимизирует, упрощает и ускоряет процесс исследования отсканированного текста и отбора спорных (сомнительных) участков, предоставляя корректорам возможность эффективно править текст. Вместо отображения полного текста оцифрованной страницы корректоры видят только буквы или слова, помеченные как спорные. Например, комбинация букв "r"  и  "n" ("rn") может быть неотличима от буквы "m". В подобных случаях система отбирает многие встречающиеся в тесте варианты использования буквы "m" и размещает эти примеры рядом со "спорными" буквами. Данная методика существенно облегчает правильное определение букв в словах текста.

В случаях, когда неочевидным является целое слово, оно добавляется в специальный словарь спорных выражений, которые отсортировываются в алфавитном порядке. Добровольным корректорам нужно лишь "одним щелчком мыши" принять или отвергнуть предлагаемые замены-подстановки. Кроме того, система использует метод адаптивного расширения словаря, когда новые слова добавляются в основной словарь на основе кросс-идентификации и правки другими пользователями.

Так, например, текст небольшой книжки, который "набивается" вручную на компьютере, в среднем, за четыре часа, можно оцифровать с помощью стандартной OCR-технологии и вручную откорректировать за час. Внедрение новой технологии коллективной корректуры сокращает этот процесс до 30 минут. Исследователи IBM отмечают, что новая адаптивная система оптического распознавания текста может дополнительно снизить это время еще на 15 минут

Источник: CyberSecurity.ru
| + -

Наши партнеры

Ижевский государственный технический университет Бизнес-инкубатор ИжГТУ имени М.Т. Калашникова Нанотехнологии в Удмуртской Республике Факультет  информатики Кубанского государственного аграрного университета Мир инноваций ВЫПУСКНИКИ ИМИ-ИжГТУ Джаз-оркестр ИМИ-ИжГТУ Спортлагерь ИМИ-ИжГТУ «Галево» Литературное объединение (ЛИТО) ИжГТУ «Прикосновение»