IBM и Евросоюз создают технологии для крупномасштабной оцифровки исторических текстов

Энергоинформ / Новости / Новости мира Технологий за 2010 год / IBM и Евросоюз создают технологии для крупномасштабной оцифровки исторических текстов

08.09.2010. IBM и Евросоюз создают технологии для крупномасштабной оцифровки исторических текстов

Корпорация IBM и Европейский Союз расширили своё исследовательское партнёрство, в котором теперь участвуют около тридцати национальных библиотек, научно-исследовательских институтов, университетов и организаций со всей Европы. Цель этого расширенного партнёрства — создать новую технологию, которая позволит с высокой точностью и на массовой основе преобразовывать в цифровую форму исторически и культурно значимые текстовые материалы.

В отличие от предыдущих проектов по оцифровке текстов, результаты которых оказались статичными и не получили дальнейшего развития, эта уникальная крупномасштабная инициатива, получившая название IMPACT (IMProving ACcess to Text; «улучшение доступа к текстам»), предложит европейским институтам новые инструменты и наилучшие методики, которые дадут им возможность эффективно продолжать создание высококачественных цифровых копий редких исторических текстов, размещая их в Интернете и делая широко доступными для поиска и онлайнового редактирования.

Исследовательский проект IMPACT, финансируемый Евросоюзом, сочетает в себе возможности нового инновационного Web-ориентированного программного обеспечения для адаптивного оптического распознавания символов (OCR) с мощью технологии «crowd computing» — быстроразвивающейся концепции, основанной на совместном использовании коллективных знаний, навыков и опыта многочисленных групп людей (или «толп» людей) для расширения, углубления и совершенствования процесса или продукта с целью коренного улучшения его качества и эффективности. Объединение этих технологий позволит заинтересованным сторонам впервые адаптировать процедуры оцифровки и распознавания текста к особенностям древних шрифтов, к искажениям и аномалиям, и даже к специфическим терминологиям и лексиконам — при сокращении показателей частоты появления ошибок на 35% и частоты замещений и подстановок символов и сочетаний символов на 75%.

«IMPACT замечателен тем, что он не только даёт этим знаменитым культурным центрам возможность поближе познакомить людей с редчайшими историческими текстами, которых они, возможно, никогда не видели раньше, но также реально позволяет этим людям стать частью процесса сохранения этого наследия, — считает доктор Тал Дрори (Tal Drory), руководитель группы обработки документов в отделении IBM Research в Хайфе. — IMPACT предлагает первую в своём роде систему преобразования текста в цифровую форму, которая сочетает мощь технологии „crowd computing“ и адаптивного OCR-решения для распознавания и корректуры оцифрованного текста. Такая комбинация позволяет достичь выдающихся результатов для всех видов исторических документов, от 15 века до 19 века».

OCR-технологии сегодня прекрасно справляются с современными печатными текстами, однако старые выцветшие чернила и типографская краска, необычная форма древних шрифтов способны снизить показатели распознавания текста до 50%, что потребует большого объёма последующих ручных операций вычитки и правки. Следовательно, для крупномасштабных проектов подобно этому, эффективность последующей обработки оцифрованного текста является критически важным условием. «Единственным путём осуществления крупномасштабного проекта по преобразованию текстов в цифровую форму является коренное улучшение качества первоначального оптического распознавания текста и максимально возможное сокращение последующей ручной обработки, — подчеркнула Хильделиз Балк (Hildelies Balk), руководитель отдела европейских проектов Национальной библиотеки Нидерландов (Koninklijke Bibliotheek) и координатор проекта IMPACT. — С помощью IMPACT мы надеемся достичь значимого улучшения продуктивности процесса оцифровки текстов».

В основе проекта оцифровки лежит уникальная система коллективной корректуры, разработанная исследователями IBM, которая через интерактивный Web-интерфейс облегчает большим группам добровольцев-корректоров со всего континента проверку правильности обработки текста и исправление ошибок оптического распознавания. Кроме того, система обладает способностью «обучаться» на обнаруженных OCR-ошибках и автоматически адаптироваться к специфике шрифтов.

Технология IMPACT оптимизирует, упрощает и ускоряет процесс исследования отсканированного текста и отбора спорных (сомнительных) участков, предоставляя корректорам возможность эффективно править текст. Вместо отображения полного текста оцифрованной страницы корректоры видят только буквы или слова, помеченные как спорные. Например, комбинация букв «r» и «n» («rn») может быть неотличима от буквы «m». В подобных случаях система отбирает многие встречающиеся в тексте варианты использования буквы «m» и размещает эти примеры рядом со «спорными» буквами. Данная методика существенно облегчает правильное определение букв в словах текста.

В случаях, когда неочевидным является целое слово, оно добавляется в специальный словарь спорных выражений, которые отсортировываются в алфавитном порядке. Добровольным корректорам нужно лишь «одним щелчком мыши» принять или отвергнуть предлагаемые замены-подставновки. Кроме того, система использует метод адаптивного расширения словаря, когда новые слова добавляются в основной словарь на основе кросс-идентификации и правки другими пользователями.

Так, например, текст небольшой книжки, который «набивается» вручную на компьютере, в среднем, за четыре часа, можно оцифровать с помощью стандартной OCR-технологии и вручную откорректировать за час. Внедрение новой технологии коллективной корректуры сокращает этот процесс до 30 минут. Исследователи IBM отмечают, что новая адаптивная система оптического распознавания текста может дополнительно снизить это время ещё на 15 минут.

Источник: CyberSecurity

Энергоинформ — альтернативная энергетика, энергосбережение, информационно-компьютерные технологии

08.09.2010. IBM и Евросоюз создают технологии для крупномасштабной оцифровки исторических текстов