Китайская грамота | блог компании "Системный софт"
Вход
Регистрация

Китайская грамота

Китайская грамота

Слово «иероглиф» в русском языке стало нарицательным. Часто его используют для того, чтобы обозначить нечто непонятное и непостижимое. И правильно делают! Для людей, выросших в европейской культуре, иероглифы, действительно, часто становятся камнем преткновения.

Почему сложны иероглифы

Иероглиф – собирательное название для систем письменности, принятых в восточных языках: японском, китайском и, частично, корейском. Кстати, это слово известно еще со времен Древней Греции. Им в античности обозначали начертание «округлых» греческих букв, высеченных на камне.

Первые иероглифы появились в Китае еще в 16 веке до нашей эры. Из Поднебесной они были позаимствованы японцами и корейцами. Считается, что иероглифы помогают жителям Востока понимать письменность друг друга, даже не владея языком соседней страны. К примеру, в современном Китае насчитывается 3000 диалектов. И их носители прекрасно понимают друг друга. Кстати, можно попробовать почитать текст на болгарском языке, чтобы убедиться: понимать письменный язык ближайших соседей можно и в Европе.

Особенность иероглифов состоит в том, что они обозначают не отдельные буквы, а слоги или слова (слова из одного слога часто встречаются в восточных языках). Сама по себе такая система письма не оригинальна. Она, к примеру, принята и в иврите, где отсутствуют гласные буквы, аналогичные звукам А и Е. Но, если в иврите всего-то 22 буквы, то счет китайских иероглифов идет на тысячи.

«Минимальным» объемом грамотности в Китае считается знание полутора-двух тысяч иероглифов. Такого объема достаточно сельским жителям и мелким служащим. Чтобы читать газеты и журналы, нужно иметь «лексикон» из 3000 иероглифов. Словари обычно содержат от 6 до 10 тысяч, а в словаре «Море китайских иероглифов», изданном в 1994 году, их насчитывается более 84 тысяч.

Главное отличие иероглифа от привычных нам латиницы и кириллицы – обилие графических элементов. Наши буквы, как правило, являются единым знаком, элементы которого не имеют собственного значения. В иероглифическом письме важны каждая черточка, точка или крючок. Если напечатан или написан иероглиф неразборчиво, носитель языка поймет его значение по контексту, как мы понимаем значение слов, написанных с ошибками. А вот европейцу придется туго: смысл фразы потеряется или изменится до неузнаваемости.

И это – проблемы не только тех, кому приходится изучать иероглифические языки. Чем большую роль играют восточные в мировой экономике, тем чаще нам приходится иметь дело с текстами на китайском, японском или корейском языках. А значит – и работать с ними.

Как работают системы распознавания

С латинской или кириллической письменностью системы распознавания (OCR) работают уже с уверенной, высокой скоростью. Многие программы способны «разобрать» не только печатный, но и письменный вариант текста. 

Проблемой перестает быть и низкое качество оригинала, такие тексты система часто умеет не только распознавать, но и «на лету» исправлять. Но там, где носитель восточного языка справляется с особенностями начертания или качеством отображения текста благодаря своему мышлению, машина откровенно «пасует». Научить компьютер думать, как китайцы и японцы, смог только искусственный интеллект.

До недавних пор китайское и японское письмо распознавались OCR так же, как и европейские символы – на основе классификаторов. Выглядит алгоритм работы просто, строится от общего к частному. Система разделяет документ на страницы, каждая из них – на текстовые блоки, затем идут строки, слова, и, наконец, символы. Последнее – самое сложное. Для каждой буквы добавляются отдельные признаки начертания, символы и слова классифицируются, а система на основе классификации учится предлагать наиболее подходящие варианты «прочтения» текста.

Наверное, был бы очень занятным эксперимент, в котором один и тот же текст распознавался разными версиями одной и той же OCR. Сравнение результатов их работы стало бы отличной иллюстрацией того, как со временем совершенствовались такие решения. Повторимся: здесь важна не только точность распознавания, но и его скорость.

А теперь давайте усложним задачу и предложим OCR-системе в качестве виртуального задания распознать иероглифический текст. Если при работе с европейскими алфавитами приходится классифицировать самое большее – несколько десятков символов, то «китайская грамота» предполагает, что эту работу нужно сделать для тысяч иероглифов. 

Необходимость распознать нечеткую копию или рукописный вариант делают такую задачу сверхсложной. А о скорости распознавания документа и ресурсах компьютера, которые необходимы для решения задачи, говорить не приходится. Поэтому вплоть до 2018 года работа OCR с иероглифическими документами была не слишком уверенной и совсем не быстрой.

Нейросети для иероглифов

Все изменилось в 2018 году. Специалисты компании ABBYY, которая развивает знаменитый FineReader уже два десятка лет, нашли решение для задач, связанных с распознаванием иероглифов. Было решено применить нейросети.

Первоначально в ABBYY решили использовать одну сверточную сеть для распознавания всех иероглифов. Такой шаг представлялся логичным: подобный тип нейронных сетей разрабатывался в том числе и для распознавания текста. Кроме того, у компании был успешный опыт ее применения для работы с рукописными латинскими символами.

Однако, оказалось, что одна нейронная сеть работает либо слишком плохо (совершает ошибки в распознавании), либо крайне медленно. Не помогало и использование сложных архитектур. Проблемой стало большое число классов, по которым приходилось обучаться нейронной сети.

И тогда в компании решили применить другой подход – использовать двухуровневую систему. В ней «алфавит» разбивается на группы похожих символов. Первая сеть анализирует изображение иероглифа и определяет, к какой группе он принадлежит. А дальше в работу включается вторая сеть, которая и проводит итоговую классификацию внутри группы.

Результат протестировали на коллекции японских и китайских текстов. Сравнение показало, что при использовании одной сети скорость работы системы составляет около 370 символов в секунду при качестве распознавания в 97%. В быстром режиме ей удавалось распознать 570 символов в секунду, но качество распознавания снижалось до 92%. 

А вот двухуровневая сеть дала принципиально иные результаты. Обычный режим позволил обрабатывать 520 символов с более чем 97-процентным качеством, а быстрый – более 650 символов в секунду практически с таким же результатом работы.

Не только китайский и японский

Иероглифическое письмо – самый наглядный пример работы OCR со сложными задачами. Принципы и технологии распознавания, которые были реализованы для китайского и японского письма, могут применяться и для документов на других языках – хинди, тамильском или арабском.

К примеру, работа OCR с арабской вязью связана с необходимостью «разрезать» слово на символы. Но таких вариантов в этом языке оказалось слишком много. Специалисты ABBYY специально для него разработали end-to-end сеть и научили ее при помощи «набора» из сотен тысяч изображений текстов на арабском работать не с отдельными символами, а целыми словами. Кстати, такое решение отлично подошло и для распознавания европейских языков в том случае, если тексты набираются дизайнерскими шрифтами.


Самое читаемое

316 | Новости вендоровFigma получила контроль над решением Weavy. Платформа для генерации и редактирования изображений, видео и анимации с ИИ переименована в Figma Weave. 298 | Вебинары«Безопасный ИИ для работы с документами: обзор новых возможностей ContentReader PDF 16» 28.04.26 11:00 (МСК) 291 | Акции и скидкиВыгодные предложения на систему «Ассистент»: скидки 25-80% для малого и среднего бизнеса, здравоохранения и образования 280 | Новости вендоров«Нанософт» представляет готовые комплекты отраслевых решений: nanoCAD комплект Строительство и nanoCAD комплект Землеустройство 278 | Акции и скидкиСпециальные условия на переход и продление системы удалённого мониторинга и управления «Ассистент» 189 | Новости СиссофтКомпания «Системный софт» и компания «Проект ИТАМ2РУ» подписали партнерское соглашение. 68 | Новости Сиссофт«Системный софт»: объем рынка офисного программного обеспечения до 2030 года будет расти со среднегодовым темпом 9% 38 | ВебинарыПовышение осведомленности сотрудников по ИБ в 2026 году: как выполнить требования регулятора с помощью StopPhish
514 | Новости Сиссофт«Системный софт»: рынок NGFW в России достиг 54 млрд рублей 405 | Управление ИТ-активамиОбзор рынка ITSM-решений. Какое решение выбрать бизнесу? 319 | ВебинарыКак автоматически фиксировать задачи и итоги любых встреч с помощью MEETRON? 316 | Новости вендоровFigma получила контроль над решением Weavy. Платформа для генерации и редактирования изображений, видео и анимации с ИИ переименована в Figma Weave. 298 | Вебинары«Безопасный ИИ для работы с документами: обзор новых возможностей ContentReader PDF 16» 28.04.26 11:00 (МСК) 291 | Акции и скидкиВыгодные предложения на систему «Ассистент»: скидки 25-80% для малого и среднего бизнеса, здравоохранения и образования 280 | Новости вендоров«Нанософт» представляет готовые комплекты отраслевых решений: nanoCAD комплект Строительство и nanoCAD комплект Землеустройство 278 | Акции и скидкиСпециальные условия на переход и продление системы удалённого мониторинга и управления «Ассистент» 245 | ВебинарыБыстрый старт в nanoCAD Облака точек: от импорта облака точек до обмерочного чертежа. 22.04.2026 11:00 (МСК) 224 | Новости вендоров«СиСофт Девелопмент» выпустил новую версию EnergyCS Электрика 2026 217 | Новости вендоровКомпания «ВИЖНСЕРВИС» представила ИИ-диктофоны MEETRON 217 | Новости вендоровModus выпустила обновление платформы бизнес-аналитики Modus BI 3.12. 189 | Новости СиссофтКомпания «Системный софт» и компания «Проект ИТАМ2РУ» подписали партнерское соглашение. 181 | Новости вендоровContent AI выпустила новую версию редактора документов ContentReader PDF 174 | Записи вебинаровПараллельная прокладка трубопровода и лотка по эстакаде в продуктах Model Studio CS. Как лоток помогает трубе. 68 | Новости Сиссофт«Системный софт»: объем рынка офисного программного обеспечения до 2030 года будет расти со среднегодовым темпом 9%