Как мы в организации эсперантистов США занимались вычиткой и подготовкой к публикации оригинальной эсперанто-литературы из собрания Baza legolisto

языки эсперанто мысли

В мае этого года на сайте Esperanto-USA, крупнейшей организации эсперантистов с США, проскочила новость о поиске волонтеров для помощи с вычиткой текстов: “Esperanto-USA is working to republish out-of-print classics from the Baza legolisto so that future generations can enjoy them in free ebook and low-cost print versions”. У меня было свободное время, почему бы не поучаствовать? Написал письмо одному из директоров организации, курировавшему проект, и включился в команду волонтеров. Нас тогда было человека четыре. Чуть позже объявление отправили в тематические чаты и сообщества в соцсетях, набралось около 20 человек. Конечно, все участвовали в меру свободного времени и возможностей.

Baza legolisto - это собрание оригинальной эсперанто-литературы (проза и поэзия), составленное одним из известнейших писателей Уильямом Олдом.

В качестве основной платформы был выбран Distributed Proofreaders - веб-проект по оцифровке книг для проекта “Гутенберг”. Платформа очень удобная, каждый участник работает над отдельной страницей книги. Остальные участники могут видеть все внесенные изменения. Для общения - портал groups.io и почту. Вся переписка была на эсперанто и обычно дублировалась на английском.

Вычитка делится на пять этапов:

  • Scanning/OCR - куратор проекта сканирует книгу, распознает текст специальной программой и загружает на сайт.
  • P1: Proofreading Round 1 - волонтеры вычитывают текст и исправляют ошибки в распознавании. Полный список правил форматирования довольно объемный, чем-то напоминает помесь Markdown и HTML, но на практике встречалась лишь небольшая часть правил. Например, не было ни одной таблицы.
  • P2: Proofreading Round 2 - волонтеры проверяют работу друг друга, еще раз просматривая все страницы. На этом этапе возникало много вопросов, т.к. выяснилось, что все поняли правила немного по-разному) В переписке быстро все согласовали.
  • P3: Proofreading Round 3 - куратор проекта последний раз самостоятельно вычитывает текст и разбирается со всеми правками волонтеров. Книга собирается в единый файл.
  • PP: Post-Processing - Книга подготавливается к изданию.

Мы участвовали только в этапах P1 и P2. Если скан был в хорошем качестве, то правок было мало. В основном это потерянные крышечки над ĝĜ, ĉĈ, ŝŜ, ĥĤ, ĵĴ и ŭŬ и пунктуация. Нужно было правильно расставить абзацы, убрать переносы слов, отметить переносы слов на новую страницу и т.п. Если скан был в плохом качестве, то приходилось восстанавливать кучу слов, местами угадывая буквы по смыслу. Исправляли ошибки и опечатки в словах, их было много. Интересно было встречать архаизмы в тексте. Да-да, в эсперанто уже образовалось не мало архаизмов. Например, слово ĉina, “китайский”, раньше писали ĥina.

Сейчас все доступные книги вычитаны (этапы P1 и P2), куратору осталось проверить пару книг. Ждем от него дальнейших новостей о публикации или, если повезет, еще книг для вычитки.