Регистрация   Вход
На главную » Профессиональная помощь »

Сканирование, распознавание и вычитка текстов


Федор:


Тео, Это столько пропущено? Огромнейшее, преогромнейшее СПАСИБО!!! Ты, пожалуйста, не убирай книжку. Я ведь не знаю, что будет дальше. Вдруг опять что-то.

...

Natala:


Сделала книгу Хирш Б.А."Нити судьбы". Благодарю за книгу и оцифровку Sunset, за помощь Larisa-F.

...

Shemeshko:


Добрый вечер, я по поводу вычитки. Я никогда этим не занималась, но если вас не смущает мое невежество в этом вопросе готова попробовать.

...

Fedundra:


Анна Добрый вечер.
Смущать не смущает, читать вы надеюсь умеете? ))) И наверняка вам попадались очень грязные, с ошибками, неправильно оформленные электронные тексты. Так вот Вычитка - это освобождение вордовского текста от различных мусорностей.

Вы увидите как это выглядит.
Сразу не пугайтесь. Я сканировала все от обложки до обложки, но ваша задача, сделать текст что бы он походил на нормальный текстовой файл какие у нас загружаются в библиотеку. Например этот:
http://www.metaindex.org/literature/download.php?file=49911&token=8e2f
Вот я немного объясняла раньше как это выглядит:
https://lady.webnice.ru/forum/viewtopic.php?p=889147#889147
https://lady.webnice.ru/forum/viewtopic.php?p=888816#888816

С чего бы вам хотелось попробовать? Первый сделанный текст лучше будет показать мне, если все будет нормально, то потом вы его сами загрузите на сайт от себя лично.

...

Е-л-е-н-а:


Fedundra писал(а):


С чего бы вам хотелось попробовать? Первый сделанный текст лучше будет показать мне, если все будет нормально, то потом вы его сами загрузите на сайт от себя лично.


аналогичная трудность,так же как и у Анны. Никогда не "вычитывала", но редактировать доводилось. Если не напрягает, что я не моментально это буду делать (всё-таки работаю днём), то я бы попробовала. А пожелания принимаются? совсем не хочется российских авторов читать и вообще хорошо бы чтобы это были любовные романы. И тогда скажите где и что брать. Smile

...

vita-life:


Тоже никогда не вычитывала, но недавно скачала книгу - ужас какой-то. Столько путаницы бросается в глаза... Книга явно вычитана не была. Хочу тоже попробовать помочь любимому сайту. Предпочитаю ЛР, но если надо очень - могу и что-то другое. Быстроту не гарантирую - когда свободное время будет. Обращайтесь, если что. Буду рада помочь.
П.С. А может вычитать ту книгу, которую я недавно читала? Миранда Ли - Крик молчания

...

Федор:


vita-life писал(а):
П.С. А может вычитать ту книгу, которую я недавно читала? Миранда Ли - Крик молчания

Это было бы здорово. Я, когда встречаю такие книжки, перевычитываю и отдаю на перезаливку. Файлы становятся чище и их приятнее читать. Если вы впервые это сделаете, то лучше книгу после перевычитки показать кому-нибудь из сканирующих. Если одобрят, можно смело и другие перевычитывать, если встретятся, и отдавать в библиотеку.

...

vita-life:


Федор писал(а):
Это было бы здорово. Я, когда встречаю такие книжки, перевычитываю и отдаю на перезаливку.

Перечитываю... Стает вопрос: что делать с теми несуразностями, что допустил автор/переводчик. Насмеялась вволю... Иногда не понятно как строилось то или иное предложение. Ворд ругается, и я вижу, что странное что-то... но перестраивать на свой вкус - не знаю, стоит ли. Может оставлять, пусть и другие читатели повеселятся...
Федор писал(а):
Если вы впервые это сделаете, то лучше книгу после перевычитки показать кому-нибудь из сканирующих.

А как отправлять?

...

Федор:


vita-life писал(а):
Стает вопрос: что делать с теми несуразностями, что допустил автор/переводчик.

Я не редактирую и насколько я знаю, никто не переделывает и не причесывает эти несуразности. Исправляю ошибки, которые вижу, ставлю на место прямую речь, если она не на месте, поднимаю предложения, если они вдруг разрываются на середине страницы и ... Если вдруг чувствую, что в каком-то месте что-то непонятное (возможно пропуск текста), обращаюсь в тему, вдруг у кого-то найдется бумажный вариант книги, дополняю. Если нет схемы документа, делаю. Вставляю картинку и выходные данные, если их нет. Их приходится искать или обращаюсь опять же в тему за помощью. Работы хватает.
vita-life писал(а):
А как отправлять?

А вот это к девочкам. Я с компом и с работой на сайте (как, что делать) на ВЫ.

...

Shemeshko:


Если Кэннелл еще никто не взял на вычитку то могу начать с нее, если взяли то что дадите.

...

Natala:


Леди, прошу Вашей помощи.
Сделала книгу на 300 страниц Ворд с одной картинкой (обложка 60 КБ). Получился файл объемом 4,6 МБ. Не знаю, как уменьшить.
В РТФ сохраняла - объем вырастает до 26 МБ.

...

Fedundra:


Shemeshko , Е-л-е-н-а , vita-life девочки большое спасибо что откликнулись!
Думаю не обидетесь, если я вам всем вышлю в порядке очереди, как я сканировала книги?
Shemeshko - Дороти Кэннел, а учитывая пожелание Е-л-е-н-а
Е-л-е-н-а писал(а):
А пожелания принимаются? совсем не хочется российских авторов читать
отправлю Грэхема "Фортуна-женщина". vita-life , если надумаете и свежий текст вычитать - я и вам отправлю, но и старые тексты приводить в порядок нужно... Т.К. на заре книгосканирования опыта у сканировщиков рунете было мало, и вычиткой почти не занимались, поэтому некоторые тексты были просто отвратными.

Ваша работа - просто исправлять видимые ошибки ОФОРМЛЕНИЯ текста, не надо ничего исправлять в построениях фраз и проч. Надо:
Читать, смотреть на грамотное оформление предложений (заглавная буква, точка в конце), абзацев (красная строка). Соединяете разорванные абзацы (разорванные как по словам целиком, так и по нераспознавшимся переносам). Удаляете номера страниц и прочие колонтитулы и мусор, оставшийся после сканирования и распознавания.

Внимательно смотрите на прямую речь (тире в начале предложения, и в середине, если нужно выделить слова автора). Например:
Цитата:
Это, кажется, миссис Чэмберс собаки? спросил он.
Да. Марта вовсе не собиралась заводить с ним разговор, но стоило ей лишь взглянуть на его надменное лицо и глаза, горящие холодным огнем, как она поняла, что лучше ответить.Она улетела в Англию и попросила меня пожить у нее и присмотреть за собаками.

В оформлении прямой речи надо обращать внимание на КОРОТКИЕ ответы, очень часто бывает, что программа распознавания текста объединяет эти короткие ответы в одно, особенно в диалогах и стихах. Например:
Цитата:
- Ты до сих пор здесь? -Да.

Надо разделять такие конструкции согласно правилам прямой речи:
Цитата:
- Ты до сих пор здесь?
- Да.

То же само и со стихами:
Цитата:
Я помню чудное мгновенье Передо мной явилась ты Как мимолетное виденье Как гений чистой красоты

Надо разделять по правилам:
Цитата:
Я помню чудное мгновенье
Передо мной явилась ты
Как мимолетное виденье
Как гений чистой красоты

Вот общие требования к оформлению текста:
https://lady.webnice.ru/forum/viewtopic.php?p=1363866#1363866

Цитата:
Рекомендации по шаблону оформления текстов:
1. Автор и название книги - шрифт Times New Roman 16, жирный, выравнивание по центру страницы
(для сборников укажите в начале файла его содержание)
2. Аннотация - шрифт Times New Roman 10 курсив
3. Информация об исходных данных (если имеется) и тех, кто оформлял и сканировал файл - шрифт Times New Roman 10, выравнивание по правому краю
4. Основной текст - шрифт Times New Roman 12, выравнивание по ширине, интервал до и после строки: 0 0, междустрочный интервал: одинарный
5. Нумерация страниц - cверху справа, отсчет с единицы (включается в Word в меню Вставка-Номера страниц)


Киньте мне пожалуйста свои электронные адреса в личку - я вам дам черновые текстовые файлы и, если нужно будет - слепки текста в формате .djvu. это примерно такие листочки:

Что будет непонятно - обращайтесь или в личку, или сюда, я обязательно отвечу и помогу.
Книги буду сканировать достаточно редкие, те что отсутствуют на просторах Рунета, но они все относятся к категории беллетристики, и особой сложности не представляют.

Natala, один вариант знаю - это через строку "Сохранить как" с НОВЫМ именем файла...Но это не всегда срабатывает. Могу вам предложить, отправить текст через тикетную систему. Говорят такие проблемы решаются через какую-то программу перевода в .rtf формат, но я не помню название проги, и сама никогда ею не пользовалась.

...

GORL FROM BOOK:


Я тоже хочу вычитывать. Имею опыт вычитки научных текстов. Быстрого темпа роботы не обещаю (на работе писанины много в последнее время), но хочется помочь.
Можете отправить книгу (читаю все), постараюсь сразу и вычитать.

...

Larisa-F:


Natala писал(а):
В РТФ сохраняла - объем вырастает до 26 МБ.

Natala, в rtf нужно сохранять программой Atlantis. Если не получится, я могу попытаться сохранить в rtf.

...

Fedundra:


GORL FROM BOOK, Надежда, если хотите я могу вам выслать книгу. "Последний танец вдвоем" (это Джудит Крэнц), отсутствующая в инете первая часть книги. Пишите адрес в личку.
ПОКА!

...

Регистрация · Вход · Пользователи · VIP · Новости · Карта сайта · Контакты · Настроить это меню