Сканирование, распознавание и вычитка текстов

Ответить  На главную » Увлечения » Профессиональная помощь

Fedundra Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 24.05.2007
Сообщения: 5306
Откуда: Владимир
>14 Апр 2010 20:32

 » Сканирование, распознавание и вычитка текстов

Сразу скажу, что я в не большой профессионал в этом деле. Даже в высшей степени ДИЛЕТАНТ!!!

И я очень надеюсь, что ПРОФИ в сканировании (они у нас на сайте есть) подскажут и поделятся своими знаниями.)

Я напишу только немного о своём опыте.
Кстати, Сканирование - весьма спорное в юридическом плане занятие...Но очень востребованное среди голодных читателей)

Для перевода напечатанных текстов в электронный вид необходимо иметь:
- сканер
- книгу, журнал и прочий источник сканирования.
- программу перевода изображения текста в его электронный формат.

1. Сканер.
Качественные характеристики сканера не имеет принципиального значения, текстовые изображения не требуют высокой точности и разрешения картинки. (Мой сканер - Mustek 1200 USB plus, китайского производства, выпуск 2000 года.)

2. Книги более значимы.
Т.к. они различаются по текстуре и цвету бумаги, по яркости шрифтов, по начертанию шрифтов. Последнее важно. т.к. не всякий шрифт может быть распознан определённой программой. У неё может просто не оказаться алгоритма на распознавание именно этого шрифта.
(Мой пример - книга 1995 год, бумага газетная, достаточно рыхлая, гарнитура "Таймс", очень нечёткое, бледное начертание.)

3. Программа перевода.
Ваш незаменимый помощник и главный работник в этой триаде. По отзывам в инете, самая лучшая для распознавания РУССКОГО языка ABBYY FineReader. У меня версия 8.

Теперь работа.
- В сканер укладываем развёрнутую книгу текстом на стеклянную поверхность (можно в любом направлении, т.к. позже возможно сделать любой поворот изображения)
- Открываем программу распознавания текста.

1. выбираем язык сканирования
2. нажимаем кнопку СКАНИРОВАНИЕ, после этого запускается программа вашего сканера (по крайней мере у меня)


3. Выбираем параметры сканирования.
Я обычно выбираю черно-белое изображение.


4.Выбираю разрешение 200-300 пикселов (можно и больше, картинка будет чётче, но это во-первых замедляет сканирование, а во вторых -будет прочитывать весь мусор существующий на бумаге и в печати)


5. На вкладке увеличения чёткости выбираю ЯРКОСТЬ сканирования (5.а) т.е. увеличиваю контраст изображения, её можно посмотреть превьюшкой (5.Б). Очень важно, найти вариант для нашего текста, что бы программа не читала НЕ НУЖНОГО мусора, но и НЕ ПРОПУСКАЛА знаки (точки, запятые, тире) и нечёткие буквы. Это подбирается для каждой книги индивидуально.


6. Превьюшкой проверяем страницу (6), и выделяем зону сканирования (6.а) - это нужно для убыстрения процесса сканирования


7. НАЧИНАЕМ работу!!! Больше поправок в программу сканирования делать не будем. Она настраивается на всю книгу.
Сканирование!


8. Распознаём отсканированный текст:


9. Примерно так выглядят первые шаги, первая страница, первый результат.


10 Дальше достаём книгу, переворачиваем страницу укладываем в сканер, и продолжаем работать кнопочками Сканировать и Распознать
Вторая страница:


потом расскажу о сохранении и правке текстов

  Содержание:


  Добавить тему в подборки

  Модераторы: Дата последней модерации: 06.12.2013


_________________
поменьше ГОВОРИ - ПОБОЛЬШЕ услышишь
Сделать подарок
Профиль ЛС  

lisawetta Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 03.05.2009
Сообщения: 1030
>19 Апр 2010 14:17

Тео,ты мне говорила , есть программа для проверки грамматики, свободная , можешь ссылку дать?

Что касается ABBYY FineReader,то версия 10,очень отличается от твоей.У меня первый этап почти автоматически идёт: пункты 1-4 как описано у тебя (пиксели 300-600),потом задаю интервал...и вперёд-только страницы переворачивай.

Потом автоматически идёт распознавание и сохранение-у меня открывается word 2003.

Ну а дальше у меня начинаются проблемы,т.к программа на немецком,но мне помогла дочь,хотя вопросов осталось море.
Теперь я понимаю как ты делаешь эти маленькие картинки,когда объясняешь последовательность действия,это всё тоже не так просто,когда не знаешь как...
Сделать подарок
Профиль ЛС  

Fedundra Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 24.05.2007
Сообщения: 5306
Откуда: Владимир
>20 Апр 2010 20:39

lisawetta извини не видела твоё сообщение.)))

теперь про СОХРАНЕНИЕ! Я не знаю как в 10 но у меня в 8:

1. открывай мастер сохранения результатов


2. Сохранить страницы
3. Сохранить все страницы
4. Заходи на вкладку ФОРМАТЫ


5. заходи на вкладку RTF \DOC \ WORD
6. в строке ОФОРМЛЕНИЕ выбирай Таблицы, абзацы, шрифты
7. в разделе ТЕКСТ снимай все галочки!!! особенно "Сохранять деление на страницы" (можешь только оставить - "Выделять неуверенно распознанные символы" - после правки их можно убрать)
Жми ОК


8. у тебя, после завершения работы программы, получится такая каша:


теперь переходим работать в ВОРД!
_________________
поменьше ГОВОРИ - ПОБОЛЬШЕ услышишь
Сделать подарок
Профиль ЛС  

Fedundra Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 24.05.2007
Сообщения: 5306
Откуда: Владимир
>07 Май 2010 19:57

lisawetta писал(а):
Я, когда сканирую, держу книгу двумя руками,и вдавливаю её, для получения хорошего результата...

lisawetta, Я ничего не вдавливаю)) Мне хватает нагрузки крышки сканера (в критических случаях томиком каким прижму - например ЭНЦИКЛОПИЕЙ )))), я конечно стараюсь книгу расправить на наибольшую ширину... потом выставляю так параметры сканера, что бы черная середина почти не просматривалась ...
Вот пример:
1. нет чёрной середины
2. пусть текст невнятно просматривается (например е похожа на с, или не понятно п или н)

Но прога ОТЛИЧНЕЙШАЯ!!! она сама догадывается что написано (в большинстве случаев). Мои книги конечно достаточно разлохмачены, не новые, через много рук прошли...
Были конечно исключения...когда сканила Евгению Марлитт и Элинор Смит - тяжело книги гнулись, а вот Радуга - отлично разворачивается и не сыпется, старые малышки тоже крепкие попадаются.
А вот Тори Файер сканила по листочкам - книжка была вдрызг разобрана - НАМУЧИЛАСЬ с ней тоже, т.к. разворот всегда наровил сползти и перекособочиться)).
_________________
поменьше ГОВОРИ - ПОБОЛЬШЕ услышишь
Сделать подарок
Профиль ЛС  

lisawetta Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 03.05.2009
Сообщения: 1030
>07 Май 2010 20:13

Тео,у меня скенер как картина- можно даже к стене приставить ,мой муж,компьютерный обновляйщик, его отбраковал,так-что я прижимаю... и устанавливаю скорость-8 сек- чтоб быстрее, а программа после распознавания, (она даже вкрапления от бумаги "распознаёт") поэтому у меня получается долго вычитывать-5 часов(!!)и дольше... Banned
Сделать подарок
Профиль ЛС  

Fedundra Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 24.05.2007
Сообщения: 5306
Откуда: Владимир
>07 Май 2010 20:19

lisawetta, уменьшай чувствительность сканера !!
Это ведь не ФОТО и не Картины!
Я РАЗРЕШЕНИЕ всего на 200 dpi беру! Никакая тебе супер точность не нужна! У тебя же весь мусор собирается !
Скорость у меня намного ниже, где-то 40 - 50 секунд на сканирование разворота уходит, вместе с укладкой книги и распознаванием текста после сканирования (если не отвлекаться)))))
_________________
поменьше ГОВОРИ - ПОБОЛЬШЕ услышишь
Сделать подарок
Профиль ЛС  

lisawetta Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 03.05.2009
Сообщения: 1030
>07 Май 2010 20:26

Тео, у меня распознаёт только после завершения сканирования, а яркость- всего два варианта:300/600. 600 стоит-для мелкого текста. Там вообще нет,можно сказать вариантов, может я при установке невнимательна была,но это всё замечаешь,когда есть опыт...
К стати,ты говорила о программе,свободной, проверке грамматики, я себе скачала русский ворд,но что-то он мне не нравится.
Сделать подарок
Профиль ЛС  

Fedundra Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 24.05.2007
Сообщения: 5306
Откуда: Владимир
>07 Май 2010 20:31

ставь 300, текст в ЛР не мелкий!!!, а распознавать можно в любое время - не важно, мне просто сразу удобнее. Или сканируй, а правку оставь помощникам, и не парься! Думаю такие найдутся!!!

Отсканировала:
Дебора Тернер "Желание" осталась вычитка.
Кэтти Уильямс "Жена для садовника" коли у нас Уильямс в гору пошла)))). Тоже вычитка осталась. Думаю за праздники управлюсь...если с дивана не выгонят)))))
_________________
поменьше ГОВОРИ - ПОБОЛЬШЕ услышишь
Сделать подарок
Профиль ЛС  

lisawetta Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 03.05.2009
Сообщения: 1030
>07 Май 2010 20:37

А сколько времени уходит у тебя на малышку (читать)?- я за 1,5-2,0 часа может 30 страниц читаю...но долго,малыша мне на день хватает...
Сделать подарок
Профиль ЛС  

Veresk Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 11.09.2008
Сообщения: 3022
Откуда: Омск
>07 Май 2010 20:42

Лично у меня на малышку уходит минут 40. Это только про сканирование разговор. Я ставлю на 300 dpi (меньше обычно не рекомендуется, типа хуже распознается, если меньше, ошибок больше), а вот вычитка - это от настроения зависит, потому как геморой полнейший, пару раз вычитала, мне хватило.
_________________


Все ИМХО.
Сделать подарок
Профиль ЛС  

Fedundra Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 24.05.2007
Сообщения: 5306
Откуда: Владимир
>07 Май 2010 21:14

Я вообще-то сама читаю быстро, и особо вопиющие ошибки сами бросаются в глаза. Основной текст просто просматриваю глазами. Но дословно не вычитываю, доверяю проге. Может что и пропускаю.
Кроме того, что обнаруживает ABBYY находит ещё и ВОРД, я стараюсь больше обращать внимание на оформление прямой речи, смотрю начало и конец фраз. Начало и конец абзацев, страниц, написание имён и т.д.
Но в любом случае не 5 часов!!! не надо так напрягаться!!! От любого дела надо получать удовольствие!!!

вот могу пример текста НЕВЫЧИТАННОГО привести.. не думаю что так сложно:
Цитата:
Вот почему Марта была глубоко убеждена, что лицо человека не отражает его характер. Однако в данном случае...
Ему было где-то за тридцать. Вполне достаточ-
7
но, чтобы Марта, двадцати
трех лет отроду, почувствовала себя просто девчонкой. Далеко не красавец. Загорелый, с густыми черными волосами. Но волевые, выразительные черты лица настолько подходили к тому общему впечатлению напористой и решительной силы, которую он излучал всем своим существом, что у Марты перехватило дыхание. А потом она увидела его глаза — темно-карие, проницательные, жесткие и холодные, как у хищника. Глаза человека, кото-рый знает, что ему нужно от жизни и всегда получает желаемое. Глаза жестокого воина, кото-.рый не знает пощады и не берет пленных. И все же...
И все .же, хотя его губы были сейчас сжаты в жесткую линию, в них все равно ощущалась какая-то скрытая мягкость. И если сам незнакомец вызывал ассоциации с гранитной скалой — гордой и неприступной, то эти точеные губы намекали на буйство страстей, которые он научился обуздывать, но которые в любой момент могли вырваться на свободу. Интересно!..
Но только не для нее. Марта знала свои возможности и пределы. Такого мужчину она «не потянет». Они с ним из двух разных миров, у которых нет ни одной точки соприкосновения.
- Это, кажется, миссис Чэмберс собаки? — спросил он.
- Да. — Марта вовсе не собиралась заводить с ним разговор, но стоило ей лишь взглянуть на его надменное лицо и глаза, горящие холодным огнем, как она поняла, что лучше ответить. — Она улетела в Англию и попросила меня пожить у нее и присмотреть за собаками.
Незнакомец нахмурился:
- Улетела к дочери? А когда?
8
— Вчера.
— А когда вернется?
— Не знаю, — натянуто проговорила Марта.

Убрать грязь в словах, убрать абзацы, заменить дефис на тире.
_________________
поменьше ГОВОРИ - ПОБОЛЬШЕ услышишь
Сделать подарок
Профиль ЛС  

tysia Цитировать: целиком, блоками, абзацами  
Жемчужная ледиНа форуме с: 09.11.2009
Сообщения: 548
Откуда: г. Москва
>25 Июн 2010 9:00

Тео, как сделать, чтобы обложки весили меньше. Я их делала через сканер, а не через файнридер. Мне через сканер понятнее, а в файниридере надо опять куда-то заходить и чего-то переустанавливать. Я еще до конца не освоилась со сканированием книг на своем компе. У меня почему-то с одними и теми же настройками тексты получаются по чистоте сканирования разными. Одни почти нормальные, а другие сплошная грязь.
_________________
Сделать подарок
Профиль ЛС  

Fedundra Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 24.05.2007
Сообщения: 5306
Откуда: Владимир
>16 Июл 2010 18:31

 » Ссылка на тех.помощь

У нас по этому поводу был уже огромный диспут.
Лучшим вариантом избавления признаны подсказки PeterGirl
здесь и здесь
_________________
поменьше ГОВОРИ - ПОБОЛЬШЕ услышишь
Сделать подарок
Профиль ЛС  

Aleco Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 22.07.2008
Сообщения: 3563
Откуда: Тверская область
>19 Июл 2010 8:51

 » И снова о замене дефисов на тире

Федор писал(а):
codeburger писал(а):
Лекарство

ActiveDocument.ConvertNumbersToText

замечательно сработало.

Сейчас ускорюсь.

Спасибо, Тео.

Большая просьба к девочкам, хорошо знающих комп. Объясните по пунктам , где и что нажимать, чтобы исправить дефисы на тире. Так, чтобы тупой и плохо знающий комп мог справиться.
Я тут всю книгу сделала вручную, хорошо терпелива.


Если это обычный дефис:
Правка - заменить (Ctrl+H), встаем на найти - ставим пробел дефис пробел (еще можно поменять дефис пробел), затем на заменить на - открываем больше и опять становимся на заменить на - ставим пробел, щелкаем на специальный и выбираем длинное тире - ставяться ^+ и опять пробел (если впереди на замену нет пробела, тогда и тут его не ставим спереди) и нажимаем заменить все.
Только внимание: если где-то есть дефис написанный через пробелы, а нужен именно он, то он тоже заменится!
Кстати очень удобно если есть стандартные ошибки в тексте. Я частенько им пользуюсь. Там можно менять и расположение на странице и особенности шрифта. Только надо руку набить. Very Happy
_________________
Если тебе роют яму — не мешай! Закончат — сделаешь себе бассейн… Если тебе моют кости — благодари! Артроза не будет… Если тебе плюют в спину — гордись! Ты впереди… Если в жизни что-то не клеится, выбрось клей. Возьми гвозди. ЗАБЕЙ НА ВСЁ...
Сделать подарок
Профиль ЛС  

codeburger Цитировать: целиком, блоками, абзацами  
Бриллиантовая ледиНа форуме с: 12.04.2010
Сообщения: 1657
>21 Июл 2010 9:03

 » Макрос, перевоящий маркированный список в текст

Федор писал(а):
codeburger, а я ведь жду обещанного. По пунктам, для тупых.

Дора, прости что торможу -- на работе пользователи чего-то хотят.
Вот она инструкция (если не получится, напиши):

Общая идея: в WORD'е есть много разных действий, которые можно выполнить из МЕНЮ. Если в МЕНЮ нужного действия не достает, то МЕНЮ можно расширить макросами. То есть макрос -- еще одна строчка МЕНЮ, которую добавляем и программируем на нужное действие. Макросов может быть сколько угодно.

Итак, нам нужно добавить в WORD макрос, который нумераторы элементов списков превращает в обычный текст:
1. Откроем WORD (пустой);
2. Сохраним его под именем Отмена_Списков.doc (или каким-нибудь другим);
3. Пройдем по [Сервис] -> [Макрос] -> [Начать запись] (красный кружочек, и откроется окошко "Запись макроса");
4. В окошке "Запись макроса"
-- введем в поле "Имя макроса:" текст "Отмена_списков" (без пробелов -- с подчерком),
-- в поле "Макрос доступен для:" выберем из списка "Всех документов (Normal.dot)" (оно там изначально уже выбрано)
-- нажмем кнопку [ОК];
5. Нажмем пробел;
6. Нажмем кнопку с синим квадратиком в окошке "Остановить запись".

Это мы сделали "пустой макрос", теперь его нужно запрограммировать.
7. Пройдем по [Сервис] -> [Макрос] -> [Макросы] (зеленый треугольник, и откроется окошко "Макрос");
8. Щелкнем для выбора в списке под полем "Имя:" макрос Отмена_списков;
9. Нажмем кнопку [Изменить] (откроется редактор макроса);
10. Заменим текст
Selection.TypeText Text:=" " (это записано, как мы пробел вводили)
на текст
ActiveDocument.ConvertNumbersToText
(это заклинание как раз превращает нумераторы списков в текстовый аналог);
11. Нажмем дискетку (сохранить) в левом верхнем углу окошка "Microsoft Visual Basic - Normal";
12. Крестик (закрыть) в правом верхнем углу окошка "Microsoft Visual Basic - Normal" (это мы редактор закрыли);
13. Нажмем дискетку (сохранить) в левом верхнем углу окошка "Отмена_списков.doc - "Microsoft Word".
Вот теперь мы добавили в WORD на нашем компьютере макрос Отмена_списков. Ура.

Как его использовать (на нашем компьютере, где мы сохраняли Отмена_Списков.doc):
1. Откроем .DOC со сканом;
2. Пройдем по [Сервис] -> [Макрос] -> [Макросы] (зеленый треугольник, и откроется окошко "Макрос");
3. Щелкнем для выбора в списке под полем "Имя:" макрос Отмена_списков;
4. Нажмем кнопку [Выполнить] (макрос выполнится) (а можно было прямо в списке даблкликнуть на нашем макросе, тогда и кнопка не нужна).

Вот и вся наука.
Сделать подарок
Профиль ЛС  

Кстати... Как анонсировать своё событие?  

>25 Апр 2024 3:10

А знаете ли Вы, что...

...Вы можете вести списки книг, фильмов, авторов и др., а также создавать персональные рейтинги при помощи сервиса подборок. Подробнее

Зарегистрироваться на сайте Lady.WebNice.Ru
Возможности зарегистрированных пользователей


Не пропустите:

Участвуйте в литературной игре Фантазия


Нам понравилось:

В теме «Погода и климат»: Сегодня с утра облачно, с прояснениями. Тепло, по прогнозу +26-27. Деревья лениво шевелят листвой, ветерок незначительный. В воздухе... читать

В блоге автора Натаниэлла: О ЛЮБВИ

В журнале «Литературная гостиная "За синей птицей"»: На далекой Амазонке...
 
Ответить  На главную » Увлечения » Профессиональная помощь » Сканирование, распознавание и вычитка текстов [8448] № ... 1 2 3 ... 203 204 205  След.

Зарегистрируйтесь для получения дополнительных возможностей на сайте и форуме

Показать сообщения:  
Перейти:  

Мобильная версия · Регистрация · Вход · Пользователи · VIP · Новости · Карта сайта · Контакты · Настроить это меню

Если Вы обнаружили на этой странице нарушение авторских прав, ошибку или хотите дополнить информацию, отправьте нам сообщение.
Если перед нажатием на ссылку выделить на странице мышкой какой-либо текст, он автоматически подставится в сообщение