Quantcast
Channel: Родная Вятка блоги
Viewing all articles
Browse latest Browse all 4782

Книги Памяти. Часть 3.

$
0
0

Нумерация страниц.

Образец файла. Первая колонка содержит исходный текст, полученный после FineReader. Вторая – простановка номеров страниц для каждой записи. Третья – проверка совпадает ли первый символ текущей строки с первым символом следующей строки.

Дальше листаем записи и выделяем цветом строки для последующего удаления: строки с номером листа и пустые ячейки. Третья колонку используется как маркер для поиска некорректного разделения текста, если находим ошибку, исправляем ее. По сводной таблице на втором листе ищем есть ли пропуски в нумерации листов.

Завершив проверку, сохраняем значения номеров страниц и удаляем ранее выделенные строки. Добавляем колонку со сплошной нумерацией строк.

Выделение ФИО.

Образец файла. Для одного из последующих этапов, нам понадобятся фамилии, имена и отчества, разделение производится по первой запятой в тексте. Как правило ФИО находится до первой запятой, некоторые запятые проставлены ошибочно, сверяемся с оригиналом и исправляем ошибки. В некоторых записях в качестве разделителя использована точка.

Разделение на логические блоки.

Образец файла. Для начала, посмотрим на записи КП:

  • СМОЛИН Сергей Григорьевич, род. 1916, г. Ижевск. Призван в Сов. Армию в 1937, Можгинский РВК. Матрос. Умер в госпитале 10 марта 1942. Похоронен: г. Ленинград.
  • СНЕГОРУНКО Григорий Васильевич, род. 1924. Призван в Сов. Армию Можгинским РВК. Сержант. Умер от ран 7 авг. 1943. Похоронен: с. -з. Дубино, Курская обл.
  • СОЗИН Александр Васильевич, род. 1905, пос. Пычас. Призван в Сов. Армию Пычасским РВК. Рядовой. Погиб в бою 1943.

Можно увидеть, что текст состоит из нескольких логических блоков:

  1. ФИО
  2. дата и/или место рождения, начинается со слова «род.»
  3. дата и/или место призыва, начинается со слова «Призван»
  4. воинское звание и/или место службы
  5. дата и/или место смерти, начинается со слов «Умер», «Погиб» или «Пропал»
  6. место захоронения, начинается со слова «Похоронен»

Подбирая ключевые слова, разделяем текст на логические блоки. Самый важный блок – "Родился", на втором листе формируем сводную таблицу по этому блоку. В соседней колонке по ПРАВСИМВ вырезаем из текста места рождения, а результат сводной таблицей помещаем на третий лист. В итоге из нескольких тысяч сочетаний год/место рождения получается всего 200-300 мест рождения.


Viewing all articles
Browse latest Browse all 4782

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>