База данных с текстами до и после редактированияВ мире компьютеров

Русский язык и современные информационные технологии

Модератор: Роксана

Автор темы
Hoha
писарь
писарь
Всего сообщений: 5
Зарегистрирован: 12.10.2020
Образование: студент
Профессия: студент
 База данных с текстами до и после редактирования

Сообщение Hoha »

Думаю написать диплом по информатике по автоматизации рутинной работы редактора.
Есть где-нибудь база данных с текстами до редактирования и теми же самыми текстами после редактирования?
Реклама
Аватара пользователя
Селена
-
Всего сообщений: 3065
Зарегистрирован: 27.01.2009
Образование: высшее гуманитарное
Откуда: Москва
 Re: База данных с текстами до и после редактирования

Сообщение Селена »

Hoha, что вы подразумеваете под "рутинной работой редактора"?
Автор темы
Hoha
писарь
писарь
Всего сообщений: 5
Зарегистрирован: 12.10.2020
Образование: студент
Профессия: студент
 Re: База данных с текстами до и после редактирования

Сообщение Hoha »

Что-нибудь простое вроде постоянной замены "т.д." на "так далее" или, наоборот, "так далее" на "т.д."

Вряд ли что-то сложнее получится.
daslex
Гениалиссимус
Гениалиссимус
Всего сообщений: 6597
Зарегистрирован: 07.02.2016
Образование: среднее
 Re: База данных с текстами до и после редактирования

Сообщение daslex »

Для простой замены не нужны такие БД. Нужен только словарь или БД-словарь. Но в таком случае "автоматизации рутинной работы редактора" очень пафосное название, оно не соответствует действительности.

Это больше реорганизация текста, унификация его.

Вот прочитайте про правки: Виды редакторской правки — и, может, что-то посильное организуете, кроме просто продемонстрированной замены.

"т.д", если что, правильно писать с пробелом, как и другие подобные сокращения.

Но перед тем, как начать делать, можете подумать или спросить совет, что вообще можно править: мусорные знаки препинания, перевод доступного к сокращению в сокращение, добавление отсутствующих точек в концы предложений или устранение их в местах, где им не место (например, в скобках бывают лишние), вставка отсутствующих пробелов, перевод чисел в текст, перевод некоторых букв в нижний или в верхний регистр.

Если предполагаются замены, то, может, Вам подскажут, что можно поменять, что не очень сложно меняется, кроме перечисленного мной. А может, Вам и перечисленного хватит для работы.

Непонятно, зачем Вам нужны готовые тексты и аж в двух вариантах каждый.
Образование среднее-низшее.
Аватара пользователя
Селена
-
Всего сообщений: 3065
Зарегистрирован: 27.01.2009
Образование: высшее гуманитарное
Откуда: Москва
 Re: База данных с текстами до и после редактирования

Сообщение Селена »

daslex, встроенный в Word корректор порой даёт страшные результаты именно в русском языке. Вспомните историю со словом "мультиканальный" (кстати, это не было анекдотом). Но в менее очевидных случаях человек, которому не хватает собственной грамотности, может допустить за счет автокорректирования текста даже больше ошибок, чем сделал бы сам. И это только корректор.
У редактора работа в разы сложнее. Машина, извините, дура: она не улавливает нюансов.
Перевод чисел не в текст, конечно, а в числительные - это прекрасно. Но как будет с их склонением? Осилит ли ТС такую программу?
А автозамена типа
Hoha: 12 окт 2020, 08:49 Что-нибудь простое вроде постоянной замены "т.д." на "так далее" или, наоборот, "так далее" на "т.д."

Вряд ли что-то сложнее получится.
благополучно осуществляется и сейчас.
Причем ее всё равно надёжнее делать принудительной, построчной, а не автоматом по всему тексту.
Так что надо ли ТС изобретать велосипед?
daslex
Гениалиссимус
Гениалиссимус
Всего сообщений: 6597
Зарегистрирован: 07.02.2016
Образование: среднее
 Re: База данных с текстами до и после редактирования

Сообщение daslex »

Это вопрос его обучения. Он делает не программу для редакторов, а намерен написать программу для дипломной работы, это важный приоритет. Ему поставили задачу, он должен её выполнить, чтобы к нему пришло понимание некоторых базовых аспектов работы с текстом. Унифицировать часть текста не так уж и сложно и, если я не ошибся, то именно это от него и требуется. Он — студент. Он — учится. Его учат работе с текстом, он должен материал усвоить.

Вопрос орфографии можно проигнорировать, наверное. Это не тривиальная задача.
Образование среднее-низшее.
Автор темы
Hoha
писарь
писарь
Всего сообщений: 5
Зарегистрирован: 12.10.2020
Образование: студент
Профессия: студент
 Re: База данных с текстами до и после редактирования

Сообщение Hoha »

Спасибо за ответы! Очень заинтересовала меня правка-унификация. Возник ещё вопрос: а есть какая-то жёсткая норма расстановки пробелов в И. О. Фамилия? Может эта норма разная для разных текстов (закон, научная статья, газетная статья). А-то нейросеть умеет искать И.О. Фамилия, а что с ней дальше делать я и не знаю, а без нейросети как-то нехорошо в дипломе.
daslex
Гениалиссимус
Гениалиссимус
Всего сообщений: 6597
Зарегистрирован: 07.02.2016
Образование: среднее
 Re: База данных с текстами до и после редактирования

Сообщение daslex »

В русском литературном языке обычно инициалы разделяют пробелами. Кроме этого может возникнуть нежелательная форма текста: Иванов А. А.! — которую разумно менять на А. А. Иванов!.
В документах может быть внутренний регламент.
Могут быть ещё нюансы.

Пока Вы не понимаете правил русского языка, не умеете пользоваться справочниками, написать что-нибудь на серьёзном уровне у Вас не получится. Вряд ли найдётся тот, кто станет разжёвывать каждое предложение из нормативных текстов.
Когда Вы знаете правила русского языка, умеете пользоваться справочниками, написать что-то грандиозное у Вас вряд ли получится: работа с текстом — это часто работа со смыслом, а компьютеры работать со смыслом не умеют. Появится очень много моментов, которые будут сводить Вас в тупик.
Образование среднее-низшее.
Автор темы
Hoha
писарь
писарь
Всего сообщений: 5
Зарегистрирован: 12.10.2020
Образование: студент
Профессия: студент
 Re: База данных с текстами до и после редактирования

Сообщение Hoha »

Спасибо за ответ, Вы мне очень помогли!

Сделал наблюдение. Если в официальных документах рассматривается какое-то количество километров, рублей или вольт, то перед ним всегда стоит число цифрами, а не словами, кроме кассовых документов и документов об устройстве на работу. Это правило такое, писать перед единицами измерения число обязательно цифрами в документах? А-то оно относительно просто программируется.
daslex
Гениалиссимус
Гениалиссимус
Всего сообщений: 6597
Зарегистрирован: 07.02.2016
Образование: среднее
 Re: База данных с текстами до и после редактирования

Сообщение daslex »

Не цифрами, а числами. И в финансовых документах обычно делают нечто типа:
в сумме 25543.00 (двадцать пять тысяч пятьсот сорок три рубля 00 копеек)
но там образцы, поэтому правка редко может потребоваться.

Для документов действует ГОСТ по делопроизводству и документообороту.

И лучше всего проясните свою затею. Если Вы делаете свою программу исключительно с целью своего развития, только в интересах учёбы, то это одно. Если пытаетесь создать нечто профессиональное, то лучше пока что не надо.
Образование среднее-низшее.
Автор темы
Hoha
писарь
писарь
Всего сообщений: 5
Зарегистрирован: 12.10.2020
Образование: студент
Профессия: студент
 Re: База данных с текстами до и после редактирования

Сообщение Hoha »

daslex: 27 окт 2020, 19:31 но там образцы, поэтому правка редко может потребоваться.
Хорошо. :) Спасибо!

Возникла ещё мысль исправлять по словарю. Например, вместо "престыковка кода" предлагать менять на что-то наподобие "внедрение кода".
Надо только словарь составить.

Я правильно понимаю, что в словарь предметной области входят те словосочетания, которые в текстах предметной области встречаются чаще, чем в обычных текстах?
Ответить Пред. темаСлед. тема
Для отправки ответа, комментария или отзыва вам необходимо авторизоваться
  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • База Данных - Словарь
    sidni » » в форуме Грамматика
    0 Ответы
    1088 Просмотры
    Последнее сообщение sidni
  • База данных слов русского языка
    ival » » в форуме В мире компьютеров
    7 Ответы
    6912 Просмотры
    Последнее сообщение Валентин Навескин
  • Как понять есть ли противоречия между текстами?
    ezhik_ezhik » » в форуме Помощь знатоков
    4 Ответы
    1697 Просмотры
    Последнее сообщение daslex
  • Типы речевых ошибок редактирования предложения
    yla.s » » в форуме Помощь знатоков
    5 Ответы
    3287 Просмотры
    Последнее сообщение yla.s
  • Есть ли на он-лайн биржах контента услуги редактирования и корректуры?
    0 Ответы
    705 Просмотры
    Последнее сообщение AAVISR