База данных с текстами до и после редактирования ⇐ В мире компьютеров
Модератор: Роксана
-
Автор темыHoha
- писарь
- Всего сообщений: 5
- Зарегистрирован: 12.10.2020
- Образование: студент
- Профессия: студент
База данных с текстами до и после редактирования
Думаю написать диплом по информатике по автоматизации рутинной работы редактора.
Есть где-нибудь база данных с текстами до редактирования и теми же самыми текстами после редактирования?
Есть где-нибудь база данных с текстами до редактирования и теми же самыми текстами после редактирования?
-
- -
- Всего сообщений: 3147
- Зарегистрирован: 27.01.2009
- Образование: высшее гуманитарное
- Откуда: Москва
Re: База данных с текстами до и после редактирования
Hoha, что вы подразумеваете под "рутинной работой редактора"?
-
Автор темыHoha
- писарь
- Всего сообщений: 5
- Зарегистрирован: 12.10.2020
- Образование: студент
- Профессия: студент
Re: База данных с текстами до и после редактирования
Что-нибудь простое вроде постоянной замены "т.д." на "так далее" или, наоборот, "так далее" на "т.д."
Вряд ли что-то сложнее получится.
Вряд ли что-то сложнее получится.
-
- Гениалиссимус
- Всего сообщений: 7574
- Зарегистрирован: 07.02.2016
- Образование: среднее
Re: База данных с текстами до и после редактирования
Для простой замены не нужны такие БД. Нужен только словарь или БД-словарь. Но в таком случае "автоматизации рутинной работы редактора" очень пафосное название, оно не соответствует действительности.
Это больше реорганизация текста, унификация его.
Вот прочитайте про правки: Виды редакторской правки — и, может, что-то посильное организуете, кроме просто продемонстрированной замены.
"т.д", если что, правильно писать с пробелом, как и другие подобные сокращения.
Но перед тем, как начать делать, можете подумать или спросить совет, что вообще можно править: мусорные знаки препинания, перевод доступного к сокращению в сокращение, добавление отсутствующих точек в концы предложений или устранение их в местах, где им не место (например, в скобках бывают лишние), вставка отсутствующих пробелов, перевод чисел в текст, перевод некоторых букв в нижний или в верхний регистр.
Если предполагаются замены, то, может, Вам подскажут, что можно поменять, что не очень сложно меняется, кроме перечисленного мной. А может, Вам и перечисленного хватит для работы.
Непонятно, зачем Вам нужны готовые тексты и аж в двух вариантах каждый.
Это больше реорганизация текста, унификация его.
Вот прочитайте про правки: Виды редакторской правки — и, может, что-то посильное организуете, кроме просто продемонстрированной замены.
"т.д", если что, правильно писать с пробелом, как и другие подобные сокращения.
Но перед тем, как начать делать, можете подумать или спросить совет, что вообще можно править: мусорные знаки препинания, перевод доступного к сокращению в сокращение, добавление отсутствующих точек в концы предложений или устранение их в местах, где им не место (например, в скобках бывают лишние), вставка отсутствующих пробелов, перевод чисел в текст, перевод некоторых букв в нижний или в верхний регистр.
Если предполагаются замены, то, может, Вам подскажут, что можно поменять, что не очень сложно меняется, кроме перечисленного мной. А может, Вам и перечисленного хватит для работы.
Непонятно, зачем Вам нужны готовые тексты и аж в двух вариантах каждый.
Образование среднее-низшее.
-
- -
- Всего сообщений: 3147
- Зарегистрирован: 27.01.2009
- Образование: высшее гуманитарное
- Откуда: Москва
Re: База данных с текстами до и после редактирования
daslex, встроенный в Word корректор порой даёт страшные результаты именно в русском языке. Вспомните историю со словом "мультиканальный" (кстати, это не было анекдотом). Но в менее очевидных случаях человек, которому не хватает собственной грамотности, может допустить за счет автокорректирования текста даже больше ошибок, чем сделал бы сам. И это только корректор.
У редактора работа в разы сложнее. Машина, извините, дура: она не улавливает нюансов.
Перевод чисел не в текст, конечно, а в числительные - это прекрасно. Но как будет с их склонением? Осилит ли ТС такую программу?
А автозамена типа
Причем ее всё равно надёжнее делать принудительной, построчной, а не автоматом по всему тексту.
Так что надо ли ТС изобретать велосипед?
У редактора работа в разы сложнее. Машина, извините, дура: она не улавливает нюансов.
Перевод чисел не в текст, конечно, а в числительные - это прекрасно. Но как будет с их склонением? Осилит ли ТС такую программу?
А автозамена типа
благополучно осуществляется и сейчас.
Причем ее всё равно надёжнее делать принудительной, построчной, а не автоматом по всему тексту.
Так что надо ли ТС изобретать велосипед?
-
- Гениалиссимус
- Всего сообщений: 7574
- Зарегистрирован: 07.02.2016
- Образование: среднее
Re: База данных с текстами до и после редактирования
Это вопрос его обучения. Он делает не программу для редакторов, а намерен написать программу для дипломной работы, это важный приоритет. Ему поставили задачу, он должен её выполнить, чтобы к нему пришло понимание некоторых базовых аспектов работы с текстом. Унифицировать часть текста не так уж и сложно и, если я не ошибся, то именно это от него и требуется. Он — студент. Он — учится. Его учат работе с текстом, он должен материал усвоить.
Вопрос орфографии можно проигнорировать, наверное. Это не тривиальная задача.
Вопрос орфографии можно проигнорировать, наверное. Это не тривиальная задача.
Образование среднее-низшее.
-
Автор темыHoha
- писарь
- Всего сообщений: 5
- Зарегистрирован: 12.10.2020
- Образование: студент
- Профессия: студент
Re: База данных с текстами до и после редактирования
Спасибо за ответы! Очень заинтересовала меня правка-унификация. Возник ещё вопрос: а есть какая-то жёсткая норма расстановки пробелов в И. О. Фамилия? Может эта норма разная для разных текстов (закон, научная статья, газетная статья). А-то нейросеть умеет искать И.О. Фамилия, а что с ней дальше делать я и не знаю, а без нейросети как-то нехорошо в дипломе.
-
- Гениалиссимус
- Всего сообщений: 7574
- Зарегистрирован: 07.02.2016
- Образование: среднее
Re: База данных с текстами до и после редактирования
В русском литературном языке обычно инициалы разделяют пробелами. Кроме этого может возникнуть нежелательная форма текста: Иванов А. А.! — которую разумно менять на А. А. Иванов!.
В документах может быть внутренний регламент.
Могут быть ещё нюансы.
Пока Вы не понимаете правил русского языка, не умеете пользоваться справочниками, написать что-нибудь на серьёзном уровне у Вас не получится. Вряд ли найдётся тот, кто станет разжёвывать каждое предложение из нормативных текстов.
Когда Вы знаете правила русского языка, умеете пользоваться справочниками, написать что-то грандиозное у Вас вряд ли получится: работа с текстом — это часто работа со смыслом, а компьютеры работать со смыслом не умеют. Появится очень много моментов, которые будут сводить Вас в тупик.
В документах может быть внутренний регламент.
Могут быть ещё нюансы.
Пока Вы не понимаете правил русского языка, не умеете пользоваться справочниками, написать что-нибудь на серьёзном уровне у Вас не получится. Вряд ли найдётся тот, кто станет разжёвывать каждое предложение из нормативных текстов.
Когда Вы знаете правила русского языка, умеете пользоваться справочниками, написать что-то грандиозное у Вас вряд ли получится: работа с текстом — это часто работа со смыслом, а компьютеры работать со смыслом не умеют. Появится очень много моментов, которые будут сводить Вас в тупик.
Образование среднее-низшее.
-
Автор темыHoha
- писарь
- Всего сообщений: 5
- Зарегистрирован: 12.10.2020
- Образование: студент
- Профессия: студент
Re: База данных с текстами до и после редактирования
Спасибо за ответ, Вы мне очень помогли!
Сделал наблюдение. Если в официальных документах рассматривается какое-то количество километров, рублей или вольт, то перед ним всегда стоит число цифрами, а не словами, кроме кассовых документов и документов об устройстве на работу. Это правило такое, писать перед единицами измерения число обязательно цифрами в документах? А-то оно относительно просто программируется.
Сделал наблюдение. Если в официальных документах рассматривается какое-то количество километров, рублей или вольт, то перед ним всегда стоит число цифрами, а не словами, кроме кассовых документов и документов об устройстве на работу. Это правило такое, писать перед единицами измерения число обязательно цифрами в документах? А-то оно относительно просто программируется.
-
- Гениалиссимус
- Всего сообщений: 7574
- Зарегистрирован: 07.02.2016
- Образование: среднее
Re: База данных с текстами до и после редактирования
Не цифрами, а числами. И в финансовых документах обычно делают нечто типа:
Для документов действует ГОСТ по делопроизводству и документообороту.
И лучше всего проясните свою затею. Если Вы делаете свою программу исключительно с целью своего развития, только в интересах учёбы, то это одно. Если пытаетесь создать нечто профессиональное, то лучше пока что не надо.
но там образцы, поэтому правка редко может потребоваться.в сумме 25543.00 (двадцать пять тысяч пятьсот сорок три рубля 00 копеек)
Для документов действует ГОСТ по делопроизводству и документообороту.
И лучше всего проясните свою затею. Если Вы делаете свою программу исключительно с целью своего развития, только в интересах учёбы, то это одно. Если пытаетесь создать нечто профессиональное, то лучше пока что не надо.
Образование среднее-низшее.
-
Автор темыHoha
- писарь
- Всего сообщений: 5
- Зарегистрирован: 12.10.2020
- Образование: студент
- Профессия: студент
Re: База данных с текстами до и после редактирования
Спасибо!
Возникла ещё мысль исправлять по словарю. Например, вместо "престыковка кода" предлагать менять на что-то наподобие "внедрение кода".
Надо только словарь составить.
Я правильно понимаю, что в словарь предметной области входят те словосочетания, которые в текстах предметной области встречаются чаще, чем в обычных текстах?
Хорошо.

Возникла ещё мысль исправлять по словарю. Например, вместо "престыковка кода" предлагать менять на что-то наподобие "внедрение кода".
Надо только словарь составить.
Я правильно понимаю, что в словарь предметной области входят те словосочетания, которые в текстах предметной области встречаются чаще, чем в обычных текстах?
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
- 0 Ответы
- 1181 Просмотры
-
Последнее сообщение sidni
-
- 7 Ответы
- 8130 Просмотры
-
Последнее сообщение Валентин Навескин
-
- 0 Ответы
- 1907 Просмотры
-
Последнее сообщение StarFire
-
- 4 Ответы
- 1765 Просмотры
-
Последнее сообщение daslex
-
- 5 Ответы
- 3404 Просмотры
-
Последнее сообщение yla.s