Новые отрасли лингвистикиКомпьютерная лексикография. Каким может быть словарь?

Математическая лингвистика, социолингвистика, психолингвистика, космическая лингвистика

Автор темы
yavor
писарь
писарь
Сообщения: 8
Зарегистрирован: 14.03.2011
Образование: высшее гуманитарное (филологическое)
Откуда: Болгария
Возраст: 54
Компьютерная лексикография. Каким может быть словарь?

Сообщение yavor » 15 мар 2011, 22:37

Компьютерная лингвистика и традиционная (ли?) лексикография должны равиваться вместе. Известный словарь Дж. Миллера Wordnet был и останется образцом целевого использования компьютерных технологий в лингвистике. Не так успешно развивается использование лингвистики в компьютерных технологиях. Мы имеем в виду компьютерную двуязычную лексикографию. Традиционная схема "превратим бумажный словарь в электронный" практически себя исчерпала. Массовый электронный словарь еще не дал читателю инструмента, с помощью которого можно было бы заглянуть поглубже в смысл слова. Электронный двуязычный словарь или энциклопедия словарей является простой компиляцией (пусть полезной и с некоторыми дополнениями). Причина всему этому - отсутствие стратегии, мелкие тактические ходы вправо-влево, желание "продать" и не отстать от "тренда".
Друзья! Остановимся на минутку. А как насчет электронного словаря, который является открытым ресурсом? Эта мысль пришла мне в голову полгода назад, когда я приступил к реализации электронного русско-болгарского словаря нового поколения - "СЭД". Лишь на скунду отвлеку ваше внимание ссылкой на сайт словаря:

Изображение

Теперь продолжим. Я хочу познакомить вас со стратегией И-С-К.
Три основополагающих принципа легли в основу этой стратегии - Интерактивность, Совмещение и Коллективность.

Интерактивность



Современный двуязычный словарь, созданный в одном из текстовых редакторов или в программах типа File Maker, TshwaneLex и др., может быть распечатан и опубликован, после чего он будет называться "бумажным". Электронный вариант того же словаря (с некоторыми улучшениями и гипертекстом) компактен, его легче обновить и внедрить в любое читающее устройство с дисплеем. Это не приводит автоматически к революции в лексикографии, как иногда можно услышать.
Итак, интерактивность - первый признак хорошего электронного словаря. Интерактивность - вид взаимодействия, результат которого обусловлен уровнем подготовки обоих участников действия. Мы будем подразумевать под участниками словарь с базой данных (позади и чуть левее - группу его создателей), с одной стороны, и подготовленного читателя - с другой. Как правило, имеется в виду уже созданный словарь, при работе с которым клик или поиск выдает нужные сведения. Разрабатываемый нами сопоставительный русско-болгарский словарь СЭД содержит элементы интерактивного словаря нового образца. Представление лексической информации в словаре следует принципам простоты, эргономики и эстетики страницы:

Компактность: никаких лишних прокруток страницы вверх-вниз.
Локализация: всплывающие окна (pop-ups) контекстуально привязаны к уровню лексической пары.
Самодостаточность страницы: минимизация пересылок к другим страницам и возможных при этом ошибок в навигации.
Цветовая гамма: не более 10 – 12 оттенков.
Концептограммы (идеограммы): образная классификация эквивалентных связей слов.
Построчный характер чтения: каждая строка расширяет семантическое поле словаря и стратегию пользователя.
Иррадиация лексической информации на строке – oт центра к периферии.
Подключение к модулям в пределах страницы.
Прямые ссылки на источники в сети Интернет.
Комбинирование «книжного» и web-интерфейса и др

Мы хотим предоставить читателю возможность самому выбрать свою роль на этапе создания словаря. Пусть это будет выглядеть как коллективная интерактивная игра, в которой допустимо озорство, стремление к лидерству, желание быть замеченным, но господствует сотрудничество и здравый смысл. Настоящий интерактивный словарь - это тот словарь, который мы хотим иметь, он таков, каким мы себе его представляем вдали от рекламной шумихи и впечатляющих отчетов об успехе продукта на рынке. Это значит, что:

Предложенный для ознакомления и широкого обсуждения русско-болгарский словарь СЭД является прототипом, но не обязывает читателя придерживаться схемы словаря. Читатель может создавать словарные статьи, используя другие языки или языковые пары.

Идея о том, как сделать словарь более гибким, настраиваемым под конкретные нужды и запросы, может быть реализована разными путями. Каков полный набор возможностей и их реализация - об этом будет говорить читатель.

Интерактивный подход к разработке электронного словаря содержит все элементы интерактивного обучения: творческие задания, работа в группах, обучающие игры, приглашение специалистов, участие в проекте, выставки, интерактивные лекции, аудио- и видео-материалы, дискуссии, "каждый учит каждого", "мозговой штурм" и многое другое. Все это предстоит создать.

Вы могли бы принять участие в подобном проекте?

Вы верите, что идея может превратиться в стратегию?

Совмещение



Смысловые поля

Наше сознание ассоциативно, признаково, оно уподобляет разное по определенным схемам. “На что (на кого) похоже это облако?” – частый вопрос. “От чего (от кого) отличается облако?” – праздный вопрос. Эта специфика сознания переносится на язык. Метафора и синонимия – явления одного и того же порядка. В двуязычном словаре этот естественный порядок должен соблюдаться. Переводимое слово и его эквиваленты должны быть по возможности представлены одновременно как часть синонимического поля и определенной когнитивной схемы (фрейма, сценария), если не подробно описанной, то по крайней мере названной. Например, “слова, которые обозначают действия обмана”, “слова, которые обозначают регулирующие действия” и т.д. Речь идет не о тематической рубрикации слов взамен алфавитному списку, а о возможности показать, к какому пласту лексики и тезаурусному ядру они относятся в том или ином значении. Это может показаться избыточным, но является частью интегрального лексикографического описания.

Совмещение эквивалентов

Совмещение эквивалентов отсутствует в печатных и электронных двуязычных словарях. Традиционно вопрос решается двунаправленными словарями, которые иногда объединяются в одну книгу или програмный продукт. Однако механическое объединение, например, русско-болгарского и болгарско-русского словаря в один том или модуль является простой компиляцией в целях экономии и удобства, потому что сохраняется предварительно заданное диверсивное (одностороннее) направление перевода. И здесь уместно упомянуть о различиях между переводным и сопоставительным словарем. Если, например, в двуязычном словаре болг. заблуждавам имеет эквиваленты обманывать, вводить в заблуждение, и на этом сопоставление заканчивается, то в сопоставительном словаре – это лишь начало, поскольку необходимо определить, во-первых, симметричный или асимметричный характер соотношения эквивалентов на фоне других эквивалентов типа обманывать – лъжа, лъжа – лгать, вводить в заблуждение – вкарвам в заблуда и т.д., во-вторых, представить все эти эквиваленты в упорядоченной классификации, в третьих, найти новый способ лемматизации материала (пар) в словарной статье. Это лишь некоторые различия. В сопоставительном словаре, в отличие от переводного, необходимо отражать толкования значений многозначных слов, а не полагаться на интуицию читателя или лингвиста. Далее, необходимо включить обширные цитаты из национальных корпусов, было бы неплохо учесть синонимы, фразеологизмы и перифразы…

Совмещение словарей

Коллекция словарей на диске DVD являтся, безусловно, ценным приобретением. Мысль о том, что в маленькой “вертушке” есть все, порадует любого уставшего от поисков читателя. Мы хотели бы поговорить о другом: как совместить информацию из разных словарей на одной странице электронного двуязычного словаря и какова польза? Техническая сторона вопроса не проще лексикографической. В какой-то степени словарь СЭД справился с первой задачей, по крайней мере, в сайтовой версии. Второй вопрос – что из других словарей нужно включить и в каком объеме?

Читатель наверняка согласится, что словарные интерпретации значений и примеры употребления слов являются взаимодополняющими частями контекста сопоставления слов в двух языках. Переводчику нужны синонимы и фразеологизмы, связанные с искомым словом. Преподавателю, помимо прочего, понадобится морфологический анализ слова в стиле Википедии. Специалист по психологии поинтересуется данными ассоциативного словаря. Читатель скажет: “Хотелось бы видеть больше примеров употребления слова” (не включить ло выборки из национальных корпусов?). Специалист по когнитивной лингвистике захочет увидеть описание слова-концепта. Так понемногу отдельно взятая электронная страница словаря обрастет модулями, которые превратят ее в интегральный портрет слова или пары слов. Имеется в виду качественно новая электронная страница двуязычного словаря, которую уже никак не назовешь словарной статьей.

Совмещение ссылок

Полезные ссылки необходимы. Страница двуязычного электронного словаря, если он предназначен для широкой аудитории, должна содержать минимальный “джентльменский набор” ссылок на:

- Интернет-сайты по теме (словo, фразеологизм, понятиe);
- Публикации по теме (лингвистические и не только);
- Другие словари и справочники;
- Необходима также общая библиография словаря;
- Словарь должен совмещать функции справочника и браузера.

Таким образом основные задачи двуязычного словаря – быть справочным и учебным пособием – будут реализованы полноценно.


Вам понравился бы такой словарь?
Вас привлекает перспектива личного участия в подобном проекте?

Коллективность



Трудно себе представить, что электронный двуязычный словарь нового поколения может быть разработан во всех деталях узким коллективом лексикографов. Поддержка специалистов разных областей и мнения читателей чрезвычайно важны. В любом случае работу не придется начинать с нуля. Что мы можем предоставить уже сейчас будущим соавторам?

Словарь СЭД является первым реализованным прототипом сопоставительного электронного русско-болгарского словаря, он хорошо документирован и на него можно опереться в разработке новых авторских идей. Мы приветствуем ваше участие в разработке самого словаря, хотя это и не является необходимым условием для сотрудничества. Наряду с этим, осмелимся предположить, что при нужной доработке и благожелательном отношении широкой аудитории, словарь СЭД мог бы стать началом целой серии интерактивных двуязычных словарей близкородственных языков. В самом словаре предусмотрены тематически структурированные формы для правки страниц.

Сайт предоставляет будущим соавторам форумы для дискуссий. Каждый участник может создать свой личный блог. Соавтор словаря имеет полноценную Авторскую страницу сайта, на которой, помимо данных об авторе и его публикациях, будет отражен его личный вклад в разработку сопоставительного словаря. Специалист может прислать актуальную статью, которая будет опубликована в разделе “Статьи и материалы” сайта.
Широко поддержана внутрисайтовая публичная и личная переписка активных участников.
Участники могут создавать и входить в рабочие группы по отдельным проектам сайта. Каждая группа обладает самостоятельностью при определении характера проекта, сроков и публикаций по проекту.
В большинстве рубрик предусмотрена возможность комментариев к содержанию.
Обеспечена связь с социальными сетями Twitter, Facebook, подписки на ленты новостей и новые сообщения сайта.

Все это делает сайт оперативной базой для разработки серьезных международных лексикографических проектов. Сайт является первым болгарским он-лайн центром по созданию двуязычных интерактивных словарей.


Вы представляете себе перспективы этого проекта?


Уважаемый читатель!
Если у вас есть положительный ответ хотя бы на один из заданных вопросов, вы вполне можете стать одним из пионеров этого открытого проекта. Будем вместе!

Реклама

Patriot Хренов
ВПЗР
ВПЗР
Сообщения: 4138
Зарегистрирован: 16.04.2011
Образование: высшее гуманитарное (филологическое)
Профессия: безвременно безработный
Откуда: Волжский, Волгоградской, Россия
Поблагодарили: 697 раз
Возраст: 58
Re: Компьютерная лексикография. Каким может быть словарь?

Сообщение Patriot Хренов » 28 май 2011, 01:41

Непременно вернусь!
Хотя обращение "Уважаемый читатель!" к филологам мне представляется весьма обидным, но работу над любым словарём почитаю для себя непреложной задачей.
Посему - непременно вернусь.

Добавлено спустя 3 минуты 40 секунд:
yavor:Наше сознание ассоциативно, признаково, оно уподобляет разное по определенным схемам.

Принципиально не согласен.

Добавлено спустя 11 минут 7 секунд:
Ежели мне, как носителю наиболее распространённой на нашей планете земледельческой культуры, нет никакого интереса к оттенку песка или льда, то я и не смогу придумать адекватной замены слову "чернозём", нет? Златопесок? Бирёзоволёд? М?.. Грязь? Навоз? Нет? Не адекватно?

Добавлено спустя 10 минут 16 секунд:
yavor:Наше сознание ассоциативно, признаково, оно уподобляет разное по определенным схемам.

Дом - домик - домище... Где тут разное? Хотя разница весьма принципиальна. Схема? Да. Но схема не по "уподоблению", а как раз наоборот - по противопоставлению, по разделению, по схеме познания жизни в её различиях... но не по объединению в единую схему - никак нет!

Добавлено спустя 5 минут 32 секунды:
Вру! Схема есть! Но иная. Точнее - не только та, что Вы предлагаете.
Есть схема уподобления разного "по определённым" схемам: коса у женщины, коса на реке, коса для срезания травы. Есть? Есть.
Дом - домик - домище?
Следующий этап познания мира? Мы отыскали подобия - теперь нужно найти различия, нет?
Ты - человек? Европеоид? Русский? Брат, кум, деверь? Или, может быть, жена?

Добавлено спустя 19 минут 17 секунд:
Согласен, что познание мира, как и его освоение, в разных культурах проходит весьма сходно, но всё-таки по-разному... Вот лично мне, например, весьма любопытен факт утраты в русском языке звательного падежа, что отличает его, например, от болгарского, нет? А двойственное число? Почему в русском языке наличествует "я" и "мы", а "я + моя жена = моя семья" - утрачено? В этом весьма культурологические процессы скрыты, нет?

Аватара пользователя

самый главный енот
ВПЗР
ВПЗР
Сообщения: 2033
Зарегистрирован: 13.07.2009
Образование: школьник
Профессия: метролог
Откуда: Магадан
Поблагодарили: 150 раз
Возраст: 57
Re: Компьютерная лексикография. Каким может быть словарь?

Сообщение самый главный енот » 28 май 2011, 05:20

Концепция коллективно развиваемого словаря реализуется в Викисловаре, но что толку? Такой словарь не может быть нормативным, это просто игрушка для взрослых
Параллельно с реальными событиями существует идеальная их последовательность. Они редко полностью совпадают.


Автор темы
yavor
писарь
писарь
Сообщения: 8
Зарегистрирован: 14.03.2011
Образование: высшее гуманитарное (филологическое)
Откуда: Болгария
Возраст: 54
Re: Компьютерная лексикография. Каким может быть словарь?

Сообщение yavor » 29 май 2011, 02:19

Patriot Хренов:Дом - домик - домище...


Разница в интенсивности признака того, что называется "дом". Домище по сравнению с домом выглядит как несоразмерно большое для глаза, который привык снимать мерку усредненного дома.

Википедия уже сделала немало. По крайней мере, как никто другой. Но ее энциклопедичность является силой и слабостью: словарей так много, и все они специализированы. Пора думать о википедии словарей. :D


Patriot Хренов
ВПЗР
ВПЗР
Сообщения: 4138
Зарегистрирован: 16.04.2011
Образование: высшее гуманитарное (филологическое)
Профессия: безвременно безработный
Откуда: Волжский, Волгоградской, Россия
Поблагодарили: 697 раз
Возраст: 58
Re: Компьютерная лексикография. Каким может быть словарь?

Сообщение Patriot Хренов » 09 июн 2011, 18:38

yavor:Домище по сравнению с домом выглядит как несоразмерно большое для глаза, который привык снимать мерку усредненного дома.

Кы... хым!.. Предлагаю для разбора слово "влагалище". Как объясните?


Автор темы
yavor
писарь
писарь
Сообщения: 8
Зарегистрирован: 14.03.2011
Образование: высшее гуманитарное (филологическое)
Откуда: Болгария
Возраст: 54
Re: Компьютерная лексикография. Каким может быть словарь?

Сообщение yavor » 10 июн 2011, 00:13

Разберемся. Слово влага вам подходит? Не подводите нас к опасной черте (это известный форум, так, что покопайтесь в русской грамматике насчет -ще).

Аватара пользователя

Марго
Гениалиссимус
Гениалиссимус
Сообщения: 13467
Зарегистрирован: 11.11.2009
Образование: высшее гуманитарное
Откуда: Моcква
Поблагодарили: 2318 раз
Re: Компьютерная лексикография. Каким может быть словарь?

Сообщение Марго » 10 июн 2011, 05:57

yavor: Слово влага вам подходит?
Скорее, это отглагольное существительное, образованное по типу вместилище и хранилище, -- потому и влага тут ни при чем, так же как и интенсивность признака.


Автор темы
yavor
писарь
писарь
Сообщения: 8
Зарегистрирован: 14.03.2011
Образование: высшее гуманитарное (филологическое)
Откуда: Болгария
Возраст: 54
Re: Компьютерная лексикография. Каким может быть словарь?

Сообщение yavor » 12 июн 2011, 00:35

От гл. влагать, из в- + -лагать от праслав. формы, от которой в числе прочего произошли: ст.-слав. вълагати, русск. налагать, полагать, слагать и т. п.; укр. полага́ти, болг. нала́гам, сербохорв. изла́гати, ѝзлāже̑м «выкладывать». Итер. от ложи́ть, которое в свою очередь является кауз. от лежать; ср. др.-исл. lógа «выдать (тайну); оставить на произвол судьбы», др.-англ. lógian «располагать», д.-в.-н. luog «логово зверя, убежище». Использованы данные словаря М. Фасмера; см. Список литературы.


Вернуться в «Новые отрасли лингвистики»



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость