Компьютерные словари - источник знаний

На сегодняшний день уже не осталось типов информации, не переведенных в цифровую форму: тексты, музыка, видео, базы данных - все обрело свое цифровое воплощение. Почему это делается? Да потому, что с информацией, хранящейся в цифровом виде, гораздо проще работать. Видеоиндустрия обрела средства нелинейного монтажа; музыкальные студии получили в распоряжение технологии сэмплинга и программные эффекты… А переводчики получили электронные словари.

Что такое словарь

Анатоль Франс¹ как-то остроумно заметил: «Словарь - это вселенная, расположенная в алфавитном порядке». Его слова кажутся некоторым преувеличением, но таким ли уж большим? Однажды в молодости Шарль Бодлер² начинающим поэтом пришел к уже широко известному Теофилю Готье³. В разговоре Готье неожиданно спросил: «Читаете ли вы словари?» «Да, конечно. Охотно!» – воодушевился Бодлер. И Готье стал горячо доказывать как необходимо это писателю, сколько полезного можно почерпнуть из чтения словарей.

Словари играют большую роль в современной культуре, в них отражаются знания, накопленные обществом на протяжении веков. Они служат целям описания и нормализации языка, содействуют повышению правильности и выразительности речи его носителей.

Вот какое определение дают словарю разные источники:

· Словарь – справочная книга, содержащая собрание слов (или морфем, словосочетаний, идиом и т. д.), расположенных по определенному принципу, и дающая сведения об их значениях, употреблении, происхождении, переводе на другой язык и т. п. (лингвистические словари) или информацию о понятиях и предметах, ими обозначаемых, о деятелях в каких-либо областях науки, культуры и другое (Новый энциклопедический словарь. М., 2000).

· Словарь, словник, словотолковник, словотолк, словарик, словарчик; словаришка; словарища; речник, лексикон; сборник слов, речений какого-либо языка, с толкованием или с переводом. Словари бывают общие и частные, обиходные и научные (Даль В. И. Толковый словарь живого великорусского языка).

· Словарь – собрание слов (обычно в алфавитном порядке), устойчивых выражений с пояснениями, толкованиями или с переводом на другой язык (Ожегов С. И. и Шведова Н. Ю. Толковый словарь русского языка).

· Словарь – собрание слов какого-либо языка азбучным порядком или по словопроизводству расположенных (Словарь Академии Российской. СПб., 1806-1822).

· Словарь – книга, содержащая перечень слов, обычно с пояснениями, толкованиями или переводом на другой язык. (Словарь современного русского литературного языка: в 17 т.).

· Словарь – книга, содержащая перечень слов, расположенных по тому или иному принципу (например, по алфавиту), с теми или иными объяснениями (Толковый словарь русского языка: В 4 т. / Под ред. Д. Н. Ушакова).

Словари принято делить на два типа: энциклопедические и лингвистические.

__________________________________
1 – французский писатель
2 – французский поэт
3 – французский писатель и критик

Энциклопедические (от греч. enkyklios paideia – обучение по всему кругу знаний) словари содержат экстралингвистическую информацию об описываемых языковых единицах; эти словари содержат сведения о научных понятиях, терминах, исторических событиях, персоналиях, географии и т.п. В энциклопедическом словаре нет грамматических сведений о слове, а даётся информация о предмете, обозначаемом словом.

Объект описания лингвистических (языковых) словарей – языковые единицы (слова, словоформы, морфемы). В таком словаре слово (словоформа, морфема) может быть охарактеризовано с разных сторон, в зависимости от целей, объёма и задач словаря: со стороны смыслового содержания, словообразования, орфографии, орфоэпии, правильности употребления. В зависимости от того, сколько признаков слова описаны в словаре, различают словари одноаспектные и многоаспектные.

Любой словарь состоит из словарных статей. Словарная статья – это основная структурная единица словаря; текст, разъясняющий заголовочную единицу в словаре и описывающий ее основные характеристики. Структура словарной статьи определяется задачами словаря. Но словарная статья любого словаря начинается с заглавного слова [по-иному: заголовочное слово, лемма, черное слово (от полужирного шрифта, которым обычно выделено заглавное слово)]. Совокупность заглавных статей образуют словник, или левую часть словаря.

Правая часть словаря – та, в которой объясняется заголовочная единица. Правая часть толкового словаря, как правило, включает зоны: грамматическая характеристика слова, толкование, тип значения (прямое, переносное); иллюстрации (цитаты, речения); словообразовательное гнездо; так называемая «заромбовая» часть (фразеологизмы) и др. Зоны правой части разрабатываются для каждого словаря. Совокупность всех словарных статей образует корпус словаря. Кроме корпуса, в любом словаре есть предисловие, раздел «Как пользоваться словарем» (который почему-то никем не читается); список условных сокращений и др.

Словарная статья в толковом словаре – это портрет слова. Чтобы правильно этот портрет воспринимать, надо уметь читать словарную статью, извлекая из нее всю заключенную в ней информацию.

Словари – непременная часть личной библиотеки интеллигентного человека. Если подбор другой литературы определяется нашей профессией, вкусами, склонностями, то словари нужны всем и всегда. Их листают любопытные дети, причем преподаватели говорят, что чтение словарей "от нечего делать" – очень полезное развивающее занятие. Без словарей невозможно обойтись ни школьнику, ни студенту. Специалисты разных профилей заглядывают в них по миллиону поводов. И даже самые опытные переводчики, знающие иностранный язык, как родной, садясь за работу, все равно обкладывают весь рабочий стол словарями.

Электронные словари

Традиционные талмуды, содержащие десятки тысяч слов, – огромные массивные книги, на перелистывание которых тратились часы, – стремительно уходят в прошлое. Нынешний переводчик предпочитает словари электронные, сокращающие время поиска нужного слова до нескольких секунд. Качеством и количеством статей электронные словари уже не уступают своим бумажным собратьям. Вдобавок они предоставляют массу всевозможных инструментов: сортировку входов по различным критериям, тезаурус, перевод словосочетаний, объединение нескольких словарей специализированной лексики в один массив слов, звуковую запись произношения слов и многое другое.

Словари и сама концепция электронной книги оказались как будто созданными друг для друга. Примерно за десять последних лет компьютерный словарь научился сам находить нужное слово, заговорил, уместился между делом на недорогой и удобный компакт-диск и начал активно помогать пользователю учиться. Сегодня на прилавках российских магазинов имеется неплохой ассортимент компьютерных словарей иностранных языков.

Любопытно, что электронные словари не производятся мультинациональными корпорациями. Мы можем пользоваться операционными системами и текстовыми редакторами от Microsoft, но вряд ли нам когда-нибудь доведется увидеть англо-русский электронный словарь этой компании. В любой стране электронные словари создаются и распространяются местными разработчиками - и Россия здесь не исключение. Вторую жизнь в электронном виде получили многие известные англо-русские и англо-английские словари.

Одним из таких словарей является Новый Большой англо-русский словарь (НБАРС) объемом 250.000 слов под редакцией академика Ю.Д. Апресяна. Он был переведен на компьютер компанией МультиЛекс в 1996 году и с тех пор неоднократно совершенствовался. Кроме этого, в программной оболочке МультиЛекс имеются: англо-русский и русско-английский словарь под редакцией О.С. Ахмановой и Е.А.М. Уилсон (40.000 слов), англо-русский словарь В.К. Мюллера (60.000 слов), русско-английский словарь под редакцией А.И. Смирницкого (55.000 слов) и коллекции специальных словарей.

Издательство HarperCollins Publishers представлено на нашем компьютерном рынке, по меньшей мере, тремя из них: говорящим толковым словарем на 68.000 слов, изданным компанией Intense Educational Ltd. под маркой обучающей программной системы Bridge to English, толковым Collins Cobuild Student's Dictionary объемом 40.000 слов, подготовленным в сотрудничестве с чешской фирмой LangMaster и распространяемым в России компанией Новый Диск, а также англо-русским говорящим словарем на 80.000 слов и фраз (120.000 переводов), изданным в 2002 году опять-таки совместно с Intense в рамках проекта Bridge to English.

Есть на нашем рынке и вещи, не отмеченные знаменитой маркой, но популярные и распространенные широко. Прежде всего, это Lingvo компании ABBYY Software House. Полный объем всех восемнадцати англо-русских словарей системы Lingvo составляет более 1.200.000 статей.

Реклама компьютерных словарей в прессе обычно рассчитана не на лингвистов, и часто в ней с наивным восторгом подчеркивается большой объем. Однако число слов в языке кажется бесконечным только новичку. Эпоха состязания словарей за максимум словарной базы закончилась еще в 60-х годах; выиграл те гонки Оксфорд, следы чего до сих пор заметны в самой структуре словарных статей.

С учетом технических требований (словарь со всем сопутствующим сервисом желательно уместить на одном компакт-диске) оптимальным для ученического словаря считается объем около 80.000 слов. Для рабочего словаря пределов роста, разумеется, нет.

Очень важно, что электронные словари используют последние достижения лексикографии и значительно превосходят широко распространенный англо-русский словарь под редакцией В.К. Мюллера.

«Мюллер» – памятник той эпохи, когда считалось, что задача двуязычного словаря - найти слову из одного языка эквивалент в другом. По умолчанию предполагалось, что такое соответствие существует. С тех пор лингвисты убедились, как трудно даже просто определить что же такое слово. Слово нельзя понять без контекста и культуры или субкультуры в которой оно живет. Поэтому каждое значение в электронном словаре сопровождается синонимами, антонимами, примерами употребления, лингвистической информацией. Удобно, что, не выходя из основной статьи, можно открыть окошки синонимов, антонимов и так далее и изучать их вместе. Замечательно, что в современных электронных словарях отражено пионерское достижение российской лексикографии – двуязычный словарь во многом становится толковым.

Двуязычные и многоязычные переводные словари

Практика создания двуязычных и многоязычных, а также переводных словарей существует у нас с давних пор.

Так, один из древнейших переводных словарей – "Книга лексикон греко-славено-латинский" Е.Славинецкого – был создан в период 1664-1676 гг. Существует множество двуязычных словарей: русско-национальных и национально-русских (для народов бывшего СССР); русско-иностранных и иностранно-русских, что вызвано потребностью преподавательской практики и расширением переводческой деятельности.

В современной словарной практике существуют филологические (т.н. общие) переводные словари, переводящие общелитературную лексику с одного языка на другой, и научно-технические, или отраслевые, переводящие специальную терминологию.

Типы общих филологических словарей: однотомные, карманные, большие, средние, учебные.

Научно-технические, или отраслевые переводные словари, включают в свой словник либо термины по основным отраслям науки и техники - т.н. политехнические словари, либо только специальные или узкоспециальные термины по одной отрасли науки.

Создание учебных словарей имеет значение не только в плане развития прикладного языкознания; эта деятельность служит стимулом для развития теоретической лексикографии, сформировавшейся во второй трети XX в. Первую научную типологию словарей предложил академик Л. В. Щерба в 1940 г.; она получила развитие в трудах как отечественных, так и зарубежных лингвистов.

Насколько обширны задачи в этой сфере деятельности, можно судить по следующему перечню, данному в авторитетном лингвистическом издании: «Теоретическая лексикография охватывает следующий комплекс проблем:

1. Разработка общей типологии словарей и словарей новых типов.

2. Разработка макроструктуры словаря (отбор лексики, принцип расположения слов и словарных статей, выделение омонимов, включение в корпус словаря и в приложения несобственно-лексикографических материалов: грамматических статей, иллюстраций и пр.).

3. Разработка микроструктуры словаря, т.е. отдельной словарной статьи (грамматический и фонетический комментарий к слову, выделение и классификация значений, типы словарных определений, система помет, типы языковых иллюстраций, подача фразеологии, дополнительная информация, например, этимология в толковом словаре и значения слова в этимологическом, другие проблемы в зависимости от типа словаря)».

Служебные функции

Компьютерный словарь стал собой, когда научился автоматически отыскивать по запросу словарную статью. Это произошло примерно в 1995-1996 годах. Сегодня работа в любом из электронных словарей начинается с "окна поиска" – строки, где достаточно набрать слово, которое вы ищете. Именно эта не очень сложная функция экономит львиную долю времени при переходе с бумажных словарей на электронные.

Хорошим тоном считается умение словаря запоминать страницы, которые вы открывали, и возвращаться по команде "Назад" туда, где вы побывали только что; следующим шагом можно вернуться туда, где были еще раньше, и так идти по своим следам, в принципе, сколь угодно долго. Практически все словари позволяют "выписывать" нужные слова в "блокноты" или "ставить закладки".

Функция "гипертекст" столь же проста, но более многранна в своих проявлениях. Благодаря ней все англо-русские компьютерные словари фактически являются англо-русско-английскими.

Звук

В 1997-98 годах ведущие разработчики начали озвучивать свои словари, а примерно с 2000 года компьютерный словарь обязан быть говорящим. Где-нибудь на его экране обычно размещена кнопочка с изображением репродуктора; щелкнув мышкой по ней, вы услышите, как звучит выбранное слово. Можно сказать, что транскрипция слов с появлением электронных словарей потеряла былое значение. Тем не менее, она сохранена. Разработчики учитывают, что вам, возможно, еще придется пользоваться и бумажными словарями. Если вы учитесь, то наличие транскрипции в говорящем словаре поможет вам между делом хорошо выучить фонетические знаки - это пригодится.

Теперь – немного о самом звуке. Если для обучающих программ зачастую требуются разные голоса, то в словаре ценится звук, надиктованный одним диктором-мужчиной от начала до конца. Особенное внимание звуку уделяет Collins Cobuild Student's Dictionary: в нем озвучено 283.000 слов, что в совокупности составляет 50 часов дикторской речи.

В последние годы некоторые словари стали использовать синтезированный звук. При всем совершенстве технологий это – вариант для бедных. Использовать синтезированную речь рекомендуется только для справки, но не для постановки произношения. Иначе – есть риск начать говорить, как синтезатор. Возможность синтеза привлекательна тем, что количество озвученных слов технически никак не ограничивается.

Сами по себе словарные игры - вещь технически не очень сложная, их вариантов придумано множество еще в докомпьютерные времена. Принципиально важно другое - возможность организовать игру именно с тем набором слов, который нужен сейчас. Иначе упражнения почти бесполезны, т.к. заучивать последовательно 80.000 иностранных слов просто по алфавиту - занятие, достойное душевнобольного.

Многие словари дают возможность практиковаться в произношении выбранных слов, позволяют ученику не только записывать и прослушивать собственное произношение, но и сравнить график (осциллограмму) собственной речи с дикторской.

Некоторые теоретические проблемы учебного компьютерного лексикографирования

В содержательном отношении, как известно, компьютерный словарь – это один или несколько словарных файлов, индексы к ним, описания макро- и микроструктуры этого словаря и система программ, обеспечивающих создание этой конструкции, её поддержание в рабочем состоянии, ее преобразование и обращение к ней за справками, как правило, в диалоговом режиме или из другой программы, например, из лексикографического процессора.

В компьютерной лексикографии широко практикуется создание целых информационных систем, в базах данных которых накапливаются материалы по всем возможным параметрам описания слова, вплоть до лингвострановедческого, этимологического, ономастического, ассоциативного и т. д.

Основная проблема при создании учебного компьютерного словаря (особенно профессионально ориентированного компьютерного словаря) состоит в достаточно адекватном учете потребностей такого специфического контингента пользователей как изучающие иностранный язык и реализации этих потребностей в словарном описании. Решение данной проблемы может быть найдено на основе последовательного и целесообразного реагирования на так называемые методические запросы.

В качестве ориентира при выявлении и формулировании методического запроса может выступать потребность субъектов и/или объектов педагогического процесса в тех или иных сведениях об языковых единицах. Эти сведения реализуются в методические запросы, предъявляемые к словарю как:

а) к лексикографическому произведению: например, метаязык словаря (привести исчерпывающий список сокращений, условных знаков и выделений, принятых для соответствующего словаря и т. д.)

б) к средству обучения: например, возможные методические действия со словарем (включить в словарь системно-языковые упражнения, условно-коммуникативные упражнения, упражнения в форме игр, упражнения на освоение метаязыка словаря и т. д.)

в) к программному продукту: например, процедуры, обеспечивающие возможность осуществления " диалога" между пользователем и компьютером (отразить возможность обмена с текстом – вставки и копирования фрагментов словаря и т. д.)

Появление и развитие машинного перевода

Теоретической основой начального (конец 1940-х – начало 1950-х годов) периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами машинного перевода были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947; именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.

Тот же Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. Вскоре началось финансирование исследований; в 1952 состоялась первая конференция по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.

Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.

В 1954 общественности были предъявлены первые результаты: фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент (вошедший в историю под названием Джорджтаунского), в ходе которого система, использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил, осуществила перевод 49 заранее отобранных предложений.

В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны.

Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания.

В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда других городов. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков. В настоящее время исследования по МП ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.

Исследования по машинному переводу за свою пятидесятилетнюю историю переживали как подъемы, так и спады. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП, чему в сильнейшей степени способствовала публикация так называемой «Черной книги машинного перевода» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного машинного перевода. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике МП, однако полного сворачивания исследований, в особенности теоретических, не произошло.

Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956), получила название искусственного интеллекта, а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире:

1. Научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.

2. Социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

В ходе развития идей и создания промышленных систем машинного перевода были разработаны способы автоматического морфологического анализа для основных европейских языков, методы автоматического обнаружения синтаксических структур, сформулированы требования к семантическим компонентам систем. В рамках эффективного международного сотрудничества и обмена терминологией созданы большие автоматические словари с разнообразной лексической информацией, банки терминологических данных по разным тематическим областям (например, словарь ЕВРОДИКАТОМ и ряд других словарей, тематика которых определялась тем обстоятельством, что практический машинный перевод чаще всего имеет дело с научными и техническими текстами). Результаты работ по МП способствовали началу и развитию исследований и разработок в области автоматизации информационного поиска, логического анализа естественно-языковых текстов, экспертных систем, способов представления знаний в вычислительных системах и т.д.

В СССР в качестве головной организации по машинному переводу был в 1974 определен Всесоюзный центр переводов научно-технической литературы и документации (ВЦП), взявший на себя координацию работ в масштабе страны. Под его эгидой был проведен ряд крупных международных научных конференций (1975, 1979, 1983, 1985, 1989) по машинному переводу и проблемам научно-технического перевода. В ВЦП были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю.А.Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ. В ВПЦ была также разработана система МП с русского языка на английский АСПЕРА. Большой вклад в разработку промышленных систем МП был сделан ленинградской общесоюзной группой «Статистика речи» под руководством Р.Г.Пиотровского, а также группами специалистов по компьютерной лингвистике в Минске (А.В.Зубов), Кишиневе (В.А.Чижаковский), Махачкале (А.И.Чапля), Чимкенте (К.Б.Бектаев), Самарканде (Х.А.Арзикулов) и др. На базе исследований и научно-практического подхода группы «Статистика речи» были впоследствии разработаны и сейчас находятся в коммерческом использовании такие системы машинного перевода, как Stylus, Socrat и другие.

В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам машинного перевода, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом, которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов». Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным.

Все практические системы без исключения используют идею переводных соответствий, т.е. в их основе лежит модель «текст-текст» и они реализуют краткую схему перевода. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу. Выявление содержания текста в рамках человеко-машинного интерфейса может производиться, как и во всякой прикладной задаче, только с использованием как декларативных, так и процедурных знаний и при значительной опоре на лексику. Эта точка зрения обоснована, в частности, в недавних работах отечественного специалиста по программированию и искусственному интеллекту А.С.Нариньяни.

За рубежом эксплуатируется целый ряд систем машинного перевода. Наиболее известной из их числа является система SYSTRAN, разработанная и поддерживаемая компанией SYSTRAN Software Inc. и используемая службой машинного перевода при комиссии Европейского союза. Данная служба, объем переводов в которой составляет около 2,5 млн. страниц в год, использует систему SYSTRAN для перевода с английского на немецкий, французский, испанский, греческий и итальянский языки, а также с французского на английский, испанский и итальянский. В практической эксплуатации находится ряд практических систем исследовательского центра Гренобля (Франция), систему CULT (Гонконг, ныне КНР) и ряд других. На рынке коммерческого машинного перевода предлагаются системы таких фирм, как Logos Corp., Globalinc Inc., Toshiba Corp., CompuServe и др., в том числе и санкт-петербургская компания ПроМТ, выпустившая под названием PROMT 98 усовершенствованную версию популярной системы Stylus.

Проблематика машинного перевода находит свое отражение в регулярно проводимых международных конференциях по вычислительной лингвистике COLING, а также на международных конференциях по машинному переводу MT SUMMIT.

Технические инновации 1990-х годов (значительное расширение возможностей персональных компьютеров, появление качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста, а также развитие глобальной компьютерной сети Internet и средств доступа к ней) придали новый стимул работам по машинному переводу, привлекли в данную область новые значительные инвестиции и увенчались серьезными практическими результатами – появлением достаточно эффективных систем машинного перевода и компьютерных словарей для работы на персональном компьютере (в том числе продуктов отечественных компаний ПроМТ, «Бит», «Арсеналъ», отчасти уже упомянутых выше); объединением систем машинного перевода с системами оптического распознавания текста и проверки орфографии; созданием специальных средств машинного перевода для работы в Internet, обеспечивающих либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц. В сочетании с пониманием ограничений машинного перевода и реалистической формулировкой целей его использования (прежде всего, это ознакомительно-реферативные цели, что хорошо соответствует базовой идеологии Internet как средства «навигации в информационном море») все это позволяет говорить об органичном встраивании систем машинного перевода в общий процесс формирования глобального информационного общества.

Эффективность работы современной системы машинного перевода в решающей степени зависит от ее удачной настройки на конкретный подъязык (или микроподъязык) естественного языка, на определенную лексику и ограниченный набор грамматических средств, характерных для текстов данной предметной области, а также на определенные типы документов.

Учение о подъязыках с точки зрения машинного перевода было впервые сформулировано Н.Д.Андреевым (Ленинградский университет) в 1967, хотя представления о языковых регистрах, стилях, жанрах письменного текста и т.п. были хорошо известны и в традиционной лингвистике. Подъязык, с точки зрения машинного перевода, определяется в первую очередь некоторым исходным набором текстов, в рамках которого определяется входной и выходной словари, степень распространения и характер лексической неоднозначности лексем, характер и распространенность синтаксических конструкций, способы их перевода в данной языковой паре и пр. Большую роль играют параллельные тексты и словари-конкордансы, с помощью которых можно достаточно эффективно изучить и использовать в составлении алгоритмов лексическую сочетаемость и дистрибуцию (распределение) языковых элементов в речи (дискурсе, тексте).

Статистические характеристики подъязыков помогают упорядочить структуру соответствующих алгоритмов анализа и синтеза. Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст. В любом из современных видов машинного перевода необходимо участие человека-редактора, удобство работы которого обеспечивается качеством и надежностью соответствующего программного обеспечения.

Перспективы развития машинного перевода связаны с дальнейшей разработкой и углублением теории и практики перевода, как машинного, так и «человеческого». Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, теории закономерных соответствий, способов представления знаний, оптимизации и совершенствования лингвистических алгоритмов. Новые и более эффективные словари с необходимой словарной информацией, строгие теории терминологизации лексики, теория и практика работы с подъязыками помогут повысить качество перевода лексических единиц. Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать алгоритмы нахождения переводных соответствий в данной коммуникативной ситуации, которая может быть описана в рамках соответствующих прикладных теорий представления знаний. Наконец, новые возможности программирования и вычислительной техники также будут вносить свой вклад в совершенствование и дальнейшее развитие теории и практики машинного перевода.

Примеры словарей

Обзор четырех подобных продуктов, выпускающихся отечественными компаниями.

МультиЛекс

«МультиЛекс» - это не один словарь, а целое семейство. Кроме английского, в продаже есть словари немецкого, французского, испанского и итальянского языков, парные к русскому. Для английского и немецкого языков существует по две версии словарей - «Популярные» и «Большие». Первые, где собраны наиболее употребительные слова и выражения и даны лишь основные их значения, рекомендуются начинающим изучать язык. Вторые же, предназначенные для профессиональных переводчиков, гораздо «толще» и в них более полно отражены смысловые оттенки слов. Кроме того, выпущено несколько специализированных словарей.

Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа: «В основу электронных словарей заложены словарные базы книжных изданий, уже завоевавших популярность и признание среди переводчиков, преподавателей иностранных языков, студентов и школьников». Некоторые эксперты считают, что такая политика покоится на эксклюзивном договоре МедиаЛингва с «естественным монополистом» рынка российских словарей, издательством «Русский язык». С точки зрения МедиаЛингва, задача электронной лексикографии - как можно точнее перевести традиционный словарь в электронную форму.

За основу словаря МультиЛекс взят «Новый большой англо-русский словарь» под редакцией А.Д. Апресяна. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу.

Конечно, словарь Апресяна – выдающееся достижение лексикографии, но подход МедиаЛингва имеет и недостатки. Первое, традиционные словари довольно серьезно отстают от языковой реальности. Обычно это не менее десяти лет. А электронные словари можно пополнять чуть ли не ежедневно. Второе, словари, содержащие сотни тысяч словарных статей, какими бы квалифицированными лексикографами они не составлялись, всегда содержат ошибки и неточности, не говоря уже о возникновении дополнительных значений слов. Жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный, тем более изменять структуру построения словарной статьи.

Обычная словарная статья содержит:

· заглавное слово;

· фонетическую транскрипцию (для англ. -рус.);

· грамматическую характеристику;

· пометы, характеризующие область употребления лексической единицы и ее стилистическую окраску;

· русский (английский) перевод всех значений лексической единицы, примеры и иллюстрации (основная часть статьи);

· фразеологию.

Уникальная черта «МультиЛекса» – его фонетическая программа. Технология синтеза речи позволяет прослушивать любое английское слово, словосочетание или даже несколько фраз, введенных в строку запроса.

К сожалению, отсутствует поиск по корням. Например, в словаре есть слово «спонсор», но нет «спонсорский». Поэтому в ответ на запрос «спонсорский» программа сообщает, что слово не найдено, хотя существительное и прилагательное очевидным образом связаны и в английском языке обозначаются одним словом («sponsor»).

В «МультиЛексе» 3.5 предусмотрен перевод по горячим клавишам из любого приложения, поддерживающего буфер обмена. Выделяешь нужное слово, нажимаешь F10, и на экране появляется окошко с переводом (взятым из словаря с высшим приоритетом). Перевод в окне одновременно является гиперссылкой, по которой можно вызвать основное окно «МультиЛекса» с более полной информацией по интересующему слову.

Кроме словарей английского языка, в серию МультиЛекс входят испанско-русский (100.000 слов), итальянско-русский (300.000), немецко-русский (200.000), немецко-русский "популярный" (45.000), французско-русский (40.000) и русско-французский (60.000).

Lingvo

В большом электронном словаре Lingvo есть и переведенные в цифровой вид лицензированные бумажные словари – это политехнический, юридический, экономический, финансовый, медицинский и что очень своевременно - динамично пополняемый компьютерный словарь. Но основу Lingvo, по словам руководителя лингвистического отдела фирмы Владимира Селегея, составляет электронный словарь собственной разработки. Каждая новая версия Lingvo дополняется актуальной лексикой, и в ней исправляются найденные ошибки и неточности. Таким образом, благодаря лексикографическим исследованиям англо-русский словарь фирмы Abbyy близок к языковой практике.

Удачной находкой Abbyy выглядит приглашение всем желающим размещать на их Интернет-узле словари собственного изготовления #"_Toc68956532">Контекст 4.0

«Контекст» обладает одним из самых больших наборов специализированных словарей (46, из них 44 работают в обе стороны). Коллекцию словарей можно разделить на следующие группы:

· Англо-русско-английские словари. В основной набор включены: «Большой словарь общей лексики», словари компьютерных терминов, коммерческих терминов, медицинских терминов, юридических терминов и словарь «Трудности английского языка».

· Словари русского языка: «Русские синонимы», «Толковый словарь русского языка», «Фразеологический словарь», «Словарь иностранных слов».

· Словари других языковых пар: англо-итальянский, англо-испанский, англо-немецкий, англо-португальский, англо-сербский, англо-французский, англо-хорватский, франко-итальянский, франко-немецкий. Следует отметить, что словари прочих компаний работают только с парами, включающими русский язык.

Часть словарей «Контекст» являются электронными версиями бумажных словарей (например, «Толковый словарь» сделан на основе нескольких изданий – словаря С. И. Ожегова, «Словаря иностранных слов», фразеологических словарей), но есть и словари, изначально созданные для представления в электронном виде.

Словарная статья состоит из входа (слово, которое надо перевести), зоны перевода, транскрипции (при переводе с английского), зоны грамматических комментариев (часть речи, вид глагола и др.), зоны примеров и зоны толкований (пояснений). Стилистические и отраслевые пометы как таковые отсутствуют. Ударение, как и транскрипция, дается только при переводе с английского на русский.

Словарная статья в «Контексте» не отображается целиком в одном окне, а как бы разбита по двум закладкам: «Перевод» (здесь пишется слово и список его значений на другом языке) и «Фразы» (даются многочисленные примеры употребления введенного словосочетания и слова, на котором стоит курсор, а также фразеологизмы и устойчивые словосочетания). Это очень удобно: статья не загромождается примерами, которые приводятся для каждого варианта перевода, и можно сразу увидеть весь «мир» слова и все контексты, в котором оно употребляется.

В четвертой версии «Контекста» появилась парадигма, однако при добавлении слова в словарь парадигму к нему ввести нельзя.

Перевод дается из первого по списку словаря (приоритеты можно менять). Полнотекстовый поиск есть, причем он весьма удачно реализован в интерфейсе: кнопки словарей помечаются специальными цветными точками, показывающими, в каких словарях найден перевод и какая именно информация по переводу (перевод словосочетания, слова или только слова в составе фраз) была найдена в данном словаре. Желтая точка - найден перевод всей введенной фразы, красная точка - найден перевод слова, на котором стоит курсор, синяя точка - найден перевод фразы, содержащей слово на котором стоит курсор.

В основной набор включен словарь «Трудности английского». В его словарных статьях значительно расширена зона грамматических комментариев, подробно описываются правила употребления различных частей речи.

Конечно, не обошлось и без недостатков. Пожалуй, самые крупные из них – отсутствие в «Контексте» синонимов и антонимов, а также неозвученность.

Polyglossum 1.80

Интерфейс программы по-спартански прост. Главное окно включает в себя минимум элементов. Кому-то подобное исполнение может показаться признаком «профессиональности» в противовес «попсовой» красочности интерфейсов некоторых других продуктов, кому-то кажется, что убогость внешнего вида Polyglossum – скорее результат экономии на труде дизайнеров, чем обусловленное требованиями профессиональной работы решение. Размер окна словаря не поддается изменению, что в некоторых случаях весьма неудобно. Кроме того, программа не позволяет изменять шрифт и размер текста – это существенный минус, так как люди с плохим зрением обычно увеличивают размер шрифта.

Второй явный недостаток программы – возможность одновременной работы только с одним словарем. Если потребуется работать с несколькими специализированными словарями в рамках одного языка, придется вручную переключаться между ними, чтобы узнать, находится ли искомое слово в каком-либо из них.

Зато довольно удобно реализована система копирования словарной статьи в буфер: при нажатии правой кнопкой мыши по окну со статьей появляется мини-редактор с текстом статьи, где можно удалить ненужные элементы перед копированием текста в буфер.

Словарная база англо-русско-английского словаря достаточно обширна – фактически это электронная версия Большого англо-русского общелексического словаря. Поиск в обратную сторону (с русского на английский) производится путем преобразования переводов английских слов во входы русского словаря.

Лингвистическая информация минимальна: для неправильных глаголов приводятся формы, для существительных - род (не во всех словах). Транскрипция отсутствует, не указаны ни стилистические пометы, ни принадлежность к отдельным терминологиям.

Словари онлайн

Так же многие словари можно найти не только на дисках, но и в Интернете. Далее приведен список наиболее известных онлайн словарей и энциклопедий.

Словари русского языка

#"_Toc68956536">Энциклопедические, терминологические словари и издания

#"_Toc68956537">Иноязычные словари и переводчики

#"_Toc68956538">Список литературы

1. Еженедельная газета “Иностранец”

2. http://www.computerra.ru/

3. ГРАМОТА. РУ

4. Радио Свобода, 2001

6. http://www.krugosvet.ru/
7. “Наука и жизнь”, 1999

Похожие работы на - Компьютерные словари - источник знаний

Электронные словари и их применимость для традиционного машинного перевода

СкачатьСкачать документ Информация о работеИнформация о работе

Электронные словари и их применимость для традиционного машинного перевода

СкачатьСкачать документ Информация о работеИнформация о работе

Анализ технологий совершения компьютерных преступлений

СкачатьСкачать документ Информация о работеИнформация о работе

Компьютерные технологии в педагогическом образовании: особенности правового...

СкачатьСкачать документ Информация о работеИнформация о работе

Использование информационных технологий на уроках истории в школе

СкачатьСкачать документ Информация о работеИнформация о работе

Современные компьютерные технологии в обучении

СкачатьСкачать документ Информация о работеИнформация о работе

Нужна качественная работа без плагиата?

Другие учебные материалы по литературе