УДК 81'322; 004.934; 004.912

ББК 81.1

А.Ю. Мордовия

К ВОПРОСУ О ПОНЯТИИ РЕПРЕЗЕНТАТИВНОСТИ КОРПУСА ТЕКСТОВ

Статья посвящена описанию понятия репрезентативности корпуса текстов. Понятие репрезентативности анализируется в различных коммуникативных аспектах, после чего следует вывод о том, что языковая личность составителей корпуса текстов оказывает непосредственное влияние на его репрезентативность. В ходе качественного и количественного анализа этого влияния автор заявляет о невозможности составления корпуса текстов, свободного от мнения составителя, и предлагает ряд вопросов, требующих дальнейшего исследования в указанном направлении.

Ключевые слова: корпус текстов; репрезентативность; языковая личность; корпусная лингвистика.

A.Yu. Mordovin

DEFINING REPRESENTATIvENESS OF TEXT CORPORA

The present article describes the notion of representativeness of a text corpus. Representativeness is viewed in various aspects of communication and conclusion is made that linguistic personality of a corpus designer and builder has direct impact onto representativeness of a corpus. This impact is further analyzed in quantitative and qualitative aspects producing a justified statement that no corpora may be compiledfree of author’s view, therefore, prospective trends for development in this area are provided.

Keywords: text corpus; representativeness; linguistic personality; corpus linguistics.

Последовательное описание предмета статьи - репрезентативности корпуса текстов - возможно лишь в контексте общего телеологически-утилитарного интереса к исследованию языка, характерного для современной науки. Рассмотрим некоторые широкие предпосылки такого подхода.

В числе признаков, характеризующих развитие современного общества в начале XXI века, неизбежно фигурируют дефиниции, подчеркивающие стремительное внедрение информационных технологий во все сферы жизни.

Тенденция к информатизации накладывает определенный отпечаток на модели языкового общения человека. В языке становится все более ощутимым влияние принципа максимальной эффективности деятельности, понимаемой как отношения объема вложенных усилий к значимости полученного результата. В настоящее время можно говорить о переходе этой максимы, впервые оформившейся как

экономический принцип в период роста массового производства, в степень идеологии.

Отслеживается тенденция к росту скорости передачи и обработки языковой информации благодаря автоматизации и механизации вспомогательных для порождения и восприятия речи действий. Как следствие развития телекоммуникационных технологий, многократно сильнее, чем в момент изобретения письменности, истончаются пространственные и временные ограничения на коммуникацию, происходит взаимопроникновение признаков устной и письменной речи.

Т ак, Европейская Консультационная Группа по Стандартам Обработки Языка (EAGLES)

- организация, разрабатывающая международные стандарты машинной обработки языка, в т.ч. корпусов текстов? - ввела категорию «электронного» модуса речи в дополнение к традиционным устному и письменному. Эта категория выделена «с целью подчеркнуть, что язык, передаваемый на электронном но-

сителе, - это не совсем то, что происходит при передаче старыми привычными способами» [Sharoff, 2006: 440]. Дифференцирование данного типа речи от письменной авторы считают необходимым по критерию «спонтанности порождения» речи, скорее, как в телефонном разговоре. Тем не менее устными эти тексты назвать нельзя, так как в них отсутствует просодическая информация, заменяемая графическими средствами - заглавными буквами и эмотиконами (смайликами). Для целей данной статьи определим электронный модус речи как способ порождения устной речи с использованием графических и параграфиче-ских средств, характеризующийся спонтанностью порождения и рядом пространственновременных ограничений, результирующих в невозможности замены электронной речи, как на устную, так и на должным образом оформленную письменную, в момент порождения. Исключим из такого модуса традиционно оформленные письменные тексты, представленные на электронных носителях.

Сокращается допустимое время порождения речи, при этом пространственные и темпоральные ограничения на объем порождаемой речи ориентируют говорящего на эталонные размеры текста. Понятие размера текста включается в ключевые жанрообразующие категории, становясь существенным дифференциальным признаком для новых жанров. В целом следует признать, что растет число современных жанров дискурса, для которых характерно неподдельное стремление к максиме количества по Грайсу (о максиме качества, к сожалению, приходится говорить с гораздо большей осторожностью).

Другим признаком, характеризующим современное языковое общение, является многозадачность - человек может постоянно находиться в состоянии порождения ряда текстов. Деятельность современного служащего все больше представляет собой последовательность действий речемыслительного характера, направленных на гармонизацию виртуальной картины мира в некоторой ее части, изолированной искусственно для решения некоторой сверхзадачи проектного характера. Эта модель профессиональной деятельности

- комбинирования и дистрибуции концептов, построения причинно-следственных цепей и

ценностно-приоритетных иерархий - становится полноправным и высокооплачиваемым способом участия индивида в социуме.

Таким образом, следуя общей логике процесса информатизации человеческой деятельности, речевая деятельность и модели ее интерпретации стремятся к росту скорости и многозадачности - а это те самые качества, которые выгодно отличают искусственные вычислительные процессы от возможностей человеческого интеллекта.

Неудивительно в данном контексте видеть попытки поиска новых лингвистических методов исследования языка, которые позволили бы нашей науке шагать в ногу с прогрессом и использовать современные средства автоматизации исследований, зарекомендовавшие себя в отраслях естественной науки. Не претендуя на полноту, в число таких направлений можно включить машинный анализ языка, математическую (computational) лингвистику, построение систем распознавания речи, лингвистический элемент в создании искусственного интеллекта, корпусную лингвистику. В той или иной мере метод изучения перечисленных направлений подразумевает подход к языку как к некоторой объективной данности

- подход, присущий естественнонаучному методу. Неотъемлемым инструментом изучения языка выступает использование аппаратнопрограммных ресурсов. По мере сближения характера исследований с точными науками лингвистике данного направления свойственна объективизация полученного знания и противопоставление его анализа как объективного факта феноменологическому (интерпретационному) филологическому описанию.

Язык в истории своего изучения уже не раз демонстрировал сложности при использовании обоих методов его анализа. При попытке изолировать ценные компоненты полученного опыта интерпретации сторонники феноменологического подхода сталкиваются с субъективностью интерпретанты исследования в силу бесконечного количества горизонтов восприятия, которыми обладают участники коммуникативного сообщества. А сторонники рационалистического построения идеальной модели языка по мере роста размера исследуемых элементов и углубления анализа оказываются не в состоянии сформулировать

взаимосвязь относительно стройной системы языка с дискретностью и идиоматичностью ее речевых проявлений. Погружаясь в созданный ею самой мир коммуникативных ролей, функций и моделей, реализуемых путем речевой онтологизации концептов, лингвистика стремится к поиску новых альтернативных простых способов анализа языка, которые были бы основаны на опыте и предельно рациональны одновременно. Лингвисты видят надежду разрешения неразрешимых диалектических противоречий в интеграции и взаимопроникновении противоположных методов: дедукции и индукции. Следуя вышеописанному принципу эффективности затрат времени и ресурсов на исследование языка, лингвисты стремятся «найти компромисс между глубиной и полнотой отражения содержания текста и скоростью его обработки» [Клименко, 2001]. Исследования языка на основе корпусов текстов - корпусная лингвистика - это один из таких компромиссов.

Корпусная лингвистика располагает в своем арсенале двумя основными направлениями работы: лингвистическая обработка уже созданных языковых корпусов либо разработка корпусов текстов для определенной цели: «Основной целью создания лингвистических корпусов является удовлетворение потребностей фундаментальной лингвистики в материале для исследований, достаточном по объему и достоверном по принципам отбора» [Коваль, 2004]. Западные представители корпусной лингвистики предостерегают коллег от такого подхода, поскольку интенциональ-ность будущего исследователя определенного лингвистического аспекта на материале корпуса текста может исказить степень репрезентативности корпуса для данного языкового явления ^тсЫг, 2005: 23]. Следует сказать, что языковые исследования языка на материале корпуса изначально не выступали в качестве цели, обусловившей их создание. Так, достаточно упомянуть о том, что известный прародитель корпусов - Броуновский корпус английского языка - был предназначен для отражения лингвистических особенностей американской печатной прозы соответственного периода времени.

Новизна подхода корпусной лингвистики к исследованию языка заключена в представле-

нии о корпусе текстов как о языковом объекте ограниченного (пусть и значительного) размера, ключевой характеристикой которого является его репрезентативность по отношению к изучаемому феномену. Считается, что корпус текстов, устных или письменных, в своей совокупности, при ограниченном размере репрезентативен для неограниченного феномена - языка. Тем не менее автор статьи предлагает обратить внимание на момент, предшествующий анализу корпуса, т.е. процедуре его построения. Ведь именно на этом этапе полностью закладывается репрезентативность корпуса, обеспечивающая в дальнейшем научную ценность полученных результатов. Целью данного исследования является обозначить факторы, способные ограничить степень исключения личностной феноменологической интерпретации из процесса составления корпуса, т.е. механическую репрезентативность корпуса.

Поскольку все выводы, полученные в результате исследования корпуса текстов справедливы только при условии достаточной репрезентативности корпуса, следует рассмотреть само это понятие более подробно. Причин, по которым, по мнению создателей и исследователей корпусов, корпусу текста можно приписать свойство репрезентативности, приводится много. Для целей данного исследования их стоит классифицировать на количественные и качественные.

Говоря о качественных параметрах, призванных обеспечить репрезентативность корпуса, начать можно с цитаты из руководства по составлению корпуса Д.Синклера ^тсЫг, 2005: 5], согласно которому: «Руководящие принципы, связывающие корпус и текст - не есть концепты, подлежащие четкому определению, но сильно зависящие от хорошего чутья и четкого мышления людей, вовлеченных в создание корпуса, а также от «обратной связи» сообщества пользователей корпуса». Таким образом, под качественной составляющей репрезентативности корпуса следует понимать свойства, характеризующие языковую личность составителя корпуса и релевантные для целей составления корпуса. Д.Синклер отмечает, что в идеальном случае корпус должен проектироваться и составляться экспертом в коммуникативных моделях сообществ,

использующих тот язык, который корпус призван отразить. При этом «безразлично, что находится “внутри” данных документов или речевых событий, они должны подбираться как тот тип документов, которые люди пишут и читают, и как тот тип разговоров, который действительно имеет место» [Sinclair, 2005: 6]. Иначе говоря, составитель корпуса должен в первую очередь уделять внимание социальному контексту речевого события или документу, нежели его языковому содержанию.

Следует напомнить, что контекст ситуации в языке во многом, хотя и не полностью, находит отражение в понятии жанра текста. Неудивительна в данном контексте постоянная ссылка на жанровую представленность языка в корпусе - обойтись без понятия жанра при обосновании репрезентативности корпуса невозможно, особенно в отношении так называемых стандартных (reference) корпусов (о жанровом наполнении корпусов см. ниже).

Для современной корпусной лингвистики характерно отсутствие значительного внимания к исследованию и моделированию языковой личности составителя корпуса текстов. С одной стороны, это направление на данный момент еще не получило должного освещения в науке о языке. С другой стороны, нельзя не отметить ряд телеологических факторов, способных объяснить причины недостаточного теоретического осмысления языковой личности составителя корпусов.

Во-первых, большинство существующих и вновь создаваемых корпусов по типу отражаемого языка можно разделить на корпусы распространенных языков (стандартные, специализированные, параллельные и т.д.) и корпусы малораспространенных и вымирающих языков. Поскольку время составления корпуса для вымирающих языков является критическим фактором, приоритеты смещаются в сторону количественных аспектов, и в роли составителя корпуса может выступать любой человек. В литературе и глобальной сети доступно множество простейших руководств по составлению корпусов, наполнение которых сводится к описанию программноаппаратных способов регистрации языковых данных, описанию принципов маркирования текстов по частям речи, принципов транскрипции и транслитерации устной речи и т.д.

Как правило, речь идет о языках малочисленных народов Азии и Африки.

Во-вторых, не менее значительное число корпусов создается исключительно для использования в обучении языкам. Такие корпусы текстов имеют, как правило, достаточно скромный объем словоупотреблений, а отбор источников текстов производится в первую очередь исходя из требуемого уровня владения языком. По сути, подобные корпусы текстов представляют собой традиционные дидактические хрестоматии с возможностью машинного поиска. Труд составителя дидактического корпуса - это труд преподавателя, поэтому его изучение относится к соответственной отрасли науки.

Таким образом, утверждая, что языковая личность составителя корпуса - как разработчика структуры (design) корпуса, так и подборщика текстового материала для данной структуры - занимает центральное положение среди качественных параметров, призванных обеспечить репрезентативность корпуса, можно, только сделав оговорку, что речь идет о стандартных (reference) корпусах текстов, т.е. корпусах, ссылка на которых подразумевает общую норму речи для данного языка в данный момент времени.

Деятельность составителя корпуса, «эксперта в коммуникативных моделях дискурсивного сообщества», едва ли может быть исчерпывающе охарактеризована как подбор текстов с необходимыми «внешними» параметрами, т.е. текстов с заданным типом контекста ситуации. Характер его деятельности носит комплексный характер, и в конечном итоге эта деятельность направлена на принятие положительного или отрицательного решения о достаточной репрезентативности текста для включения в корпус. Комплексность деятельности составителя состоит в следующем. Если составитель корпуса строго следует принципу отбора текстов по контексту ситуации, то такую механическую работу все равно сопровождает минимальная интерпретация текста с целью эксплицировать требуемые параметры контекста ситуации. Тем не менее, если в числе структурных параметров корпуса присутствует требование к тематической наполненности корпуса, необходима дополнительная интерпретация текста состави-

телем, что в еще большей степени вовлекает личность составителя в процесс отбора текстов.

Качественные параметры обеспечения корпусной репрезентативности относятся непосредственно к языковой личности составителя корпуса. Им противопоставляются количественные параметры, описывающие зависимость репрезентативности корпуса от его объема.

Количественные параметры репрезентативности корпуса более осязаемы, чем качественные: во-первых, чем больше словоупотреблений включает в себя корпус, тем выше вероятность представленности в нем всех возможных употреблений для данного слова. Во-вторых, авторы корпусов текстов предпочитают выбирать тексты таким образом, чтобы соблюсти некоторую жанровую структуру текстов корпуса. При этом априори определяется предполагаемая жанровая структура корпуса, представленная либо письменными, либо устными, либо другими типами текста (см. выше об электронной речи), в зависимости от названия корпуса. При этом авторы могут изначально указать необходимый удельный вес текстов того или иного жанра в корпусе, выраженный в процентах, при котором обеспечивается лучшая репрезентативность корпуса по отношению к языку.

В публично доступных интерфейсах для работы с корпусами (а большинство корпусов, по определению, расположены на машинном носителе и доступны в сети Интернет как на платной, так и на бесплатной основе) обычно не поясняется процедура, в результате которой были получены данные значения. Жанровая типология текстов, представленных в корпусе, не всегда бесспорна: можно привести значительное количество примеров размытости границ, неверного противопоставления и наложения критериев классификации текстов.

В части корпусов, в которых тексты организованы описанным выше образом, на жанровую классификацию текстов может также налагаться семантическая, или, точнее, тематическая классификация текстов. Иначе говоря, тексты, организованные вокруг широкого концепта (например «спорт», «семья», «преступность»), размещаются в одну группу, при этом может устанавливаться, а чаще не уста-

навливаться удельный вес текстов, посвященных одной тематике. Интересно также то, что, как правило, существует группа, включающая тексты, не отнесенные ни к одной группе, и имеющая соответственное название типа «разное». Как правило, создатели текста делают оговорку, что высоко идиоматичные тексты, а также тексты, значительно отличающиеся от принятых норм языка, сознательно не включены в корпус. Ссылок на некоторую фиксированную объективную норму языка автору данной статьи обнаружить не удалось.

Как видим, даже в количественных параметрах, призванных наиболее достоверно подтвердить репрезентативность корпуса текста в отношении представляемого функционального или исторического сегмента языка, присутствует значительный элемент влияния языковой личности составителя. В первом случае это объясняется тем, что для включения текста в корпус текст должен быть отнесен к тому или иному жанру, что предполагает предварительное прочтение или прослушивание, интерпретацию текста и принятие решения о жанровой принадлежности, осложняемые различиями в представлениях о понятии жанра среди создателей корпуса - чаще не-лингвистов, а тем более несоответствием представлений о жанрах у создателей и пользователей корпуса.

Во втором случае при определении тематической соотнесенности текста и некоторого концепта феноменологическая природа процесса принятия решения представляется самоочевидной, поскольку составитель корпуса, выделяя набор ключевых для данного текста концептов, не может выполнить этого за пределами собственной картины мира, в т.ч. языковой. Это значит, что категоризация концептов данной языковой личности - одного из составителей корпуса - оказывает влияние на наполненность корпуса «по концептам». Здесь становится легко предугадать возможность недостаточной представленности или непредставленности вообще в таком корпусе текстов, сконцентрированных вокруг концептов, малозначимых или незначимых для личностей группы составителей.

При всей субъективности жанровой и тематической категоризации текстов при вклю-

чении в корпус нельзя отрицать, что данная методика является здравым шагом в направлении обеспечения количественной основы, призванной подтвердить репрезентативность корпуса в глазах пользователя. Таким образом, из двух приведенных нами количественных критериев обеспечения репрезентативности корпуса строго объективным следует признать только количество словоупотреблений, включенных в корпус. жанровая и предметная сбалансированность корпуса, несомненно, увеличивает репрезентативную ценность корпуса для пользователя, однако ровно настолько, насколько параметры, способные охарактеризовать языковую личность (личности) создателей и пользователей корпуса, окажутся, во-первых, вообще совместимыми, а во-вторых, схожими с таковыми у пользователей корпуса. Повторим вновь, что данное положение справедливо в полной мере только по отношению к стандартным корпусам текстов. Возможности критического сомнения практически полностью избегают специализированные корпусы текстов, в первую очередь те, которые охватывают узкий спектр языка во времени или по социальному контексту, а также лингвистические корпусы текстов, составляемые для анализа ограниченного количества языковых явлений. В отношении последних тем не менее имеется риск предвзятого искажения, как минимум, частотного элемента характеристики языкового явления.

Как только мы сталкиваемся со стандартными корпусами текста, жанровая и предметная структура корпуса неизбежно начинает нести признаки языковой картины мира составителя или составителей, а именно ее индивидуальной и социально-обусловленной составляющих. С теоретической точки зрения даже увеличение размера корпуса не может служить методом, позволяющим снизить влияние субъективной картины мира составителей корпуса на состав корпуса. Практически же более крупный корпус подразумевает работу большего числа составителей, поэтому корпус становится более репрезентативным для языка безотносительно к личности составителя, благодаря нарастанию гетерогенности текстов внутри жанра и благодаря различию языковых картин составителей. Постоянство «редколлегии» обрекает корпус на неизмен-

ность репрезентативности при практически бесконечном росте размера.

Иначе говоря, по количественным критериям корпус текстов можно назвать объективно репрезентативным только тогда, когда количество словоупотреблений в корпусе составляет собой некоторое число, достаточное для включения большинства возможных словоупотреблений (как правило, от 1 миллиона, верхняя граница может лежать в пределах 100 миллионов словоупотреблений и зависит только от возможностей вычислительной техники), при этом жанровая и предметная структура призвана реализовать конкретные инструментальные интенции создателей корпуса. Цифра в 1 или 100 миллионов словоупотреблений может звучать внушительно, однако простой подсчет показывает, что в среднего размера бульварном романе содержится порядка 120 000 слов. Таким образом, для наполнения миллионного корпуса текстов будет достаточно языкового материала, эквивалентного всего 8 книгам! На взгляд автора данной статьи, переоценить влияние языковой картины мира составителя на корпус будет достаточно сложно.

Итак, рассмотрев качественное и количественное наполнение репрезентативности, предпримем попытку обобщить сказанное. Отталкиваясь от распространенного понимания репрезентативности в целом как свойства выборочной совокупности воспроизводить параметры и значительные элементы генеральной совокупности, применимо к репрезентативности корпуса текстов можно отметить следующее:

1) под репрезентативностью корпуса текстов следует понимать способность ограниченного количества текстов, отобранных на данном языке согласно установленным критериям, и называемым корпусом, в удовлетворительной для каждой данной цели степени отражать закономерности языкового употребления, характеризующие данный язык в целом;

2) репрезентативность стандартного корпуса распространенного языка, призванного отражать язык в целом, испытывает значительное влияние со стороны языковой личности составителя корпуса. Данное влияние обусловлено: необходимостью априорного ре-

шения о балансе письменных, устных и электронных текстов в корпусе, необходимостью жанровой и концептуальной категоризации текста, потребностью в «ручном» отсеивании маркированных текстов и проверке соответствия текста некоторой языковой норме;

3) в связи с вышеизложенным, требуется дополнительное исследование, выявление закономерностей, моделирование и разработка коррективных технологий в отношении языковой личности составителя корпуса.

Библиографический список

1. Клименко, С.В. Логические индукция и дедукция как принципы отражения предметной области в корпусе текстов [Электронный ресурс] / С.В.Клименко, В.В. Рыков. - 2001. - www.dialog-21.ru/materials/archive.asp?id=6915&y=2001&vol =6078

УДК 81’37

ББК 81.031.04

О. К. Мжельская

ВЛИЯНИЕ ЯЗЫКОВОЙ КАРТИНЫ МИРА НА КОНЦЕПТУАЛИЗАЦИЮ ЗАИМСТВОВАННЫХ ИМЕН СОБСТВЕННЫХ

В данной статье раскрывается проблема важности языковой картины мира для рассмотрения процесса концептуализации лексики. Особое внимание уделяется заимствованным именам собственным. Автор также приводит примеры сравнения ассимиляции имен собственных на основе приобретенных коннотаций в русском и английском языках.

Ключевые слова: картина мира; языковые концепты; фразеологические единицы; имена собственные; символ; библеизмы; ассимиляция.

O. К. Mzhelskaya

LANGUAGE WORLD PICTURE IMPACT ON THE PROCESS OF BORROWED PROPER NAMES CONCEPTUALISATION

The following article touches upon the importance of the national language world picture in concerning the process of conceptualisation. Special attention is paid to the borrowed personal proper names issue. Comparative examples of the borrowed proper names assimilation on the basis of acquired connotations in Russian and English languages have been demonstrated and disscussed.

Key-words: world picture; language concepts; phraseological units; proper names; symbol; assimilation; biblical expression.

2. Коваль, C.A. О взаимоотношениях корпусной и фундаментальной лингвистики [Электронный ресурс] / С.А. Коваль // Международная конференция «Корпусная лингвистика - 2004»: тезисы докладов (12-14 октября 2004 г.)/ - Санкт-Петербург. - http:// phil.pu.ru/depts/12/corp04.htm

3. Sinclair, J. Developing Linguistic Corpora: a Guide to Good Practice Corpus and Text - Basic Principles [Text] / J. Sinclair - Oxford: Tuscan Word Centre, 2005.

4. Sharoff, S. Open-source Corpora [Text] / S. Sharoff // International Journal of Corpus Linguistics. - 2006. -No.11. - P. 435-462.