RLC: Russian Learner Corpus

Японский учебный корпус русского как иностранного, или JRFLLC (Japaness Russian as Foreign Language Learner Corpus), является результатом коллаборации исследователей в области лингвистики и преподавания – Хаясида Риэ (Осакский университет) и Рахилиной Екатерины (НИУ ВШЭ).

Данный проект реализован при финансовой поддержке Японского общества содействия науке (JSPS) в форме гранта на научные исследования (№ проекта – 17K02926).

Что такое JRFLLC?

JRFLLC представляет из себя учебный корпус, содержащий образцы речи учащихся, изучающих русский язык и чьим родным языком при этом является японский. Данный корпус позволяет увидеть разнообразные языковые особенности порождения русской речи японскими учащимися. Мы также надеемся, что анализ данных особенностей поможет расширить возможности на пути к пересмотру и совершенствованию содержания обучающих материалов, методических пособий, а также учебных программ, используемых в реальной преподавательской практике в Японии. Кроме того, поскольку JRFLLC является подкорпурсом Русского учебного корпуса (RLC), благодаря чему позволяет проводить точный и практически подтверждаемый анализ того, какие схожие черты и отличия наблюдаются в особенностях порождаемой русской речи и особенностях языковой стратегии учащихся, говорящих на разных языках, мы также смеем полагать, что в будущем корпус окажется полезным в том числе и с точки зрения типологических исследований.

Корпус JEFLL составлен из данных, полученных из сочинений студентов специальности «Русский язык» японских университетов. Эти данные были получены по результатам компонента «Письмо» теста по русскому языку как иностранному (The Test of Russian as a Foreign Language, TORFL) для двух уровней – A2 (Basic level), B1 (Intermediate level), который проводится Министерством образования и науки РФ на протяжении 15 лет и основывается на стандартах CEFR (Common European Framework of Reference for Languages : Learning, teaching, assessment). На сегодняшний день доступно около 2800 сочинений от порядка 1400 человек. Пока метаинформацией (часть речи, неправильное употребление и т.д.) снабжена только часть их тех сочинений, которые представлены в открытом доступе, однако работа над корпусом продолжается, и уже в самом ближайшем будущем мы планируем снабдить метаинформацией абсолютно все имеющиеся данные. Кроме того, объем самих данных впредь планируется увеличивать с каждым новым экзаменом в году.

Метаданные

Несмотря на то, что JRFLLC изначально был разработан с целью удовлетворять локальные (местные) нужды, богатство критериев, согласно которым он был спроектирован, порождает разнообразные возможности для поиска ответов на исследовательские вопросы, а также для анализа. Каждый текст снабжается следующими метаданными:

фамилия, имя студента (псевдоним),
пол,
период изучения языка ранее, опыт владения им,
языковой уровень студента,
временная отметка (на каком курсе было написано данное сочинение),
ограничение по времени, в течение которого должно было быть написано данное сочинение,
тип текста,
функция текста (повествование, аргументирование и т.д.).

Все эти категории для каждого текста в корпусе отражены в Header Identification Box (Header ID). Возможно автоматическое создание подкорпуса на основе этих данных.

Все слова в JRFLLC снабжены морфологическими тэгами, которые содержат информацию о части речи, поле, падеже, виде. В случае, если слово было написано с ошибкой, тэг будет содержать пометку «нестандартная форма» (т.е. неправильная). Интерфейс корпуса допускает возможность поиска по грамматическим и лексическим категориям.

Использование корпуса

Дальнейшее наполнение корпуса JRFLL позволит искать и мгновенно находить общие тенденции в неправильном и сложном для «неносителей» языка склонении имен (существительных и т.д.) и спряжении глаголов для уровней A1-A2, а также поможет нарисовать реальную языковую картину, которую в тот или иной момент рисует в своей голове студент, изучающий русский язык как иностранный. Кроме того, в рамках проекта по разработке корпуса JRFLL рассматривается также вопрос использования в качестве сравнения корпуса CoRST, где собраны данные сочинений русскоговорящих учащихся-ровесников японских студентов, а темы схожи с теми, что представлены в Японии. Мы надеемся, что сравнение с данными корпуса носителей языка сделает возможным проследить разницу в особенностях использования языка его носителями и «неносителями», в частности чрезмерное (и, наоборот, дефицитное) использование японскоговорящими студентами той или иной русскоязычной лексики.

Корпус изначально планировался как хранилище данных по результатам заданий «Письмо» экзамена ТРКИ, однако по факту на протяжении последних 15 лет собиралась и накапливалась также информация по устным высказываниям студентов в рамках ТРКИ (часть «Говорение»), в результате чего на сегодняшний день доступны аудиозаписи с монологами, диалогами, пересказом прочитанного текста и т.д. В ближайшем будущем, когда использование письменных текстов корпуса встанет на рельсы, мы планируем добавить к корпусу JRFLL также аудиоданные и данные культурного характера. Мы полагаем, что размещение данных устной речи параллельно с данными письменной – поможет проводить более глубинные и подтверждаемые на практике (не только педагогические, но и лингвистические) исследования того, чем отличаются друг от друга процессы изучения студентами русского языка в обеих сферах – письмо и говорение.

Материалы JRFLLC распространяются бесплатно через поисковые системы сети интернет. Если вы использовали корпус JRFLL в своей научной работе, вы обязаны указать это в готовом докладе, статье и т.д.

JRFLLC RLC Subcorpus

Что такое JRFLLC?

Метаданные

Использование корпуса

JRFLLC
RLC Subcorpus