Коряків, Майсак – Систематика мов миру й бази даних в інтернеті


Ю. Б. Коряків, Т. А. Майсак СИСТЕМАТИКА МОВ МИРУ Й БАЗИ ДАНИХ В ІНТЕРНЕТІ (Праці Міжнародного семінару "Діалог 2001" по комп'ютерній лінгвістиці і її додатках. - М., 2001) 1. Теоретичні передумовиУ багатьох науках існує особлива допоміжна дисципліна, що допомагає впорядковувати досліджувані даною наукою об'єкти - Систематика. Це стосується насамперед природничих наук, де їсти що впорядковувати. Найбільшої досконалості систематика досягла в біології, причому дещо лінгвісти у свій час запозичили в біологів (наприклад, ідею генетичного древа як модель розвитку мов).

Гідно подиву, що одне з достоїнств біології - стругаючи систематика об'єктів - дотепер не була втілена в лінгвістиці. От що характерно для створеної ще Карлом Линнеем в XVII столітті біологічної систематики: - вся сукупність об'єктів розподіляється по єдиної Ієрархічно організованій системі; - вся система хоч і базується на Генетичному принципі, але бере до уваги й Синхронну близькість об'єктів (наприклад, окремі сімейства ластоногих і хижих історично ближче друг до друга, чим до іншим сімействам свого загону); - існує єдиний критерій для визначення приналежності тварин до одного виду (можливість схрещування з одержанням репродуктивного потомства); - є Єдина система таксонів від вищого (Царство) через цілий ряд проміжних (Клас, загін, сімейство із цілою системою префіксів) до базової одиниці (Виду) з можливим дробленням далі (Підвид, подподвид і так далі, аж до Популяції); - кожній одиниці привласнюється Унікальне ім'я, що забезпечує легку ідентифікацію об'єктів; - для Базової одиниці (Вид) використовується Бінарна система номінації, що полегшує ідентифікацію родинних видів - порівн. Canis lupus, Homo sapiens і т.

п. - усе імена Незалежні від мови опису, що забезпечується використанням латинської мови, із запозиченнями із грецького й інших мов Таким чином, у систематику можна виділити три групи принципів: - Єдина ієрархічно організована система - Єдина система таксонів - Єдина система номінації Подивимося тепер, наскільки можна застосувати ці принципи для створення систематики мов, щоб вона була універсальної й зручною виспользовании.

Єдина ієрархічно організована системаВ основу Систематики мов повинна, мабуть, лягти генетична класифікація мов (ГКЯ): еволюційно-генетичне угруповання є природної, а не штучної, вона досить об'єктивна й стійка (на відміну від найчастіше швидко мінливої ареальної приналежності). Однак на відміну від біології, у лінгвістиці ГКЯ не зведена в єдину систему й це навряд чи взагалі може бути зроблено, оскільки чим глибше рівень реконструкції, тим він менш надійний, якщо можливо взагалі. Тому верхні рівні Систематики мов необхідно базувати на якімсь іншому принципі.

Єдність всієї системи й порівнянність одиниць одного рівня повинні забезпечуватися загальними критеріями для віднесення об'єктів до того або іншого рівня. Оскільки основою Систематики мов повинна бути ГКЯ, те, отже, і критерії потрібно використовувати генетичні. Генетичну близькість можна виразити в цифрах, визначивши зразковий час розпаду язикової спільності для кожного рівня по глоттохронологической методиці. Однак, така система буде зайво сильно опиратися на вульгарне, а нас у цьому випадку цікавить насамперед систематика, зручна для сучасної розмаїтості мов. Тому більше зручним здається відносний критерій, наприклад, схоронність базової лексики впроцентах.

Це критерій гарний тим, що враховує скоріше синхронну близькість мов, ніж точну дату їхньої розбіжності. Однак його надійність помітно знижується в міру наближення до крайніх крапок шкали (від 0% до 100%). Збіг базової лексики в 5-10 % може бути випадковим і повинне підкріплюватися іншими вагомими даними. Сказане ставиться насамперед до високих рівнів класифікації (групи, сім'ї, макросім'ї). Що стосується використання цього критерію для виділення окремих мов і вуж тим більше їхніх діалектів, те тут теж можна знайти чимало заперечень.

Насамперед, багато лінгвістів уже звикли до того, що поняття "мова" і "діалект" занадто розпливчасті й ставляться скоріше до ведення соціолінгвістики. Із социолингвистической точки зору можна виділити кілька критеріїв для віднесення идиомов до одному або декількох мовам:- Наявність етнічної спільності, до якого ставляться носії даних идиомов; - Самоідентифікація носіїв ідіома; - Взаимопонятность идиомов; - Наявність престижного наддіалектного ідіома, сприйманої носіями даних идиомов як "свого"; - Функціональна повноцінність даного ідіома.У єдиній Систематиці критерії для віднесення об'єктів до одного рівня повинні відповідати наступним вимогам: Застосовність до будь-якого об'єкта й Несуперечність (або однозначність) віднесення об'єкта до певного класу чиЗадовольняють перераховані вище критерії цим вимогам? Перший (народ = мова) незручний уже тим, що визначення народу є ще більш складним. Тому скоріше класифікація народів повинна ґрунтуватися на Систематику мов, а не навпаки. Багато дослідників цілком уповають на думку носіїв. Однак, думка різних носіїв може не збігатися між собою; ця думка легко міняється під впливом зовнішніх факторів і пропаганди; твердження одних людей, що вони говорять мовою Х, може суперечити думці інших носіїв цієї ж мови, що затверджують, що перші говорять на іншій мові; і нарешті, у багатьох культурах взагалі не було й немає чіткого подання про свою мову Так що, цей здавався б найважливіший критерій суперечить обом поставленим вимогам. Третій критерій є наслідком структурного розходження мов і міг би бути винесений за рамки соціолінгвістики, однак реально взаимопонятность ускладнюється багатьма іншими факторами, якось: знайомство з мовою співрозмовника, тема спілкування, саме бажання/небажання розуміти співрозмовника та ін. Загальна письмова традиція (порівн. німецький термін Dachsprache " мова-дах") часто поєднує досить далеко разошедшиеся ідіоми (наприклад, італійські, німецькі або китайський літературні мови) або навіть віддалено родинні (латинь у середні століття). Причому в різних частин одна ідіома можуть виявитися різні "дахи" (нижнесаксонские діалекти в Нідерландах і Німеччині), що суперечить принципу Однозначності. А головне, це принцип свідомо не може бути застосуємо до мов, обслуговува_ не ніякою письмовою традицією. Дотримуючись останнього критерію, ми повинні привласнити деякому числу функціонально повноцінних идиомов статус "мова", інші ж (наприклад, використовувані лише в ситуації побутового спілкування) залишити в ранзі "діалектів". Безумовно, це дуже важливий критерій, однак його неможливо використовувати для універсальної систематики мов Таким чином, з розглянутих критеріїв лише взаимопонятность хоч якось відповідає поставленим вимогам. Але найбільш простим способом виміряти її є порівняння структурної близькості мов і, зокрема, збіги лексики - насамперед базової. Отже, там де це можливо, найкраще використовувати критерій схоронності базової лексики Однак, таким способом ми зможемо об'єднати відомі нам мови миру лише в досить велику кількість об'єднань (біля сотні), причому частина мов нікуди не потрапить. Звести все це в меншу кількість одиниць на основі генетичних принципів виявляється неможливим (принаймні, на тім же рівні надійності). У той же час, для додання нашій системі закінченості це потрібно якось зробити. Можливим виходом є все-таки об'єднання їх по географічному принципіЄдина система таксонівСтрункій системі таксонів у біології лінгвісти можуть тільки позаздрити Хоча й у нас існує чимало термінів (Сім'я, група, галузь, Іноді фила, филум), але їхнє використання дуже сильно варіює від автора, мови опису й конкретної ситуації.

Очевидно, що необхідно запропонувати деяку струнку систему таксонів (краще разом зі зразковим рівнем збереження базової лексики для кожного рівня). Можливо, що краще навіть відмовитися від традиційної термінології, щоб вона не приводила до плутанини. Але це питання залишається поки відкритимЄдина система номінаціїНа відміну від об'єктів біології, для яких у кожній мові існують свої назви, назви мов, як правило, досить близькі між собою (використовується звичайно той же корінь, з фонетичними змінами й додатковими суфіксами, порівн. Росіянин, Russian, russo та ін.

). Це, з одного боку, полегшує ситуацію (звичайно в тексті на будь-якій мові можна зрозуміти, про яку мову мова йде), з іншого боку, ускладнює її, оскільки насущність рішення питання не настільки очевидна, як це було у своєму час у біології. Проте, ідея номінації мов незалежно від мови опису здається нам дуже зручної й важливої. Багатьом лінгвістам не раз доводилося зіштовхуватися з тим, що для відомої мови в іншій мові використовується зовсім інше слово; або навіть із тим, що в одній мові той самий мова йменується по-різному.

Відповідно, встає питання про метаязике для номінації мов (і їхніх об'єднань). Використовувати, як у біології, латинь не має змісту - це було б занадто штучно, а крім того, латинь у сучасній лінгвістиці практично не використовується. Можна використовувати якусь сучасну мову, тоді на цю роль буде швидше за все претендувати англійський Але не варто випустити з уваги, що об'єкти вивчення лінгвістики (у відмінності від тої ж біології) уже мають для самих себе назви (Самоназви, або Автолингвоними), і ми цілком можемо використовувати їх, домовившись лише про єдину їхню письмову фіксацію. Однак цей принцип практично не застосуємо для назв об'єднань мов. Тут можна запропонувати кілька рішень: - використання деякої зовнішньої мови (латинь або англійський); - утворення групових назв шляхом додавання назв двох складових, як це часто й робиться (наприклад, абхазо-адигские або финно-угорские мови); - "усереднення" всіх назв для даного об'єднання серед мов, що входять у це об'єднання; - розробити штучну систему номінації, наприклад, на основі корінь Кожне із цих рішень має свої переваги й недоліки, так що поки й це питання залишається відкритим2. Систематика мов у базах даних інтернетуУ лінгвістиці (на жаль, переважно західної) існує цілий ряд довідників, присвячених перерахуванню мов миру й приведенню їх у єдину систему класифікації.

Лише трохи з таких видань претендують на повноту охоплення язикової розмаїтості (російською мовою подібних довідників не існує). Двома найбільш повними й найбільш сучасними роботами такого роду є “етнолог” (Ethnologue: Languages of the World), відомий многим вітчизняним лінгвістам, і появившийся лише недавно й тому поки недостатньо відомий “Реєстр Лингвосфери” (The Linguasphere Register of the World's Languages and Speech Communities). Недавно виник проект по створенню аналогічного довідника по-російському, тільки більше повного й об'єднаного з атласом мов. Обидві роботи доступні як у друкованому виді (хоча в російських бібліотеках вони відсутні), так і через інтернет (див. докладніше нижче) - тим самим, вони є унікальними довідковими виданнями по мовах миру, скористатися якими може будь-який бажаючий. Нижче докладний огляд даних робіт даний за єдиною схемою, що включає: 1.

Наявність єдиної ієрархічно організованої системи й принципи організації; 2. Принципи виділення мов / діалектів; 3. Наявність єдиної системи таксонів; 4. Наявність єдиної системи номінації мов (і більше дрібних одиниць); 5. Наявність єдиної системи номінації груп мов; 6. Додаткові назви мовою опису й на інших мовах; 7. Обсяг відомостей для кожної мови; 8.

Загальний обсяг роботи: кількість мов; кількість глоттонимов; 9. Включення мертвих, штучних мов, пиджинов, мов глухонімих; 10.

Наявність додатків: покажчики, карти, бібліографії; 11. Доступність для користування й для виправлення"етнолог", 1996“етнолог” був розроблений в SIL - однієї з найбільш відомих у світі лінгвістичних організацій, недавно перейменованої в SIL International, а раніше відому як Summer Institute of Linguistics (Літній лінгвістичний інститут). Це найбільша у світі організація ставить своєю метою вивчення рідких і маловідомих язикових співтовариств миру, опис їхньої мови й культури, поширення грамотності й створення писемності для безписемних мов, а також переклад на ці мови різних текстів (наприклад, Біблії). У цей час SIL нараховує порядку 6.100 співробітників; президентом організації є Керолин Міллер (Carolyn P.

Miller). Одним з напрямків діяльності SIL є розробка довідника по мовах миру. Оновлені перевидання цього довідника виходять кожні 4 роки Останнє видання вийшло в 2000 р., однак у силу його неприступності ми нижче наводимо дані по 13-му виданню 1996-го року, що поміщене й в інтернеті. Редактором "етнолога" була Барбара Граймс (Barbara Grimes), що займала цю посаду з 1971 по 2000 рік; новим редактором “етнолога” став Рей Гордон (Ray Gordon) з Далласа1. Наявність єдиної ієрархічно організованої системи й принципи організації Хоча в даній роботі й використовується ГКЯ, основна частина книги побудована по політико-географічному принципі: розділами є країни, а далі перераховуються статті про мови за абеткою. Одна мова може зустрічатися кілька разів (одна із країн проте вважається основний для мови).

Для кожної мови вказується його місце в ГКЯ, що цілком приводиться як додаток. ГКЯ доходить тільки до рівня надійно реконструируемих об'єднань, що приводить до сильної нерівномірності: наприклад, кількість об'єднань в Америці досягає 60, а в іншій частині миру їх усього 34.

При цьому велика кількість мов попадає або в групу ізольованих, або в групу некласифікованих мов 2. Принципи виділення мов / діалектів У передмові до етнологу говориться про різне розуміння термінів "мова" і "діалект" як серед носіїв, так і серед лінгвістів. Самі автори, виходячи із цілей складання цього довідника (допоміжний посібник для перекладачів Біблії на інші мови), прагнуть подавати як окремі мови ті ідіоми, носії яких із працею можуть читати або говорити на іншому ідіомі, не вивчаючи його спеціально. Тобто, вони виходять із критерію Взаимопонятности. Крім того, в увагу приймаються й деякі социолингвистические фактори, наприклад, відношення до іншої мови, самоідентифікацію носіїв і інші3. Наявність єдиної системи таксонів В етнологе не використовується ніяких таксонів, крім термінів "мова" і "діалект". Назви груп мов в "деревному" зображенні ГКЯ (у Додатку) даються без супровідного таксона й розрізняються лише величиною абзацного відступу 4. Наявність єдиної системи номінації мов (і більше дрібних одиниць) Мовою опису в етнологе є англійський, так що й всі назви мов і груп мов даються по-англійському.

При цьому одне з англійських назв вибирається в якості основного, інші ж приводяться поруч у дужках. Ніякої спроби розробити єдину систему номінації, незалежну від мови опису, не робиться. Зате, кожній мові (але не діалекту й не групі мов) привласнюється особливий ідентифікаційний код, що складається із трьох заголовних букв латинського алфавіту й, що приводиться у квадратних дужках після назви мов.

Це допомагає розрізняти мови з однаковими назвами й використовується в комп'ютерних втіленнях етнолога як ім'я для гіперпосилань. Часто букви коду відповідають назви мови, однак це, по зрозумілих обмеженнях, що накладається кількістю букв, не завжди буває так.5. Наявність єдиної системи номінації груп мов Для груп мов, також як і для окремих мов, використовується англійська мова Назви даються так, як вони зложилися в лінгвістичній традиції, ґрунтуючись насамперед на енциклопедії The Oxford University Press International Encyclopedia of Linguistics (1992) під ред. Вільяма Брайта, а також на більше пізніх вишукуваннях у цій області6. Додаткові назви мовою опису й на інших мовах Для кожної мови (і в меншому ступені діалекту) у дужках після основної назви даються альтернативні назви по-англійському й іноді автолингвоними й назви на інших мовах. Всі вони звичайно ніяк не розмежовуються. Назви, що несуть образливий відтінок, ставляться в лапки.

У самому тексті іноді приводиться назва етнічної групи, якщо воно сильно відрізняється від назви мови Всі назви даються тільки в латинської шрифті з невеликим набором диакритик (в основному використовувані в західно-європейських алфавітах). Інші писемності не використовується і їх не передбачається використовувати7. Структура роботи; обсяг відомостей для кожної мови Основна частина етнолога організована по країнах (усього 228 країн). Для кожної країни спочатку приводиться коротка довідка: населення країни (як правило, на 1995 рік); повна офіційна назва по-англійському й офіційною мовою даної країни; столиця; площа; рівень грамотності; список мов іммігрантів із числом носіїв у даній країні (сюди включаються також мови, для яких відомо тільки число носіїв, якщо більше докладна інформація про їх дається під іншою країною); ступінь точності даних для всієї країни (в основному відносно взаимопонятности й перевірки інформації лінгвістами) по четирехбалльной шкалі; основні релігії; кількість сліпа й глухонімих і кількість установ для них; загальне число мов (не включаючи мови іммігрантів), у тому числі число жива, мертвих і вживаних тільки як друга мова. Потім перераховуються мови, для кожного з яких даються наступні короткі відомості в неструктурованій текстовій формі (у вид єдиного абзацу): основна назва, варіанти назв у дужках (заголовними буквами); трибуквений ідентифікаційний код у квадратних дужках; число носіїв, у тому числі монолингвов, билингвов, і тих, для кого це друга мова; джерела відомостей; число носіїв в інших країнах, число носіїв у всіх країнах; зразкова територія поширення; аффилиация; список діалектів з варіантами назв (заголовними буквами); додаткова социолингвистическая інформація; ЗМІ й література; утворення й грамотність; ступінь взаимопонятности між діалектами; тип писемності; офіційний статус мови; коротка типологічна характеристика граматики (як правило, базовий порядок слів); наявність шрифт Брайля; основна релігія; наявність перекладу Біблії Втім, для багатьох мов значна частина інформації може отсутствовать.8. Загальний обсяг роботи: кількість мов; кількість глоттонимов В етнологе виділяється більше 6.700 мов. У Покажчик назв включено більше 39 тис. назв мов і діалектів (основних і варіантів).

Однак у покажчик не включені назви груп мов, і їхнє точне число в етнологе невідомо. 9. Включення мертвих, штучних мов, пиджинов, мов глухонімих Крім генетичних об'єднань мов, у Покажчику язикових сімей є додатковий розділ "Мови, що представляють спеціальний інтерес", де приводяться списки ізольованих і некласифікованих мов; пиджинов і креольських мов; мов жестів і мов глухонімих; а також такі цікаві категорії, як "єврейські" і "циганські" мови. Приналежність до всіх цих категорій вказується в статтях відповідних мов замість генетичної приналежності (крім єврейськ і циганських, які вказуються додатково до неї).

В етнолог включаються ті мертві мови, які вимерли лише недавно або займають особливе місце усередині своєї сім'ї або якщо на них є переклад Священного Писання. Мертві мови не включаються в загальну статистику, однак ні їхній список, ні їхнє число ніде не приводиться. Ніякі допоміжні й/або штучні мови (як есперанто або волапюк) в етнолог не включені10. Наявність додатків: покажчики, карти, бібліографії Даний довідник включає 3 частини: це - властиво довідник по мовах (Ethnologue: Languages of the World), що включає опису 6.703 мов, характеристику язикових ситуацій в 241 країні, а також 112 карт поширення мов і бібліографію (більше 300 входів); - покажчик лингвонимов (Language Name Index), що включає 39 тисяч найменувань (альтернативні назви, назви діалектів та ін.); - покажчик язикових груп і сімей (Language Family Index), що включає інформацію про генетичне споріднення мов, організовану у вигляді 99 генеалогічних дерев, а також списки мов "особливого інтересу". 11. Доступність для користування й для виправлення Електронна версія 13-го видання “етнолога” була опублікована в 1996 р.

і згодом випускалося на CD-ROM. Повний текст книги (крім карт) доступний в html-форматі в інтернеті за адресою ethnologue.

com/ . Там він організований у вигляді бази даних, по якій можна робити пошук по слову або за допомогою ідентифікаційного коду, унікального для кожної мови. Є також розділ, у якому бажаючі доповнити інформацію в "етнологе" можуть заповнити анкети по відповідних темах і послати їх у редакцію. Це досить розгорнуті анкети по загальних відомостях про мову, по социолингвистической ситуації, по володінню мовою в якості другого та ін. Очевидно, передбачається, що ці анкети розраховані лише на фахівців"Реєстр Лингвосфери", 2000Перше друковане видання "Реєстру Лингвосфери" вийшло в січні 2000 р.

англійською мовою за назвою The Linguasphere Register of the World's Languages and Speech Communities (в 2 томах, загальний обсяг 1043 стр. ). "Реєстр" був практично повністю створений однією людиною ---і лінгвістом з Великобританії Девидом Довбай (David Dalby), відомим у нашій країні насамперед своїми роботами з африканістики. Йому ж належить ідея створення так званої “Обсерваторії Лингвосфери” (Observatoire Linguistique, Linguasphere Observatory, Bhasha Vishwa) - проекту по вивченню й системному опису мов і язикових співтовариств миру. "Реєстр" є на сьогоднішній день основним результатом діяльності Обсерваторії Лингвосфери.

У цілому, завданням Обсерваторії є спостереження за сучасним станом і розвитком Лингвосфери ---і сукупності всіх мов миру в їхньому взаємозв'язку (за аналогією з терміном “ноосфера”, запропонованим В. Вернадським). Обсерваторія існує з 1983 р. і є незалежною й некомерційної Транснаціональної (тобто, що розвивається на перетинанні національних груп і незалежно від державних кордонів або контролю з боку конкретних країн) організацією. Складовими частинами Обсерваторії є добровільні асоціації, що існують на сьогоднішній день у Нормандії, Уельсі, індійських штатах Гуджарат і Махараштра; з літа 2000 року в роботі Обсерваторії беруть участь і лінгвістів з Москви. Тім 1 "Реєстру" містить у собі передмова проф.

Колин Уильямс, велику вступну статтю Д. Довбай із загальною характеристикою язикової ситуації у світі в XX столітті, а також словник прийнятих у Реєстрі термінів і понять, бібліографію, покажчики, статистичні таблиці й карту лингвосфери. Тім 2 включає властиво Реєстр мов з передмовою проф. Ролана Бретона.

Реєстр містить інформацію про більш ніж 20 тисячі мов і діалектів миру, розповсюджених в XX столітті - від мов, що перебувають під погрозою вимирання, до 28 “язикових артерій миру”, тобто мов, на кожному з яких говорить більше 1% человечеcтва. Далі треба характеристика "Реєстру Лингвосфери" по виділеним нами параметрам.

У силу малоизвестности даного видання в Росії ця характеристика більше повна, ніж опис "етнолога" вище.1. Наявність єдиної ієрархічно організованої системи й принципи організації Система класифікації мов, прийнята в Реєстрі, є оригінальною розробкою Девида Довбай. У її основу покладені принципи в чомусь традиційні, але в чомусь досить відмінні від інших покажчиків мов. (Хотілося б підкреслити, що в розробці досить простого й зручного принципу каталогізації мов миру Довбай бачить одну зі своїх основних завдань; цією проблемою він займався починаючи з 70-х років, працюючи над картою мов Африки ) Найбільш великими таксонами є Сектора, яких виділяється 10, причому кожний з яких підрозділяється на 10 зон. Як сектора, так і зони виділяються або по генетичному принципі (це, відповідно, “Филосектора” і “Филозони”), так і по ареальному (“Геосектора”, “Геозони ”) у випадку, якщо остання підстава виділення переважніше.

Филосекторов п'ять - 1 = Афразийский, 3 = Австронезийский, 5 = Індоєвропейський, 7 = Сино-Індійський і 9 = Трансафриканский. Як легко помітити, ці сектори приблизно відповідають традиційним “сім'ям” або “макросім'ям” - під Сино-Індійським сектором у цьому випадку мається на увазі сино-тибетська сім'я мов, а під Трансафриканским - конго-атлантична (включающая всі мови гіпотетичної нигеро-кордофанской макросім'ї, крім манде й кордофанских). У силу того, що ярлики для назви "сімей" і подібних об'єднань часто наповнюються різним змістом у різних роботах, автор часто відмовляється від традиційних назв.

Геосекторов також п'ять - це 0 = Африка (куди потрапили мови нило-сахарської й койсанской макросімей, і манде й кордофанские мови, що включаються в нигеро-кордофанскую макросім'ю), 2 = Австралазия (австралійські, тасманийские й папуаські мови), 4 = Євразія ("алтайська", уральська, дравидийская, аустроазиатская, паратайская, північнокавказької, картвельська сім'ї й всі ізольовані мови Євразії), а також 6 = Північна Америка й 8 = Південна Америка Якщо в якості филосекторов автор виділяє лише ті п'ять найбільших язикових об'єднань, споріднення усередині яких безперечно й приймається світовим науковим співтовариством, то в геосектора включаються більше дрібні групи мов або такі об'єднання, споріднення між якими приймається більшістю вчених скоріше лише на рівні гіпотези (наприклад, "алтайська" макросім'я, а тим більше "ностратическая" або "америндская" макросім'ї). Усередині зон мови групуються вже винятково по генетичному принципі, причому тут також використовується оригінальна концепція угруповання мов, запропонована Д. Довбай замість традиційних термінів “сім'я”, “група”, “підгрупа” та ін. Усередині зони мови послідовно поєднуються на трьох рівнях генетичної близькості: найбільше об'єднання йменується ЗАГІН (англ. Set) і передбачає наявність у мов хоча б 25-35% збігів у базовому словнику. Таких об'єднань налічується 694. (Прикладами об'єднань рівня ЗАГІН можуть служити абхазо-адигский, нахско-дагестанский і картвельський загони в 42 = Кавказької геозоне або енисейский, чукотсько-камчатський, юкагирський і нивхский загони в 43 = Сибірської геозоне). Далі, рівень ЛАНКА (англ.

Chain) відповідає більшому ступеню близькості мов, приблизно 36-50% (1.410 груп, наприклад нахское, лезгино-даргинское, аваро-андо-цезское й лакское ланки в нахско-дагестанському загоні або скандинавська, англійська, західно-германська й східно-германська ланки в германському загоні 52 = Германської филозони). Нарешті, рівень ОСЕРЕДОК (англ. Net) відбиває ступінь близькості з порядку 51-70% лексичних збігів (це 2.694 об'єднання типу аваро-андийской і цезской осередків в аваро-андо-цезском ланці або чотирьох осередків у слов'янській ланці слов'янського ж загону Слов'янської филозони). [Російські переклади таксонів даного рівня досить умовні.] Усередині осередків відбувається останній розподіл мов, причому тут також виділяються три рівні (Д. Довбай навмисно відмовляється від твердої дихотомії “мова” vs. “діалект”).

Зовнішній мова співвідноситься з базовою демографічною одиницею класифікації. У традиційній класифікації він відповідає одному або групі декількох близкородственних мов, для яких можна говорити не менш чим про 71-85% збігів у базовому словнику; це, наприклад, російсько-українсько-білоруський, аварский, андийский. Базовою одиницею властиво лінгвістичної класифікації є Внутрішній мова Традиційно йому відповідає прислівник, група діалектів або окрема мова, з більш ніж 86% збігів у базовому словнику. Нарешті, у класифікації може використовуватися й самий нижній рівень - Діалект, що відповідає певного територіального, соціальної або письмового різновиду внутрішньої мови2. Наявність єдиної системи таксонів Система таксонів "Реєстру" є розгорнутою й досить строго певної Вона відрізняється від якої-небудь традиційної системи, у чому складається як її достоїнство, так і деякі труднощі сприйняття при первісному знайомстві з довідником. Ця система має три основних рівні класифікації: на верхньому рівні виділяються сектори й зони, на середньому - загони, ланки й осередки, і на нижньому - зовнішні мови, внутрішні мови й діалекти Див. докладніше пункт 1.3. Принципи виділення мов / діалектів Прийнята в Реєстрі трихотомія Зовнішня мова / внутрішня мова / діалект не співвідноситься безпосередньо із традиційної Дихотомією мова / діалект. Хоча відзначається, що при віднесенні ідіома до того або іншого рівня використовуються лише "лінгвістичні" фактори (наприклад, відсоток збігу базової лексики), на практиці цей критерій застосовується не завжди, а враховуються й такі параметри, як взаимопонимаемость идиомов і язикова самоідентифікація носіїв. Процедура застосування таких внешнелингвистических факторів при систематику идиомов строго не формулюється. Так, наприклад, в англомовному ареалі (осередок 52-ABA English) виділяються 3 зовнішні мови: північно^-британський ( шотландско-нортумбрийские д-ти), південно-британський (властиво англійські д-ти) і Global-English (всі інші варіанти: стандартний англійський і не-британські форми).

Російська, українська й білоруська мови об'єднані в одна зовнішня мова 53-AAA-e Russkiy+Ukrainska. Літературні мови трактуються поряд з нелітературними формами як внутрішні мови (сербський і хорватський поряд з кайкавским, чакавским і штокавским внутрішніми мовами в сербсько-хорватській зовнішній мові) або діалекти (болгарські або македонський літературні діалекти в складі відповідних внутрішніх мов в одній болгаро-македонській зовнішній мові).

Аналогічно, однією зовнішньою мовою (і двома внутрішніми) є гінді й урду, які, незважаючи на використання різних систем листа, практично повністю взаимопонимаеми в усному мовленні4. Наявність єдиної системи номінації груп мов Кожне з об'єднань вищого рівня - сектора - має свій номер, причому геосектора пронумеровані непарними цифрами (1, 3, 5, 7, 9), а филосектора - парними (0, 2, 4, 6, 8). Назви великих рівнів мають в оригіналі однакові суфікси: усе імена филосекторов кінчаються на -An (наприклад, 1 = Afro-Asian), імена геосекторов кінчаються на -A (наприклад, 2 = Australasia), а всі назви филозон кінчаються на -Ic (наприклад, 12 = Semitic, 41 = Uralic та ін.). Кожної з 100 язикових зон привласнений номер від 00 до 99: перша цифра вказує на номер сектора, друга на номер зони усередині сектора. Завдяки такому простому цифровому коду може бути полегшений пошук мови в довіднику; подібний код може бути використаний для відсилання до того об'єднання, у яке входить мова (наприклад, [44] Tatar або [51] Italiano) і в принципі може бути використаний не тільки лінгвістами, але й істориками, етнографами, географами та ін. Кожному із трьох найбільших рівнів об'єднання нижче зони (загін, ланка й осередок) відповідає буквений код із заголовних букв: наприклад, 42-B для загону Noxchin+Avar, далі 42-BB для ланки Avar+Lak, далі 42-BBA для аваро-андо-цезской осередку Avar+Dido (усередині нахско-дагестанського загону). Хоча це обмежує можливість відбиття розмаїтості об'єднань до 26-u (по кількості букв латинського алфавіту), реально більше число підрозділів не зустрічається.

Назви середніх рівнів ієрархії - загонів, ланок і осередків - являють собою сполучення двох основних складових більше низького рівня замість використання традиційних, часто штучних і іншомовних назв, порівн. загін Norsk+Frysk (єдине в 52 = Германської филозоне) і ланка Norsk+Svenska замість Nordic або Scandinavian (скандинавські мови). Кожному з таксономических рівнів відповідають особливі типографські конвенції: так, назви секторів, зон, загонів, ланок і осередків даються прописними напівжирними буквами5. Наявність єдиної системи номінації мов (і більше дрібних одиниць) Крім короткого цифрового коду, використовуваного для віднесення мови до однієї з 100 зон (наприклад, [51] Francais), кожний ідіом має повний буквений код, у якому відбите його положення у всіх вищих рівнях ієрархії.

Він складається із двох цифр (сектор+зона), трьох заголовних букв (загін+ланка+осередок) і трьох малих літер (зовнішня мова+внутрішня мова+діалект), ср. зовнішня мова 51-AAA-i Francais, внутрішня мова 51-AAA-id franç ais-G.

(розмовний французький Франції), діалект 51-AAA-idd franç ais-de-normandie (регіональний варіант Нормандії). Назви зовнішніх мов іноді є складовими, порівн. Russkiy+Ukrainska. Назви зовнішніх мов даються з великої букви, внутрішніх мов і діалектів - малими літерами; всі назви, крім назв діалектів, виділені напівжирним шрифтом6. Додаткові назви мовою опису й на інших мовах Для мов і діалектів основним називание завжди є Самоназва, що забезпечує універсальну систему позначення мов, що не залежить від мови опису й порівнянну з латинською номенклатурою вбиологии. У першому виданні Реєстру самоназви дані в латиниці (наприклад, “russkiy”, “ukrainska”, "kartuli" і ін.

), однак у майбутньому планується приводити також і написання назви мови в оригінальній писемності. Приводяться також всі варіанти самоназви, а також основне(-ие) назви по-англійському.

Назви на інших мовах випереджаються вказівкою на мову (наприклад, In [53] Russkiy: " абхазо-адигский”).7. Обсяг відомостей для кожної мови Відомості про мови й діалекти в Реєстрі структуровані й представлені у вигляді п'яти стовпчиків, кожна з яких має фіксований зміст. У колонку 1 приводиться буквений код об'єднання або ідіома (див. вище). У колонку 2 приводиться основна назва, використовуване при відсиланні.

Перед назвами идиомов, які існують нині тільки на листі, ставиться значок &; а для идиомов, заснованих на письмовій нормі (літературних), значок - . У колонку 3 приводяться всі Інші назви мов, а також даються й Інші відомості про мову, що випереджаються спеціальними значками: E відомості про дву-, многоязичии й диглоссии; C відомості про контакти й взаємодію мов; Å відомості про ареал або епіцентр поширення; ¶ сведения о носителях, их перемещениях и т. д.

; # номенклатурние замечания: етимология, использование названий; Ø сведения о близости язиков, переходном характере и т. д.; & сведения об используемой письменности и письменной норме. В колонке 4 указиваются Государства (а в скобках более мелкие административние единици), в которих распространен данний идиом. В колонке 5 указивается индекс численности носителей. Индексом является цифра от 0 до 9, которая соответствует порядку числа говорящих (как в качестве первого, так и второго) на язике (0 = язик вимер после 1900 г., 1 = менее 100 чел.

, 2 = 100 и более чел. , 3 = 1000 і більше чіл., і т.д.). Значком i позначені загони, осередки або ланки цілком зниклі до кінця 20-го сторіччя, а значком l - ідіоми, що вимерли до початку 20-го століття8. Загальний обсяг роботи: кількість мов; кількість лингвонимов По прийнятій у Реєстрі термінології, виділяється 13.840 “внутрішніх мов” (з більш ніж 8.881 складових їхніх діалектів), які об'єднані в 4.994 “зовнішніх мов”, і далі в 694 більші язикові спільності. У Покажчику назв утримується більше 70 тис.

входів (назва + цифровий код); при цьому, даний покажчик містить у собі як всі назви мов і діалектів, так і (на відміну від "етнолога") назви язикових об'єднань різних рівнів У зв'язку із цим, оцінити кількість лингвонимов у вузькому змісті слова (назв мов і діалектів) досить важко.9. Включення мертвих, контактних і штучних мов, мов глухонімих До Реєстру включена інформація про всі живі мови XX століття. З Мертвих мов враховані: по-перше, ті, які в писемній формі продовжували використовуватися в XX столітті (наприклад, латинь, санскрит, церковнослов'янський і др. ), причому в майбутньому передбачається врахувати й всі мови, від яких залишилися які-небудь писемні пам'ятки (етрусский, древнекитайский, хетський та ін.

); по-друге, мови, що исчезнули насамперед протягом XX століття (убихский, айнский і ін.), а по можливості й за останні п'ять сторіч (наприклад, полабський, готський, багато мов Америки, Австралії й інших регіонів, що исчезнули в процесі експансії європейських мов), - оскільки мови як першої, так і другий груп безпосередньо впливали й впливають на сучасний стан лингвосфери.

Контактні мови (пиджини й креольські) включені до Реєстру, причому перераховуються в розділах, що відповідають мові-лексификатору (наприклад, всі контактні мови на романській основі - у филозоне 51 = Romanic). Серед Штучних мов згадуються лише деякі: так, есперанто, ідо й новиаль виділяються в складі однієї із дрібних груп тої ж филозоне (51 = Romanic). Інформації про Мови глухонімих у поточній версії Реєстру ні, однак її передбачається розмістити в майбутні виданнях10. Наявність додатків: бібліографії, покажчики, таблиці, карти Бібліографія у Реєстрі приводиться в якості попередньої й нараховує більше 200 основних джерел. Є великий “Покажчик мов і язикових співтовариств” (більше 160 стор.), про яке див. вище. “Покажчик по країнах” містить інформацію про державні й офіційні мови країн (перерахованих за абеткою).

Приводяться узагальнюючі Таблиці по мовах, на яких говорить більше 1% населення Землі (60 і більше млн. чіл.), а також по мовах, на яких говорить 10-59 млн. чіл.

Є також таблиці зі статистикою по секторах і зонам (число загонів у зоні, число зовнішніх мов, що вимерли мов та ін. ). У Реєстрі є одна загальна Карта лингвосфери, на якій зображені границі язикових зон, із вказівкою індексу чисельності носіїв. Разом з тим, одним із проектів Обсерваторії Лингвосфери є створення “Картографічної база даних Лингвосфери” (Linguasphere Mapbase), що повинна являти собою докладні карти поширення мов і діалектів по всіх ареалах миру У цей час створена докладна карта мов Африки; разом з індійським відділення Обсерваторії ведеться робота зі створення карти мов Індії11. Доступність для користування й для виправлення З екземпляром друкованого видання можна познайомитися в секторі "Мови миру" Інституту мовознавства РАН (Москва, Бол. Кисловський пров., 1/12, комн. 36).

Частина матеріалів друкованого видання у форматі *. pdf поміщена на сайті Обсерваторії Лингвосфери ( linguasphere. net/). У цей час доступ до повного він-лайновой версії “Реєстру” платний, однак протягом 2001 р. планується зробити доступ до всього Реєстру вільним (і в html-форматі). Важливо підкреслити, що Обсерваторія Лингвосфери не є закритою організацією, а “Реєстр Лингвосфери” призначений далеко не тільки для фахівців (будь-яка людина тією чи іншою мірою є фахівцем з тих мовам, на яких він говорить).

У зв'язку із цим, Обсерваторія Лингвосфери запрошує до співробітництва як організації, так і часток осіб - усіх, кому небайдуже стан мов у сучасному світі. На думку Д. Довбай, участь самих широких кіл фахівців є вкрай бажаним і допоможе проекту по вивченню лингвосфери стати справді транснаціональним, тобто, що розвивається на перетинанні національних границь і незалежно від яких-небудь границь або контролю з боку конкретних держав Зауваження по вдосконаленню “Реєстру”, а також відкликання й коментарі, можна надсилати Д. Довбай за адресою dalby@aol. com. * * * На закінчення для більшої наочності ми для порівняння приводимо повністю характеристику однієї мови (аварского) у кожному із двох довідників. етнолог Розділ Europe / Russia, Europe (європейська частина Росії)AVAR (AVARO, DAGESTANI) [AVR] 601,000 in the former USSR, including 44,000 in Azerbaijan (1989 census); 959 in Kazakhstan; (1993 UBS), 98% speak it as mother tongue. Southern Dagestan ASSR and southern Azerbaijan, Terek and Sulak river areas.

Also in Turkey. North Caucasian, Northeast, Avaro-Andi-Dido, Avar. Dialects: SALATAV, KUNZAKH (XUNZAX), KELEB, BACADIN, UNTIB, SHULANIN, KAXIB, HID, ANDALAL-GXDATL, KARAX (KARAKH), BATLUX, ANCUX (ANTSUKH), ZAKATALY (CHAR). Has literary status based on northern dialect, Kunzakh, which is used in Dagestan and as the lingua franca among speakers of the Avar group of languages. Education in it for the first two years except in the cities. Newspapers. Cyrillic alphabet is used.

North Caucasian is also called 'Caucasian'. Language of wider communication. Sunni Muslim. Bible portions 1979-1996.

Work in progress. Реєстр Лингвосфери Сектор 4 = Євразія, геозона 42 = Кавказ, загін NOXCHIIN+AVAR, ланка AVAR+LAK, осередок AVAR+DIDOI. Є самостійною зовнішньою мовою 42-BBA-a Avar Avaro, daghestani Е Caucasus-E. Mountains Russian Fed.: Russsia (Dagestan); Azerbaijan U 5 42-BBA-aa Avar-N. Е Dagestan-S. Highland Russian (Dagestan) 5 42-BBA-aaa - avar-F. "literary" avar & Cyrillic script; Khunzakh model ( Dagestan-S.

) 42-BBA-aab SalatavAvar.(Dagestan-S.) 42-BBA-aac Khunzakh Xunzax, chunzach, avar-CN., "vehicular" avar? Khunzakh & Environs ( Dagestan-S.) 42-BBA-aad Avar-NE.

( Dagestan-S.) 42-BBA-ab Avar-C. "transitional" avar C Transition between Avar-N. & Avar-S. Russia (Dagestan) 5BBAKeleb(Dagestan-S.)BBABachadinBacadin (Dagestan-S.

)BBAUntib(Dagestan-S.)BBAShulaninShulani Å Shulani ( Dagestan-S.) 42-BBA-abe Kachib Kaxib Å Kachib & Environs ( Dagestan-S.

) 42-BBA-ac Avar-S. Azerbaijan 5 42-BBA-aca Hid Azerbaijan-N. 42-BBA-acb Andalal+gkhdatl Andalal+gxadatlAzerbaijan.42-BBA-acc Karakh KaraxAzerbaijan.42-BBA-acd Antsukh AncuxAzerbaijan.42-BBA-ace Batlukh BatluxAzerbaijan.42-BBA-acf Car Char Å Zakataly & Environs Azerbaijan-N. У цілому, характеристика мов Кавказу (і багатьох інших мов Росії) не є сильним місцем у жодному з довідників.

У зв'язку із цим, актуальне питання про участь у відповідних проектах фахівців з Росії.Плюшеві ведмедики від фірми .

Если домашнее задание на тему: » Коряків, Майсак – Систематика мов миру й бази даних в інтернеті оказалось вам полезным, то мы будем вам признательны, если вы разместите ссылку на эту сообщение у себя на страничке в вашей социальной сети.