Оглавление
- Рельеф России – размер территории и её границы
- Статус в зависимостях или регионах
- Языки мигрантов
- Крупные города
- Русский язык и культура речи
- Урок 1.5. Русский язык как государственный язык
- Иностранные языки
- Официальные языки
- Поиск
- Другие признанные языки
- Северо-Восточная Сибирь
- Климат России и экономика
- 2) Найдите на карте Каспийское море, озеро Байкал, Ладожское озеро, Онежское озеро; реки Волгу, Обь, Енисей, Лену, Амур. Что вы можете рассказать о них по карте?
- Языки с официальным статусом
- Определение языка
Рельеф России – размер территории и её границы
Дать в нескольких словах характеристику нашей стране, пусть даже ее географии, невозможно. Россия – это одна из самых крупных стран мира с площадью около 17,1 млн. км2, что составляет 1/8 часть мировой суши, 1/3 часть континента Евразии.
В состав России входят также территориальные воды на расстоянии 12 морских миль от береговой линии, включая острова данной акватории.
У РФ самые большие по протяжённости границы в мире – 60,9 тыс. км. Они больше экватора 1,5 раза. Морских рубежей больше чем сухопутных.
Границы часто проходят по рекам, горным хребтам. Речные и озёрные рубежи в стране составляют 15% от всей её протяжённости.
Самая крупная река, разделяющая Россию и Китай – Амур с притоком Уссури. Также небольшая по протяжённости граница с этим же государством проходит по реке Аргунь.
Другие реки, выполняющие пограничную роль:
-
Псоу на границе с Абхазией;
-
Туманная отделяет КНДР;
-
Паз – Норвегию;
-
Нарва –Эстонию;
-
Неман отделяет Литву.
Рельеф России неоднороден. Его определяет строение земной коры. Равнинные территории занимают 70% площади, они расположены на платформенных участках и плитах.
Прикаспийская низменность
Самые обширные территории:
-
Восточно-Европейская равнина;
-
Западно-Сибирская низменность;
-
Среднесибирское плоскогорье.
На юге Русской равнины находится самая низкая равнина — Прикаспийская низменность. Любое место на ней принято считать самой низкой точкой России, так как её абсолютная высота меньше уровня мирового океана на 28 метров.
Горная поверхность занимает 30% территории. Горы тянутся несколькими поясами вдоль границ литосферных плит и платформ, соответствуют областям складчатости в строении земной коры.
В стране есть разные горы по высоте:
-
низкие, Хибины на Кольском полуострове;
-
средние, Уральские;
-
высокие, Кавказ и другие.
Восток страны является наиболее возвышенной территорией. Самая же высокая вершина России – это гора Эльбрус на Кавказе, с абсолютной высотой 5642 м.
Статус в зависимостях или регионах
Нет. | Страна | Положение дел |
---|---|---|
1. | Автономная Республика Крым ( Украина ) | Статус определен в одном из законов Украины для территории Автономной Республики Крым ( Конституция Автономной Республики Крым — один из законов Украины, принимаемых Верховной Радой Украины).
Статья 10. Обеспечение использования и развития государственного языка, русского, крымскотатарского и языков других этнических групп в Автономной Республике Крым 1. В Автономной Республике Крым, наряду с государственным языком, применение и развитие, использование и защита языков русского, крымскотатарского и других национальностей. 2. В Автономной Республике Крым русский язык как язык большинства населения и язык, приемлемый для межнационального общения, используется во всех сферах общественной жизни. 3. В Автономной Республике Крым гражданам гарантируется право на обучение на родном языке в детских дошкольных учреждениях, на изучение родного языка, на обучение на родном языке в государственных, республиканских и (или) образовательных учреждениях. в муниципальной форме собственности либо через национально-культурные общества, либо в порядке, установленном законодательством Украины и нормативными актами Верховной Рады Автономной Республики Крым в пределах ее компетенции. Статья 11. Язык документов, подтверждающих статус гражданина в Автономной Республике Крым В соответствии с законодательством Украины любые и все официальные документы в Автономной Республике Крым, удостоверяющие статус гражданина, такие как удостоверение личности, трудовая книжка, свидетельства об уровне образования, свидетельство о рождении, свидетельство о браке и другие оформляются на украинском и русском языках, а по запросу гражданина — также на крымскотатарском языке. Статья 12. Язык судопроизводства, нотариального производства, производства административных правонарушений и правовой помощи в Автономной Республике Крым В соответствии с действующим законодательством Украины язык судопроизводства, нотариального производства, процедуры административного правонарушения и юридической помощи в Автономной Республике Крым. Республика Крым является украинской или, по желанию участника соответствующей процедуры, русской, как язык, на котором говорит большинство населения Автономной Республики Крым. Любые и все другие вопросы применения языков в указанных сферах деятельности в Автономной Республике Крым регулируются законодательством Украины. Статья 13. Рабочий язык предприятий, учреждений и организаций сектора почты, телеграфа и обслуживания в Автономной Республике Крым 1. В Автономной Республике Крым почтово-телеграфная переписка от физических, общественных, республиканских, негосударственных и иных органов — предприятия, учреждения и организации принимаются к отправке при оформлении на украинском или русском языке. 2. Используемые во всех потребительских услугах (коммунальные услуги, общественный транспорт, здравоохранение и др.) И на предприятиях, учреждениях и организациях сферы услуг должны быть украинский или русский или любой другой приемлемый для сторон язык. |
2. | Гагаузия ( Молдова ) | Закон Молдовы Об особом правовом статусе Гагаузии |
3. | Приднестровские автономные территориальные образования ( Молдова ) | Закон Молдовы Об основных положениях особого правового статуса населенных пунктов левобережья Днестра (Приднестровье) |
4. | 8 коммун ( Румыния ) | Закон № 215/2001, принятый решением № 1206 27 ноября 2001 года. |
Языки мигрантов
В результате массовой миграции в Россию из республик бывшего СССР (особенно с Кавказа и Средней Азии) трудовые мигранты говорят на многих некоренных языках . Например, в 2014 году в Россию въехало 2,4 миллиона граждан Узбекистана и 1,2 миллиона граждан Таджикистана.
Для сравнения, количество граждан России, соответствующих национальностям стран происхождения трудовых мигрантов, значительно ниже (по данным Всероссийской переписи населения 2010 г. , в тысячах):
Армянский | 830 |
Азербайджанский | 515 |
Казахский | 472 |
Узбекский | 245 |
Киргизский | 247 |
Таджикский | 177 |
Грузинский | 102 |
румынский | 90 |
Крупные города
Москва (12,5 млн. жителей) — столица страны, город федерального и мирового значения. Самый крупный как в России, так и в Европе — его размеры превышают таковые таких мегаполисов как Лондон и Париж. Москва является основным экономическим, политическим и научным центром страны, а также важнейшим транспортным узлом. 3 международных аэропорта, 9 железнодорожных вокзалов соединяют ее с внешим миром!
Санкт-Петербург (более 7 млн. жителей) — второй по величине город России. Так же, как и Москва, имеет федеральное значение. Стоит на берегу Финского залива, в дельте реки Невы.«Северная Венеция» (таково неофициальное название Санкт-Петербурга) по праву считается одним из красивейших городов мира. А попутно и культурной столицей России.
Новосибирск (около 1,5 млн. жителей) — расположен на Приобском плато в долине реки Оби. Крупный деловой, культурный и научный центр.
Екатеринбург (1,4 млн. жителей) — стоит на обеих берегах реки Исеть на восточном склоне Среднего Урала. Промышленный, образовательный и культурный центр Сибири;
Нижний Новгород (1,3 млн. жителей) — находится на берегах рек Волга и Ока.
Eurotraveler.ru
Русский язык и культура речи
Урок 1.5. Русский язык как государственный язык
В соответствии с Конституцией Российской Федерации (1993) русский язык
является государственным языком РФ на всей её территории. Одновременно русский
язык является государственным или официальным ряда республик, входящих в РФ,
наряду с языком коренного населения этих
республик.
Знание государственного языка
является обязательным для должностных лиц государственных учреждений, именно на
нём составляется вся официальная
документация.
Как государственный русский язык
активно функционирует во всех сферах общественной жизни, имеющих всероссийскую
значимость. На русском языке работают центральные и местные учреждения
федерального уровня, осуществляется общение между субъектами федерации. Русский
язык используется в армии, центральной и местной печати, на телевидении, в
образовании и науке, в культуре и
спорте.
Русский язык является вторым
государственным языком в Белоруссии, официальным языком в Казахстане.
Связь русского языка с историей и культурой
народа
Язык — это не только система знаков, но также исторически сложившаяся форма
культуры народа. По словам В.Гумбольдта, «язык не есть мёртвый часовой механизм,
но живое творение, исходящее из самого себя» (В.Гумбольдт. Избранные труды по
языкознанию. М.:1984. С. 275). Естественный язык возникает не в результате
математического расчета группы «языкотворцев», а в результате многовековых
усилий людей, принадлежащих к одной национальной общности, сделать свою речь
общепонятной в рамках национального
коллектива.
Русский язык складывался в течение
многих веков. Его словарь и грамматический строй сформировались не сразу.
Словарь постепенно включал в себя новые лексические единицы, появление которых
диктовалось новыми потребностями общественного развития. Грамматический строй
постепенно приспосабливался к более точной и тонкой передаче мысли вслед за
развитием национального общественного и научного мышления. Таким образом,
потребности культурного развития стали двигателем развития языка, и язык отразил
и сохранил историю культурной жизни нации, в том числе, те её этапы, которые уже
ушли в прошлое.
Благодаря этому язык является
для народа уникальным средством сохранения национальной идентичности, самой
крупной истоко-культурной ценностью.
Как писал
В.Гумбольдт, «язык, какую бы форму он не принимал, всегда есть духовное
воплощение индивидуальной жизни нации» (В.Гумбольдт. Избранные труды по
языкознанию. М.: 1984. С. 72) и более того «язык есть дыхание, сама душа нации»
(там же, С. 303)
Таким образом, культура речи
является важной частью национальной культуры в целом.
Иностранные языки
Согласно различным исследованиям, проведенным Левада-Центром в 2005-2008 годах, 15% россиян владеют иностранным языком. От тех, кто заявляет о знании хотя бы одного языка:
английский | 80% |
Немецкий | 16% |
французкий язык | 4% |
турецкий | 2% |
Другие | 9% |
От 1775 респондентов в возрасте 15-29 лет, ноябрь 2006 г. |
английский | 44% |
Немецкий | 15% |
Украинский, белорусский и другие славянские языки | 19% |
Другие европейские языки | 10% |
Все другие | 29% |
Из 2100 респондентов всех возрастов, январь 2005 г. |
Знание хотя бы одного иностранного языка преобладает среди населения младшего и среднего возраста. Среди лиц в возрасте 18–24 лет 38% умеют читать и «переводить со словарем», 11% могут свободно читать и говорить. Среди людей в возрасте 25–39 лет это 26% и 4% соответственно.
Знание иностранного языка варьируется в зависимости от социальных групп. Наиболее заметно (15-18%) в крупных городах с населением от 100 тыс. Человек, а в Москве возрастает до 35%. Ожидается, что люди с высшим образованием и высоким экономическим и социальным статусом будут знать иностранный язык.
Новое исследование Левада-Центра, проведенное в апреле 2014 года, выявляет такие цифры:
английский | 11% |
Немецкий | 2% |
испанский | 2% |
украинец | 1% |
французкий язык | <1% |
китайский язык | <1% |
Другие | 2% |
Может говорить на иностранном языке, но с трудом | 13% |
---|---|
Вообще не говорю на иностранном языке | 70% |
От 1602 респондентов от 18 лет и старше, апрель 2014 г. |
По возрастному и социальному признаку одинаковы: знание иностранного языка преобладает среди молодого или среднего возраста населения с высшим образованием и высоким социальным статусом, проживающего в больших городах.
В XVIII и XIX веках французский язык был обычным языком среди русских высших слоев общества. Толчком послужила ориентация России Петра Великого на Европу, которая усилилась после Французской революции . После того, как русские воевали с Францией в наполеоновских войнах , Россия стала менее склонной к французам.
Официальные языки
Хотя русский является единственным федерально официальным языком в России , есть несколько других официально признанных языков в различных округах России — статья 68 Конституции РФ допускает только различные республики России установить официальные (государственные) языки , кроме русского. Это список языков, признанных государственными в конституциях республик России:
Язык | Языковая семья | Федеральный субъект (ы) | Источник |
---|---|---|---|
Абаза | Северо-Западный Кавказ | Карачаево-Черкесия | |
Адыгейский | Северо-Западный Кавказ | Адыгея | |
Алтай | Тюркский | Республика Алтай | |
Башкирский | Тюркский | Башкортостан | см. также региональный закон |
Бурятский | Монгольский | Бурятия | |
Чеченский | Северо-Восточный Кавказский | Чечня , Дагестан | |
Чувашский | Тюркский | Чувашия | |
Крымскотатарский | Тюркский | Республика Крым | |
Эрзя | Уральский | Мордовия | |
Ингуш | Северо-Восточный Кавказский | Ингушетия | |
Кабардинский | Северо-Западный Кавказ | Кабардино-Балкария Карачаево-Черкесия | |
Калмыцкий | Монгольский | Калмыкия | |
Карачаево-Балкарский | Тюркский | Кабардино-Балкария Карачаево-Черкесия | |
Хакасский | Тюркский | Хакасия | |
Коми-Зырян | Уральский | Республика Коми | |
Холм марийский , луговый марийский | Уральский | Марий Эл | |
Мокша | Уральский | Мордовия | |
Ногайский | Тюркский | Карачаево-Черкесия , Дагестан | |
осетинский | Индоевропейский ( иранский ) | Северная Осетия — Алания | |
Татарский | Тюркский | Татарстан | |
Тувинский | Тюркский | Тува | |
Удмуртский | Уральский | Удмуртия | |
украинец | Индоевропейский ( славянский ) | Республика Крым | |
Якутский | Тюркский | Республика Саха |
Конституция Дагестана определяет «русский язык и языки народов Дагестана» как государственные, хотя исчерпывающий список языков не приводится. 14 из этих языков (включая русский) являются языками литературной письменности; поэтому они обычно считаются официальными языками Дагестана . Это, помимо русских , следующие: агульский , аварский , азербайджанский , чеченский , даргва , кумыкский , лакский , лезгинский , ногайский , рутульский , табасаранский , татский и цахурский . Все они, кроме русских , чеченцев и ногайцев , являются официальными только в Дагестане и ни в одной другой республике России. В проекте «Закона о языках Республики Дагестан» перечислено 32 языка; Однако этот законопроект так и не был реализован.
Карелия — единственная республика в России, где русский язык является единственным официальным языком. Однако существует специальный закон о государственной поддержке и защите карельского , вепсского и финского языков в республике, см. Следующий раздел.
Поиск
Итак, у нас есть поисковые термины, отправляем их по очереди в Яндекс.XML и получаем выдачу. Тут тоже не всё так просто. Во-первых, Яндекс.XML ограничивает наши аппетиты 10 000 запросами в сутки. Не так уж и мало? Да, но выдаёт-то он ссылки постранично (по 10 на страницу) и переход на следующую страницу считается отдельным запросом…
Кроме того, мы всё равно получаем на выходе мусор. Даже по «хорошим» маркерам. Что у нас есть? Зеркала и дубли. Особенно много дублей Википедии. А зачем нам считать Википедию, если наша цель собрать все тексты на некотором языке? Ведь Википедию можно скачать одним кликом! Что ещё? Лингвистические научные статьи. Некоторый лингвист пишет статью на русском языке и приводит в пример предложение на каком-нибудь рутульском, и это предложение содержит наше слово-маркер. Такое тоже не годится, ведь перед нами на самом-то деле текст на русском языке. Или ещё это может быть словарь. Там тоже будет слово, которое мы искали, но не будет текста. Неожиданностью для нас стали музыкальные сайты. На них лежат mp3 многочисленных народных или авторских песен на малом языке. Текстов там тоже нет, но есть подходящие под запрос короткие фразы — названия музыкальных произведений. Для некоторых языков эти сайты настолько многочисленны, что забивают всю выдачу. Мы решили, что раз мы ищем тексты, это тоже не наши клиенты.
Надо как-то отсечь лишнее. Первый фильтр можно ввести ещё на этапе обращения к поисковику. Если маркеров для языка у нас несколько, то поймав какой-то домен подному, мы можем спросить у поисковой машины, встречаются ли на том же сайте и другие слова из нашего списка. Если да, то есть вероятность, что мы попали на тот самый, нужный нам сайт. Если же один маркер там есть, а остальные не представлены, то мы с высокой вероятностью держим в руках пустышку. Есть, например, замечательное хакасское слово «пазох» («опять»). Оно удовлетворяет всем перечисленным выше критериям слова-маркера. Но вот в чём штука. Когда пишут по-русски, иногда ошибаются и печатают вместо «пазух» (носа) — «пазох». Наш фильтр поможет понять, опечатка это в русском тексте, или и правда хакасский текст. Штука в том, что это дополнительные запросы, которых и так-то мало.
Не всё однозначно и со списком сайтов, на которых нашлись нужные нам тексты. Если мы планируем не просто найти эти сайты, но и выкачать их, чтобы составить корпус, то нам надо знать глубину, на которую потом следует производить выкачку. Мы поделили все найденные домены на три категории (всё это тоже можно узнать, задавая правильные запросы Яндексу).
В первую попали те, на которых много (предположительно — большинство) страниц содержат тексты на интересующем нас языке.
Во второй оказались те, на которых есть несколько (не слишком много по сравнению с общим числом страниц) документов на интересующем нас языке.
К третьей мы отнесли те огромные сайты с миллионами страниц, на которых в том числе есть и интересующий нас контент. Это Youtube (в подписи к какой-нибудь видеозаписи есть текст на «нашем» языке) или stihi.ru (там публикуются, например, чеченские поэты).
Кроме того, мы специально спрашивали у Яндекса про то, где он находит интересующие нас слова в социальной сети VK.com. Из полученных страниц отбирали только сообщества, потому что считали, что в среднем двуязычный пользователь, скорее, будет общаться на своём языке в специальном месте (в этом самом сообществе), а на собственной стене будет писать, скорее, по-русски, уважая чувства русскоязычных друзей. Это, конечно, не всегда так. Но в целом так.
Другие признанные языки
Правительство Республики Башкортостан был принят Закон о языках народов, которая является одной из региональных законов , направленных на защиту и сохранение языков меньшинств. Основные положения закона включают Общие положения, Языковые названия географических регионов. предметы и надписи, дорожные и другие знаки, ответственность за нарушения Башкортостана на языках Башкортостана. В Республике Башкортостан признается равенство языков. Равенство языков — это совокупность прав народов и людей на сохранение и всестороннее развитие родного языка, свободы выбора и использования языка общения. Написание названий географических объектов и надписей, дорожных и иных знаков наряду с государственным языком Республики Башкортостан может осуществляться на языках Башкортостана на территориях их сосредоточения. Аналогичные законы приняты в Марий Эл , Татарстане , Удмуртии , Хакасии и Чукотском автономном округе .
Федеральный закон «О языках народов Российской Федерации» разрешает субъектам Федерации дополнительно устанавливать официальные языки на территориях проживания меньшинств. Следующие 15 языков имеют различную степень признания в различных регионах в соответствии с этим законом:
- Буряты в Агинско-Бурятском округе
- Чукчи в Якутии
- Долганы в Якутии
- Даже в Якутии
- Эвенки в Якутии
- Финский в Карелии
- Карельский в Карелии
- Казахский на Алтае
- Ханты в Ханты-Мансийском автономном округе и Ямало-Ненецком автономном округе
- Коми-пермяки в Коми-Пермяцком округе
- Манси в Ханты-Мансийском автономном округе
- Ненцы в Ханты-Мансийском автономном округе , Ненецком автономном округе и Ямало-Ненецком автономном округе
- Селькуп в Ямало-Ненецком автономном округе
- Вепсы в Карелии
- В Юкагирских языках в Якутии
Северо-Восточная Сибирь
От Средней Сибири этот регион отделяет река Лена. Рельеф здесь более неровный, есть несколько хребтов, а также Колымское нагорье. Даже летом средняя температура не поднимается выше 8°С. Количество осадков составляет 700-800 мм в год.
Важнейшим месторождением региона является Зырянский угольный бассейн, запасы которого оцениваются в 40 млрд тонн. Также в Северо-Восточной Сибири добывают олово, вольфрам, свинец и прочие цветные металлы.
Большая часть территории региона занята лесотундрой. Среди животных довольно много оленей и пушных зверей.
Суровый климат делает земледелие в Северо-Восточной Сибири почти невозможным. Транспортная сеть здесь развита ещё хуже, чем в Средней и тем более Западной Сибири. Железные дорогие почти отсутствуют. Поэтому регион мало освоен, а доступ к его природным ресурсам ограничен.
Климат России и экономика
Говоря о российском климате, нельзя не учитывать тот факт, что он сформирован несколькими крайне важными факторами, среди которых — значительная удаленность от моря большей части территории, что создает все необходимые условия для формирования выраженного континентального климата на большей части страны.
Притом что формально Россия располагается в четырех климатических зонах, наиболее распространенной считается зона умеренного климата, в то время как субтропический климат наблюдается лишь на причерноморской полосе вдоль побережья Кавказа и в Крыму.
Огромные территории, занятые вечной мерзлотой, пустынями или просто находящиеся в очень неблагоприятных климатических условиях земли, делают Россию одной из стран, чья территория малопригодна для занятия сельским хозяйством. Однако, несмотря на все сложности, страна поставляет на мировой рынок огромный объем ценных продовольственных культур, таких как пшеница и рожь.
Отвечая на вопрос, в каком полушарии находится Россия, стоит акцентировать внимание на том, что страна полностью расположена в Северном полушарии, небольшая ее часть — в Западном, а вся оставшаяся территория — в Восточном
2) Найдите на карте Каспийское море, озеро Байкал, Ладожское озеро, Онежское озеро; реки Волгу, Обь, Енисей, Лену, Амур. Что вы можете рассказать о них по карте?
Каспийское море является самым большим озером планеты. Оно расположено на юго-востоке Европейской части России. Ладожское и Онежское озёра находятся на северо-западе Европейской части России, они соединяются между собой и с Балтийским морем.
Байкал находится на юго-востоке Сибири. Это самое глубокое озеро планеты.
Река Волга протекает по Восточно-Европейской равнине и впадает в Каспийское море.
Река Обь протекает в Западной Сибири и впадает в Карское море. В Карское море впадает также Енисей, который протекает на границе между Западной и Восточной Сибирью.
Лена протекает в Восточной Сибири и впадает в море Лаптевых.
Амур протекает на Дальнем Востоке и впадает в Охотское море.
Языки с официальным статусом
- бурятский язык (Агинский Бурятский округ Забайкальского края). Бурятский язык может использоваться наряду с русским согласно уставу края.
- вепсский (Республика Карелия). Может использоваться органами местного самоуправления.
- долганский (Саха (Якутия)). Признаётся местным официальным языком в местах проживания этого народа и используется наравне с государственными.
- казахский (Республика Алтай). Используется в официальных сферах общения в местах компактного проживания его носителей.
- карельский (Республика Карелия). Может использоваться органами местного самоуправления.
- коми-пермяцкий (Коми-Пермяцкий округ Пермского края). Может использоваться в официальных сферах общения.
- мансийский (Ханты-Мансийский АО). Обеспечивается право на использование языков коренных малочисленных народов в официальном делопроизводстве.
-
ненецкий
- Ненецкий АО. Признаётся официальным в местах проживания ненцев (с января 2013 года).
- Ханты-Мансийский АО. Обеспечивается право на использование языков коренных малочисленных народов в официальном делопроизводстве.
- Ямало-Ненецкий АО. Может использоваться в официальном делопроизводстве в местах традиционного проживания коренных малочисленных народов Севера.
- селькупский (Ямало-Ненецкий АО). Может использоваться в официальном делопроизводстве в местах традиционного проживания коренных малочисленных народов Севера.
- чукотский (Якутия). Признаётся местным официальным языком в местах проживания этого народа и используется наравне с государственными.
- финский (Республика Карелия). Может использоваться органами местного самоуправления.
-
хантыйский
- Ханты-Мансийский АО. Обеспечивается право на использование языков коренных малочисленных народов в официальном делопроизводстве.
- Ямало-Ненецкий АО. Может использоваться в официальном делопроизводстве в местах традиционного проживания коренных малочисленных народов Севера.
- эвенкийский (Саха (Якутия)). Признаётся местным официальным языком в местах проживания этого народа и используется наравне с государственными.
- эвенский (Саха (Якутия)). Признаётся местным официальным языком в местах проживания этого народа и используется наравне с государственными.
- юкагирский (Саха (Якутия)). Признаётся местным официальным языком в местах проживания этого народа и используется наравне с государственными.
Определение языка
В результате мы получили списки сайтов и сообществ в VK.com. Сейчас эти списки уже устарели: какие-то сайты пропали, какие-то добавились, гораздо интенсивнее происходит жизнь в vk.com. Но по состоянию на начало 2016 года это довольно правдивая информация о том, как устроен Интернет на малых языках России.
Следующим шагом было всё это скачать. С задачей мы в полной мере не справились. Выкачку многих десятков разнообразных сайтов для крупных языков вроде татарского или удмуртского, нам так и не удалось поставить на поток. Scrapy ломался, зависал. А вот сообщества из VK мы выкачали по API все и полностью.
Но выкачать мало. Нужно ещё определить, что именно мы скачали. Сайты, которые содержат интересующий нас контент, почти никогда не бывают моноязычными. Чтобы получить корпус текстов, которые затем смогли бы использовать лингвисты, а также чтобы понять, насколько тот или иной язык представлен в Интернете, нужно очистить полученные веб-страницы от обвязки и от текстов на других языках. Обычно в компьютерной лингвистике для этого применяется статистика распределения знаков (чаще — последовательностей знаков, ngram) в тексте. Если у нас уже есть какой-то корпус текстов на разных языках, мы можем натренировать на нём модель, и дальше успешно определять, какой язык перед нами. Но проблема в том, что у нас как раз такого заранее заданного корпуса нет. Мы только пытаемся его сделать.
Но если вдуматься, то всё-таки всё не совсем так. У нас, скорее всего, есть два языка, отличия между которыми мы должны найти. Один язык — некоторый малый язык (без разницы, якутский или чувашский), а второй — русский. Их мы и должны отделить друг от друга. В таком виде задача уже приобретает выполнимые очертания. Ведь русский-то язык у нас есть в качестве «подопытного» в большом количестве. То есть нам нужно про каждый, скажем, абзац текста сказать, написан он на русском языке или нет. Если не на русском, значит, это наш клиент.
Определялка не везде и не всегда работала хорошо, но в целом, скорее, удовлетворительно.

Эта тема закрыта для публикации ответов.