Robot
Складчик
- #1
[Архэ] Лингвистические корпуса и их количественный анализ [Александр Пиперски]
- Ссылка на картинку
Компьютерная лингвистика
Компьютерная лингвистика — одна из наиболее динамично развивающихся областей на стыке теории и практики. С достижениями компьютерной лингвистики мы сталкиваемся каждый день: это и машинный перевод, и поиск в Интернете, и голосовые помощники, и многое другое. За каждым таким продуктом стоит серьёзная работа лингвистов и программистов. В ходе курса мы поговорим об истории компьютерной лингвистики и о наиболее популярных её методах, а также посмотрим, как они позволяют решать важные практические задачи: например, проверять орфографию или классифицировать по темам новости.
3. Лингвистические корпуса и их количественный анализ
Бо́льшая часть компьютерно-лингвистических приложений сейчас опирается на большие массивы собранных текстов — лингвистические корпуса. Некоторые из них, например Национальный корпус русского языка, доступны для онлайн-поиска и позволяют также получать результаты, интересные и с точки зрения традиционной, некомпьютерной лингвистики. На занятии мы поговорим о том, как устроены такие большие собрания текстов и какими количественными свойствами они обладают: например, чем частотное распределение слов в корпусах похоже на численность населения городов и почему большинство слов в любом корпусе, какой бы мы ни взяли, встречаются только один раз.
Лектор, Пиперски Александр Чедович — кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ, лауреат премии «Просветитель-2017».
Компьютерная лингвистика — одна из наиболее динамично развивающихся областей на стыке теории и практики. С достижениями компьютерной лингвистики мы сталкиваемся каждый день: это и машинный перевод, и поиск в Интернете, и голосовые помощники, и многое другое. За каждым таким продуктом стоит серьёзная работа лингвистов и программистов. В ходе курса мы поговорим об истории компьютерной лингвистики и о наиболее популярных её методах, а также посмотрим, как они позволяют решать важные практические задачи: например, проверять орфографию или классифицировать по темам новости.
3. Лингвистические корпуса и их количественный анализ
Бо́льшая часть компьютерно-лингвистических приложений сейчас опирается на большие массивы собранных текстов — лингвистические корпуса. Некоторые из них, например Национальный корпус русского языка, доступны для онлайн-поиска и позволяют также получать результаты, интересные и с точки зрения традиционной, некомпьютерной лингвистики. На занятии мы поговорим о том, как устроены такие большие собрания текстов и какими количественными свойствами они обладают: например, чем частотное распределение слов в корпусах похоже на численность населения городов и почему большинство слов в любом корпусе, какой бы мы ни взяли, встречаются только один раз.
Лектор, Пиперски Александр Чедович — кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ, лауреат премии «Просветитель-2017».
Зарегистрируйтесь
, чтобы посмотреть скрытый авторский контент.