От оцифрованной литературы до языковых корпусов: их значение, перспективы и вызовы
DOI:
https://doi.org/10.52027/18294685-hga2023.spКлючевые слова:
лингвистическая база данных, цифровое наследиеАннотация
Оцифровка естественных текстов, прежде всего, предполагает систематическое сохранение неязыковых данных и знаний посредством обработки естественного языка. В зависимости от способа документации языка, бывает устным/слуховым и письменным/зрительным. Поскольку естественный язык и его устные и письменные тексты, помимо фактов, содержат историко-культурные, ценностные, языковые и мыслительные реалии народа, преобразование оцифрованных текстов в языковые базы данных или корпусов неоценимо с точки зрения развития государства, международной интеграции и эффективного управления с целью обеспечения безопасности. Армянский относится к числу языков со средними или низкими ресурсами, и в этом смысле его обработка требует привлечения больших кадровых и программных ресурсов. В докладе обсуждаются разные варианты для решения этой проблемы, включая проектирование баз данных, беспре
рывное развитие, распараллеливание с другими языками, описательные работы маркировки.
