Анализ тональности текста

Об обработке естественного языка сегодня много говорят – причем, не только в научных кругах, где эта концепция справедливо считается основополагающей для дальнейшего развития искусственного интеллекта, но студентов и просто интересующихся современным положением дел в IT-индустрии.

Одним из наиболее интересных методов анализа языка является «анализ тональности текста» или sentiment analysis (SA). Суть sentiment analysis заключается в определении эмоциональной окраски текста, а также «тяжести» или «магнитуды» этих эмоций. Сам анализ, в большинстве случаев, происходит благодаря огромным массивам обработанных данных и поэтому, до недавнего времени, качественно, данные услуги могли предлагать только крупнейшие информационные компании.

Области применения

Из определения можно сделать несколько выводов о том, где теоретически (и, если уж на то пошло, практически) концепция анализа тональности текста могла бы найти применение и прояснить некоторые ее детали.

Во-первых, анализ тональности текстов способен помочь разобраться в законах, по которым живет естественный язык и научить компьютер воспринимать его на уровне, приближенном к человеческому. До недавнего времени машина понимала тексты на абстрактном уровне – в основном, через лексемы (слова), которые для нее обладали формой (набор букв) и содержанием (значение). Данная концепция предлагает ввести еще одну функцию – так называемую лексическую тональность текста (в простейшем случае она будет определяться как сумма лексических тональностей каждой отдельной лексемы).

Во-вторых, анализ тональности способен значительно повысить качество машинного перевода. Известно, что эталоном машинного перевода служит результат перевода текста человеком – профессиональным переводчиком. За 50 с лишним лет разработок в этой области исследователи убедились в том, что научить машину «думать, как переводчик» можно лишь приняв во внимание все те соображения, которыми пользуется профессионал, переводя тот или иной текст. Естественно, при переводе не обойтись без первичного анализа текста и отдельных слов – в том числе, анализа тональности как таковой.

В-третьих, целью анализа тональности текста может быть некое мнение автора или сам автор. Это – наиболее интересная сфера применения, поскольку здесь видится не только способ делегирования машине некоторых полномочий ученого (например, филолога, который исследует произведение того или иного автора), но и снова попытка приблизить образ мышления компьютера к человеческому. С этой точки зрения анализ тональности, возможно, является одним из самых важных и перспективных шагов к развитию искусственного интеллекта.

Методы

Методы, основанные на правилах и словарях

В рамках этих подходов текст анализируется на основе заранее составленных тональных словарей. Однако процесс создания этих «фолиантов» очень трудоемкий; основной проблемой является тот факт, что одно и то же слово в разных контекстах может обладать различной тональностью. Это означает, что для адекватной работы системы требуется составить большое количество правил – поэтому чаще всего системы анализа тональности текста создаются с привязкой к определенной предметной области.

Методы, основанные на теоретико-графовых моделях

В рамках этих методов текст изображается в виде графа на основании того предположения, что некоторые слова имеют больший вес и, следовательно, сильнее влияют на тональность всего текста. После ранжирования вершин графа слова классифицируются в соответствии со словарем тональности, где каждому слову присваивается определенная характеристика («положительное», «отрицательное» или «нейтральное»). Результат вычисляется как соотношение количества слов с положительной оценкой к количеству слов с отрицательной оценкой.

Методы, основанные на машинном обучении – с учителем и без

Большие данные могут оказать существенную помощь в обучении нейронных сетей, которые также используются в анализе тональности текста. Причем, точность оценки тональности таким способом возрастает до 85% — по крайней мере, такой цифры удалось достичь ученым из Стэнфорда. Принцип работы программы прост: она строит дерево с оценкой тональности каждого слова, каждой фразы и всего текста целиком. Самое интересное: программа понимает, что изменение порядка слов изменяет тональность текста. Можно предположить, что именно этот факт и обеспечивает такую высокую точность оценки текста и позволяет считать нейронные сети перспективным инструментом такого анализа.

AZNResearch использует средства sentiment analysis, основанные на нейронных сетях ИТ-гигантов, таких как Google или Microsoft, для построения статистических моделей тональности обратной связи пользователей, клиентов бизнеса, комментаторов бизнес-страниц в социальных сетях.

Поделиться:

Теги:

    Сделаем это вместе -
    У вашего бизнеса есть история

    Заказ обратного звонка

    Мы перезвоним вам в течение часа или в удобное для вас время

    Live Chat
    ×
    Мы используем файлы cookie, чтобы обеспечить вам максимальное удобство на нашем веб-сайте. Если вы продолжите использовать этот сайт, мы будем считать, что вы согласны с их использованием.
    Политика конфиденциальности