Меню
Главная
Авторизация/Регистрация
 
Главная arrow Экономика arrow Интернет-маркетинг

Анализ потребительских настроений посредством обработки неструктурированных данных

Получение информации о мнении клиентов по поводу запущенного на рынок нового товара возможно с помощью неструктурированных данных. Это данные, которые требуют интерпретирования, так как для них актуален не сам текст как таковой, а контекст и подтекст. В основном они являются текстовыми, однако они могут присутствовать и в фотоматериалах, и в фильмах. Их анализ имеет непосредственное отношение к анализу настроений. При опросах люди могут говорить в категориях “нравится — не нравится” или “плохо — хорошо”. А в реальной жизни они чаще всего выражают свое отношение иначе. Например: “Я этим предпочитаю не пользоваться”, “Я этому не доверяю” или даже “Мне по барабану”. Подобные заключения и являются, по сути, неструктурированными данными.

В настоящее время широкий круг пользователей активно размещает на различных интернет-ресурсах материалы информационного характера. Имеет место увеличение числа порталов (как аналитических, так и новостных), на которых посетители (аналитики, журналисты и др.) загружают всевозможные текстовые документы, аудио- и видеофайлы. Социальные сети, блоги, форумы становятся все более популярными из-за предоставления ими возможности делиться мнениями, оставлять отзывы, к примеру, о деятельности компании. Благодаря этой информации компания может оценивать как деятельность конкурентов, так и собственную. Можно также обеспечить обратную связь с клиентами и проанализировать эмоциональный информационный фон. Это особо важно для компаний, действующих на высококонкурентных массовых рынках (рынки индустрии отдыха и развлечений, страхования, розничной торговли и др.). При получении качественных и достаточно полных данных компания может рассчитывать на улучшение уровня обслуживания потребителей, ускорение продвижения изделий и услуг, немедленное реагирование на изменения рыночной ситуации.

Анализ неструктурированных данных обладает немалой ценностью. Ведь обзоры товаров, как правило, появляются именно в неструктурированном виде. А многие компании хотели бы знать, что покупатели думают и говорят об их изделиях. Конечно, можно заниматься поиском обзоров на сайтах и ежедневно проводить их мониторинг вручную. Но находить нужные сведения в невероятно большом объеме различающейся по форматам и структуре информации чрезмерно трудно. Поэтому компании и нуждаются в специализированных программных приложениях, нацеленных на обработку неструктурированных данных. Автоматизированным анализом настроений пока в основном занимаются крупные компании за рубежом. С точки зрения функциональности этот анализ является мощным, хотя безупречным его назвать нельзя. И, как любой анализ, он предусматривает соответствующие апостериорные действия.

При анализе настроений практикуется разбивка предложений отзыва на грамматические компоненты в целях выявления структуры заключения. Это содействует пониманию характера отзыва (позитивного либо негативного). Но существуют и иронические, саркастические высказывания, а также имеющие иносказательное смысловое значение. Эти предложения для анализа довольно сложны.

Рассмотрим примеры систем обработки неструктурированных данных.

  • 1. First Rain (компания First Rain). Это решение для поиска, сбора и анализа информации. В качестве источников данных здесь выступают только веб-ресурсы — в основном сведения из годовых отчетов компаний и аналитических отраслевых обзоров. Найденная информация сортируется по стандартизированным темам и степени значимости для клиента.
  • 2. Digimind (компания Digimind). Это решение для поиска структурированных и неструктурированных данных. Основными источниками являются веб-сайты и социальные сети. Решение имеет встроенные инструменты классификации обработанных материалов, однако основной акцент сделан на средствах представления итоговых данных в виде, удобном для пользователя, которому предлагается два возможных варианта внедрения: в качестве отдельного решения или дополнительного компонента, встраиваемого в уже имеющиеся у компании аналитические информационные системы.
  • 3. InfoNgen (компания Instant Information). Представляет собой спектр решений для поиска, сбора и анализа неструктурированных данных. Информация агрегируется из разных типов источников: порталы, электронная почта, внутренние информационные ресурсы организации-клиента. Полученные документы категоризируются по стандартизированной или специализированной таксономии клиента. Пользователь может получать данные в виде специальной новостной ленты, электронного бюллетеня, RSS, API или через источник электронного вещания в режиме реального времени. Стандартный пакет включает в себя веб-интерфейс и не требует инсталляции на стороне клиента.
  • 4. Factiva (компания News Corporations). Представляет собой спектр информационно-аналитических решений, наиболее известным из которых является система Factiva.com, позволяющая собирать мультимедийный контент из десятков тысяч источников новостной информации. Однако в их число входят только средства массовой информации: крупнейшие информационные агентства, новостные интернет-издания, электронные версии печатных СМИ и т. д.
  • 5. “Медиалогия” (компания “Медиалогия”) Это решение для автоматического мониторинга СМИ в режиме реального времени. Информация по конкретной компании, ее руководству, брендам, конкурентам и т. п. собирается из базы данных СМИ, анализируется по количественным и качественным критериям. Основные источники данных — более 26 тысяч российских и зарубежных печатных и электронных изданий (ТВ, Интернет, радио), а также социальные медиа.
  • 6. “Голос клиента” (компания Clarabridge в партнерстве с ЕРАМ Systems). Это решение для анализа структурированных и неструктурированных данных. Источники данных: отзывы клиентов в социальных сетях, данные из центров работы с клиентами и CRM, заполненные клиентами на сайте или в отделениях компании анкеты и т. д. В основном акцент делается на обработке информации из форумов и блогов.
  • 7. RCO Fact Extractor Desktop (компания RCO). Это решение для поиска и обработки информации. Источниками данных могут быть веб-ресурсы, внутренние приложения и базы данных компании. Продукт поставляется как персональное приложение для платформы Windows.

При анализе настроений с использованием неструктурированных данных указанными системами решаются задачи: поиска и агрегирования контента из разных источников;

извлечения данных согласно заданным параметрам; семантического анализа; предоставления пользователям итоговых данных в удобном для них графическом виде.

Агрегирование контента. Информация извлекается из СМИ, отраслевых новостных порталов, сайтов регуляторов, ассоциаций и т. д., отобранных с опорой на запросы и пожелания клиентов, а также из электронной почты и внутренних информационных ресурсов самой компании. Обеспечивается учет специфических особенностей каждого из источников. Поскольку одна и та же информация содержится в различных источниках, то схожие данные подвергаются группировке. Поисковые роботы (краулеры) могут подключиться к системам обмена сообщениями либо почтой. В итоге оказывается возможным в режиме реального времени производить категоризирование содержания писем и вложений. Сообщения выбираются с помощью контекстных фильтров. Кроме того, внимание уделяется информационным ресурсам компании (на локальных и сетевых дисках).

Извлечение и семантический анализ. Когда поступает текстовая информация, ее сканируют и извлекают заголовки, резюме, оглавления, даты публикаций и требуемый для анализа текст. Во всех обрабатываемых текстах определяется их семантическая структура. Если в них выявляются не имеющие отношения к теме данные, они подвергаются удалению. С помощью системы семантического тегирования распознается наличие (отсутствие) в текстах заданных компонентов (ими могут быть названия компаний, услуг, изделий и т. д. или какие-то специфические термины). При анализе учитываются: 1) синонимы; 2) возможные варианты написания определенных слов (включая те, которые написаны на иных языках); 3) аббревиатуры; 4) семантические зависимости; 5) релевантность тега к документу и др. Каждый из текстов можно подвергнуть морфологическому либо лексическому анализу для определения их эмоциональной окраски или отношения авторов документов к компании и ее отдельным показателям (убыткам, доходам и др.). С помощью особых рейтинговых средств возможно задать ценность каждого из позитивных и негативных высказываний (это бывает необходимо, когда одно и то же высказывание может трактоваться по-разному в зависимости от определенных условий).

Предоставление итоговых данных. Встроенные средства анализа на базе обработки разного контента позволяют выявить закономерности и тренды, связанные с использованием определенных тегов. Это способствует обнаружению неочевидных взаимосвязей (к примеру, между конкретной компанией и каким-то судебным разбирательством). Система может предоставлять различные инструменты визуализации, возможность кооперирования и комментирования найденных документов, создания совместных рассылок либо обмена итогами поиска. По конкретным темам показываются ключевые слова, демонстрирующие наиболее обсуждаемые аспекты. Прослеживание связи между такими словами и содержащими их отзывами позволяет делать выводы по поводу причин всплеска имевших место обсуждений. Анализ может помочь выявлению случаев, когда в отзывах намеренно упоминаются названия компаний-конкурентов либо их услуг, подозрительных случаев резкого роста числа позитивных либо негативных высказываний в отношении компании.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >
 

Популярные страницы