lunes, 14 de abril de 2014

Análisis de Sentimientos: lexicón de sentimientos

Cuando hacemos análisis de sentimientos, utilizamos todas las palabras en un texto. Es por ello de suma utilidad contar con algún tipo de diccionario (o lexicón que es una vocablo más elegante) que tenga por cada palabra un valor de sentimiento asociado. A un diccionario de este tipo se lo llama: Lexicón de Sentimientos (Sentiment Lexicón en ingles).

A continuación presento algunos diccionarios de sentimientos que pueden utilizar:

The General Inquirer

Es un lexicón en idioma ingles que hace bastante tiempo que existe (desde 1966) y clasifica las palabras en distintas categorías. Tiene, por ejemplo, una clasificación muy simple de palabras entre “positivas” y “negativas”, pero tiene también otros grupos de categorías como por ejemplo: las dimensiones semánticas de Osgood, o la clasificación entre: placer, dolor, virtud y vicio. Pueden ver las distintas categorías, o mejor dicho grupos de categorías en este sitio: http://www.wjh.harvard.edu/~inquirer/homecat.htm

En resumen:

  • Tiene 1915 palabras en la categoría: “positivas” y 2291 palabras en la categoría “negativas”
  • Tiene clasificaciones complejas como por ejemplo: Fuerte vs. Débil o Activa vs. Pasiva
  • Está en ingles
  • Es gratis para su uso en investigación.

Enlaces:





LIWC (Linguistic Inquiry and Word Count) 

LIWC es otro Lexicón de Sentimientos, fue creado por James W. Pennebaker, Roger J. Booth, y Martha E. Francis. Tiene 2300 palabras y más de 70 clases. Una de las características más interesantes de este lexicón es que está disponible en español (y otros lenguajes). Entre las categorías dentro de las cuales podemos ubicar una palabra tenemos, por ejemplo, la de “Procesos Afectivos”, esta categoría nos permite clasificar las palabras en dos subcategorías: “emociones negativas” y “emociones positivas”. Otra categoría interesante es la de “Procesos Cognitivos” que nos permite clasificar palabras en las subcategorías: “tentativo” o “inhibición”, por mencionar solo algunas. Pueden ver la lista completa en este link: http://liwc.net/liwcespanol/descriptiontable1.php

En resumen:
  • 2300 palabras y más de 70 clases.
  • Soporta idioma español.
  • Tiene clasificaciones complejas.
  • No es gratuito, tiene dos versiones con costos de US$29.95 y US$89.95.

Enlaces:

MPQA Subjectivity Cues Lexicon

MPQA es un lexicón creado por Theresa Wilson, Janyce Wiebe, y Paul Hoffmann en 2005. Clasifica las palabras en “positivas” y “negativas”, pero cada palabra tiene anotada su intensidad (fuerte vs. débil). 

En resumen: 
  • 2718 palabras en la categoría “positivas” y 4912 en la categoría “negativas”
  • Está en idioma ingles
  • Se distribuye bajo licencia GNU GPL
Enlace: 


Bing Liu Opinion Lexicon

Este lexicón, fue creado por el profesor Bing Liu, es una compilación de palabras con su carga de valor: positivo o negativo, que comenzó en 2004.

En resumen: 
  • 2006 palabras en la categoría “positivas” y 4783 en la categoría “negativas”
  • Está en idioma ingles
  • Solo tiene las categorías: positiva y negativa
Enlace: 

Este lexicón utiliza los synsets de la base de palabras en ingles WordNet. Los synsets son grupos de sinónimos que utiliza WordNet para agrupar a las distintas palabras. Cada synsets tiene anotaciones, para identificar el grado de valor positivo, negativo o bien de objetividad que contiene cada palabra. 

En resumen: 
  • Clasifica las palabras en grados de positiva, negativa u objetiva, pudiendo una palabra tener al mismo tiempo valores negativos y positivos.
  • Está basada en WordNet (3.0 la última versión)
  • Está en idioma ingles
  • Se distribuye bajo una licencia: "ShareAlike" de Creative Commons, que permite su uso comercial siempre y cuando se mencione a los autores. 
Enlace: 

Desacuerdos entre distintos Léxicos:

Christopher Potts, en 2011 hizo una comparación entre los distintos Léxicos que vimos (http://sentiment.christopherpotts.net/lexicons.html) y encontró no solo que hay solapamiento entre ellos (cosa esperable) sino que hay desacuerdos respecto a la polaridad de una palabra:


MPQA Opinion Lexicon Inquirer SentiWordNet LIWC
MPQA 33/5402 (0.6%) 49/2867 (2%) 1127/4214 (27%) 12/363 (3%)
Opinion Lexicon 32/2411 (1%) 1004/3994 (25%) 9/403 (2%)
Inquirer 520/2306 (23%) 1/204 (0.5%)
SentiWordNet 174/694 (25%)
LIWC


Como se puede ver no hay grandes diferencias, excepto en el Lexicón: SentiWordNet.

¿Por qué observamos estas diferencias?

Christopher Potts contó cuantas veces aparecía la palabra: "bad" (malo en ingles) en criticas cinematográficas del sitio IMDB, discriminando según la cantidad de estrellas de la critica (van de 1 a 10). Obtuvo el siguiente gráfico:



Lo primero que vemos es que hay muchas criticas cinematográficas con la palabra “bad” en la categoría de una estrella, y eso era de esperarse, sin embargo la cantidad de veces que aparece la palabra “bad” va descendiendo en cada categoría hasta llegar a 4 estrellas y luego sube hasta 9 y finalmente tiene un pico en 10. ¡Y esto sí es inesperado!

Lo que está sucediendo acá es que hay muchas más criticas con 1 o 10 estrellas,  que con cualquier otro valor.

Para solucionar este problema, dividió los totales por la cantidad de palabras en dicha categoría. Es decir usó el estimador de máxima verosimilitud. Entonces tomando las frecuencias relativas, obtuvo el gráfico siguiente:


 Pueden ver la frecuencia de otras palabras en el sitio de esta investigación: http://sentiment.christopherpotts.net/lexicons.html

Por último

A veces no solo los adjetivos como: "malo", "bueno", etc. nos dan información sobre la categoría de un texto sino que expresiones más complejas, o palabras que parecen en principio irrelevantes aportan indicios significativos. En [1] Christopher Potts revisó las veces que aparecen las negaciones (no, not, n't, never) en las criticas cinematográficas de IMDB y descubrió que son mucho más frecuentes en criticas con pocas estrellas que en las criticas positivas.

Referencias:

[1]  Christopher Potts."On the negativity of negation". Proceedings of Semantics and Linguistic Theory 20. CLC Publications. 2011. p. 636-659


No hay comentarios:

Publicar un comentario