Corpus Hopinion

Hopinion es un corpus de opiniones en castellano. Hopinion contiene 17934 opiniones (2.388.848 palabras), básicamente sobre hoteles, provenientes de la web de TripAdvisor.

Las opiniones van acompañadas de información lingüística y de metadatos. En cuanto a la información lingüística, 4740 textos están anotados con el lema y la categoría morfológica de las palabras. Los metadatos hacen referencia a usuarios e ítems. De los usuarios se han recuperado, entre otros, el alias, el sexo, la edad, la procedencia, el estilo y el motivo del viaje. De los ítems se han recogido el tipo de alojamiento, su categoría (número de estrellas), la puntuación dada por el usuario y por los viajeros, su localización, etc.

Adicionalmente, Hopinion incorpora los resultados (anotaciones, frecuencias, etc.) de varios experimentos realizados sobre los datos de base. En este último caso se recomienda leer la publicación asociada a cada experimento. El archivo LEEME.txt contiene mayores detalles sobre éste recurso.

El corpus se puede descargar en forma de texto plano (CSV) o base de datos. La base de datos permite realizar búsquedas complejas.

Para citar este recuso:

Roberto, John A., M. Antònia Martí, Maria Salomó (2012). ‘Análisis de la riqueza léxica en el contexto de la clasificación de atributos demográficos latentes’. Procesamiento del Lenguaje Natural, Vol. 48: 97-104.

Hopinion está sujeto a licencia Creative Commons.

Descargar Hopinion aquí.

Social media & sharing icons powered by UltimatelySocial