Ativistas, Passageiros, Ocasionais E Especialistas Perfis de Usuário Na Construção de Um Site de Q&a
In:
Submitted By adabriand Words 6109 Pages 25
Ativistas, passageiros, ocasionais e especialistas
Perfis de usuário na construção de um site de Q&A
Adabriand Furtado
Universidade Federal de Campina Grande Av. Aprígio Veloso, 882, Campina Grande - PB +55 83 2101 1684 adabriand@lsd.ufcg.edu.br
Nazareno Andrade
Universidade Federal de Campina Grande Av. Aprígio Veloso, 882, Campina Grande - PB +55 83 2101 1684 nazareno@computacao.ufcg.edu.br who make medium or low quality contributions; occasionals, users who stay for a long period, however sporadically contribute; and specialists, similar to occasionals users, but who are skilled in performing a kind of activity. By analysing the parcel of contribution of each group formed by these profiles, we observed that passengers and ocassionals collaborate with activists in the construction of the majority of contributions, and the lack of any of these profiles possibly would degrade the system performance. In regard of the specialists, we discovered that their representation in the total of contributions is small. This finding motivates the development of mechanisms to stimulate the participation of these users.
RESUMO
Entender a estrutura e dinâmica de funcionamento de sistemas de Question and Answer (Q&A) é imprescindível no desenvolvimento de mecanismos para incentivar e melhor aproveitar a produção de conteúdo por parte dos usuários. Neste artigo, exploramos os padrões de comportamento de usuários em um site de Q&A de grande porte segundo métricas de motivação (quantidade de contribuições) e habilidade (qualidade das contribuições) dos usuários. Nossos resultados revelam quatro perfis principais: ativistas, usuários que contribuem muito por um longo período; passageiros, usuários com uma curta permanência e que fazem contribuições de qualidade mediana ou baixa; ocasionais, usuários que permanecem por um longo período, porém contribuindo esporadicamente; e especialistas: usuários semelhantes aos ocasionais, mas que são hábeis na execução de um tipo de atividade. Ao examinar a parcela de contribuição dos grupos formados por esses perfis, observamos que passageiros e ocasionais colaboram com os ativistas na construção da ampla maioria do corpo de contribuições, e que a ausência de qualquer um destes perfis possivelmente degradaria o desempenho do sistema. Com respeito aos especialistas, identificamos que a sua representatividade no total de contribuições é pequena. Esta descoberta motiva o desenvolvimento de mecanismos para incentivar a participação desses usuários.
Keywords: user profiles
Question and answer community, user behavior,
ACM Classification Keywords:
H5.3. Group and Organization Interfaces: Computer-supported cooperative work.
General Terms: Measurement, Human Factors 1. INTRODUÇÃO
Recentemente, o modelo de produção de conhecimento Question and Answer (Q&A) tem sido amplamente utilizado: o site Yahoo Answers chegou à marca de 24 milhões de questões resolvidas [3] e o Naver Knowledge iN, maior site de Q&A da Córeia do Sul, agrega mais de 60 milhões de postagens (perguntas e respostas) geradas por usuários [4]. Outros sites de Q&A se destacam pelo seu alto desempenho, como é o caso do StackOverflow, onde 92% de um total de mais de um milhão e meio de perguntas sobre programação possuem respostas, e o tempo mediano para se obter uma resposta é de aproximadamente 11 minutos [5]. A compreensão da estrutura e da dinâmica de sites de Q&A é importante no desenvolvimento de novas comunidades, bem como no aperfeiçoamento da operação das existentes. Em particular, conhecer os padrões de comportamento dos usuários - por exemplo quanto às suas motivações [4] (desejo de aprender, altruísmo, hobby, etc.) - auxilia o desenvolvimento de mecanismos para incentivar e melhor aproveitar a produção de conteúdo dos diferentes perfis de usuários. Neste contexto, diversos trabalhos [3][4][5] têm procurado identificar padrões de participação de usuários e o efeito desses padrões no funcionamento do sistema. No entanto, estes estudos em geral identificam perfis de usuários considerando apenas aspectos de seu comportamento relacionados ao volume de contribuições gerado, como a frequência de postagem de perguntas e respostas. Em contraste, há pouco conhecimento
Palavras-chave:
Comunidade de Pergunta e Resposta, comportamento de usuários, perfis de usuários.
ABSTRACT
Understanding the structure and dynamics of operating Question and Answer (Q&A) systems is essential for the development mechanisms that encourage and better leverage the content production of different user profiles. In this paper, we explore the patterns of user behavior according to metrics capturing motivation (amount of contribution) and ability (quality of the contributions). Our results reveal four main user profiles: activists, users who make a large number of contributions for a long period; passengers, those users with a short permanence and
.
sobre padrões de comportamento de usuários considerando não só quantidade, mas também qualidade de sua atuação no sistema, como por exemplo a avaliação das respostas geradas por um usuário. De fato, Gazan [8] revisou a literatura de estudos em Q&A e observou que faltam concepções mais refinadas dos participantes e de seus papéis com relação às atividades de perguntar, responder e avaliar. Neste trabalho, exploramos os padrões de comportamento de uma comunidade de Q&A segundo aspectos da quantidade e qualidade das contribuições geradas pelos usuários do sistema. Nosso estudo analisa a comunidade de Q&A Super User, com cerca de 64 mil usuários e 230 mil postagens. A Super User é baseada na plataforma para comunidades de Q&A StackExchange1, que publica periodicamente uma base completa de dados2 sobre suas comunidades. Nossa abordagem para extrair padrões de comportamento dos dados parte de um conjunto de métricas de motivação (quantidade de contribuição) e de habilidade (qualidade das contribuições) do usuário. Partindo das métricas que definimos, identificamos grupos de usuários com comportamento semelhante combinando dois algoritmos de agrupamento de usuários, um hierárquico e outro não hierárquico. Nossos resultados revelam nove perfis de usuários que podem ser classificados em quatro tipos principais: ativistas (cerca de 1% do total), usuários que contribuem muito, passam um longo tempo no sistema e têm bom desempenho nas métricas de habilidade; passageiros (cerca de 74%), usuários com pequena contribuição, que abandonam a comunidade rapidamente e cujas contribuições são medianas ou de baixa qualidade; ocasionais (cerca de 18%), usuários que permanecem no sistema por um longo período, mas que contribuem esporadicamente e não se sobressaem nas métricas de habilidade; e especialistas (cerca de 7%), usuários que se assemelham aos ocasionais quanto à motivação, mas apresentam uma alta habilidade na execução de um tipo específico de atividade, como perguntas, respostas ou comentários. Aliada à descoberta dos perfis na comunidade, utilizamos a categorização dos usuários para examinar o quão importante cada grupo é para o funcionamento do site de Q&A que examinamos. Desta análise, observamos que usuários poucos ativos como os dos perfis Passageiros e Ocasionais, colaboram com os ativistas na construção da ampla maioria do corpo de contribuições, tanto sob a perspectiva da quantidade quanto da qualidade. Ao examinar cada grupo separadamente, notamos que o sistema possivelmente sofreria uma perda significativa de desempenho caso os usuários de qualquer um destes tipos de perfis não estivessem presentes na comunidade. Ademais, ao observar a contribuição conjunta do grupo de especialistas, identificamos que embora eles se mantenham na comunidade por um longo período e sejam hábeis, a sua representatividade no total de contribuições é pequena. Esta observação motiva o desenvolvimento de mecanismos para incentivar a participação deste tipo de usuário. No restante deste artigo, posicionamos o nosso estudo dentro dos trabalhos relacionados (Seção 2); descrevemos o funcionamento de um site típico da plataforma StackExchange (Seção 3) e esclarecemos o método utilizado para agrupar os usuários da comunidade Super User (Seção 4). Em seguida, apresentamos
1 2
uma interpretação dos perfis observados (Seção 5) e o desempenho de cada grupo no funcionamento do site (Seção 6). Por fim, discutimos as implicações destes resultados no estudo de sistemas de computação social, em especial os sites de Q&A.
2. REVISÃO DA LITERATURA
Trabalhos anteriores buscaram identificar e explicar comportamentos típicos dos usuários na construção do conhecimento coletivo em sites de Q&A. Mamykina et al. [5] conduziram um estudo na comunidade StackOverflow, maior comunidade da plataforma para sites de Q&A StackExchange. Na análise de desempenho do StackOverflow, padrões de uso do sistema foram identificados com base na frequência com que usuários proveem respostas durante sua participação no sistema. Como resultado, foram observados 4 tipos de perfis: ativistas da comunidade; shooting stars, usuários registrados com um único pico de atividade; lowprofile, usuários registrados que nunca tiveram alta atividade; lurkers e visitantes, usuários sem atividade. Apesar da pequena presença de ativistas da comunidade e shooting stars, a contribuição total destes usuários chega a quase metade das respostas no sistema. Um estudo similar foi realizado por Nam et al. [4] na comunidade Naver Knowledge-iN. Este estudo de caso também teve por objetivo identificar padrões na participação dos usuários e explicar os fatores que motivam a contribuição dos usuários, complementada por uma análise qualitativa. Neste contexto, os seguintes padrões foram observados: separação clara dos usuários com o perfil de questionador e respondedor; os usuários mais ativos, cerca de 1%, proveem aproximadamente metade de todas as respostas do sistema, e a grande maioria dos usuários tem uma participação altamente intermitente. Com o objetivo de entender a atividade de compartilhamento na comunidade de Q&A Yahoo Answers, Adamic et al. [3] identificaram padrões nas interações entre usuários nas diversas categorias (sub-fóruns). Além dos perfis de perguntador e, respondedor, observou-se em certas categorias um perfil de usuários que tem ambas as características, denominado de “discutidores”. Kang et al [2] também buscaram entender como os usuários agem dentro de uma comunidade de Q&A, analisando como os relacionamentos criados pelos usuários influenciam seu próprio comportamento. A partir de uma análise focada apenas nos usuários ativistas, foram observados indícios de que estes usuários estão mais interessados em ajudar e obter reconhecimento. Alguns destes trabalhos também tentaram mostrar uma relação entre métricas de participação e habilidade dos usuários: Nam et al. [4] observaram uma correlação positiva entre a quantidade de períodos ativos e a qualidade das respostas dos usuários, indicando que usuários mais comprometidos com o sistema são mais propensos a prover boas respostas. Kang et al. [2] identificaram que a competição repetida com certos usuários desestimulou a produção de respostas de qualidade de alguns usuários, supostamente pela menor chance de ter a resposta aceita. Farzan et al. [1] combinaram métricas de motivação e habilidade para identificar potenciais experts, utilizando dados de atividade das suas primeiras semanas. De forma geral, observamos que há bastante esforço dedicado à compreensão das diversas formas de participação de um usuário em comunidades de Q&A, geralmente sob a perspectiva de
quantidade de contribuição provida. Contudo, faltam estudos que considerem em conjunto quantidade e qualidade das contribuições, com o propósito de revelar padrões que relacionem estas duas dimensões. Apenas um estudo [1] observou as dimensões de quantidade e qualidade de comportamento dos usuários de sites de Q&A em conjunto, e ele focou em apenas um perfil, os experts. Nosso estudo complementa o estado da arte investigando que perfis descrevem todos os usuários de um site de Q&A de grande porte segundo dimensões de quantidade e qualidade das contribuições realizadas no sistema.
À medida que o usuário participa da comunidade e as suas contribuições são avaliadas, este usuário adquire pontos de reputação. Ao atingir uma quantidade pré-estabelecida de reputação, o usuário ganha acesso a certas funcionalidades, que são geralmente meios para a realização de atividades de moderação. Por exemplo, com 15 pontos, o usuário pode dar votos positivos nas questões, respostas e comentários. Com 50 pontos, o usuário pode fazer comentários nas postagens de outros usuários. Com base nesta descrição do funcionamento de uma comunidade do SE, vemos que um usuário pode desempenhar diversas atividades. Estes usuários perguntam, respondem, comentam e avaliam o conteúdo gerado, e fazendo isto, além de estarem construindo colaborativamente a comunidade, estão socializando entre si.
3. FUNCIONAMENTO DE UMA COMUNIDADE DO STACKEXCHANGE
As comunidades do StackExchange seguem o modelo comum de sites de Q&A. Na Figura 1, temos uma página típica de uma questão com suas respostas e comentários. As etapas comuns no processo de um usuário obter uma resposta são as seguintes: 1. 2. O usuário posta uma questão. A pergunta criada é visualizada por outros usuários, que podem votar sobre a utilidade ou não da questão e marcar a questão como favorita. Caso um usuário poste uma resposta, ela será agregada à pergunta, e também será avaliada através de votos da comunidade. Os votos são utilizados para definir a ordem em que perguntas e respostas são apresentadas. O perguntador e os respondedores podem fazer comentários tanto na questão em si quanto nas respostas. De forma semelhante a perguntas e respostas, os comentários também podem ser votados. Por fim, o perguntador escolhe qual das respostas lhe foi mais útil, e marca esta como a melhor resposta.
4. METODOLOGIA
Duas perguntas de pesquisa guiam este estudo: P1. Que perfis de usuários são identificados em um site típico de perguntas e respostas considerando as perspectivas de quantidade e qualidade da atividade dos usuários? P2. Que papel cada um desses grupos desempenha no funcionamento do site? A primeira pergunta visa contribuir para o entendimento dos tipos de usuários que existem no sistema, enquanto a segunda foca na visão da importância de cada grupo no funcionamento da comunidade. A observação da quantidade e da qualidade da contribuição agregada de cada grupo nos dá indícios de como estes grupos em conjunto constroem a comunidade. A estratégia de investigação é empírica e consiste em um estudo de caso aplicado numa das comunidades da plataforma SE, o Super User. Nesta comunidade as perguntas são focadas em software e hardware de computadores. Esta escolha se deve a dois motivos: é a segunda maior comunidade da plataforma, com cerca de 64 mil usuários registrados e 230 mil postagens, e o seu tamanho não é proibitivo para o processamento que realizamos. Os dados completos das atividades dos usuários estão disponíveis publicamente sob a licença Creative Commons, e compreendem o período entre a criação do sistema – em julho de 2009 – e março de 2011. No processamento desses dados, não tratamos as pessoas que usam o site sem se registrar. O estudo de caso que realizamos é ao mesmo tempo exploratório e confirmatório. Por um lado, desconhecemos os padrões de comportamento do Super User e a distribuição de usuários nos perfis definidos por esses padrões. Nosso estudo de caso explora esses aspectos do sistema. Por outro lado, o estudo também é confirmatório, pois nos permite verificar se os perfis identificados no Super User se assemelham a perfis já encontrados na literatura. O problema de identificar perfis de usuários na comunidade é equivalente ao de identificar grupos homogêneos de usuários segundo seu comportamento no sistema. Neste estudo, abordamos essa busca por uma estrutura natural nos dados através de técnicas de análise de agrupamento [9]. Essa técnica é particularmente adequada para o aspecto exploratório deste trabalho, onde não sabemos que grupos serão observados nos dados a priori. Na análise de agrupamento, objetos são agrupados com base na sua similaridade segundo um conjunto de características. As métricas que consideramos para caracterizar os usuários e realizar
3.
4.
5.
Para um novo usuário de uma das comunidades do StackExchange, as seguintes funcionalidades são oferecidas: postar perguntas e respostas, fazer edições e comentários nestas, definir qual a melhor resposta recebida de suas perguntas e adicionar questões aos seus favoritos.
Figura 1. Página referente a uma questão na plataforma StackExchange.
os agrupamentos são de dois tipos, motivação e habilidade, e estão listadas a seguir: Métricas de motivação Número de respostas fornecidas pelo usuário. Número de perguntas feitas pelo usuário. Número de comentários fornecidos pelo usuário. Número de moderações realizadas. São consideradas atividades de moderação: votos dados e a marcação de questões como favorito. Tempo de vida do usuário no sistema, que consiste no intervalo de tempo entre a criação da sua conta e seu último acesso à comunidade. Métricas de habilidade Guru Score: métrica definida por Nam et al. [4], que avalia o conhecimento de um usuário segundo o julgamento feito pelo criador da pergunta que ele respondeu. O seu cálculo é feito a partir do número de respostas marcadas como melhor resposta. Além de incluir o número de melhores respostas no cálculo, o Guru Score também considera o contexto em que ela foi obtida. Por exemplo, caso haja muita concorrência para responder uma dada questão, o Guru Score computado do usuário será alto. Utilidade média das respostas (UMRespostas): avalia o conhecimento do usuário, mas diferentemente do Guru Score, leva em consideração o julgamento da comunidade. A utilidade média das respostas de um usuário é definida comparando a pontuação (diferença entre votos positivos e votos negativos) das respostas que o usuário gerou com a pontuação das demais respostas para as mesmas questões. Mais precisamente, definimos a utilidade de cada resposta de um usuário como a pontuação da resposta normalizada (z-score) considerando as demais respostas para a mesma questão. Este valor representa o quanto a resposta se destacou. Consideramos então a utilidade média das respostas de um usuário como sendo a média aritmética deste valor para todas as suas respostas. Utilidade média das perguntas (UMPerguntas): é medida através das pontuações e da quantidade de favoritos recebidos nas questões criadas por um usuário. Consideramos a pontuação e o voto de favorito com peso igual, logo a utilidade total de uma questão é a soma destes dois valores. Utilidade média dos comentários (UMComentários): medida pela pontuação dos comentários do usuário, de maneira análoga à utilidade média das respostas. No cálculo desta métrica, os comentários que um usuário faz nas suas próprias questões foram desconsiderados. Observamos que estes comentários geralmente não são avaliados por outros usuários, porque tipicamente apresentam um teor de conversação, requisição ou esclarecimento, e não de informação. O conjunto de métricas consideradas define o espaço onde a similaridade entre os usuários será calculada. Nosso agrupamento é feito utilizando a medida mais comum de similaridade para agrupamento, a distância euclidiana generalizada para um espaço
multidimensional. De forma a evitar resultados distorcidos pela escala, as métricas foram normalizadas, calculando seu z-score. A análise de agrupamento envolve também a escolha do método de agrupamento. Na literatura, há dois tipos principais de algoritmos: nos hierárquicos, os objetos são combinados (ou divididos) iterativamente em grupos. Como resultado, é produzida uma estrutura similar a uma árvore (dendrograma), a qual descreve a formação dos grupos e contém N - 1 possíveis soluções de agrupamento, onde N é o número de objetos. O segundo tipo de algoritmo é o não-hierárquico: este tipo de técnica produz uma única solução de grupo de tamanho K, onde K é a quantidade de sementes passadas como parâmetro. Essas sementes são os valores iniciais para os centros do agrupamento. O tamanho da população da comunidade Super User – cerca de 64 mil usuários – torna impraticável aplicar um método hierárquico, pois esse tipo de método exige a computação de uma matriz de similaridade NxN. Os métodos não-hierárquicos, por sua vez, são mais eficientes para o processamento de grandes massas de dados, mas têm a qualidade do agrupamento final diretamente ligada às sementes fornecidas como parâmetro de entrada. Por essa razão, tipicamente não é uma abordagem segura utilizar sementes randômicas. Considerando as desvantagens de ambos os métodos em nosso contexto, optamos por uma combinação dos dois que provê ao mesmo tempo precisão e escalabilidade [7]. Essa combinação funciona da seguinte maneira: inicialmente, selecionamos uma amostra aleatória da população e aplicamos o método hierárquico. Com base nestes resultados, avaliamos que solução de agrupamento é representativa para nosso estudo e a utilizamos para gerar as sementes iniciais para um procedimento não-hierárquico. A seguir, usamos as sementes derivadas no método hierárquico para aplicar o método não-hierárquico em toda a população do sistema. Ao usar as sementes produzidas pelo método hierárquico, esperamos resultados mais acurados de agrupamento. Como método hierárquico, usamos o algoritmo proposto por Ward [10]. Neste método, grupos são combinados minimizando a soma do quadrado dos erros internos dos grupos. Esse algoritmo se adapta bem ao nosso contexto devido a sua tendência a não formar grupos com uma única observação. Para o método não hierárquico, usamos o método k-means clássico de Hartigan & Wong [6].
5. IDENTIFICANDO PERFIS NA COMUNIDADE SUPER USER
Nesta seção, aplicamos a metodologia descrita para identificar os perfis de usuários na comunidade Super User. Esse processo está dividido em três etapas: decisão do número de grupos a serem usados, agrupamento e interpretação dos grupos encontrados.
5.1 Decisão do número de grupos
Uma amostra aleatória de 11 mil usuários foi extraída dos dados do Super User, representando aproximadamente 17% do total de usuários. O algoritmo hierárquico de Ward foi executado nesta amostra, utilizando as métricas e medidas de similaridade especificadas. Na Figura 2, observamos que ao aumentar o número de grupos, ganhamos em homogeneidade, qualidade que desejamos. No entanto, uma solução com uma quantidade alta de grupos torna a interpretação impraticável. Desta forma, consideramos os resultados de grupos com tamanhos na faixa entre 8 e 10, onde a variação do ganho em homogeneidade é
pequena. A solução com 9 grupos foi determinada como a melhor neste estudo, pois ao reduzir a quantidade de grupos para 8, um grupo notadamente distinto desaparece; ao considerar 10 grupos, um novo grupo sem destaque surge.
6. Perguntadores cidadãos: a característica principal deste grupo é a alta qualidade de perguntas geradas. Além disso, estes usuários são relativamente ativos em produzir perguntas, respostas, comentários, e principalmente moderações. A combinação destas características sugere que estes usuários estão bastante alinhados às políticas da comunidade. 7. Comentaristas oportunos: estes usuários são moderadamente ativos, mas se destacam pela boa avaliação dos seus comentários. 8. Ativistas da comunidade: os usuários deste grupo estão há bastante tempo no sistema, e se sobressaem em todas as métricas de motivação, principalmente na geração de perguntas. Além disso, as perguntas geradas por esse tipo de usuário são frequentemente úteis. Estes valores altos nas métricas de motivação são indicativos de que estes usuários são altamente comprometidos com a comunidade. 9. Hiperativos especialistas: estes usuários são tão motivados quanto o perfil Ativistas da comunidade, mas se destacam na quantidade desproporcional de respostas (1,4 por dia, em média), comentários (2,3 por dia, em média) e moderações (3,4 por dia, em média) realizadas. Com relação às métricas de habilidade, eles se destacam por serem ótimos respondedores, perguntadores e comentaristas. O tamanho de cada um dos grupos, exposto na Tabela 1, demonstra que grande parte dos usuários se concentra em 3 perfis: Passageiros (~62,2%), Passageiros imperitos (~11,7%) e Ocasionais fiéis (~18,4%). Uma característica comum entre estes usuários é o fraco índice de motivação. Por outro lado, os grupos restantes somam juntos apenas 7,7% e se destacam por serem especializados em pelo menos um tipo de contribuição.
Figura 2. Análise da heterogeneidade dos grupos em função do número de grupos utilizado.
5.2 Agrupamento combinando algoritmos hierárquico e não-hierárquico
Em seguida, uma estimativa dos centros do agrupamento do hierárquico foi computada através da média do valor das métricas em cada grupo. Estes centros são fornecidos como sementes iniciais do algoritmo k-means, que é executado com os dados de todos os usuários da comunidade. Como resultado deste agrupamento, obtivemos 9 centros com os valores normalizados expostos na Figura 3 e os não normalizados na Tabela 1.
6. EXAMINANDO A ECOLOGIA DE CONTRIBUIDORES
A análise do comportamento comum dos usuários de cada grupo não dá a informação de quanto cada grupo contribuiu para a formação da base de conhecimento da comunidade. Para tal, examinamos a parcela de contribuição de cada grupo, utilizando as seguintes métricas: o número de respostas, perguntas, questões, comentários e moderação, como métricas de motivação; além de representantes das métricas de habilidade, o número de melhores respostas e o número de votos positivos recebidos em respostas, perguntas e comentários. Na Figura 4, observamos que o grupo de Passageiros imperitos, em conjunto com o grupo dos usuários especialistas (Bons respondedores, Gurus casuais, Perguntadores cidadãos e Comentaristas oportunos) agregam uma pequena parcela do total de contribuições nas métricas de motivação. Com relação ao seu desempenho nas métricas de habilidade, a parcela de contribuição destes usuários também é pequena, com a exceção do grupo Perguntadores cidadãos, que somam 14% da quantidade de votos positivos recebidos em perguntas. O grupo dos Passageiros imperitos se destaca pela quantidade de respostas, cerca de 9%, porém estas respostas não são comumente bem avaliadas pela comunidade. Notadamente, os grupos pouco ativos, Passageiros e Ocasionais e fiéis, juntamente com os ativos, Ativistas da comunidade e Hiperativos especialistas, somam praticamente o total de contribuições e quase todo o valor agregado nas métricas de habilidade.
5.3 Interpretação dos grupos
Nesta etapa, examinamos o centro de cada grupo, com objetivo de dar uma interpretação para os agrupamentos observados. Os rótulos destes grupos, que serão discutidos no restante do trabalho, estão apresentados abaixo: 1. Passageiros: os usuários deste grupo participam pouco da comunidade, passam um tempo relativamente pequeno no sistema, cerca de um mês, e são neutros em agregar conteúdo de qualidade, devido aos valores próximos à zero nas métricas de habilidade. 2. Passageiros imperitos: os usuários deste grupo são semelhantes ao perfil Passageiros, com uma diferença que eles respondem mais e suas respostas não são bem avaliadas, tanto pelo perguntador (baixo Guru Score) quanto pela comunidade (baixa utilidade média das respostas). 3. Ocasionais e fiéis: estes usuários estão há bastante tempo no sistema, têm uma quantidade de participação moderada e não se destacam em nenhuma das métricas de habilidade. 4. Bons respondedores: estes usuários contribuem com poucas respostas, que são boas ao julgamento da comunidade em geral, mas apresentam um guru score médio não tão alto. Por alguma razão as respostas destes usuários não são comumente selecionadas como a melhor pelo perguntador. 5. Gurus casuais: são usuários com um excelente desempenho na contribuição de respostas. Eles são avaliados positivamente tanto na métrica Guru Score quanto na utilidade média das respostas, e de maneira similar aos Bons respondedores, não são muito ativos.
Figura 3. Z-scores dos centros dos grupos identificados. Desta forma, a média da população de todos os usuários para cada métrica é zero, e o valor representado é a distância do centro do grupo para essa média em unidades de desvio padrão. Note que a escala nos três grupos de gráficos é diferente.
Figura 4. Proporção de contribuição agregada de cada grupo no sistema.
Tabela 1. Quantidade de usuários e valores não normalizados dos centros de cada grupo. Nome do grupo Passageiros Passageiros Imperitos Ocasionais e fiéis Bons respondedores Gurus casuais Perguntadores cidadãos Comentaristas oportunos Ativistas da comunidade Hiperativos especialistas População Usuários 40.138 (62,2%) 7.600 (11,78%) 11.878 (18,4%) 2.232 (3,46%) 956 (1,48%) 720 (1,11%) 659 (1,02%) 321 (0,5%) 30 (0,05%) 64534 Respostas 0,33 1,77 4,62 2,15 2,10 7,00 3,14 94,24 757,10 2,3 Perguntas 0,41 0,45 2,43 0,90 2,17 2,37 1,94 39,40 19,53 1,06 Comentários 0,50 0,97 6,68 2,03 4,02 9,15 4,50 173,34 1243,67 3,37 Moderações 0,45 1,48 14,56 4,21 8,49 28,28 11,39 387,46 1873,57 6,63 Tempo de vida (dias) 34,00 71,32 453,22 200,51 283,76 336,35 343,70 521,18 544,64 134,21 Guru Score -0,01 -0,63 -0,07 -0,01 3,48 -0,02 -0,05 0,16 0,19 -0,04 UMRespostas 0,00 -0,85 -0,08 1,14 0,77 0,00 0,03 -0,06 0,22 -0,06 UMPerguntas 0,25 0,22 0,87 0,47 0,96 10,43 0,89 2,50 4,446 0,51 UMComentários 0,00 -0,01 -0,02 -0,02 -0,01 0,01 1,19 0,03 0,08 0,00
7. DISCUSSÃO DOS RESULTADOS
Na Figura 5, comparamos o desempenho entre estes dois grandes grupos e observamos que o grupo dos pouco ativos superam os ativos em quase todas as métricas, com exceção de duas métricas de habilidade: a quantidade de melhor resposta e o número de votos positivos recebidos pelos comentários. No grupo dos pouco ativos, observamos que os Passageiros (62% dos usuários) e Ocasionais e fiéis (18% dos usuários) não se destacam individualmente nas métricas de habilidade, e se diferenciam pelo tempo de vida na comunidade. Apesar da grande diferença do tamanho entre os dois grupos, os Ocasionais e fiéis agregam mais contribuições tanto nas métricas de motivação quanto nas de qualidade. Dentro do grupo de usuários ativos, os Ativistas da comunidade possuem um desempenho individual inferior nas métricas de motivação e habilidade. No entanto, observamos que a contribuição conjunta dos Ativistas da comunidade é superior aos Hiperativos especialistas nestas duas dimensões. A exploração da presença de grupos dentro da comunidade Super User considerando métricas de motivação e habilidade nos forneceu indícios de quais grupos são mais importantes no funcionamento de um site típico de Q&A. Observamos que o conjunto dos usuários de perfis pouco ativos e sem nenhuma habilidade marcante, Passageiros e Ocasionais e fiéis, juntamente com o os usuários ativos, Ativistas da comunidade e Hiperativos especialistas, contribuem com a maior parte dos recursos do sistema. Com a ausência dos usuários de algum destes perfis, a comunidade possivelmente perderia em desempenho. Em contraste com vários trabalhos da literatura, os quais tipicamente afirmam que uma pequena minoria dos usuários faz a grande maioria das contribuições, os nossos resultados mostram a maioria dos usuários do Super User construindo o corpo de contribuições do sistema. Os usuários dos quatro perfis que mais contribuem somam aproximadamente 80% da população. É importante destacar que os usuários Ocasionais e fiéis dão indícios de ter uma participação altamente intermitente no sistema. Usuários deste grupo em geral estão ativos no sistema por um longo período e participam pouco. Todavia, pelo seu tamanho, este grupo possui ao mesmo tempo a maior contribuição agregada dentre os grupos identificados neste estudo. A atividade conjunta do grande número de usuários que não aparentam ser especialistas no sistema supera a contribuição dos especialistas e ativistas. Outro grupo que merece destaque são os Passageiros imperitos. Nossos dados não permitem a análise de porque estes usuários não são bem avaliados, embora tenham uma quantidade significativa de respostas. Uma hipótese é que, pelo curto tempo no sistema, esses usuários não assimilaram as políticas e costumes da comunidade, e assim não fizeram contribuições adequadas aos olhos dos outros usuários. Figura 5. Comparação da contribuição agregada dos usuários muito e pouco ativos no sistema. As barras em preto são os intervalos de confiança, calculados para um nível de significância de 5%. A descoberta dos grupos com um alto nível de especialidade em uma das métricas de habilidade pode interessar projetistas de comunidades. Os usuários dos perfis, Bons respondedores, Gurus casuais, Perguntadores cidadãos e Comentaristas oportunos se mantêm ativos por bastante tempo na comunidade, embora
contribuam quantitativamente pouco. Nossos resultados sugerem que há uma oportunidade no desenvolvimento de mecanismos para encorajar a participação destes usuários. Pela sua habilidade, o aumento da atividade desses usuários contribuiria na qualidade do conteúdo disponível para a comunidade. Ainda sobre os grupos com um alto nível de especialidade e participação moderada, é interessante destacar que estes usuários demonstraram apenas um tipo de habilidade, enquanto que os usuários mais ativos, Ativistas da comunidade e Hiperativos especialistas, apresentam mais de uma. Os Hiperativos especialistas, em especial, são bons em todas as métricas de habilidade. Estas observações dão indícios de quanto maior o comprometimento do usuário com a comunidade, maior é seu desempenho em prover conteúdo de qualidade. Nam et al. [4] constatou que os usuários mais comprometidos e consistentes são mais propensos a prover boas respostas em sites de Q&A. Em nossos resultados, esta característica é observada no pequeno grupo de usuários mais ativos. No entanto, identificamos grupos de usuários com valores moderados nas métricas de motivação que são ao mesmo tempo eficientes em uma das métricas de habilidade. Um exemplo disso são os Gurus casuais, que em média contribuem com apenas 2 respostas, mas elas são consideradas muito boas pela comunidade. O agrupamento também revelou usuários com o perfil de respondedor, perguntador e discutidor (papel similar em produzir perguntas e respostas). Os Hiperativos especialistas e Passageiros imperitos têm uma maior participação na contribuição do total de respostas do que de perguntas, já os Passageiros, Ocasionais e fiéis e Gurus casuais possuem uma maior participação na criação de perguntas. Os grupos restantes, Bons respondedores, Perguntadores cidadãos, Comentaristas oportunos e Ativistas da comunidade, tem uma participação similar nas duas atividades, estes usuários se aproximam do perfil de discutidor. Os padrões observados confirmam os resultados de Nam et al. [4] e Adamic et al. [3], os quais identificaram estes padrões na comunidade Naver Knowledge iN e Yahoo Answers, respectivamente.
sistema, mas tipicamente têm suas contribuições mal avaliadas, os usuários Passageiros imperitos. Entender o processo que leva esses usuários a este estado certamente contribuirá pra aperfeiçoar o processo de integração de novos usuários à comunidade. Diversos pontos limitam a generalidade de nossos resultados. Consideramos apenas um site de Q&A. Sites com escala ou comunidade-alvo diferentes podem revelar outros perfis e outra composição para sua população. Trabalhos futuros devem estender nossos resultados considerando outros sites de Q&A. Outra linha que complementaria o presente estudo é a análise de perfis de usuários utilizando outros métodos de classificação e métricas que capturem mais detalhadamente a participação dos usuários na comunidade.
AGRADECIMENTOS
Este trabalho foi (480855/2010-2). parcialmente financiado pelo CNPq
REFERÊNCIAS
[1] Pal, R. Farzan, J. A. Konstan, R. E. Kraut. 2011. Early Detection of Potential Experts in Question Answering Communities by A. International Conference on User Modeling, Adaptation, and Personalization (UMAP '11). [2] Minhyung Kang, Byoungsoo Kim, Peter Gloor, and GeeWoo Bock. 2011. Understanding the effect of social networks on user behaviors in community-driven knowledge services. J. Am. Soc. Inf. Sci. Technol. 62, 6 (June 2011), 1066-1074. [3] Lada A. Adamic, Jun Zhang, Eytan Bakshy, and Mark S. Ackerman. 2008. Knowledge sharing and yahoo answers: everyone knows something. In Proceeding of the 17th international conference on World Wide Web (WWW '08). ACM, New York, NY, USA, 665-674. [4] Kevin Kyung Nam, Mark S. Ackerman, and Lada A. Adamic. 2009. Questions in, knowledge in?: a study of naver's question answering community. In Proceedings of the 27th international conference on Human factors in computing systems (CHI '09). ACM, New York, NY, USA, 779-788. [5] Lena Mamykina, Bella Manoim, Manas Mittal, George Hripcsak, and Björn Hartmann. 2011. Design lessons from the fastest q&a site in the west. In Proceedings of the 2011 annual conference on Human factors in computing systems (CHI '11). ACM, New York, NY, USA, 2857-2866. [6] Hartigan, J. A., & Wong, M. A. 1979. Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society, Series C (Applied Statistics) 28 (1): 100– 108. [7] Milligan, G. 1980. An examination of the effect of six types of error perturbation on fifteen clustering algorithms. Psychometrika 45 (September):325-42. [8] Gazan, Rich. 2011. Social Q&A. Journal of the American Society for Information Science and Technology, Advances in Information Science. [9] Aldenderfer, Mark S., and Roger K. Blashfield. 1984. Cluster Analysis. Thousand Oaks, CA: Sage. [10] Ward, J. H. JR. 1963. Hierarchical grouping to optimize an objective function. J. Am. Stat. Assoc. 58, 236–244.
8. CONCLUSÃO
Neste artigo, propomos a identificação de padrões de comportamento dos usuários segundo métricas de motivação e habilidade. Como forma de revelar estes padrões, dois algoritmos de agrupamento – um hierárquico e outro não-hierárquico – foram utilizados sob os dados de atividade da comunidade Super User. Neste agrupamento foram observados 4 grandes grupos: Ativistas, Passageiros, Ocasionais e fiéis e Especialistas. Em seguida, discutimos a importância de cada um destes grupos no funcionamento de um site Q&A. Nossos resultados contribuem para um retrato mais rico de sites de Q&A e têm diversas implicações. De forma geral, o entendimento do Super User através dos perfis de seus usuários e da atividade gerada pelo conjunto que se adequa a cada perfil revela um sistema mantido em partes iguais por um núcleo de ativistas e por um grande número de usuários de atividade esporádica e sem destaque quanto à habilidade empregada. Esse retrato ressalta a importância dos usuários de perfis com pouca atividade no sistema para o seu desempenho. Tal resultado indica a relevância de incluir o melhor uso dos recursos providos por esses usuários na agenda de pesquisa sobre sites de Q&A. Um resultado que observamos e carece de mais investigação é a identificação de um perfil de usuários que contribui para o