2004-12-19
Alguns detalhes sobre a rede de blogs
Estive desligado durante uns dias no Alentejo, durante os quais pensei em alguns detalhes do algoritmo que utilizei para fazer as redes de blogs e políticos da semana passada. Vou também responder a algumas questões que foram entretanto postas sobre este trabalho.
Antes de mais, a formula exacta de proximidade que utilizei não foi bem a que publiquei aqui. A formula exacta foi:
dados os dois conjuntos:
B = {contra a corrente, abrupto, pastilhas, aviz, bomba inteligente, a causa foi modificada, memória inventada, barnabé , gato fedorento, ritz, blog de esquerda, causa liberal, janela indiscreta, coluna infame}
P = {Ramalho Eanes , Mário Soares , Freitas do Amaral , Cavaco e Silva , António Guterres , Durão Barroso , Jorge Sampaio , Álvaro Cunhal , Ferro Rodrigues , Paulo Portas, Santana Lopes}
a probabilidade de co-ocorrência utilizada foi
em que (termos contextuais) = (blog OR blogue), serve para tentar reduzir o conjunto de páginas utilizadas às que são blogs ou mencionam blogs.
Algumas razões porque isto é um estudozinho (obrigado Cibertúlia):
Num estudo mais sério usar-se-iam uma série de técnicas de busca de informação para melhorar os resultados. Usar-se-ia alguma implementação local do NEAR em vez de AND, em vez do Altavista usar-se-ia um Crawler para ir só a páginas de blogs, etc, etc.
É importante frisar que o que as redes aqui construídas mostram é o grau de associação entre blogs, no contexto do conjunto P de políticos utilizado. Apenas isso e nada mais. Não mostra por exemplo a evolução dos blogs no tempo – o que seria uma análise diferente, tipo cladística como o Jorge refere nos comentários, muito interessante.
Alguém nos comentários pergunta também qual o significado hipotético dos resultados. Isto é a pergunta tradicional dos que se opõem à chamada “data-driven science”. Estes trabalhos, a meu ver, funcionam como um mecanismo de medição sofisticado. Portanto, precede a trabalho do método científico que carece de hipóteses bem formadas. Existe hoje uma realidade digital extensa, e há que criar aparelhos para a medir.
A medição simples aqui feita dá-nos uma perspectiva relacional dos objectos e contexto em causa. Não concordo com o comentário de que estes grafos nos dão a perspectiva dos objectos vistos de longe. O que se vê é uma perspectiva de rede (relacional, associativa) que não é a obvia a partir dos links na Internet – daí eu ter disto ser isto uma perspectiva diferente. Neste caso, vemos os blogs relacionados em termos de um conjunto de políticos. Uma observação que se pode tirar desta perspectiva é que os blogs parecem agrupar-se de acordo com a proporção relativa de menções a certos políticos. Por exemplo, o grafo de correlação 0.8 mostra que os blogs 'bomba inteligente', 'causa liberal', 'contra a corrente', e 'blog de esquerda' estão ligados a páginas na web que mencionam os tais políticos em proporções muito semelhantes.
Poderiam agora fazer-se hipóteses sobre o que causa essa correlação: será um erro de medição por causa das limitações deste estudo, ou será porque estes blogs fazem parte de um mesmo debate ou discurso social e político nacional? Seria relativamente fácil responder à primeira hipótese com mais algum trabalho de busca de informação. Mas a segunda requer um trabalho de antropologia informática (social informatics) que eu não tenho competência para fazer.
No entanto, dados os resultados muito intuitivos da rede de políticos, penso que de facto estes resultados capturam também algum fenómeno social real nos blogs. Os comentários que vi foram mais sobre os blogs do que sobre os políticos, mas se notarem a rede do co-ocorrência de políticos (por exemplo a que mostra vertices com pelo menos 10% de co-ocorrência), as associações obtidas deste modo automático são bastante razoáveis na forma como reflectem a realidade.
Muito obrigado pela bomba de ouro, pela gentileza do Francisco, pela contaminação, comentário do irmão da esquerda e a falta de explicação do irmão contrário!
Antes de mais, a formula exacta de proximidade que utilizei não foi bem a que publiquei aqui. A formula exacta foi:
dados os dois conjuntos:
B = {contra a corrente, abrupto, pastilhas, aviz, bomba inteligente, a causa foi modificada, memória inventada, barnabé , gato fedorento, ritz, blog de esquerda, causa liberal, janela indiscreta, coluna infame}
P = {Ramalho Eanes , Mário Soares , Freitas do Amaral , Cavaco e Silva , António Guterres , Durão Barroso , Jorge Sampaio , Álvaro Cunhal , Ferro Rodrigues , Paulo Portas, Santana Lopes}
a probabilidade de co-ocorrência utilizada foi
prox (ti, tj)=hits ((ti AND tj) AND (termos contextuais))/hits (ti OR tj) (1)
em que (termos contextuais) = (blog OR blogue), serve para tentar reduzir o conjunto de páginas utilizadas às que são blogs ou mencionam blogs.
Algumas razões porque isto é um estudozinho (obrigado Cibertúlia):
- Infelizmente, o Altavista já não tem o operador NEAR, que retornava a co-ocorrência de duas palavras dentro de uma janela de 10 palavras. Como o Altavista agora só usa o AND ou o OR, a co-ocorrência medida é na página inteira, o que em blogs pode ser muito texto. Além do mais, como os blogs normalmente listam os seus blogs preferidos, basta existir uma menção a um político do grupo P numa página de um blog para haver uma co-ocorrência com todos os blogs aí listados ou ligados.
- Algums nomes dos blogs são utilizados para referir a outros conceitos. Por exemplo: Ritz, Abrupto e Pastilhas. Como a busca feita é com o nome inteiro, quando o nome do blog contém mais palavras, a probabilidade de uma ocorrência se referir ao blog é maior (dados os termos de contexto). Isto aplica-se também ao nome dos políticos.
Num estudo mais sério usar-se-iam uma série de técnicas de busca de informação para melhorar os resultados. Usar-se-ia alguma implementação local do NEAR em vez de AND, em vez do Altavista usar-se-ia um Crawler para ir só a páginas de blogs, etc, etc.
É importante frisar que o que as redes aqui construídas mostram é o grau de associação entre blogs, no contexto do conjunto P de políticos utilizado. Apenas isso e nada mais. Não mostra por exemplo a evolução dos blogs no tempo – o que seria uma análise diferente, tipo cladística como o Jorge refere nos comentários, muito interessante.
Alguém nos comentários pergunta também qual o significado hipotético dos resultados. Isto é a pergunta tradicional dos que se opõem à chamada “data-driven science”. Estes trabalhos, a meu ver, funcionam como um mecanismo de medição sofisticado. Portanto, precede a trabalho do método científico que carece de hipóteses bem formadas. Existe hoje uma realidade digital extensa, e há que criar aparelhos para a medir.
A medição simples aqui feita dá-nos uma perspectiva relacional dos objectos e contexto em causa. Não concordo com o comentário de que estes grafos nos dão a perspectiva dos objectos vistos de longe. O que se vê é uma perspectiva de rede (relacional, associativa) que não é a obvia a partir dos links na Internet – daí eu ter disto ser isto uma perspectiva diferente. Neste caso, vemos os blogs relacionados em termos de um conjunto de políticos. Uma observação que se pode tirar desta perspectiva é que os blogs parecem agrupar-se de acordo com a proporção relativa de menções a certos políticos. Por exemplo, o grafo de correlação 0.8 mostra que os blogs 'bomba inteligente', 'causa liberal', 'contra a corrente', e 'blog de esquerda' estão ligados a páginas na web que mencionam os tais políticos em proporções muito semelhantes.
Poderiam agora fazer-se hipóteses sobre o que causa essa correlação: será um erro de medição por causa das limitações deste estudo, ou será porque estes blogs fazem parte de um mesmo debate ou discurso social e político nacional? Seria relativamente fácil responder à primeira hipótese com mais algum trabalho de busca de informação. Mas a segunda requer um trabalho de antropologia informática (social informatics) que eu não tenho competência para fazer.
No entanto, dados os resultados muito intuitivos da rede de políticos, penso que de facto estes resultados capturam também algum fenómeno social real nos blogs. Os comentários que vi foram mais sobre os blogs do que sobre os políticos, mas se notarem a rede do co-ocorrência de políticos (por exemplo a que mostra vertices com pelo menos 10% de co-ocorrência), as associações obtidas deste modo automático são bastante razoáveis na forma como reflectem a realidade.
Muito obrigado pela bomba de ouro, pela gentileza do Francisco, pela contaminação, comentário do irmão da esquerda e a falta de explicação do irmão contrário!
Comments:
<< Home
Da leviandade das minhas palavras sublinhava-se a complexidade para o seu trabalho. Com esta sua explicação mais me convenço do interesse e da oportunidade do seu «estudozinho». Parabéns!
<< Home
Post a Comment