2004-12-16

 

Rede de Blogs e Politicos

Da mesma forma que fiz um pequeno estudo da palavra "novel" na PubMed, fiz também um estudozinho da proximidade entre alguns blogs e políticos na web. Criei dois conjuntos:

B = {contra a corrente, abrupto, pastilhas, aviz, bomba inteligente, a causa foi modificada, memória inventada, barnabé , gato fedorento, ritz, blog de esquerda, causa liberal, janela indiscreta, coluna infame}

P = {Ramalho Eanes , Mário Soares , Freitas do Amaral , Cavaco e Silva , António Guterres , Durão Barroso , Jorge Sampaio , Álvaro Cunhal , Ferro Rodrigues , Paulo Portas, Santana Lopes}

Depois calculei uma medida de proximidade que é uma probabilidade de co-ocorrência de termos (nomes) destes conjuntos em páginas web indexadas pelo Altavista:

prox (bi, pj)=hits (bi AND pj)/hits (bi OR pj) (1)


em que hits quer dizer o numero de páginas da web indexadas no Altavista em que a expressão acontece. Neste caso, a medida de proximidade é o racio entre o numero de páginas em que o blog bi co-ocorre com o político pj e o numero de páginas total em que pelo menos um destes ocorre. É assim uma probabilidade de um blog co-ocorrer com um político dado que um deles ocorreu.

A figura em baixo mostra a distribuição de proximidade de co-ocorrência de cinco blogues com o conjunto de políticos utilizado. Podemos aqui vêr, por exemplo, que quase 5% de páginas do abrupto ou que mencionam o abrupto, falam de Durão Barroso, ou que mais do 6% de páginas relacionadas com o blog de esquerda (e 3.5% do contra-a-corrente) falam de Paulo Portas...





Com estes valores de proximidade baseada em co-ocorrência, calculei também a correlação entreos vários blogues. Isto é, dois blogues são considerados muito correlacionados se a sua distribuição de proximidade no conjunto de políticos é semelhante; simplificando, quando falam na mesma proporção dos mesmos políticos.

A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.7:





A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.8:





Ambas as figuras mostram uma rede de associação de blogs mediante a sua proximidade (medida em co-ocorrência) ao conjunto de políticos utilizado. Acho interessante a grande correlação entre o blog de esquerda e o contra-a-corrente!

Finalmente, também calculei a proximidade de co-ocorrência entre estes políticos na web como é vista pelo Altavista (estamos a falar de milhões de páginas...).

prox (pi, pj)=hits (pi AND pj)/hits (pi OR pj) (2)


Esta proximidade (2) também pode ser vista como uma rede de associações. A figura em baixo mostra esta rede com todos os vertices superiores a 1%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 1% das páginas.





A figura em baixo mostra esta rede com todos os vertices superiores a 5%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 5% das páginas.





A figura em baixo mostra esta rede com todos os vertices superiores a 10%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 10% das páginas.





Talvez isto dê uma prespectiva diferente às relações entre blogs, entre políticos e entre ambos como são vistas da web!

Nota: muitos outros blogs podiam e deveriam constar deste estudozinho, talvez se eu arranjar alguem interessado a ajudar, se possa fazer algo com todos os blogs nacionais...

Comments:
Perspectiva talvez dê, no asserção do "aspecto que apresentam os objectos vistos de longe". Mas mais nada. Qual o significado hipotético de tais resultados?
 
Isto é capaz de ser a minha formação a falar (biologia), mas pergunto a mim mesmo se uma análise cladística não daria resultados mais significativos (ou pelo menos claros).
 
Ora gostei muito do lugar da Janela. Bem independente mas a caminho da modificação da causa e da invenção da memória e o menino da contra-corrente tinha de passar por lá para visitar o nosso “biltre de estimação” “;O)
 

Post a Comment



<< Home

This page is powered by Blogger. Isn't yours?

archives