Login:

iMasters | Por uma internet mais criativa e dinâmica

Feeds

Tecnologia

Feed da seção Tecnologia

Newsletter de Tecnologia


Terça-feira, 22/07/2008 - 10:00 - Por Luana Morellato
Seções relacionadas:

Aprendizado de máquina aplicado à Web

O Aprendizado de Máquina (AM) (do inglês machine learning - ML) é uma subárea da IA - Inteligência Artificial - dedicada ao desenvolvimento de algoritmos e técnicas que permitam ao computador aprender, aperfeiçoando seu desempenho em alguma tarefa através da experiência. A idéia principal é que, assim como os seres humanos, os programas sejam capazes de fazer aquisição automática de conhecimento a partir de novos dados.

Aplicações que utilizam AM são encontradas para solução de problemas em diversos ramos do conhecimento e não somente direcionadas à informática, como em problemas de biologia molecular, quimioinformática, jogos eletrônicos, sistemas de visão computacional, definição de padrões através de mineração de dados (data mining) etc.

Em computação é possível a utilização do conceito em processamento de linguagem natural, em sistemas de buscas (search engine) e envolve diversos conceitos na construção de soluções como redes neurais artificiais, modelos vetoriais, algoritmos genéticos, árvores de decisão, modelos probabilísticos etc. O intuito deste artigo é citar alguns exemplos e abrir a discussão sobre utilização de técnicas e conhecimentos dentro da área de aprendizado de máquina para auxiliar e melhorar sistemas web.

Um categorizador automático de documentos é um exemplo de aplicação que utiliza aprendizado de máquina e pode ser de grande vantagem em sites de conteúdo que organizam os textos contidos sob categorias. A construção da solução é dada da seguinte forma: primeiro é necessário executar o treino do sistema, para o qual será fornecido um conjunto de textos e as respectivas categorias nas quais eles estão contidos. Assim é possível que o sistema aprenda com os dados fornecidos para então utilizá-los na categorização de novos textos. Esse é um exemplo de algoritmo de aprendizado supervisionado, em que se tem um conjunto de dados analisado por um especialista. Quando não se dispõe de dados treinados/categorizados podem ser aplicadas técnicas de aprendizado não-supervisionado como o clustering.

Uma aplicação interessante e ainda não disponível (pelo menos não encontrada) dessa solução seria em um sistema de publicação, como o WordPress, por exemplo. Antes de postar um conteúdo, o próprio sistema poderia lhe sugerir as categorias nas quais o documento em questão estaria inserido, baseado em outros textos publicados.

Esse mesmo sistema poderia também sugerir as palavras-chave relacionadas ao texto. Assim seria possível em um texto de título "iPhone 3G é lançado, e usuários já tiveram problemas" obter palavras relacionadas como iPhone, 3G, apple, celular, lançamento, problema. O KEA é um algoritmo que utiliza AM para extração de palavras-chave em documentos. É implementado em Java e disponível gratuitamente em http://www.nzdl.org/Kea/.

Às vezes nem é preciso um sistema pronto, parte das técnicas utilizadas pode também ser usada como a aplicação do algoritmo stemmer em textos. Stemming é uma técnica de junção de palavras pela raiz morfológica, podendo ser útil para sistemas de buscas. Com a técnica, palavras como "programação", "programas", "programador" são reduzidos ao radical "program" podendo tornar mais eficiente um sistema de busca.

Um dos principais motivos para soluções como esta não estarem disponíveis ainda é o fato de nem sempre serem exatas, pois tratam de processamento de linguagem natural - além de serem custosas, uma vez que a internet exige que os sistemas sejam rápidos. Mas acredito serem válidas as discussões e o incentivo à estudos desse tipo.

Algumas fontes

Livro Information Retrieval

Artigo "Aprendizado de máquina em categorização de textos"

Classe com a implementação do Stemmer para o Português

Todos os artigos de Luana Morellato

0 comentários publicados

Poste um comentário


Os textos publicados neste espaço são de responsabilidade única de seus autores (colunistas e leitores) e podem não expressar necessariamente a opinião do iMasters.

Sobre o autor

Luana Morellato é bacharel em Ciência da Computação pela Universidade Federal do Espírito Santo, onde atualmente cursa mestrado em informática, com projeto na área de Processamento de Linguagem Natural e Recuperação de Informação. Trabalhou por 2 anos com desenvolvimento de sistemas administrativos com foco em seguro de vidro automotivo e, desde setembro de 2007, é desenvolvedora analista do iMasters.


Indique para um amigo

captcha

TI SHOP Produtos iMasters

  • Lançamento: CD-ROM Treinamento Aplicado de SQL - Lançamento! Treinamento Aplicado de SQL - Aprenda a trabalhar com SQL com bancos de dados Oracle e SQL Server. São mais de 100 tópicos explicados por Mauro Pichilliani, um articulistas mais lidos do iMasters. Aproveite! Apenas R$ 69,90 no TI SHOP.
  • Lançamento: Livro iMasters "O Encontro de 2 Mundos"- Este livro conta com 56 crônicas de profissionais mais admirados e influentes do mercado brasileiro de Internet. Aproveite o preço especial para leitores do iMasters. Apenas R$ 40,00 e envio imediato!
  • DVD Curso Completo de Photoshop - Do conceito à finalização Lançamento! Curso Completo de Photoshop, em DVD, com mais de 230 aulas dividas em 4 módulos: conceito, básico, avançado e finalização. Apenas R$ 69,50 no TI SHOP - Frete com 50% de desconto
  • DVD Javascript Starter - Curso Completo Com mais de 9 horas de vídeo-aulas, é um curso completo sobre Javascript. Ideal para quem deseja aprender a linguagem. Apenas R$ 64,90 no TI SHOP - Frete com 50% de desconto!

2001 - iMasters FFPA Informática Ltda - Todos os direitos reservados.