Removendo o código HTML em um parse

criado por Lucas Schirm Caixeta em 27/10/2010 10:29am

Bom dia pessoal, este é meu primeiro artigo para o PHPBrasil, vou fazer um bem simples, porém, dependendo da aceitação e a disponibilidade de tempo irei publicando mais artigos. Espero que gostem!

Muitas vezes precisamos fazer o parse em um HTML muito sujo e sem padrão algum, sendo assim acaba sendo mais fácil fazer o Parse quando eliminamos do conteúdo o HTML.

Para eliminar o código HTML utilizaremos uma função muito simples chamada strip_tags(), esta função recebe como parâmetro o conteúdo HTML e retorna um conteúdo de texto, respeitando as quebras e identação já existente, veja o exemplo:

<?php
$codigo = file_get_contents("http://www.phpbrasil.com/");
echo strip_tags($codigo);
?>

Com isso, em uma página com o HTML complexo e bagunçado conseguimos eliminar todo o lixo para fazer o parse de forma bem mais simples.

Bom, é isso, espero que agrade, em breve devo escrever mais, espero sugestões de temas, talvez continuar nesta linha de parse.

Comentários:

Mostrando 1 - 1 de 1 comentários

Rubens Takiguti Ribeiro disse:

Lucas, com o módulo DOM, é possível varrer um HTML desordenado e até "concertá-lo". Se o objetivo principal é o parser, ele resolve bem. Afinal, com strip_tags você vai perder o valor de atributos, que talvez seja importante para o script.

Exemplo:

$arq_hqml_desordenado = '/caminho/ao/arquivo/html';
$conteudo_html_desordenado = file_get_contents($arq_html_desordenado);

$dom = new DomDocument();
$dom->loadHTML($conteudohtml_desordenado);

$dom->formatOutput = true;
$dom->recover = true;
$dom->strictErrorChecking = false;

// Obtendo o HTML reformatado
$conteudo_html_ordenado = $dom->saveHTML();

12/11/2010 10:53pm (~13 anos atrás)

Removendo o código HTML em um parse

Comentários:

Novo Comentário: