php + file_get_contents + getElementsByTagName

Re(3): php + file_get_contents + getElementsByTagName

j. — Mon, 01 Feb 2016 12:09:34 GMT

Danke, werd ich mir durchgoogeln.
Eventuell komm ich nochmal mit was

Re(2): php + file_get_contents + getElementsByTagName

weisnet — Mon, 01 Feb 2016 10:49:02 GMT

Stichworte für Google: curl, php, post

Beispiel: http://stackoverflow.com/questions/2138527/php-curl-http-post-sample-code

Und damit das Login funktioniert: curl, php, cookie

Beispiel: http://stackoverflow.com/questions/12885538/php-curl-and-cookies

Setzt unbedingt den USER_AGENT auf was gütliges, das ist ein 08/15 grund um logins abzulehnen ..

Re(2): php + file_get_contents + getElementsByTagName

Kackwiesel — Mon, 01 Feb 2016 08:47:09 GMT

Hm... nope, in Wetterstationen hab ich mich (noch) nicht gehackt

Re(4): php + file_get_contents + getElementsByTagName

Kackwiesel — Mon, 01 Feb 2016 08:45:13 GMT

Schätze das liegt an einer Memory Begrenzung meines Hosters.... aber danke für den link, cooles Teil!

Re(3): php + file_get_contents + getElementsByTagName

mko — Mon, 01 Feb 2016 08:13:57 GMT

Auf phpfiddle.org funktionieren auch beide von hellbringers Beispielen.

Re: php + file_get_contents + getElementsByTagName

j. — Mon, 01 Feb 2016 07:29:41 GMT

Ich muß den Thread ein klein wenig hijacken:

Ich wollte mir schon seit Jahren etwas basteln um die Werte meiner Wetterstation 2x täglich auszulesen und wohin zu schreiben, aber dazu müsste ich mich einloggen können und dann ein paar Links aufrufen (inklusive Wartezeiteit bis die Daten da sind).

Wär dir sowas in dem Zusammenhang schon untergekommen?

Re(2): php + file_get_contents + getElementsByTagName

Kackwiesel — Fri, 29 Jan 2016 15:57:51 GMT

Wenn ich dein oberes Beispiel 1:1 kopiere und ausführe bekomme ich nur
=> string(0) "" <= zurück.

hm... sehr spannend. Aber danke schon mal fürs Hinweisen auf die Fehlerunterdrückung!

Re: php + file_get_contents + getElementsByTagName

hellbringer — Fri, 29 Jan 2016 15:43:21 GMT

Naja, wenn du nach Fehlern suchst, ist die Fehlerunterdrücken mit @ nicht besonders hilfreich.

Außerdem kannst du dir das file_get_contents() sparen und die Seite direkt mit loadHTMLFile() laden.

Re: php + file_get_contents + getElementsByTagName

hellbringer — Fri, 29 Jan 2016 15:43:21 GMT

Naja, wenn du nach Fehlern suchst, ist die Fehlerunterdrücken mit @ nicht besonders hilfreich.

Außerdem kannst du dir das file_get_contents() sparen und die Seite direkt mit loadHTMLFile() laden.

Edit:

Folgender Code funktioniert bei mir übrigens:

$dom = new DOMDocument();
$dom->loadHTMLFile('http://www.univie.ac.at/USI-Wien/ueb/e-mailadressen.htm');
$links = $dom->getElementsByTagName('a');

foreach ($links as $link) {
    var_dump($link->getAttribute('href'));
}

Re: php + file_get_contents + getElementsByTagName

hellbringer — Fri, 29 Jan 2016 15:43:21 GMT

$dom = new DOMDocument();
$dom->loadHTMLFile('http://www.univie.ac.at/USI-Wien/ueb/e-mailadressen.htm');
$links = $dom->getElementsByTagName('a');

foreach ($links as $link) {
    var_dump($link->getAttribute('href'));
}

Und wenn du die HTML-Fehler ignorieren möchtest:

$dom = new DOMDocument();

libxml_use_internal_errors(true);
$dom->loadHTMLFile('http://www.univie.ac.at/USI-Wien/ueb/e-mailadressen.htm');
libxml_clear_errors();

$links = $dom->getElementsByTagName('a');

foreach ($links as $link) {
    var_dump($link->getAttribute('href'));
}

Re: php + file_get_contents + getElementsByTagName

hellbringer — Fri, 29 Jan 2016 15:43:21 GMT

Naja, wenn du nach Fehlern suchst, ist die Fehlerunterdrückung mit @ nicht besonders hilfreich.

Außerdem kannst du dir das file_get_contents() sparen und die Seite direkt mit loadHTMLFile() laden.

Edit:

Folgender Code funktioniert bei mir übrigens:

$dom = new DOMDocument();
$dom->loadHTMLFile('http://www.univie.ac.at/USI-Wien/ueb/e-mailadressen.htm');
$links = $dom->getElementsByTagName('a');

foreach ($links as $link) {
    var_dump($link->getAttribute('href'));
}

Und wenn du die HTML-Fehler ignorieren möchtest:

$dom = new DOMDocument();

libxml_use_internal_errors(true);
$dom->loadHTMLFile('http://www.univie.ac.at/USI-Wien/ueb/e-mailadressen.htm');
libxml_clear_errors();

$links = $dom->getElementsByTagName('a');

foreach ($links as $link) {
    var_dump($link->getAttribute('href'));
}

Re(2): php + file_get_contents + getElementsByTagName

Kackwiesel — Fri, 29 Jan 2016 14:33:15 GMT

Ja, im Quelltext steht alles drinn, aber gute Idee!

Re: php + file_get_contents + getElementsByTagName

TuxTux — Fri, 29 Jan 2016 14:27:31 GMT

siehst Du die Links im Sourcecode?
Es kann sein, dass die Seite per JS aufgebaut wird. Dann brauchst zB phantomjs

php + file_get_contents + getElementsByTagName

Kackwiesel — Fri, 29 Jan 2016 14:24:20 GMT

Hey, ich bin auf ein Problem gestoßen und wäre für hilfreichen Input dankbar...

Ich versuche eine Website einzulesen und alle Links auszugeben. Prinzipiell funktioniert es, aber dann gibts Seiten, da enthält $links nur ein leeres Element.

Gutes Beispiel ist eine der USI-Seiten, dort klappts nicht. Die Standard.at Seite klappt hingegen problemlos und wirft alle Links aus.

$html = file_get_contents('http://www.univie.ac.at/USI-Wien/ueb/e-mailadressen.htm');
$dom = new DOMDocument;
@$dom->loadHTML($html);
$links = $dom->getElementsByTagName('a');

Irgendwer eine Idee worans liegen könnte? Thx!!

Edit: was mit einfällt - zu viele Daten im Speicher (die USI Seite ist recht fett) oder Invalides HTML?

php + file_get_contents + getElementsByTagName

Kackwiesel — Fri, 29 Jan 2016 14:24:20 GMT