Womit zwei Elemente aus Webseite auslesen?

Re(2): Womit zwei Elemente aus Webseite auslesen?

j. — Mon, 12 Nov 2012 21:33:36 GMT

also wenn das wie versprochen geht, dann voll super.

Re(3): XPath - Basis

dss — Wed, 31 Oct 2012 14:16:32 GMT

Ich komm eher aus der JAVA-Welt und da kenne ich keinen gängigen XML-Parser der nicht valides XML parsed. (Das von dir oben verlinkte libxml für C kannte ich nicht) Bei einem SAX-Parser kann ich mir das noch vorstellen. Bei einem DOM-Modell stell ich mir das halt spannend vor.

zB

....
....

....

....
...

Ist jetzt das 2. "p" ein Child-Element vom 1. od nicht, usw.

Re(3): XPath - Basis

dss — Wed, 31 Oct 2012 14:16:32 GMT

....
....

...

...

Ist jetzt das 2. "p" ein Child-Element vom 1. od nicht, usw.

Re(3): XPath - Basis

dss — Wed, 31 Oct 2012 14:16:32 GMT

....
....

...

...

Ist jetzt das 2. "p" ein Child-Element vom 1. od nicht, usw.

Re(5): XPath - Basis

hellbringer — Tue, 30 Oct 2012 17:44:03 GMT

einen Versuch ist es wert - ich bild mir ein, auch von XML-Parsern mit einer
gewissen HTML-Toleranz gelesen zu haben.

Richtig. zB. Libxml:

http://www.xmlsoft.org/

Re(2): XPath - Basis

hellbringer — Tue, 30 Oct 2012 17:39:55 GMT

XPath hat halt den Nachteil dass es nur bei XML-konformen XHTML
funktioniert.

Jetzt vermischt du aber XML-Parser mit XPath. Wenn der XML-Parser auch invaliden Code akzeptiert, dann kann auch hier XPath angewendet werden.

Re(4): XPath - Basis

user86060 — Tue, 30 Oct 2012 16:32:08 GMT

Naja. Ein schön strukturiertes HTML muss noch lange nicht valides XML
sein. Gerade wenn ich fremden HTML-Code parse würde ich jetzt nicht davon
ausgehen.

einen Versuch ist es wert - ich bild mir ein, auch von XML-Parsern mit einer gewissen HTML-Toleranz gelesen zu haben.

Re(3): XPath - Basis

dss — Tue, 30 Oct 2012 16:29:52 GMT

Naja. Ein schön strukturiertes HTML muss noch lange nicht valides XML sein. Gerade wenn ich fremden HTML-Code parse würde ich jetzt nicht davon ausgehen.

Re(2): XPath - Basis

user86060 — Tue, 30 Oct 2012 16:16:40 GMT

XPath hat halt den Nachteil dass es nur bei XML-konformen XHTML
funktioniert.

sicher - hatte ich oben schon geschrieben.

Aber man will doch hoffen, daß, wenn man schon Code mit Attributen wie "class=" u.ä. vor sich hat, der als ganzes "valid" ist - sonst würde sich der damals eh schon zu späte Normierungsdrang in dem Bereich ad absurdum führen.

Re: XPath - Basis

dss — Tue, 30 Oct 2012 16:11:31 GMT

XPath hat halt den Nachteil dass es nur bei XML-konformen XHTML funktioniert.

Re: Womit zwei Elemente aus Webseite auslesen?

mjy@geizhals.at — Sat, 27 Oct 2012 20:56:18 GMT

Ganz ohne Programmierkenntnisse gehen so einfache Sachen eigentlich mit Yahoo Pipes:

http://pipes.yahoo.com/

Für PHP gibt es auch diverse Libraries mit der gängigen CSS-Selektor-Syntax um solche HTML-Sachen auszulesen:

http://code.google.com/p/phpquery/

http://simplehtmldom.sourceforge.net/

http://querypath.org/

http://pqlite.com/

Re: Womit zwei Elemente aus Webseite auslesen?

ZombyKillah — Sat, 27 Oct 2012 17:40:49 GMT

Such dir was aus:
bash, php, etc.

Ich persönlich würde bash sagen ...
Solte sinch in 10-20 Zeilen ausgehen.

Bitte keine Meldungen, dass es in einer Zeile auch möglich ist ... wir wollen ja eine Übersicht behalten *gG*

Re(11): Womit zwei Elemente aus Webseite auslesen?

user86060 — Sat, 27 Oct 2012 16:39:40 GMT

Ich könnte dir ein Beispiel geben, wo du mit Regex deutlich mehr zu tun hast
als mit XPath. Die Frage ist halt ob du gewillt bist dieses zu lösen

der Knackpunkt ist wohl: wer beides einigermassen beherrscht, würde nie auf die Idee kommen, das regexp/glob-patterns oder ähnliches für xml/html zu benutzen (es sei denn, er hätte xpath partout nicht zur Verfügung)

Natürlich kann man alles mit regexp/flex erschlagen, aber jeder, der die ernsthaft benutzt hat, weiß, wie fehlerhaft die Patterns da sein können und wie schwierig das Debuggen.
Da ist die Abstraktion durch die Grundstruktur von XML eine große Sorge weniger.

Re(10): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 16:34:33 GMT

Seit wann gibt es beim Programmieren nur einen richtigen Weg?

Nur weil es mehrere richtige gibt, ist der falsche nicht auch gleich richtig

Es ging um ein Beispiel von vielen.

Ich könnte dir ein Beispiel geben, wo du mit Regex deutlich mehr zu tun hast als mit XPath. Die Frage ist halt ob du gewillt bist dieses zu lösen

Re(10): Womit zwei Elemente aus Webseite auslesen?

dizo — Sat, 27 Oct 2012 16:25:09 GMT

Das ist es. Anscheinend braucht er etwas das schnell und einfach funktioniert.

Tjo, bei 1600 Webseiten geh ich eben damit durch, das geht auch schnell, Entwicklungsaufwand (kommt drauf an wo die 1600 Webseiten stehen) um die 5-7 Minuten.

Re(9): Womit zwei Elemente aus Webseite auslesen?

dizo — Sat, 27 Oct 2012 16:22:17 GMT

Nur weil man etwas oft falsch macht, wird es nicht richtiger

Seit wann gibt es beim Programmieren nur einen richtigen Weg?

Bin nur am Handy online - aber in etwa so:

http://stackoverflow.com/questions/3602251/php-regex-find-text-between-custom-added-html-tags

Es ging um ein Beispiel von vielen.

Re(9): Womit zwei Elemente aus Webseite auslesen?

user86060 — Sat, 27 Oct 2012 14:28:42 GMT

Nur weil man etwas oft falsch macht, wird es nicht richtiger

Ist halt leider oft so: Wenn man nur einen Hammer hat, schaut alles aus wie ein Nagel.

Für hie + da was zusammenbasteln ... was soll's ... für wiederholte + wartbare Tätigkeiten und Ergebnisse muß man eben ein passendes Werkzeug suchen + erlernen, oder im schlimmsten Fall selbst eine passende domain specific language + Parser erstellen. Spätestens dort trennt sich bei Programmierern die Spreu vom Weizen.

XPath - Basis

user86060 — Sat, 27 Oct 2012 14:24:02 GMT

hat etwas gedauert ... mein firebug spinnt ...
ausgehend von einer leicht korrigierten .xml-Datei + dem gängigen Perl-Commandline-xpath-Tool:

55,33

bla

Mein Titel

anderes Zeugs


xpath test.xml "//div[@class=\"price\"]" 

xpath test.xml "//div[@id=\"title\"]"

liefern:


Found 1 nodes:
-- NODE --

	bla
	


---------
Found 1 nodes:
-- NODE --
55,33

anzupassen ist der Basis-Pfad der Verschachtelung, ev. nur per *

um den Value zu bekommen: /text() (für den Zahlenwert müßt ich nachschauen)


//div[@class=\"price\"]/text()

//div[@id=\"title\"]/text()

-------
mehr dazu http://www.w3schools.com/xpath/xpath_syntax.asp und eben die Tutorials auf zvon.org

hier ein Beispiel, wie man damit unter Unix + bash arbeiten kann: http://www.ibm.com/developerworks/xml/library/x-tipclp/index.html

XPath - Basis

user86060 — Sat, 27 Oct 2012 14:24:02 GMT

hat etwas gedauert ... mein firebug spinnt ...
ausgehend von einer leicht korrigierten .xml-Datei + dem gängigen Perl-Commandline-xpath-Tool:




	55,33



	
	bla
	

	
		Mein Titel

		anderes Zeugs

-----------


xpath test.xml "//div[@class=\"price\"]" 

xpath test.xml "//div[@id=\"title\"]"

liefern:


Found 1 nodes:
-- NODE --

	bla
	


---------
Found 1 nodes:
-- NODE --
55,33

anzupassen ist der Basis-Pfad der Verschachtelung, ev. nur per *

um den Value zu bekommen: /text() (für den Zahlenwert müßt ich nachschauen)


//div[@class=\"price\"]/text()

//div[@id=\"title\"]/text()

XPath - Basis

user86060 — Sat, 27 Oct 2012 14:24:02 GMT

hat etwas gedauert ... mein firebug spinnt ...
ausgehend von einer leicht korrigierten .xml-Datei + dem gängigen Perl-Commandline-xpath-Tool:


xpath test.xml "//div[@class=\"price\"]" 

xpath test.xml "//div[@id=\"title\"]"

liefern:


Found 1 nodes:
-- NODE --

	bla
	


---------
Found 1 nodes:
-- NODE --
55,33

anzupassen ist der Basis-Pfad der Verschachtelung, ev. nur per *

um den Value zu bekommen: /text() (für den Zahlenwert müßt ich nachschauen)


//div[@class=\"price\"]/text()

//div[@id=\"title\"]/text()

Re(8): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 13:36:25 GMT

Doch, schon oft verwendet

Nur weil man etwas oft falsch macht, wird es nicht richtiger

Bin nur am Handy online - aber in etwa so:

http://stackoverflow.com/questions/3602251/php-regex-find-text-between-custom-added-html-tags

Das ist ein ganz spezieller Sonderfall und außerdem kein gültiger HTML-Code.

Re(7): Womit zwei Elemente aus Webseite auslesen?

dizo — Sat, 27 Oct 2012 13:28:25 GMT

Doch, schon oft verwendet

Bin nur am Handy online - aber in etwa so:

http://stackoverflow.com/questions/3602251/php-regex-find-text-between-custom-added-html-tags

Re(6): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 13:23:49 GMT

Warum? Ich suche nach dem String der genau zwischen der klasse und dem Ende
des Elementes liegt.

Einfach gesagt, aber nicht einfach gemacht.

Re(5): Womit zwei Elemente aus Webseite auslesen?

dizo — Sat, 27 Oct 2012 13:20:25 GMT

Warum? Ich suche nach dem String der genau zwischen der klasse und dem Ende des Elementes liegt.

Ist ein Aufwand von 3 Minuten

Re(9): Womit zwei Elemente aus Webseite auslesen?

user86060 — Sat, 27 Oct 2012 13:13:42 GMT

Fragt sich, ob das überhaupt legal ist, was er vor hat. Am Ende leistet man
noch Beihilfe...

ich hab nicht vor, auch noch paranoid zu werden, weil dann müsste man über kurz oder lang jedes technische Support-Forum schliessen....

Re(8): Womit zwei Elemente aus Webseite auslesen?

user86060 — Sat, 27 Oct 2012 13:12:25 GMT

Ich suche eine Sprache, wo ich mir anhand von Codeschnipseln und Internet
Beispielen schnell was zusammen zimmern kann, und kein Lebensprojekt!

gib mir eine Viertelstunde ...

Re(8): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 13:10:51 GMT

in diesem Fall könnte man es dabei belassen, ihm die 2 XQueries
zusammenzustellen und dann in einem Shell/cmd-Script zu kombinieren.Wenn dann
noch mehr damit gewurschtelt werden soll, kommt er um das Erlernen einer
Sprache eh nicht herum.

Fragt sich, ob das überhaupt legal ist, was er vor hat. Am Ende leistet man noch Beihilfe...

Denn er könnte ja auch den Webseitenbetreiber fragen, ob er ihm die Rohdaten direkt zur Verfügung stellt, was deutlich einfacher wäre.

Re(8): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 13:10:51 GMT

in diesem Fall könnte man es dabei belassen, ihm die 2 XQueries
zusammenzustellen und dann in einem Shell/cmd-Script zu kombinieren.Wenn dann
noch mehr damit gewurschtelt werden soll, kommt er um das Erlernen einer
Sprache eh nicht herum.

Fragt sich, ob das überhaupt legal ist, was er vor hat. Am Ende leistet man noch Beihilfe...

Re(7): Womit zwei Elemente aus Webseite auslesen?

waltkers — Sat, 27 Oct 2012 13:10:06 GMT

Ich suche eine Sprache, wo ich mir anhand von Codeschnipseln und Internet Beispielen schnell was zusammen zimmern kann, und kein Lebensprojekt!

Re(7): Womit zwei Elemente aus Webseite auslesen?

user86060 — Sat, 27 Oct 2012 13:07:16 GMT

Du willst also, dass dir jemand sagt, welche Sprache du lernen sollst?

in diesem Fall könnte man es dabei belassen, ihm die 2 XQueries zusammenzustellen und dann in einem Shell/cmd-Script zu kombinieren.
Wenn dann noch mehr damit gewurschtelt werden soll, kommt er um das Erlernen einer Sprache eh nicht herum.

Re(6): Womit zwei Elemente aus Webseite auslesen?

user86060 — Sat, 27 Oct 2012 13:01:52 GMT

Ja toll, ich habe auch voll die Zeit mich jetzt nicht nur in eine, sondern
gleich mindestens zwei! neue Programmiersprachen einzuarbeiten, Programmier
Erfahrung darin zu sammeln und dann auch noch zu lernen wie die zwei Sprache
zusammen arbeiten könnten.

1. ist XPath nur eine Syntax, keine Sprache (denn es passiert auf dieser Ebene nichts prozedurales, das wäre erst XSLT

2. die Art und Weise wie Scriptsprachen dann mit XPath/DOM interagieren, ist idR sehr geradlinig und kaum komplexer, als SQL-Anbindungen.

3. XPath / Xquery / DOM ist punkto Internet"programmierung" einfach Handwerkszeug und eh schon sauber abstrahiert - da gibt es (wenn wir schon bei Alternativen wie regexp/flex sind) ganz andere Levels von Komplexität, Stichwort LALR-Parser, kontextfreie Grammatiken, rückbezügliche Expressions (worin sich zB Perl von all seinen Vorgängern unterscheidet)

also: wenn dir das genannte zu kompliziert ist, dann solltest du *gehässiger*modus*an* vielleicht besser die Finger von dem lassen, was du als Programmieren betrachtest

Nichts für ungut.

Re(6): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 13:00:15 GMT

JA XPath ist sehr bekannt, ich habe glaube ich erst gerade im Jahr 2001 das
letzte mal davon gehört, als ich mal was mit XML gemacht habe.

Was hat das eine mit dem anderen zu tun?

"jeder x-beliebigen Skriptsprache"
LOL, ich kann aber eigentlich noch keine einzige Skriptsprache, was glaubst
warum ich hier frage?

Du willst also, dass dir jemand sagt, welche Sprache du lernen sollst?

Re(5): Womit zwei Elemente aus Webseite auslesen?

waltkers — Sat, 27 Oct 2012 12:57:47 GMT

JA XPath ist sehr bekannt, ich habe glaube ich erst gerade im Jahr 2001 das letzte mal davon gehört, als ich mal was mit XML gemacht habe.

"jeder x-beliebigen Skriptsprache"
LOL, ich kann aber eigentlich noch keine einzige Skriptsprache, was glaubst warum ich hier frage?

Re(6): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 12:55:55 GMT

Also du willst gar nicht wissen, wie es funktioniert, sondern suchst jemanden, der die Arbeit für dich erledigt?

Re(4): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 12:54:57 GMT

Warum ungeeignet? Geht genauso und ist Null Aufwand.

Es ist eben ein deutlich höherer Aufwand. Man muss zig zusätzliche Fälle berücksichtigen.

Re(5): Womit zwei Elemente aus Webseite auslesen?

waltkers — Sat, 27 Oct 2012 12:50:15 GMT

Ja toll, ich habe auch voll die Zeit mich jetzt nicht nur in eine, sondern gleich mindestens zwei! neue Programmiersprachen einzuarbeiten, Programmier Erfahrung darin zu sammeln und dann auch noch zu lernen wie die zwei Sprache zusammen arbeiten könnten.

Ein Profi irgendeiner der großen Internet Skriptsprachen, könnte den Code in einer Sprache, und wahrscheinlich in ner Minute und so kaum 20 Zeilen, hier aus dem Stand herunter rattern.

Re(3): Womit zwei Elemente aus Webseite auslesen?

dizo — Sat, 27 Oct 2012 12:47:10 GMT

Warum ungeeignet? Geht genauso und ist Null Aufwand.

Re(4): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 12:25:28 GMT

Naja das sind aber alles ziemlich ausgefallene und unbekannte Lösungen?

Ehmmm... nein?!

Kann man das nicht auch mit bekannteren Sprachen realisieren?

XPath ist sehr bekannt.

Irgendwie schein es mir, als versteift ihr euch zu sehr nur auf das Auslesen
von Unterelementen.
Ich muss mit der benutzen Sprache aber auch noch Textdateien auslesen und
schreiben, Formatierungen durchführen usw..

Das geht mit jeder x-beliebigen Skriptsprache. Nimm das, mit dem du am besten zurecht kommst.

Re(4): Womit zwei Elemente aus Webseite auslesen?

user86060 — Sat, 27 Oct 2012 12:20:57 GMT

Naja das sind aber alles ziemlich ausgefallene und unbekannte Lösungen?

nein - eigentlich ist XPath als Teil des XML-Universums (solange der HTML-Code keine gröberen Syntaxverletzungen enthält) das Um und Auf für solche Verarbeitungsschritte und sämtliche bekannten Sprachen/Bibliotheken (PHP -> DOM-Tools, Java -> Saxon,....) setzen darauf auf.

Regexp oder flex/bison wären im Prinzip möglich, aber ein Schuß über das Ziel hinaus, sobald sich die Patterns ändern.

Ich muss mit der benutzen Sprache aber auch noch Textdateien auslesen und
schreiben, Formatierungen durchführen usw..

wie gesagt: sobald du die XPath-Queries zusammen hast, kannst du sie in jeder üblichen Web-Programmierumgebung einfügen und mit der dir bekannten Sprache weiterarbeiten.
Zum Erlernen und Experimentieren sind die Firefox-Plugins ideal, weil du keinen Overhead hast (erst Hello-World drumherum programmieren usw.) und sie auch Syntax-Highlighting u.ä. bieten.

Du kannst unserer Einschätzung vertrauen

Re(3): Womit zwei Elemente aus Webseite auslesen?

waltkers — Sat, 27 Oct 2012 12:06:24 GMT

Naja das sind aber alles ziemlich ausgefallene und unbekannte Lösungen?
Kann man das nicht auch mit bekannteren Sprachen realisieren?

Irgendwie schein es mir, als versteift ihr euch zu sehr nur auf das Auslesen von Unterelementen.
Ich muss mit der benutzen Sprache aber auch noch Textdateien auslesen und schreiben, Formatierungen durchführen usw..

Re(3): Womit zwei Elemente aus Webseite auslesen?

waltkers — Sat, 27 Oct 2012 12:05:40 GMT

Re(2): Womit zwei Elemente aus Webseite auslesen?

user86060 — Sat, 27 Oct 2012 11:19:54 GMT

xpath (als commandline-Tool) alleine sollte schon reichen, zumindest für einen Wert, kann aber sein, daß man zum Ausgeben beider gleichzeitig eine Scriptsprache dazu nehmen muß.

idealerweise fängt man hier an, die Syntax zu lernen:

http://zvon.org/xxl/XPathTutorial/Output_ger/example1.html

wobei einige Firefox-Plugins (xpath finder / xpath checker, firebug u.ä.) sehr hilfreich und brauchbar sind, um mit der Syntax interaktiv zu experimentieren.

Wenn man ein Vorkenntnisse bzgl. abstrakter Sprachen hat, ist die Lernkurve mit den Zvon-Tutorials sehr steil.

Re: Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 11:11:21 GMT

Die Sprache, die du suchst, nennt sich XPath:

http://de.wikipedia.org/wiki/XPath

Re(2): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 11:08:44 GMT

Php + regex.

Regex ist dafür ungeeignet.

Ein HTML-Parser wäre sinnvoller.

Re(2): Womit zwei Elemente aus Webseite auslesen?

hellbringer — Sat, 27 Oct 2012 11:08:44 GMT

Php + regex.

Regex ist dafür ungeeignet.

Ein HTML-Parser zusammen mit XPath wäre sinnvoller.

Re: Womit zwei Elemente aus Webseite auslesen?

dizo — Sat, 27 Oct 2012 11:04:38 GMT

Php + regex.

Kommt drauf an wie du die Daten verarbeiten möchtest.

Womit zwei Elemente aus Webseite auslesen?

waltkers — Sat, 27 Oct 2012 10:55:56 GMT

Mit welcher Scriptsprache(PHP, Perl, VBScript,JavaScript,Python,...) könnte ich bitte ALLE gleich wichtigen, folgenden Aufgaben schnell lösen?

Ich brauche Sprachvorschläge und Codeschnipsel, damit ich mir schnell was HALBWEGS LAUFFÄHIGES zusammen bauen kann!
Desto bekannter die Sprache desto besser, weil so kann ich selber auch besser Codeschnipsel im Internet finden probieren.

1. Ich habe eine Textdatei aus der 1600 Links AUSGELESEN werden sollen.
Alle Links haben dieselbe Domain und die gleiche Struktur des HTML Codes.

2. Zur LAUFZEIT alle 1600 Webseiten nacheinander AUFRUFEN und aus ihrem HTML Code zwei Elemente AUSLESEN.
Es handelt sich dabei um den Titel und eine Zahl.

Die Zahl "55,33" steht in folgendem Code:
<ul class="list"> <li> <div class="price">55,33</div> </li><li ...

Der Titel "Mein Titel" steht in folgendem Element:
<div id="title" class="intro "> <div class="left"> <h1>Mein Titel</h1>
<h2>anderes Zeugs</h2> </div><div...

Sowohl class="price" als auch id="title" sind im Code einmalig vorkommende Elemente.
Wie springe ich die nun an und lese ihre Unter-Elemente aus?

3.Alle Links, Zahlen, Titel sollen zum Schluss in eine lokale html- oder Text-Datei GESCHRIEBEN werden als endlose Liste.

Edit:
Ich probiers noch mal neu, denn die bisherigen Vorschläge wären leider kaum keine Hilfe oder haben sich nur auf einen winzigen Bruchteil meiner Probleme(Muster auslesen) konzentriert.
Wenn ich mir erst wochenlang selbstständig eine Sprache komplett erarbeiten muss, bin ich mit dem händischen Aufruf aller 1600 Webseiten wohl schneller!