HTML parsen

Re(4): HTML parsen

grizzerl — Fri, 10 Oct 2008 13:21:03 GMT

Es kommen im relevanten Text keine HTML-Tags vor.
Die überflüssigen Whitespaces hab ich mit

tr -s ' '

entfernt. Danke für die Hilfe!

Re(3): HTML parsen

juwb — Fri, 10 Oct 2008 13:12:26 GMT

Re(3): HTML parsen

juwb — Fri, 10 Oct 2008 13:12:26 GMT

Mach einfach ein Leerzeichen noch vor dem /g am Ende. Es ist s/suchstring/ersetzstring/g (g heisst alle Vorkommnisse ersetzen, ohne g wird nur das erste).

Du hast dann aber vermutlich viel zu viele Leerzeichen in deinem Text, für jedes Tag halt eines. Du kannst ja noch sein 's/ +/ /g' hinterherschicken um doppelte Leerzeichen durch einzelne Leerzeichen zu ersetzen.

Normal gehören die Leerzeichen da auch nicht rein, also wenn du z.B. nur einen Teil von einem Wort mit irgendwlechen Tags hervorhebst dann hättest du später statt Teil oder Wort, eben T ei l oder W or t.

Re(2): HTML parsen

grizzerl — Fri, 10 Oct 2008 12:56:29 GMT

Perfekt! Genau so. Danke!

Jetzt noch jedes entfernte HTML-Tag gegen ein Leerzeichen austauschen, please

Re: HTML parsen

juwb — Fri, 10 Oct 2008 12:51:37 GMT

Beispiel mit Eingabe und gewünschter Ausgabe?

$ echo 'foobar' | sed 's/<[^>]*>//g'
foobar

Re: HTML parsen

juwb — Fri, 10 Oct 2008 12:51:37 GMT

Beispiel mit Eingabe und gewünschter Ausgabe?

$ echo 'foobar' | sed 's/<[^>]*>//g'
foobar

HTML parsen

grizzerl — Fri, 10 Oct 2008 12:42:11 GMT

Mittel eines Scripts bekomm ich eine HTML-Seite aus einem HTTP POST.

Die Information, die ich brauche steht in dieser 25kb HTML-Datei. Mittels grep hab ich schon alles bis auf die Zeile, in der meine Information drinsteht, heruntergebrochen.
Leider ist diese 425 Zeichen lange Zeile voll mit HTML-Tags; meine gewünschte Information ist nur rund 40 Zeichen lang.

Wie krieg ich die HTML-Tags da raus. Ich will ja nur den Text haben.
Ich kämpfe schon seit 2 Stunden mit sed und awk, aber ich krieg das einfach nicht zamm.

Hat wer einen Tipp für mich?