multiline regex

Re: Belohnung [was: Re: multiline regex]

Psychopath — Sat, 08 Apr 2023 21:04:51 GMT

Das schaut sehr toll aus; ich danke Dir soweit schon.
Ausprobieren tu ichs heute Nacht nimmer (ausdrucken dafuer schon, zur Eigenlektuere etc).

Danke!

Schoenen gesegneten Ostersonntag in Linz!
j.
edit: Womit darf ich Dich jetzt schon belohnen?

Re: Belohnung [was: Re: multiline regex]

Psychopath — Sat, 08 Apr 2023 21:04:51 GMT

Das schaut sehr toll aus; ich danke Dir soweit schon.
Ausprobieren tu ichs heute Nacht nimmer (ausdrucken dafuer schon, zur Eigenlektuere etc).

Danke!

Schoenen gesegneten Ostersonntag in Linz!
j.

Belohnung [was: Re: multiline regex]

colo — Sat, 08 Apr 2023 15:07:05 GMT

Nachdem der Railjet Richtung Linz gerade WLAN bietet, ueber das gefuehlt nicht mehr als 14.4kbps gehen, hab ich mich damit ein bisschen beschaeftigt

Angenommen, du hast diese Datei tagebuch.txt:


Mi 20.10.1985

Hallo Welt

Das ist mein erster Eintrag.



Di 30.10.1995

Irgendwann dazwischen

Hier haben wir noch einiges vor uns. Wir versuchen einmal, vor dem Ende auch noch was weiterzubringen.
Wenn das klappt, sind wir froh, denn awk hat uns gerettet. So kann es gehen!

Aber wenn es nicht geht, ist es auch schoen warm.


Blah Blah. Letzte Zeile des mittleren Eintrags. Danach mehr als drei Leerzeilen.








Di 30.11.2025

Ende der Welt

Das ist mein letzter Eintrag.

Und diese Datei <tagebuchparser.awk:


#!/usr/bin/awk -f


BEGIN {
 ARGV[0]=""
  for (k in ARGV) {
    begriff=ARGV[k]
    ARGV[k]=""
    if(begriff != "") {
      suchbegriffe[begriff]=1
      funde_benoetigt++
    }
  }
}

/^$/ {
  leerzeilen++
  if(leerzeilen == 3) {
    tagebuch[eintrag_index] = eintrag_text
    eintrag_text = ""
  }
}

# Beginn eines Eintrags
/(Mo|Di|Mi|Do|Fr|Sa|So) [0-9][0-9]\.[0-9][0-9]\.[0-9][0-9][0-9][0-9]/ {
  leerzeilen=0
  eintrag_index=$2
}

# Alles andere an Text
/.+/ {
  leerzeilen=0
  eintrag_text = eintrag_text "\n" $0
}

END {
  tagebuch[eintrag_index] = eintrag_text
  for (idx in tagebuch) {
    seiten_insg++
    funde_pro_eintrag=0
    for (bgr in suchbegriffe) {
      if(tagebuch[idx] ~ bgr) {
        funde_pro_eintrag++
      }
    }
    if(funde_pro_eintrag == funde_benoetigt) {
      gefundene_seiten++
      print "-[START]----[" idx "]-"
      print tagebuch[idx]
      print "-[ENDE]----------------"
      print ""
    }
  }
  printf("Suche beendet. %d von %d Seiten (~%.0f%%) waren Treffer.\n",
         gefundene_seiten, seiten_insg, (100 * gefundene_seiten / seiten_insg))
}

... dann solltest du mit Aufrufen der Art:


./tagebuchparser.awk < tagebuch.txt Welt Ende

./tagebuchparser.awk < tagebuch.txt mein erster Eintrag

... ungefaehr das kriegen, was du haben wolltest. Oder?

Re: multiline regex

traut — Fri, 24 Sep 2021 08:55:44 GMT

Ich würde die Mehrzeiler einfach zu Einzeilern umwandeln und dann in denen suchen.

Ob dir für die Umwandlung ein \n[^\n] reicht (nächste Zeile enthält Zeichen) oder du noch Zeilen mit Leerzeilen oder mit Einrückungen (Tabs, Leerzeichen) betrachten willst, das hängt von dir ab.

Re: multiline regex

at_emp — Thu, 29 Oct 2020 12:42:35 GMT

Das Problem ist dem vorigen Thread hier sehr ähnlich.

Gesetzt dem Fall, dass ich es richtig verstanden habe und du trennst Tagebucheinträge durch 3 Newlines, dann könntest du es so lösen:


awk -v RS='\n\n\n' '/hallo.das/ {print}'

Wobei "hallo.das" dein Suchstring ist. Der Punkt zwischen hallo und das bewirkt, das dazwischen sowohl ein Space als auch newline sein könnte. Kannst du noch flexibler machen, z.b. mit character classes `hallo[[:space:]]+dasa'

Beispiel input für obige Suche:


Di 1.2.3

hallo
das

ist 
ein

text mit newlines und sogar einzelnen leerzeilen


Mi 2.2.3

foo
bar

PS: wenn du nur output willst kannst du print weglassen, oder dann da rein schreiben was auch immer damit weiter passieren soll

Re: multiline regex

at_emp — Thu, 29 Oct 2020 12:42:35 GMT

Das Problem ist dem vorigen Thread hier sehr ähnlich.

Gesetzt dem Fall, dass ich es richtig verstanden habe und du trennst Tagebucheinträge durch 3 Newlines, dann könntest du es so lösen:


awk -v RS='\n\n\n' '/hallo.das/ {print}'


Di 1.2.3

hallo
das

ist 
ein

text mit newlines und sogar einzelnen leerzeilen


Mi 2.2.3

foo
bar

Re: multiline regex

killerbees19 — Thu, 29 Oct 2020 07:09:37 GMT

Soll das einmalig sein? Was willst Du mit dem Ergebnis nachher machen? Sprich: Automatische Weiterverarbeitung sinnvoll/notwendig? Oder wirklich nur schnell manuell eine handvoll Einträge raus suchen?

Ganz allgemein: Der Texteditor Geany (von dem es auch Windows Binaries gibt) hat eine ganz brauchbare RegEx-Suchen/Ersetzen Funktion. Multiline ist da auch kein Problem, das nutze ich selbst immer wieder. Ein (getestetes) Beispiel kann ich Dir aber erst liefern, wenn ich wieder am PC bin...

multiline regex

Psychopath — Wed, 28 Oct 2020 21:49:09 GMT

Eigentlich nicht direkt Linux, aber auch nicht Programmierung - @Mods bitte verschiebt, wohin es Euch am passendsten erscheint; danke.

Ich fangs andersrum an: Ausgangslage ist mein laienhaft gefuehrtes Tagebuch: Eine simple Textdatei, jeder Tag beginnt mit dem Datum in Form von Di 89.45.2065, dann folgt der Text inkl. Umbruechen.
Und bis zum naechsten Tag sinds zumindest 3 Umbrueche oder Linebreaks oder \n oder wie das heisst.

Gibt es eine (multiline wohl) regex, die mir jetzt mit zwei darin vorkommenden Begriffen diesen ganzen Absatz (also vom Datum bis vor \n\n\n) liefert?

Bestenfalls was einfaches unter Windows verfuegbares; awk oder sowas. perl u.dgl. waer schon mehr (Installations-)Aufwand, aber so soll es sein..

Ich kenn mich sowieso nicht wahnsinnig aus, von multiline regexps hab ich aber echt leider keine Ahnung.

Ich danke Euch schon fuer Eure etwaigen Ueberlegungen, auch Absagen, wenn das mittels regexps nicht loesbar ist natuerlich.

Beste Gruesse und gute schiache Herbstwoche!
j.