Belohnung [was: Re: multiline regex]

multiline regex (10 Beiträge, 1166 Mal gelesen)

Du bist nicht angemeldet. [ Login/Registrieren ]

Eigentlich nicht direkt Linux, aber auch nicht Programmierung - @Mods bitte verschiebt, wohin es Euch am passendsten erscheint; danke.

Ich fangs andersrum an: Ausgangslage ist mein laienhaft gefuehrtes Tagebuch: Eine simple Textdatei, jeder Tag beginnt mit dem Datum in Form von Di 89.45.2065, dann folgt der Text inkl. Umbruechen.
Und bis zum naechsten Tag sinds zumindest 3 Umbrueche oder Linebreaks oder \n oder wie das heisst.

Gibt es eine (multiline wohl) regex, die mir jetzt mit zwei darin vorkommenden Begriffen diesen ganzen Absatz (also vom Datum bis vor \n\n\n) liefert?

Bestenfalls was einfaches unter Windows verfuegbares; awk oder sowas. perl u.dgl. waer schon mehr (Installations-)Aufwand, aber so soll es sein..

Ich kenn mich sowieso nicht wahnsinnig aus, von multiline regexps hab ich aber echt leider keine Ahnung.

Ich danke Euch schon fuer Eure etwaigen Ueberlegungen, auch Absagen, wenn das mittels regexps nicht loesbar ist natuerlich.

Beste Gruesse und gute schiache Herbstwoche!
j.

Re: multiline regex (killerbees19 am 29.10.2020, 08:09:37)

Re: multiline regex (at_emp am 29.10.2020, 13:42:35)

PLONKED von Mr. 5 (carllance am 22.09.2021, 05:38:02)

Re: multiline regex (traut am 24.09.2021, 10:55:44)

PLONKED von Mr. 5 (freetoom4 am 15.10.2021, 09:18:18)

Nachdem der Railjet Richtung Linz gerade WLAN bietet, ueber das gefuehlt nicht mehr als 14.4kbps gehen, hab ich mich damit ein bisschen beschaeftigt

Angenommen, du hast diese Datei tagebuch.txt:

Mi 20.10.1985

Hallo Welt

Das ist mein erster Eintrag.



Di 30.10.1995

Irgendwann dazwischen

Hier haben wir noch einiges vor uns. Wir versuchen einmal, vor dem Ende auch noch was weiterzubringen.
Wenn das klappt, sind wir froh, denn awk hat uns gerettet. So kann es gehen!

Aber wenn es nicht geht, ist es auch schoen warm.


Blah Blah. Letzte Zeile des mittleren Eintrags. Danach mehr als drei Leerzeilen.








Di 30.11.2025

Ende der Welt

Das ist mein letzter Eintrag.

Und diese Datei <tagebuchparser.awk:

#!/usr/bin/awk -f


BEGIN {
 ARGV[0]=""
  for (k in ARGV) {
    begriff=ARGV[k]
    ARGV[k]=""
    if(begriff != "") {
      suchbegriffe[begriff]=1
      funde_benoetigt++
    }
  }
}

/^$/ {
  leerzeilen++
  if(leerzeilen == 3) {
    tagebuch[eintrag_index] = eintrag_text
    eintrag_text = ""
  }
}

# Beginn eines Eintrags
/(Mo|Di|Mi|Do|Fr|Sa|So) [0-9][0-9]\.[0-9][0-9]\.[0-9][0-9][0-9][0-9]/ {
  leerzeilen=0
  eintrag_index=$2
}

# Alles andere an Text
/.+/ {
  leerzeilen=0
  eintrag_text = eintrag_text "\n" $0
}

END {
  tagebuch[eintrag_index] = eintrag_text
  for (idx in tagebuch) {
    seiten_insg++
    funde_pro_eintrag=0
    for (bgr in suchbegriffe) {
      if(tagebuch[idx] ~ bgr) {
        funde_pro_eintrag++
      }
    }
    if(funde_pro_eintrag == funde_benoetigt) {
      gefundene_seiten++
      print "-[START]----[" idx "]-"
      print tagebuch[idx]
      print "-[ENDE]----------------"
      print ""
    }
  }
  printf("Suche beendet. %d von %d Seiten (~%.0f%%) waren Treffer.\n",
         gefundene_seiten, seiten_insg, (100 * gefundene_seiten / seiten_insg))
}

... dann solltest du mit Aufrufen der Art:

./tagebuchparser.awk < tagebuch.txt Welt Ende

./tagebuchparser.awk < tagebuch.txt mein erster Eintrag

... ungefaehr das kriegen, was du haben wolltest. Oder?

--

echo "[q]sa[ln0=aln256%Pln256/snlbx]sb729901041524823122snlbxq"|dc

So long, and thanks for all the uptime!

Re: Belohnung [was: Re: multiline regex]

(Psychopath am 08.04.2023, 23:04:51)

Dieses Forum ist eine frei zugängliche Diskussionsplattform.
Der Betreiber übernimmt keine Verantwortung für den Inhalt der Beiträge und behält sich das Recht vor, Beiträge mit rechtswidrigem oder anstößigem Inhalt zu löschen.
Datenschutzerklärung