Mit grep lassen sich Dateien nach bestimmten Textstücken durchsuchen. Die Suchmuster werden "regular expressions" (auf Deutsch: regulärer Ausdruck) genannt. Sie sind vielfältig einsetzbar, und werden nicht nur von grep verwendet.
Reguläre Ausdrücke
Bevor es an die Beschreibung des Befehls geht, soll noch kurz erläutert werden, wie man das, was man sucht, überhaupt beschreibt. Die Beschreibung eines Textmusters wird als regular expression (regulärer Ausdruck) bezeichnet. Sie sind ähnlich mathematischen Ausdrücken aufgebaut: kleinere Untereinheiten werden durch Operatoren miteinander verknüpft. grep verwendet drei Variationen von regular expressions: basic, extended und PCRE (Perl-compatible regular expressions). Die folgenden Beschreibungen beziehen sich auf die extended Variante. Um diese beim Aufruf von grep zu verwenden, kann es entweder mit dem Parameter -E aufgerufen werden, oder durch den alternativen Befehl egrep.
Die grundlegenden Einheiten eines regulären Ausdrucks sind solche, die ein einzelnes Zeichen beschreiben. Die meisten Zeichen (darunter alle Buchstaben und Ziffern) passen auf sich selbst, zum Beispiel passt "4" auf alle Vieren in einer Zeichenkette, also z.B. 456, PMA4Life, Hausnummer4 usw... . Alle Zeichen mit einer besonderen Bedeutung (wie zum Beispiel der Punkt ".") lassen sich durch das Voranstellen eines Rückstrichs "\" ihrer besonderen Bedeutung berauben. Um also einen Punkt "." zu finden muss man in dem regulären Ausdruck ein "\." verwenden. Um den Rückstrich selbst zu finden, benötigt man ein "\\".
Listen (bracket expressions)
Erwartet man an einer Stelle innerhalb des Regulären Ausdrucks nicht ein ganz bestimmtes Zeichen, sondern nur eines aus einer spezifischen Liste, so kann man dies durch eine bracket expression ausdrücken. Die Liste der Zeichen, aus der das zu findende Zeichen stammen soll, wird dazu einfach in eckigen Klammern "[]" angegeben. Um beispielsweise alle Buchstaben "a", egal ob groß oder klein, zu finden, verwendet man folgenden regulären Ausdruck: "[Aa]" Möchte man alle Zeichen finden, die nicht in der Liste stehen, die Liste also negieren, so muss das erste Zeichen in der Liste ein Caret "^" sein. Ein regulärer Ausdruck der Form "[^Aa]" passt also auf alle Zeichen, die weder ein großes noch ein kleines "a" sind.Kurzes Beispiel: "[Aa]lpha" findet alle Textstücke "Alpha" und "alpha".
Die meisten Zeichen mit besonderer Bedeutung verlieren diese Bedeutung innerhalb eines bracket expressions. Um ein Zeichen "]" in die Liste aufzunehmen, muss es an der ersten Stelle in der Liste stehen. Um das Caret "^" in die Liste aufzunehmen, kann es irgendwo in der Liste stehen, nur nicht an der ersten Stelle. Um den Bindestrich "-" in die Liste einzufügen, muss es an letzter Stelle stehen.
Darüber hinaus gibt es einige vordefinierte Listen:
-[:digit:] alle Ziffern, also [0-9]
-[:upper:] alle Großbuchstaben
-[:lower:] alle Kleinbuchstaben
-[:alpha:] alle Buchstaben, also [[:upper:][:lower:]]
-[:alnum:] alle Ziffern oder Buchstaben, also [[:digit:][:alpha:]]
-[:punct:] alle Satzzeichen bzw. Sonderzeichen
-[:graph:] alle graphischen Zeichen, also [[:alnum:][:punct:]]
-[:print:] druckbare Zeichen, also [ [:graph:]]
-[:blank:] Leerzeichen oder Tabulator
-[:space:] Zeichen die Leerraum erzeugen (Leerzeichen, Tabulator, Zeilenvorschub etc.)
-[:cntrl:] alle Steuerzeichen
Besondere Zeichen
Der Punkt "." passt auf ein beliebiges Zeichen.
Das Caret "^" findet den Anfang einer Zeile.
Das Dollarzeichen "$" findet das Ende einer Zeile.
Die Symbole "\<" passen auf den Beginn eines Wortes.
Die Symbole "\>" passen auf das Ende eines Wortes.
Wiederholungsoperatoren
Reguläre Ausdrücke können mit Hilfe dieser Operatoren öfter wiederholt werden.
"?" Der vorangegangene Ausdruck ist optional und wird maximal einmal angetroffen.
"*" Der vorangegangene Ausdruck wird beliebig oft (auch keinmal) vorgefunden.
"+" Der vorangegangene Ausdruck wird mindestens einmal gefunden.
"{n}" Der vorangegangene Ausdruck wird genau n-mal gefunden.
"{n,}" Der vorangegangene Ausdruck wird mindestens n-mal oder öfter angetroffen.
"{,m}" Der vorangegangene Ausdruck ist optional und wird maximal m-mal angetroffen.
"{n,m}" Der vorangegangene Ausdruck wird mindestens n-mal und maximal m-mal angetroffen.
Zusammenführung von regulären Ausdrücken
Mehrere reguläre Ausdrücke können durch Aneinanderfügen zusammengeführt werden. Ein solcher Ausdruck findet dann alle Zeichenketten, die aneinander gehängt zu dem jeweiligen Ausdruck passen. Das obige Beispiel "[Aa]lpha" stellt eine solche Verkettung dar. Es ist aus den Einzelnen Bausteinen "[Aa]", "l", "p", "h" und "a" aufgebaut.
Verknüpfung durch "oder"
Durch den Operator "|" lassen sich reguläre Ausdrücke mit einem "oder" verknüpfen. Der daraus entstehende Ausdruck findet Zeichenketten, die entweder auf den einen oder den anderen Ausdruck passen.Kurzes Beispiel: "[Aa]lpha|[Bb]ravo" findet alle Textstücke "Alpha", "alpha", "Bravo" und "bravo" (am Besten nur mit Parameter -E oder egrep).
Vorrang der Regeln
Ähnlich wie bei mathematischen Ausdrücken (Punkt- vor Strichrechnung) unterliegen die Verknüpfungsoperatoren einer gewissen Rangfolge: Wiederholungen kommen vor Verkettungen, die wiederum vor dem "oder" kommen. Wie auch in arithmetischen Ausdrücken lassen sich diese Regeln durch Klammern überschreiben.
Installation
Das Programm grep ist im essentiellen Paket
grep
von Ubuntu enthalten und ist deshalb auf jedem System vorinstalliert.
Verwendung
grep [Optionen] Muster [Datei...]
oder
grep [Optionen] [-e Muster | -f Datei] [Datei...]
Bevor einige praktische Beispiele die vielfältigen Verwendungsmöglichkeiten von find zeigen, zwei kurze Übersichten ...
Parameter
Parameter | Beschreibung |
-A NUM | gibt zusätzlich NUM Zeilen nach der passenden Zeile aus. |
-a text | Verarbeite eine binäre Datei, als wäre sie Text. Dies entspricht der Option --binary-files=text. |
-B NUM | gibt zusätzlich NUM Zeilen vor der passenden Zeile aus. |
-b | gibt den Byte-Offset innerhalb der Datei vor jeder gefundenen Zeile an. |
-C NUM | gibt zusätzlich NUM Zeilen von Kontext aus. Zwischen zusammenhängende Gruppen von Treffern werden Zeilen mit "–" eingefügt. |
-c | unterdrückt die normale Ausgabe und gibt stattdessen für jede Eingabedatei an, wieviele Zeilen auf die regular expression passen. |
-E | Verwendet die extended Variante beim Interpretieren der übergebenen regular expression. |
-e Muster | verwende Muster als regular expression. Nützlich um Ausdrücke zu schützen, die mit einem - beginnen. |
-F | interpretiert das übergebene Muster als eine Liste von festen Zeichenketten, die durch Zeilenumbrüche voneinander getrennt sind. |
-f Datei | beziehe die Muster aus Datei, eines je Zeile. Eine leere Datei enthält keine Muster und passt somit auf keinen String. |
-H | gibt den Dateinamen vor jedem Treffer aus. |
-h | unterdrückt die Ausgabe des Dateinamens, wenn mehrere Dateien durchsucht werden. |
-I | schließt Binärdateien aus. |
-i | unterscheide nicht zwischen Groß- und Kleinschreibung. |
-L | unterdrückt die normale Ausgabe und gibt stattdessen die Dateinamen von allen Dateien, die keine Treffer enthalten aus. Die Bearbeitung stoppt, sobald ein Treffer auftritt. |
-l | unterdrückt die normale Ausgabe und gibt stattdessen die Dateinamen von allen Dateien, die Treffer enthalten aus. Die Bearbeitung stoppt, sobald ein Treffer auftritt. |
-n | gibt die Zeilennummer vor jedem Treffer aus. |
-o | gibt nur die passende Zeichenkette aus. |
-P | verwendet Perl regular expressions. |
-q | schreibt nichts auf die Standardausgabe und stoppt beim ersten Treffer. |
-R -r | liest alle Dateien unter jedem Verzeichnis rekursiv. |
-v | Invertiert die Suche und liefert alle Zeilen die nicht auf das gesuchte Muster passen. |
-w | wählt nur solche Zeilen aus, deren Treffer aus vollständigen Wörtern bestehen. |