ukai's blog: 即興スクリプティング

「こういうことしたいんですけど、どうすればいいですかねえ」という質問を受けた。 "こういうこと"というのは次のようなことだった。

「ああ、それならsedで簡単にできますよ。」
こんなかんじで

 % sed -ne '/^Mapping JP {/,/^}/p' datafile

しばらくして…
「実はフォーマットがちょっと違ってました。これならどうなりますか?」

テキストの入力ファイルがあり、中身は次のようなかんじ

Mapping {
 id: foo
 country: "JP"
 ...
}
Mapping {
 id: bar
 country: "AU"
 ...
}
Mapping {
 id: baz
 country: "JP"
  ...
}

「うーん、sedだとちょっと面倒だなあ。hold spaceかな」
といっていたら
「perlでmultiline regexp使ったら簡単じゃないですか？」
で、でてきたのがこれ

% perl -n0e 'print "$_\n" for /^Mapping {[^}]+country: "JP"[^}]+}/gms'\
   datafile

sedやawkのようにループして処理する(-nオプション)
record separetorとしてnull文字を設定する(-0オプション)。つまりファイルを全部一気に読む
ファイル全体に対して^Mapping {[^}]+"JP"[^}]+}にマッチする部分をそれぞれ出力する。gでglobal matching、mでmultilineとして処理する(^は文字列の先頭にマッチするのでは行頭にマッチするようになる)、sでsinglelineとして処理する(.なども改行文字にもマッチするようになる)

ちなみにsedだとこう

% sed -ne '/^Mapping {/,/^}/H;/^}/{s///;x;/country: "JP"/p}' datafile

最初s///するのを忘れていて、無駄な}がでちゃうなあというあたりでちょっとはまっていた。でもperl版より短い。

ちなみに世の中にはsgrepとかいうのがあって、次のように使えるっぽい

% sgrep 'outer("Mapping {" .. "}" containing ("country: \"JP\""))'\
   datafile

まあ、わかりやすいように見えるけどこのsyntaxを覚えとく価値はあるんかなあ。

ukai's blog