まず、Perlでの文字列マッチは、デフォルトでは最長マッチ(最大マッチ)です。
たとえば、以下の感じです。
◆最長マッチ
$wkstr = "AAABBBCCCAAABBBCCC"; $wkstr =~ /^(A.*)CCC/; print $1, "\n";
C:\perltest>perl t01.pl
AAABBBCCCAAABBB
これを『.*?』を使って最短マッチにすると以下の感じです。
◆最短マッチ
$wkstr = "AAABBBCCCAAABBBCCC"; $wkstr =~ /^(A.*?)CCC/; print $1, "\n";
C:\perltest>perl t02.pl
AAABBB
◆選択の最長マッチと最短マッチ
ここからが本題です。
では、以下の選択では、最短マッチが可能なのでしょうか?
$wkstr = "AAABBBCCCEEE"; $wkstr =~ /^(A.*)(CCC|DDD)/; print "No.1 ", $1, "\n"; $wkstr = "AAABBBDDDEEE"; $wkstr =~ /^(A.*)(CCC|DDD)/; print "No.2 ", $1, "\n"; $wkstr = "AAABBBCCCDDDEEE"; $wkstr =~ /^(A.*)(CCC|DDD)/; print "No.3 ", $1, "\n";
C:\perltest>perl t03.pl No.1 AAABBB No.2 AAABBB No.3 AAABBBCCC
私がテストした限りでは、選択も最長マッチなのです。
つまり、CCCよりDDDのほうが最長で、これがマッチします。
これをCCCの方の最短マッチにしたいのですが、どうやるかわからないのです。
これは、可能なのでしょうか?
具体的には、No.3のマッチ結果をAAABBBCCCでなく、AAABBBとしたいのです。
◆追記:上記の答え(masa-kさんに教えていただきました)
$wkstr =~ /^(A.*)(CCC|DDD)/;
を
$wkstr =~ /^(A.*?)(CCC|DDD)/;
とする。
・サンプル
$wkstr = "AAABBBCCCDDDEEE"; $wkstr =~ /^(A.*?)(CCC|DDD)/; print "No.4 ", $1, "\n";
C:\perltest>perl t04.pl No.4 AAABBB
いやー、分かってみれば当たり前なんだけど・・・、勘違いのツボにはまると不可能に思えてしまう・・・orz
今回の勘違いは、最短マッチというのは『複数マッチする場合に最短のもの』と理解していて・・・。
今回は『A.*』にマッチするのは一つ(単数)しかないので・・・思いつかなかったのです。
最短マッチは、単数マッチの場合でも、選択がからむ時は有効なのですね。