何かと便利だけど何かと忘れがちな「正規表現 / Regexp」のお話。
書き方も色々あるが、自分が使う書き方だけ書いてく。
基本の使い方
正規表現を使う目的は、
「文字列の中から指定したパターンに一致する部分を抽出する」
ことが大体だと思う。ちょっとややこしい文字列内の検索みたいなもん。
まず、単純に正規表現オブジェクトを作るには、見つけたい文字列を // で囲む。
regexp = /Str/
そしてこれを "String"[regexp] という形式で使う。
"I am String"[/Str/] #=> "Str"
任意文字にマッチ
とにかくなんにでもマッチしてほしければ /.*/ と書く。
しかしそのまま使っても意味は無いので、一定の区間にある
全ての文字にマッチしてくれ的な時にあわせて使う感じ。
"abcdefghijk"[/a.*g/] #=> abcdefg .* が b..f にマッチしている
キャプチャ
"[255, 128, 64]"
「 [ ] の中の数字を抽出するとかどうするの? 」
「え、1項目ずつ取ったりするの?」となりそうだが、そんな必要はない。
string = "[255, 128, 64]" if string[/\[(.*),(.*),(.*)\]/] r = $1.to_i #=> 255 g = $2.to_i #=> 128 b = $3.to_i #=> 64 end
抽出したい部分を ( ) で囲う。
マッチするとグローバル変数 $1, $2, $3, ...に、
( )の中の文字列がマッチした順番通りに入っているというわけ。
ちなみに"[ ]"にマッチさせたい場合は
それぞれ \[ \] とエスケープを掛けなければならない。
更に、もっと厳密にマッチさせたいなら以下のように書いたりできる。
string = "[ 255 , 128 , 64 ]" if string[/\[\s*(\d*)\s*,\s*(\d*)\s*,\s*(\d*)\s*\]/] puts $1 #=> 255 puts $2 #=> 128 puts $3 #=> 64 end
空白が余計に入ってても取れるし、数字以外が入ってたら弾いてくれる。
ただ非常にごちゃごちゃして何がしたい正規表現かは見にくい。
要素が2個だったり3個だったり4個だったりと可変長なら、
[ ]内 をまとめて取って、.splitで句切ってあげるのが無難かも。
string = "[255, 128, 64, 32]" if string[/\[(.*)\]/] $1.split(",").each { |val| p val.to_i } #=> 255 128 64 32 end
文字列の置き換え
正規表現でマッチした文字列をそのまま置き換えることもできる。
一回置き換えるだけならこんな感じ。
text = "12345" text[/[12345]/] = "n" puts text #=> n2345
全部置き換えたい場合は .gsub というメソッドを使えば大体いいと思う。
string = "12345" string.gsub!(/([135])/) { $1.to_i + 1 } puts string #=> 22446
普通に表示できない文字を分ける
レアケース。キーボードの入力をWin32APIで取って、
それを文字に変換してテキスト入力ができるよ的なことをしようとした時のお話。
一部のキーは入力に対して\e(エスケープ)とか\b(バックスペース)とか、
文字列に追加しても普通に表示できない文字を送ってくる。
こういうのをうまくフィルターすることが出来ないかととりあえず行き着いたのがコレ。
/\p{Other}/
見慣れない書き方だと思う。「Unicode プロパティによる文字クラス指定」らしい。
Otherというクラスを指定することで、普通に表示できない感じの文字を取得できた。
\P{Other}とpを大文字で書けば反転する。つまり普通に表示できる文字が取れる。
擬似的に半角文字、全角文字を分ける
文字の幅を単純計算したいなーと思い、半角全角で分ければいいという時に困ってしまった。
意外と半角・全角を正確に分ける手筈がないのだ。
それもそのはず、Unicodeの文字、特に東アジアの文字?は
「全角半角のすみ分けが曖昧」な文字があり、そもそもすっぱりと分けることはできない模様。
どうしようと行き着いた先に辿り着いた正規表現がこれだった。
/[。-゚[:ascii:]]/
まーた見慣れない正規表現を持ち出してきたよこの人は…(私だ)
この変顔みたいな正規表現で
- ASCII文字(半角英数字)
- 半角カナ文字
- 半角記号(日本語)
これを振り分けてくれるようだ。
ちなみに、この。と゚は半角だからね!句点と半濁点の半角だからね!
あと本当にどうでもいいけど、半角半濁点の方はキャレットを合わせたり
deleteで消したりした時の挙動がおかしい。謎。
[:ascii:]はPOSIX文字クラスという何某らしい。文字クラスの中でのみ使用可能。
ちなみにこの記事が大変参考になりました。ありがとうございます。