shokosブログ

プログラミング

HTMLのタグを除去する

最近、プログラミング書く以外のお仕事が増えてきました。(証跡残したり)
めんどくさがりなので色々自動化していきたいなーと思い、ちょこちょこスクリプト書いています。

よく使いそうなもの第一弾、HTMLのタグを除去する。

package jp.ne.hatena.syoko_sasaki;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Pattern;

public class TagRemover {

	public static void main(String[] args) {
		try {
			URL url = new URL("ゆーあーるえる");
			HttpURLConnection connection = (HttpURLConnection) url.openConnection();
			BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream(), "文字コード"));
			Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);
                        String line;
			while ((line = reader.readLine()) != null) {
				line = pattern.matcher(line).replaceAll("");
				System.out.println(line);
			}
			reader.close();
		} catch (IOException e) {
			e.getMessage();
		}
	}
}

わりとInputStreamまわりの書き方忘れがちなのです。
メモメモ。

追記:Pattern.compile がループの中にありましたが、外で1回呼び出せばOKですよとアドバイスをもらいました!