HTMLのタグを除去する
最近、プログラミング書く以外のお仕事が増えてきました。(証跡残したり)
めんどくさがりなので色々自動化していきたいなーと思い、ちょこちょこスクリプト書いています。
よく使いそうなもの第一弾、HTMLのタグを除去する。
package jp.ne.hatena.syoko_sasaki; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; import java.util.regex.Pattern; public class TagRemover { public static void main(String[] args) { try { URL url = new URL("ゆーあーるえる"); HttpURLConnection connection = (HttpURLConnection) url.openConnection(); BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream(), "文字コード")); Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL); String line; while ((line = reader.readLine()) != null) { line = pattern.matcher(line).replaceAll(""); System.out.println(line); } reader.close(); } catch (IOException e) { e.getMessage(); } } }
わりとInputStreamまわりの書き方忘れがちなのです。
メモメモ。
追記:Pattern.compile がループの中にありましたが、外で1回呼び出せばOKですよとアドバイスをもらいました!