前言
习惯了python的爬虫,当重新使用回Java来爬虫时,显得十分的陌生.当然这不是为了好玩,在需要快速爬取大量的评论的情况下,python的性能不及于java.我小规模的测试,大概python的平均爬取网页的时间为0.3秒,而java为0.1秒~0.2秒.因此,为了高效地我还是选回了java.
爬虫演示代码
感谢知乎网友的无私奉献,我得到了爬取评论的链接:
http://club.jd.com/productpage/p-2441288-s-0-t-0-p-0.html
第一个p后面的参数是商品的id, s为评论的类型(追加与不追加),t暂时还不知道,p为页数
public String call (String url){
String content = "";
BufferedReader in = null;
try{
URL realUrl = new URL(url);
URLConnection connection = realUrl.openConnection(); //请求连接
connection.connect();
in = new BufferedReader(new InputStreamReader(connection.getInputStream(),"gbk")); //注意网页的编码
String line ;
while ((line = in.readLine()) != null){
content += line + "\n";
}
}catch (Exception e){
e.printStackTrace();
}
finally{
try{
if (in != null){
in.close(); // 数据流请求完,要关闭,避免资源空间的浪费
}
}catch(Exception e2){
e2.printStackTrace();
}
}
return content;
}
版权声明:本文为qq_30843221原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。