[原创]基于Java网易云音乐评论抓取~【悠着点玩啊~】
本帖最后由 wushaominkk 于 2018-3-20 10:40 编辑一般我们爬虫都是采用Python,自己闲的无聊就有Java编写一个简单的网易云音乐评论的抓取,这个仅仅是我开发的一个小小调试模块~目前数据保存在Mysql数据库中,后期考虑直接对接Hive存放到Hadoop采用Spark做数据分析~采用angel做机器模型训练,各位不要往死里玩哈~我还想做毕业设计呢~{:1_905:}
下面是数据库的脚本
/*
SQLyog v10.2
MySQL - 5.5.36 : Database - wangyi
*********************************************************************
*/
/*!40101 SET NAMES utf8 */;
/*!40101 SET SQL_MODE=''*/;
/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;
CREATE DATABASE /*!32312 IF NOT EXISTS*/`wangyi` /*!40100 DEFAULT CHARACTER SET utf8mb4 */;
USE `wangyi`;
/*Table structure for table `comments` */
DROP TABLE IF EXISTS `comments`;
CREATE TABLE `comments` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`userId` int(11) DEFAULT NULL,
`commentId` bigint(20) DEFAULT NULL,
`time` bigint(20) DEFAULT NULL,
`content` varchar(255) NOT NULL,
`likedCount` int(11) DEFAULT NULL,
`songId` bigint(20) DEFAULT NULL,
`nickName` varchar(255) NOT NULL,
`avatarUrl` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=5513 DEFAULT CHARSET=utf8mb4 ROW_FORMAT=COMPACT;
/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;
代码的github地址
https://github.com/20100507/emotional_analysis 希望不要往死里抓啊~~~
下面就是程序采集中的截图,我采用的forkjoin框架四核一分钟1.3W评论,如果是8核效果会更好~
不懂。干什么的{:1_901:} 能不能刷听歌量{:1_927:} 云村的评论可以写很多本精彩的故事汇:lol 这个是抓取评论?不能抓取音频? 楼主爬了这么多数据是想要干啥啊 很强大 很厉害
抓取评论什么意思? 可以看看,我前两个月也刚好写了个用java小说爬虫 抓评论有何用