本帖最后由 wushaominkk 于 2018-3-20 10:40 编辑
一般我们爬虫都是采用Python,自己闲的无聊就有Java编写一个简单的网易云音乐评论的抓取,这个仅仅是我开发的一个小小调试模块~目前数据保存在Mysql数据库中,后期考虑直接对接Hive存放到Hadoop采用Spark做数据分析~采用angel做机器模型训练,各位不要往死里玩哈~我还想做毕业设计呢~
下面是数据库的脚本
[SQL] 纯文本查看 复制代码 /*
SQLyog v10.2
MySQL - 5.5.36 : Database - wangyi
*********************************************************************
*/
/*!40101 SET NAMES utf8 */;
/*!40101 SET SQL_MODE=''*/;
/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;
CREATE DATABASE /*!32312 IF NOT EXISTS*/`wangyi` /*!40100 DEFAULT CHARACTER SET utf8mb4 */;
USE `wangyi`;
/*Table structure for table `comments` */
DROP TABLE IF EXISTS `comments`;
CREATE TABLE `comments` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`userId` int(11) DEFAULT NULL,
`commentId` bigint(20) DEFAULT NULL,
`time` bigint(20) DEFAULT NULL,
`content` varchar(255) NOT NULL,
`likedCount` int(11) DEFAULT NULL,
`songId` bigint(20) DEFAULT NULL,
`nickName` varchar(255) NOT NULL,
`avatarUrl` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=5513 DEFAULT CHARSET=utf8mb4 ROW_FORMAT=COMPACT;
/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;
代码的github地址
https://github.com/20100507/emotional_analysis 希望不要往死里抓啊~~~
下面就是程序采集中的截图,我采用的forkjoin框架四核一分钟1.3W评论,如果是8核效果会更好~
程序截图
程序截图
数据库截图
|