(资料图)
流程:
1.爬取58同城租房信息约10万条,可以选择你想要爬取的城市,爬完生成.csv文件同时向mysql数据库保存一份;
2.上传csv到hdfs中,使用hive建表导入CSV数据。
3.一部分分析使用Spark实时计算完成,一部分分析使用hive sql完成;
4.计算结果使用sqoop工具对接到mysql数据库的指标表;
5.使用flask+echarts制作可视化大屏;
创新点:selenium采集海量租房数据、可视化大屏、spark+hive离线计算实时计算全部实现、使用NLP文本分类模型对租房信息的评论部分进行深度学习训练分析
注意:如果还觉得系统太简单不够工作量,可以选装推荐系统、预测系统、知识图谱、后台管理,我这边能1秒无缝对接,实现界面如下:
/video/BV1HL4y1b7TK/?spm_id_from=
关键词:
Copyright 2015-2023 港澳供销网版权所有 备案号: 京ICP备2023022245号-31 联系邮箱:435 226 40 @qq.com