博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop综合大作业
阅读量:6909 次
发布时间:2019-06-27

本文共 660 字,大约阅读时间需要 2 分钟。

作业要求来自:

1.将爬虫大作业产生的csv文件上传到LINUX

  首先把收集到的数据所生成的csv文件gzcc.csv上传到装有MySQL、Hive以及Hadooplinux系

 

2.对CSV文件进行预处理生成无标题文本文件

  利用sed命令删除标题

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

 

4.在Hive中查看并分析数据

  •   查询发布时间,并排序,sql命令如下:

  根据这张图可以知道平均每天发布的租房量大概为70左右,而且一个月前发布的房量非常的多可能存在非常多的劣质的房源。

  •   查询发布价格,并排序,sql命令如下

  

  看的出价格处在2500的是最高的,其中2000的价格排名第二,而且1500、3000以及35000跟随其后,证明广州市的房租一般都在1500-3500左右

  

  • 查询2000-3000房租的个数,sql命令如下

有513个

  • 创建新表进行特殊的存储,例如各个段位的房租费

 

  • 查询个楼层的个数

 

  • 查询每个楼层的租费其中1层最便宜

 

  •  查询朝向与平均房租的关系

 

  • 查询在哪个区的租房最多,可以知道天河的租房量最大

 

  • 查询每个区的平均的房租为多少其中天河最多,而且房价也是最贵的

 

  • 查询格局对房租的影响,其中两房一厅一卫是最多的

  由此我们可以看得出在广州其实有很多的房源,而其中的房租也非常的贵,几乎集中在1500-3500这个范围,其中以天河区的租房数量为首其房租的金额也比较大。

转载于:https://www.cnblogs.com/hesz/p/11037448.html

你可能感兴趣的文章
选中列得到员工原来的信息
查看>>
C++ 强制类型转换
查看>>
关于属性的一些常用技巧
查看>>
解决8080端口占用问题
查看>>
8.Java5原子性操作类的应用
查看>>
Python中的for...else...搭配
查看>>
paypal支付页面语言版本问题
查看>>
A JavaScript Image Gallery
查看>>
框架Django
查看>>
操场边的人
查看>>
内存泄漏和内存溢出
查看>>
设计模式——初步学习
查看>>
metabase实施文档
查看>>
10.3 定位连续值范围的开始点和结束点
查看>>
解析iscroll-小demo
查看>>
基站定位接口说明文档
查看>>
java实现邮件定时发送
查看>>
差分约束 【bzoj2330】[SCOI2011]糖果
查看>>
ArrayList和LinkedList区别
查看>>
Error_GL_KeyflexfieldDefinitionFactory.getStructureNumber无法找到应用产品
查看>>