Hadoop综合大作业-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Hadoop综合大作业

阅读量：6909 次

发布时间：2019-06-27

本文共 660 字，大约阅读时间需要 2 分钟。

作业要求来自：

1.将爬虫大作业产生的csv文件上传到LINUX

　　首先把收集到的数据所生成的csv文件gzcc.csv上传到装有MySQL、Hive以及Hadooplinux系

2.对CSV文件进行预处理生成无标题文本文件

　　利用sed命令删除标题

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4.在Hive中查看并分析数据

　　查询发布时间，并排序，sql命令如下：

　　根据这张图可以知道平均每天发布的租房量大概为70左右，而且一个月前发布的房量非常的多可能存在非常多的劣质的房源。

　　查询发布价格，并排序，sql命令如下

　　

　　看的出价格处在2500的是最高的，其中2000的价格排名第二，而且1500、3000以及35000跟随其后，证明广州市的房租一般都在1500-3500左右

　　

查询2000-3000房租的个数，sql命令如下

有513个

创建新表进行特殊的存储，例如各个段位的房租费

查询个楼层的个数

查询每个楼层的租费其中1层最便宜

查询朝向与平均房租的关系

查询在哪个区的租房最多，可以知道天河的租房量最大

查询每个区的平均的房租为多少其中天河最多，而且房价也是最贵的

查询格局对房租的影响，其中两房一厅一卫是最多的

　　由此我们可以看得出在广州其实有很多的房源，而其中的房租也非常的贵，几乎集中在1500-3500这个范围，其中以天河区的租房数量为首其房租的金额也比较大。

转载于:https://www.cnblogs.com/hesz/p/11037448.html

你可能感兴趣的文章

选中列得到员工原来的信息

C++ 强制类型转换

关于属性的一些常用技巧

解决8080端口占用问题

8.Java5原子性操作类的应用

Python中的for...else...搭配

paypal支付页面语言版本问题

A JavaScript Image Gallery

操场边的人

内存泄漏和内存溢出

设计模式——初步学习

metabase实施文档

10.3 定位连续值范围的开始点和结束点

解析iscroll-小demo

基站定位接口说明文档

java实现邮件定时发送

差分约束【bzoj2330】[SCOI2011]糖果

ArrayList和LinkedList区别

Error_GL_KeyflexfieldDefinitionFactory.getStructureNumber无法找到应用产品

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-03 05:37:06 当前IP: 52.15.109.209 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我