通用网络爬虫和聚焦网络爬虫尽管工作原理有一些差别,但它们抓取网页的流程是类似的。图1展示了网络爬虫抓取网页的详细流程,可以帮助大家更好地理解网络爬虫抓取网页的详细过程。 查看全文>>
Python+大数据技术文章2023-05-09 |传智教育 |网络爬虫爬取网页流程
Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)。MapReduce是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。 查看全文>>
Python+大数据技术文章2023-05-08 |传智教育 |MapReduce定义和用途,MapReduce特点,MapReduce优点和缺点
在一个 select 语句中,嵌入了另外一个 select 语句, 那么被嵌入的 select 语句称之为子查询语句,外部那个select语句则称为主查询。主查询和子查询的关系如下 查看全文>>
Python+大数据技术文章2023-05-03 |传智教育 |SQL语句,主查询和子查村
面向对象中,存在类和对象的概念,我们在类中定义了一些成员变量,例如name,age,sex ,结果发现这些成员变量,每个对象都存在(因为每个对象都可以访问)。 查看全文>>
Python+大数据技术文章2023-04-27 |传智教育 |static关键字修饰成员变量
E-R图也称为实体-联系图(Entity Relationship Diagram),是一种用图形表示的实体联系模型,由PeterChen于1976年提出。E-R图提供了表示实体型、属性和联系的方法,用来描述现实世界的概念模型。其通用的表示方式如下。 查看全文>>
Python+大数据技术文章2023-04-27 |传智教育 |E-R图,E-R图能用来做什么
Hive中的回收站是通过HDFS的Trash功能实现,Trash功能可以将HDFS中删除的文件放入回收站目录(默认回收站目录/user/root/.Trash/Current,其中回收站目录中的root会根据当前操作HDFS的用户名而变化),防止用户意外删除文件,出现无法找回的情况。Hive内部表的数据存放在... 查看全文>>
Python+大数据技术文章2023-04-26 |传智教育 |删库跑路,Hive数据误删,内部表误删怎么办
Pydev是Python IDE中使用最普遍的,原因很简单,它是免费的,同时还提供很多强大的功能来支持高效的Python编程。Pydev是一个运行在Eclipse 上的开源插件,它把Python带进了Eclipse的王国,如果你本来就是一个Eclipse的用户,那么Pydev将带给你家一样的感觉。如果还不是,Pydev 也值得你一试。 查看全文>>
Python+大数据技术文章2023-04-10 |传智教育 |Pydev,Python IDE免费工具
Scala的元组是对多个不同类型对象的一种简单封装,它将不同的值用括号括起来,并用逗号作分隔,即表示元组。 查看全文>>
Python+大数据技术文章2023-04-04 |传智教育 |元组,拉链操作,Scala获取和定义元组中的值