1. 首页
  2. 新闻动态
  3. 学术预告
  4. 正文
点击显示栏目

学术预告

数据挖掘工作坊No.4 | 实战爬取信息 综合示例(二)——爬取豆瓣图书

  • 来源:新闻传播学院
  • 发布者:新闻传播学院01
  • 浏览量:

5月20日下午,由我校新闻传播学院邓磊博士主讲的“数据挖掘”工作坊培训课程在我校雁塔校区二号教学楼大数据舆情监测中心会议室开展。邓磊老师继续对新闻传播学院的部分学生和老师讲解Python的基础语法,并带领大家学习基于Python语言实现数据爬虫的实践操作。

#1

知识回顾

课程开始,邓磊老师带领同学们回顾了上节课学习的运用Beautifulsoup库抓取数据的步骤以及HTML语言基础知识,并向同学们介绍了HTML语言中不同元素节点之间存在的父子同胞关系。

#2

数据结构和文件操作

在本次工作坊中,邓磊老师向大家介绍了如何运用find()和 find_all()抓取列表文本,以及get和post两种常用的请求方法,并为大家进行了具体的案例操作。随后老师让同学们尝试自己解读代码,以此加深大家对所学知识的理解与掌握。

#3

实战爬取信息数据

在实践方面,邓磊老师就上节课 爬取酷狗音乐中热歌榜的内容带领同学们进行了步骤的回顾,并让同学们举一反三,尝试对豆瓣图书的数据内容进行清洗、分类,筛选出自己所需要的信息。

数据挖掘工作坊自开设以来已举办了四期,通过四期的学习操作,学员们对于Python和网络的基本知识、爬虫的原理和流程、数据的简单抓取已经有了一定了解。但邓磊老师也告诉我们,真正想要掌握好一门计算机语言必须要历经课下的数次操练。课堂学习时间毕竟有限,只有实践方能出真知。