4月29日下午,由我校新闻传播学院邓磊博士主讲的“数据挖掘”工作坊培训课程在我校雁塔校区二号教学楼大数据舆情监测中心会议室开展。邓磊老师继续对新闻传播学院的部分学生和老师讲解Python的基础语法,并带领大家学习基于Python语言实现数据爬虫的实践操作。
作业讲解与知识回顾
邓磊老师首先点评了同学们在第二次数据挖掘工作坊后提交的作业,有针对性地对作业中出现的问题进行了详细讲解,并依据作业情况引入循环语句中While语句、For语句和跳出循环的讲解。之后,邓磊老师带领同学们回顾了上节课学习的条件语句、循环语句和函数等基础知识。
数据结构和文件操作
在本次工作坊中,邓磊老师为大家讲解了Jupyter Notebook的安装及使用、Python数据结构、Python文件操作、数据采集以及文本分析等内容。重点介绍了列表和字典的相关知识。邓老师授课方式风趣幽默,能够将复杂的理论知识讲的通俗易懂,并运用理论与实操相结合的方法帮助大家把所学知识融会贯通。
实战爬取信息数据
在实践方面,邓磊老师向大家介绍了Python第三方库的概念及使用方法,包括Requests库、BeautifulSoup库和Lxml库,并且为大家演练了具体案例,带着学员们爬取了酷狗音乐中热歌榜的信息,并进一步对抓取的文本进行清洗、分类,筛选出自己所需要的信息。
数据挖掘工作坊自开设以来已举办了三期。短时间内学员们已经解了Python和网络的基本知识、爬虫的原理和流程。但是要想形成自己的爬虫体系,并进一步掌握复杂、动态页面的高级Python以及爬虫策略,还需要同学们掌握基本功,熟悉各种概念,注重理论与实践相结合。