6月3日下午,由我校新闻传播学院邓磊博士主讲的“数据挖掘”工作坊培训课程在我校雁塔校区二号教学楼大数据舆情监测中心会议室开展。邓磊老师继续对新闻传播学院的部分学生讲解Python的补充知识,并带领大家学习基于Python语言实现数据爬虫的实践操作。
知识回顾
课程开始,邓磊老师带领同学们进行了六周来所学知识的总体回顾。主要复习了Python函数的定义与调用,如运用dict函数创建字典、For循环语句与while循环语句的运用以及range函数的使用等,此外,老师还带我们回顾了GET和POST两种HTTP请求方法。
数据可视化——利用Tableau软件制图
在本次工作坊中,邓磊老师向大家介绍了如何运用Tableau制图软件,将抓取到的数据转换成柱状图、折线图以及利用所得词频制作词云图。文章词频分析——利用jieba组件统计词频
邓磊老师首先向我们介绍了jieba组件支持的三种分词模式:精确模式、全模式以及搜索引擎模式。随后带领同学们就一篇文章进行了具体的分词操作。最后老师为我们演示了如何利用tableau软件将提取的分词数据制作成词云。数据挖掘工作坊自开设以来已举办了六期,本期为最后一期。通过六期的学习操作,学员们对于Python和网络的基本知识、爬虫的原理和流程、数据的简单抓取、数据的可视化、词频的分析都有了大致了解。Python作为一种计算机编程语言,想要熟练运用还需要课下的实操。邓磊老师在与我们交流时也谈到,学习Python最好的方法就是将它运用到实际的问题中去,带着目的有意识的去学习,进步会更快。