Python智能数据分析前沿技术与应用案例

2023年4月8日-4月14日

数据科学

第23期 python智能数据分析

已超过2000+ 学员学习
课程意义 :

Python智能数据分析指采用机器学习深度学习等人工智能技术开展领域数据分析,是大数据人工智能时代的核心技术,也是目前学术界和工业界的热点研究方向。

Python是目前最流行的数据分析和机器学习编程语言,其在科学计算、机器学习及深度学习领域的得到了广泛应用,并应用到各专业领域,因为其开源特性,互联网存在大量Python实现的各领域最新算法方便我们查找和使用。

掌握Python智能数据分析编程技术的人才在市场上炙手可热,Python语言编程教育将很快成为各高校的必修课。

Python是教师和科研工作者开展科学研究的高效工具,将智能数据分析计算与科研工作结合可以产出创新成果。

为加强数据分析的创新发展和技术应用,打造Python智能数据分析专业技术人才队伍,雷课将特别邀请在Python数据分析学术和研发领域一线专家,举办《Python智能数据分析前沿技术与应用案例》高级培训班。

课程目标:

学习Python语言开展智能数据分析全流程,包含网络数据爬虫数据清洗转换数据统计分析机器学习数据挖掘分析数据可视化等步骤。

通过20个不同领域场景(金融、企业、医疗、电商、影评、房产等)的应用案例实践,掌握利用Python来解决日常科研工作和项目实施中智能数据分析类问题的基本方法。。

学习了解数据分析相关前沿技术,包括大数据深度学习图像识别自然语言处理等。

通过课题梳理的知识点体系,结合本专业特点,辅助形成适合自己本学科的Python智能数据分析教学大纲。

适合人群:

1  各高等院校人工智能、数据科学、经济管理、信息管理、财务管理、统计分析相关学科;计算机、网络通信、自动化、电子工程、数理统计、电子商务、物联网工程、物流管理、信息与计算科学专等科研、教学带头人,骨干教师、博士生、硕士生;

2  从事人工智能,计算机、数据科学、互联网等相关领域的科研院所的项目负责人、科研人员、工程技术人员;

3  各地方政府信息中心负责人、技术骨干;

4  人工智能,数据科学,互联网产业投资团队,应用开发商,服务提供商等;

5  有志于数据分析,机器学习研究和应用的从业者。

时间 主题 大纲
第一天 Python数据分析三剑客(numpy、pandas、matplotlib)及应用案例 1.科学计算库numpy(Jupyter Notebook编写python程序)
1)numpy是高效的矩阵数据处理库,为Python其他库的基础;学习多维数组数据结构ndarray、数组运算
2)ufunc适用于多维数组的常用数学函数
3)基于Numpy的图像处理案例
2.数据分析工具pandas(Jupyter Notebook编写python程序)
1)pandas提供类似Excel的数据处理及高级分析功能,学习数据结构Series和DataFrame及其相关操作
2)pandas数据预处理、合并、分组、数据重塑、时序分析等
3.可视化分析matplotlib(Jupyter Notebook编写python程序)
1)可视化图表的基本元素及图形属性设置
2)常见类型绘图:点线图、直方图、散点图、热力图、箱型图
4.应用案例 (Jupyter Notebook编写python程序)
Case1:电影数据分析与可视化Pandas与Matplotlib案例
Case2:COVID-19疫情数据分析
第二天 Python网络爬虫数据采集技术及应用案例 1.网络数据爬虫基本原理(PPT介绍,网页示例)
1)爬虫基本概念 2)网络传输协议HTTP与URL
2)网页组成HTML+CSS+JavaScript
2.网页数据下载与解析(Jupyter Notebook编写python程序)
1)网页请求:如何构建请求URL、使用requests库请求数据
2)网页解析:如何解析网页、使用BeautifulSoup库解析数据
3.高级爬虫应用技术(Jupyter Notebook编写python程序)
1)如何爬取动态网页
2)如何应对网站的反爬机制
4.应用案例(Jupyter Notebook编写python程序)
Case3:链家租房信息采集案例,静态网页数据抓取,利用BeautifulSoup解析列表数据
Case4:社交网站评论抓取案例,动态网页数据抓取,利用BeautifulSoup解析表格数据
Case5:上市公司信息抓取案例,如何应对网站的反爬机制,利用API请求批量下载pdf文件
第三天 Python机器学习理论基础与scikit-learn编程应用案例 1.人工智能基本概念,机器学习的基本处理流程与关键技术(PPT介绍)
1)基本理论、基本流程、特征表示、常见算法、模型评价
2.scikit-learn主要编程方法简介(Jupyter Notebook 编写Python代码)
1)分类、回归、聚类、数据降维、模型选择、数据预处理
2)Scikit-learn基本流程编程练习
3.应用案例(Jupyter Notebook 编写Python代码)
Case6:医疗健康疾病预测案例
Case7:企业员工离职预测分析案例
第四天 Python机器学习算法进阶及应用案例 1.机器学习算法深度解析及练习(Jupyter Notebook 编写Python代码)
1)特征选择方法、模型超参选择方法介绍及编程练习
2)SVM算法介绍及编程练习
3)决策树、随机森林算法介绍及编程练习
4)回归算法介绍及编程练习
5)聚类算法介绍及编程练习
2.应用案例(Jupyter Notebook 编写Python代码)
Case8:关联挖掘:糖尿病关联因素分析案例
Case9:成年人收入水平分类案例
Case10:时序数据分析:电力消耗预测案例
Case11:商品购买量预测
Case12:房价预测回归算法对比分析
第五天 Python深度学习理论基础与图像识别应用案例 1.深度学习理论基础(PPT介绍)
1)神经元模型、感知机模型、多层神经网络
2)卷积神经网络、生成对抗网络、强化学习网络
3)常用深度学习框架TensorFlow、PyTorch、Keras
2.应用案例:(Jupyter Notebook 编写Python代码)
Case13:手写体识别深度学习案例,对比实现传统神经网络和卷积神经网络在图像处理的分类应用
Case14:时尚物品识别分类案例,学习如何提高准确率、防止过拟合与数据增强训练
第六天 Python深度学习前沿技术与自然语言处理应用案例 1.Python深度学习前沿技术(PPT介绍)
1)注意力机制模型
2)预训练语言模型
3)知识图谱
4)图神经网络
2.自然语言处理关键任务及常用算法知识点解析(PPT介绍)
1)文本表示:中文分词、实体识别、主题模型、词向量
2)文本分类:传统分类方法、深度学习方法(CNN、RNN/LSTM)
3.应用案例(Jupyter Notebook 编写Python代码)
Case15:搭建一个客服问答机器人,学习如何将文本数据转换成数字向量,利用模型解决相似问题匹配。
Case16:垃圾短信智能识别案例,分别采用传统分类方法和深度学习方法实现,学习使用深度学习序列模型解决文本处理问题,对比练习欠拟合与过拟合模型。
第七天 Python深度学习前沿技术与自然语言处理应用案例 Case17: 课程实践:航空公司客户价值分析案例(Jupyter Notebook 编写Python代码)
1)数据可视化探索
2)特征选择与构建
3)聚类算法在客户价值分析中的应用
Case18:课程实践:市财政收入分析预测(Jupyter Notebook 编写Python代码)
1)数据预处理方法
2)多重共线性数据的特征选择与构建
3)时序数据与灰色预测模型
Case19:课程实践:股票信息采集与分析(Jupyter Notebook 编写Python代码)
1)多页表格数据的网络请求分析与URL构造
2)股票信息采集与解析
3)时间序列分析模型构建与可视化分析
Case20:课程实践:豆瓣影评采集与分析(Jupyter Notebook 编写Python代码)
1)多页文本数据的网络请求分析与URL构造
2)豆瓣影评采集与解析
3)好评差评词云图绘制分析

刘老师

中国科学院软件研究所副研究员、硕士生导师,中国科学院青年创新促进会会员

作为负责人承担国家自然科学基金项目和国家重点研发计划课题,并作为骨干参与多个国家和部委科研项目。
在大数据挖掘分析平台及优化关键技术方向,研究大数据分析开发环境、大数据分布式系统优化、自动化机器学习等,研制可视化大数据分析平台,在医疗、科学大数据领域应用。在知识图谱与语义计算方向,研究知识图谱构建管理、问答系统等,在民航领域和法律领域开展应用。
在国内外著名学术期刊和会议(如CIKM、ICSME、DASSFA)发表论文30 余篇,获得发明专利4 项。

马老师

中国科学院软件研究所高级工程师

主要研究方向为文本语义分析、数据挖掘。
在大数据智能分析和数据集成中间件领域进行长期的技术攻关、系统研发、系统应用等工作,参与多项国家科研项目和企业合作项目,取得较好的科研成果,积累丰富的经验。
产品已经在政务、军工、教育、医疗、法律等多个行业和领域进行了成功应用。
合作企业:京东、中航信、华为等。在国内外期刊会议发表论文10余篇,获得国家发明专利1项。