给数据挖掘新手的保姆级教程:在Ubuntu 20.04上用Miniconda搭建Python 3.7环境(附换清华源)

张开发
2026/4/13 12:38:03 15 分钟阅读

分享文章

给数据挖掘新手的保姆级教程:在Ubuntu 20.04上用Miniconda搭建Python 3.7环境(附换清华源)
数据挖掘新手避坑指南Miniconda环境搭建与高效配置实战刚接触数据挖掘的新手们往往在第一步环境搭建上就会遇到各种坑——存储空间不足、依赖冲突、下载速度慢等问题接踵而至。本文将手把手带你用Miniconda这个轻量级工具在Ubuntu 20.04上快速搭建Python 3.7环境并通过国内镜像源加速让你把时间真正花在数据挖掘学习上而不是折腾环境。1. 为什么选择Miniconda而非Anaconda很多教程会直接推荐安装Anaconda但对于数据挖掘新手来说Miniconda往往是更明智的选择。让我们先看两者的核心区别特性AnacondaMiniconda安装包大小~3GB~100MB预装包数量150个科学计算包仅Python和Conda图形界面包含Anaconda Navigator无适用场景需要开箱即用的完整环境需要自定义轻量环境存储占用安装后可能占用10GB空间按需安装通常小于5GB对于使用虚拟机学习的新手Miniconda有三大优势节省存储空间虚拟机通常分配20-40GB空间Anaconda可能直接占用1/3环境更干净只安装必要的包避免不必要的依赖冲突学习价值更高手动安装包的过程能更好理解Python生态提示如果你在Windows系统学习且存储空间充足Anaconda可能更方便。但在Linux/虚拟机环境下Miniconda是更专业的选择。2. Ubuntu 20.04基础准备开始前请确保你的Ubuntu 20.04系统已经完成以下准备系统更新sudo apt update sudo apt upgrade -y安装基础开发工具sudo apt install -y build-essential curl git wget清理不必要的包虚拟机空间有限sudo apt autoremove --purge检查Python默认版本Ubuntu 20.04通常预装Python 3.8python3 --version3. Miniconda安装与配置3.1 下载与安装推荐使用清华镜像源下载Miniconda速度更快wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda.sh安装命令自动同意许可协议不初始化condabash ~/miniconda.sh -b -p ~/miniconda安装完成后将conda加入PATHecho export PATH$HOME/miniconda/bin:$PATH ~/.bashrc source ~/.bashrc验证安装conda --version3.2 基础配置关闭自动激活base环境避免干扰系统Pythonconda config --set auto_activate_base false配置conda清华源加速conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --set show_channel_urls yes4. 创建Python 3.7数据挖掘环境数据挖掘项目常需要特定Python版本以下是创建独立环境的正确方式conda create -n dm_env python3.7 -y激活环境并验证conda activate dm_env python --version # 应显示Python 3.7.x常用conda环境命令conda env list查看所有环境conda deactivate退出当前环境conda remove -n dm_env --all删除环境5. 高效安装数据科学包在dm_env环境中推荐以下安装策略核心数据科学包使用conda安装解决依赖更好conda install numpy pandas scikit-learn matplotlib seaborn -y深度学习相关部分包用pip安装更快pip install tensorflow keras --index-url https://pypi.tuna.tsinghua.edu.cn/simpleJupyter Notebook支持conda install jupyter notebook -y配置pip清华源加速后续pip安装pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple6. 空间优化技巧虚拟机环境空间有限这些技巧可以帮你节省数GB空间清理conda缓存conda clean --all -y选择性安装包不要一次性安装所有可能用到的包按项目需求逐步安装使用pip代替conda当包版本不敏感时pip install package_name检查磁盘使用情况conda list df -h7. 开发工具配置建议7.1 VS Code远程开发比PyCharm更轻量的选择安装VS Codesudo apt install -y code安装Python扩展和Jupyter支持选择conda环境作为解释器7.2 Jupyter Notebook优化创建快捷命令echo alias jnconda activate dm_env jupyter notebook --no-browser ~/.bashrc启动Notebookjn8. 常见问题解决方案Q: Conda安装包时出现Solving environment卡住conda update -n base -c defaults conda conda config --set channel_priority flexibleQ: Python版本混乱始终在特定conda环境中工作使用which python确认当前Python路径Q: 空间不足错误删除无用conda环境清理pip缓存pip cache purge9. 进阶管理技巧环境导出与共享conda env export environment.yml从YAML文件创建环境conda env create -f environment.yml包版本精确控制conda install pandas1.3.5 numpy1.21.2查看包依赖关系conda deps numpy10. 实战数据挖掘环境验证让我们验证环境是否准备好import numpy as np import pandas as pd from sklearn.datasets import load_iris # 加载数据 data load_iris() df pd.DataFrame(data.data, columnsdata.feature_names) # 简单分析 print(f数据维度: {df.shape}) print(df.describe()) # 可视化 import matplotlib.pyplot as plt df.hist(figsize(10,8)) plt.tight_layout() plt.show()如果这段代码能正常运行并输出统计信息和直方图恭喜你已成功搭建数据挖掘开发环境

更多文章