
编辑图片|chatgpt
一个
数据分析已经改变。知道Python,SQL和Excel之类的工具已不再足够成为数据分析师。
作为一家科技公司的数据专业人士,我亲身体验了AI将AI集成到每个员工的工作流程中。现在有一个AI工具的海洋,可以访问和分析整个数据库,并帮助您在几分钟内构建数据分析项目,机器学习模型和Web应用程序。
如果您是一个有抱负的数据专业人士,并且使用这些AI工具,那么您就会失去。很快,其他数据分析师将超越您;使用AI来优化工作流的人。
在本文中,我将引导您浏览AI工具,以帮助您保持竞争和10倍的数据分析工作流程。
使用这些工具,您可以:
- 构建和部署创意投资组合项目,以作为数据分析师雇用
- 使用普通英语创建端到端数据分析应用程序
- 加快数据工作流程并成为更有效的数据分析师
此外,本文将是有关如何使用AI工具来构建数据分析应用程序的分步指南。我们将特别关注两个AI工具 - 光标和熊猫AI。
对于本文的视频版本,请观看以下内容:
AI工具1:光标
一个
光标是一个可以访问整个代码库的AI代码编辑器。您只需在光标的聊天界面中键入提示即可,它将访问目录中的所有文件并为您编辑代码。
如果您是初学者,并且可以编写一行代码,甚至可以从一个空代码文件夹开始,并要求光标为您构建一些东西。然后,AI工具将遵循您的说明,并根据您的要求创建代码文件。
这是有关如何使用光标构建端到端数据分析项目的指南,而无需编写单行代码。
步骤1:光标安装和设置
让我们看看如何将光标AI用于数据分析。
要安装光标,只需访问www.cursor.com,下载与操作系统兼容的版本,请按照安装说明进行操作,然后将其设置为几秒钟。
这是光标接口的样子:

光标AI接口
一个
要遵循本教程,请下载train.csv
来自Kaggle上的情感分析数据集的文件。
然后创建一个名为“情感分析项目”的文件夹,然后将下载的train.csv文件移动到其中。
最后,创建一个名为的空文件app.py。
您的项目文件夹现在应该看起来像这样:

情感分析项目文件夹
一个
这将是我们的工作目录。
现在,通过导航到文件 - >“打开文件夹”,在光标中打开此文件夹。
屏幕的右侧具有聊天界面,您可以在其中将提示输入光标。请注意,这里有一些选择。让我们在下拉菜单中选择“代理”。
这告诉光标探索您的代码库,并充当AI助手,该助手将重构和调试您的代码。
此外,您可以选择要与光标(GPT-4O,Gemini-2.5-Pro等)一起使用的语言模型。我建议使用Claude-4-Sonnet,该模型以其高级编码功能而闻名。
步骤2:提示光标构建应用程序
现在,让S将此提示输入光标,要求它使用我们的代码库中的培训数据集构建端到端情感分析模型:
创建一个情感分析网络应用程序:1。使用预先训练的大杂质模型分析文本的情感(正,负或中性)2。具有一个简单的Web界面,用户可以在其中输入文本并查看结果3。以适当的颜色显示情感结果(绿色为正,红色,负面)4。立即运行而无需进行任何培训请正确连接所有文件,以便当我输入文本并单击分析时,它立即向我显示情感结果。
将此提示输入光标后,它将自动生成代码文件以构建情感分析应用程序。
一个
步骤3:接受更改和运行命令
当光标创建新文件并生成代码时,您需要单击“接受”以确认AI代理所做的更改。
光标写下所有代码后,它可能会提示您在终端上运行一些命令。执行这些命令将允许您安装所需的依赖项并运行Web应用程序。
只需单击“运行”,允许光标可以为我们运行这些命令:

运行命令光标
一个
光标构建了该应用程序后,它将告诉您将此链接复制并粘贴到您的浏览器中:

光标应用链接
一个
这样做将导致您进入情感分析Web应用程序,看起来像这样:

使用光标的情感分析应用程序
一个
这是雇主可以与之互动的成熟的Web应用程序。您可以将任何句子粘贴到此应用程序中,它将预测情绪,并将结果归还给您。
如果您是该领域的初学者并想生产您的项目,我发现像光标这样的工具非常强大。
大多数数据专业人员不知道HTML和CSS等前端编程语言,因此我们无法在交互式应用程序中展示我们的项目。
我们的代码通常位于Kaggle笔记本上,这与数百名其他申请人完全相同的申请人没有竞争优势。
但是,像光标这样的工具可以使您与竞争对手区分开。它可以通过确切地编码您的讲述来帮助您将想法转化为现实。
AI工具2:Pandas AI
一个
Pandas AI可让您在不编写任何代码的情况下操纵和分析PANDAS数据框架。
您只需要以普通英语的方式键入提示,这降低了执行数据预处理和EDA带来的复杂性。
如果您已经知道,Pandas是一个Python库,您可以用来分析和操纵数据。
您将数据读取为称为PANDAS数据框架的东西,然后允许您对数据执行操作。
让我们介绍如何使用Pandas AI执行数据预处理,操纵和分析的示例。
对于此演示,我将使用泰坦尼克号生存预测数据集在Kaggle上(下载train.csv
文件)。
对于此分析,我建议使用Python笔记本电脑环境,例如Jupyter笔记本,Kaggle Notebook或Google Colab。该分析的完整代码可以在此Kaggle笔记本。
步骤1:Pandas AI安装和设置
准备好笔记本环境后,键入以下命令以安装pandas ai:
!PIP安装Pandasai
接下来,使用以下代码加载泰坦尼克号数据框:
导入大熊猫作为pdtrain_data = pd.read_csv('/kaggle/intup/titanic/train.csv')
现在,让我们导入以下库:
导入操作系统来自Pandasai导入SmartDataFrame来自pandasai.llm.openai进口Openai
接下来,我们必须创建一个熊猫AI对象来分析泰坦尼克号火车数据集。
这意味着什么:
Pandas AI是将您的Pandas数据框架连接到大型语言模型的库。您可以使用Pandas AI连接到GPT-4O,Claude-3.5和其他LLM。
默认情况下,Pandas AI使用一种称为Bamboo LLM的语言模型。要将熊猫AI连接到语言模型,您可以访问这个网站获取API键。
然后,将API密钥输入此代码块以创建PANDAS AI对象:
#设置Pandasai API密钥#默认情况下,除非您选择其他LLM,否则它将使用Bamboollm。#您可以通过https://app.pandabi.ai获得免费的API密钥os.environ ['pandasai_api_key'] ='your-pandasai-api-key'#替换为实际键#使用默认LLM(Bamboo)创建SmartDataFramesmart_df = smartdataframe(train_data)
就我个人而言,我在检索Bamboo LLM API键时遇到了一些问题。因此,我决定从OpenAI获得一个API键。然后,我将GPT-4O模型用于此分析。
这种方法的一个警告是,OpenAi的API Keys Arent Free。您必须购买OpenAi的API代币来使用这些型号。
为此,请导航到打开AI的网站并从帐单页面。那你可以去API键页面并创建您的API密钥。
现在,您已经拥有OpenAI API密钥,需要将其输入此代码块,以将GPT-4O模型连接到Pandas AI:
#设置您的OpenAI API密钥os.environ [“ openai_api_key”] =“ your_api_key”#初始化Openai LLMllm = openai(api_token = os.environ [“ openai_api_key”],model =“ gpt-4o”)config = {“ llm”:llm,“ enable_cache”:false,“冗长”:false,“ save_logs”:true}#使用明确配置创建SmartDataFramesmart_df = smartdataframe(train_data,config = config)
现在,我们可以使用此PANDAS AI对象分析泰坦尼克号数据集。
一个
步骤2:使用Pandas AI进行EDA和数据预处理
首先,让我们从一个简单的提示开始,要求Pandas AI描述此数据集:
smart_df.chat(“您可以描述此数据集并提供摘要,将输出格式化为表。”)
您将看到一个看起来像这样的结果,并具有数据集的基本统计摘要:

泰坦尼克号数据集说明
一个
通常,我们写一些代码以获取这样的摘要。但是,使用Pandas AI,我们只需要编写一个提示即可。
如果您是一个想分析一些数据但不知道如何编写Python代码的初学者,这将为您节省大量时间。
接下来,让我们对熊猫AI进行一些探索性数据分析:
我要求它给我泰坦尼克号数据集中幸存的变量之间的关系,以及数据集中的其他一些变量:
smart_df.chat(“生存与以下变量之间存在相关性:年龄,性别,门票票价。格式化此输出为桌子。”)
上述提示应为您提供数据集中生存和其他变量之间的相关系数。
接下来,让我们要求熊猫AI帮助我们可视化这些变量之间的关系:
1。幸存和年龄
smart_df.chat(“您可以可视化生存和年龄列之间的关系吗?”)
以上提示应为您提供像这样的直方图:

泰坦尼克号数据集年龄分布
一个
该视觉效果告诉我们,年轻的乘客更有可能在撞车事故中生存。
2。幸存和性别
smart_df.chat(“您可以看到生存与性别之间的关系吗”)
您应该得到一个条形图,以展示生存和性别之间的关系。
3。幸存和票价
smart_df.chat(“您可以可视化幸存和票价之间的关系吗”)
上面的提示提出了一个盒子地块,告诉我,支付更高票价价格的乘客更有可能在泰坦尼克号坠机事故中生存。
请注意,LLM是非确定性的,这意味着您将获得的输出可能与我的不同。但是,您仍然会得到一个响应,可以帮助您更好地了解数据集。
接下来,我们可以使用此类提示进行一些数据预处理:
示例1
smart_df.chat(“分析该数据集的质量。在建立一个模型以预测生存之前,确定缺失值,离群值和潜在的数据问题。”)
示例2
smart_df.chat(“让我们从数据帧中删除机舱列,因为它缺少太多值。”)
示例3
smart_df.chat(“让我们将年龄列以中位数为中值。”)
如果您想通过我用来用pandas ai清洁此数据集的所有预处理步骤,则可以在我的我的Kaggle笔记本。
在不到5分钟的时间内,我能够通过处理缺失值,编码分类变量并创建新功能来预处理此数据集。这是在没有编写太多Python代码的情况下完成的,如果您不熟悉编程,这特别有用。
如何学习数据分析:下一步
一个
我认为,诸如光标和熊猫AI之类的工具的主要销售点是,它们允许您分析数据并在编程界面中进行代码编辑。
这要比必须将编程IDE从编程IDE中复制和粘贴到诸如Chatgpt之类的界面中要好得多。
此外,随着代码库的增长(即,如果您拥有数千条代码和10个数据集),拥有一个具有所有上下文的集成的AI工具并可以理解这些代码文件之间的连接非常有用。
如果您想学习用于数据分析的AI,那么这里还有一些我发现有帮助的工具:
- github副标士:此工具类似于光标。您可以在编程IDE中使用它来生成代码建议,甚至具有可以与之交互的聊天界面。
- Microsoft Copilot在Excel中:此AI工具可帮助您自动分析电子表格中的数据。
- Python在Excel中:这是一个扩展程序,可让您在Excel中运行Python代码。尽管这不是AI工具,但我发现它非常有用,因为它使您可以集中数据分析而无需在不同的应用程序之间切换。
Natassha Selvaraj是一位自学成才的数据科学家,对写作充满热情。Natassha写了所有与数据科学相关的内容,这是所有数据主题的真正主人。你可以与她联系LinkedIn或检查她YouTube频道。