作者:Jess Weatherbed
杰斯天气 是专注于创意产业,计算和互联网文化的新闻作家。杰西(Jess)在Techradar开始了她的职业生涯,涵盖了新闻和硬件评论。
维基百科(Wikipedia)试图通过释放专门针对训练AI模型进行优化的数据集来阻止人工智能开发人员刮擦平台。Wikimedia基金会于周三宣布它与Kaggle合作Google拥有的数据科学社区平台托管机器学习数据 - 以英语和法语发布结构化Wikipedia内容的Beta数据集。
Wikimedia表示,由Kaggle托管的数据集是考虑到机器学习工作流程的设计,使AI开发人员更容易访问用于建模,微调,基准测试,对齐和分析的机器可读文章数据。数据集中的内容已公开许可,截至4月15日,包括研究摘要,简短描述,图像链接,Infobox数据和文章部分 - 减参考或诸如音频文件之类的非编写元素。
那个Wikipedia内容的结构良好的JSON表示根据Wikimedia,Kaggle用户可用于刮擦或解析原始文章的更具吸引力的替代品。对Wikipedia的服务器施加压力自动化自动机器人无情地消耗了平台的带宽。Wikimedia已经有内容共享协议使用Google和Internet存档,但是Kaggle的合作伙伴关系应该使该数据更容易为较小的公司和独立的数据科学家访问。
Kaggle Partnerships Lead Brenda Flynn说,随着机器学习社区提供工具和测试的位置,Kaggle非常兴奋地成为Wikimedia Foundation的数据。Kaggle很高兴能在使这些数据访问,可用和有用中发挥作用。