有多少人连Excel之类的都不会用?

机器学习课程试验--文本相似度分析

尼克徐 发布于 2015年12月28日 | 更新于 2016年01月11日
无人欣赏。

今天偷得半日闲,做了一个文本相似度分析的试验。

对wiki的名人语料库调用k-nearest neighbors算法,进行了文本相似度分析。

knn_model = graphlab.nearest_neighbors.create(people, features=['tfidf'],label='name')

结果发现,这个算法还是挺准的。

比如,查找与Obama最相似的名人,结果是Clinton等总统副总统政客等:

obama = people[people['name'] == 'Barack Obama']
knn_model.query(obama)
query_label reference_label distance rank
0 Barack Obama 0.0 1
0 Joe Biden 0.794117647059 2
0 Joe Lieberman 0.794685990338 3
0 Kelly Ayotte 0.811989100817 4
0 Bill Clinton 0.813852813853 5
[5 rows x 4 columns]

查找与Jiang Zemin最相似的名人,结果是Li Peng等等:

jiang_zemin = people[people['name']=='Jiang Zemin']
knn_model.query(jiang_zemin)
query_label reference_label distance rank
0 Jiang Zemin 0.0 1
0 Li Peng 0.808219178082 2
0 Hu Jintao 0.825938566553 3
0 Wang Chen (politician) 0.834196891192 4
0 Peng Qinghua 0.834905660377 5
[5 rows x 4 columns]

共16条回复
tinyfool 回复于 2015年12月28日

赞,加油

机器学习还是蛮好玩的

online66 回复于 2015年12月28日

可以试试word2vec哦!

尼克徐 回复于 2015年12月28日

2楼 @online66 谢谢。我用的是一套库graphlab,原理上和word2vec差不多。

1楼 @tinyfool 谢谢鼓励!:-)

flydsc 回复于 2015年12月29日

那个,一个小疑问

graphlab.nearest_neighbors.create

这个好像是KNN不是K-Means吧?

尼克徐 回复于 2015年12月29日

4楼 @flydsc 不好意思,是我错了。谢谢指出!

调用的是k-nearest neighbors算法。

bobbychen 回复于 2015年12月29日

4楼 @flydsc k-means是聚类吧~~~~

flydsc 回复于 2015年12月30日

6楼 @bobbychen 嗯,对啊,聚类算法的一种嘛~

andyli386 回复于 2016年01月04日

这个是Coursera上华盛顿大学的ML课程吧。graphlab确实不错。

bobbychen 回复于 2016年01月04日

8楼 @andyli386 你是说spark的那个包?

尼克徐 回复于 2016年01月04日

8楼 @andyli386 是那个课程。

不过我现在为了节约时间,正在跟斯坦福大学Andrew Ng的机器学习课程了。

华盛顿大学的ML课程太长,等我跟完Andrew Ng的再跟。

andyli386 回复于 2016年01月04日

10楼 @尼克徐 可以同时跟 O(∩_∩)O

andyli386 回复于 2016年01月04日

9楼 @bobbychen Dato出的graphlab,你可以搜一下。Coursera上华盛顿大学的ML课程用的就是这个。

尼克徐 回复于 2016年01月04日

12楼 @andyli386 你是在做ML方面工作吗?

andyli386 回复于 2016年01月04日

13楼 @尼克徐 没,我也是在上机器学习这门课。

尼克徐 回复于 2016年01月04日

14楼 @andyli386

我的微博

http://www.weibo.com/1596595427/profile?rightmod=1&wvr=6&mod=personinfo&is_all=1

你可以发私信给我,咱们多交流哈。

羊肉片 回复于 2016年01月11日

最近在看网易公开课上吴恩达的机器学习,很多概念豁然开朗

本帖有16个回复,因为您没有注册或者登录本站,所以,只能看到本帖的10条回复。如果想看到全部回复,请注册或者登录本站。

登录 或者 注册
相关帖子
格式建议
  • 本站使用 Markdown 格式,想了解这一格式请阅读:《用Markdown语法写文章》
  • 内容框下有实时预览框,请预览后发帖。
  • 文字前面请不要空4个英文空格
  • 每段文字之间请回两次车
  • 贴代码前点击左侧工具栏的“贴代码”按钮(
    ),然后在出现的“enter code here”处贴入你的代码。
  • 回复特定回复的时候,请点击该回复右侧的回复链接,系统将自动创建楼号和@通知。
  • @他人的时候注意,id后面请加一个空格。
  • 使用左侧工具栏“贴链接”按钮(
    )创建的优酷、土豆、youtube视频链接,将自动生成播放区域,不需要使用其他包含方式。
  • 如果要创作长篇格式复杂的帖子,本站建议Mac用户使用Mou软件,离线写好,贴入即可。
[顶 楼]
|
|
[底 楼]
|
|
[首 页]