首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 图书频道 > 计算机与网络 > 程序设计 >

数据科学实战 (图灵程序设计丛书)

2017-08-18 
本书脱胎于哥伦比亚大学“
商家名称 信用等级 购买信息 订购本书
数据科学实战 (图灵程序设计丛书) 去商家看看
数据科学实战 (图灵程序设计丛书) 去商家看看

数据科学实战 (图灵程序设计丛书)

本书脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义,它界定了数据科学的研究范畴,是一本注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。

网友对数据科学实战 (图灵程序设计丛书)的评论

打字错误就不说了,平均一页至少有一个。 打字错误先不说了,主要看翻译问题吧。

P42 最后一段 英:One of the most common statistical methods is linear regression. At its most basic, it’s used when you want to express the mathematical relationship between two variables or attributes. When you use it, you are making the assumption that there is a linear relationship between an outcome variable (sometimes also called the response variable, de‐ pendent variable, or label) and a predictor (sometimes also called an independent variable, explanatory variable, or feature); or between one variable and several other variables, in which cas"rest":"e you’re modeling the relationship as having a linear structure.<br /><br />中:线性回归是统计学中最常用的算法之一。从根本上来说,当你想表示两个变量间的数学关 系时,就可以使用线性回归。当你使用它时,你首先假设输出变量(有时称为响应变量、 因变量或标签)和预测变量(有时称为自变量、解释变量或特征)之间存在线性关系。当 然这种线性关系也可能存在于一个输出变量和数个预测变量之间 注2 )。<br /><br />注 2: 这称作多元线性回归。<br /><br />第一句话,显然是:线性回归是最常用的统计方法之一,翻译成算法无中生有。<br /><br />最后一句in which case漏译。<br /><br />译者加的注毫无必要。<br /><br />===========================================<br /><br />P46 第2段<br /><br />模型对于数据来说,主要是用来捕捉其中两个方面的信息:第一个是趋势(trend),第二 个是变动幅度(variation)。我们先从趋势说起。<br /><br />P49 第3段<br /><br />英:In order to get at this question of confidence, you need to extend your model. You know there’s variation among time spent on the site by people with five new friends, meaning you certainly wouldn’t make the claim that everyone with five new friends is guaranteed to spend 195.7 seconds on the site. So while you’ve so far modeled the trend, you haven’t yet modeled the variation.<br /><br />中:这在统计学上叫作置信值的问题,解答它需要将模型的内涵稍作延伸。可以想象,如果用 户的新好友数为 5,那么这些用户在网站上花费时间的预测值不可能只是一个定值 195.7 秒,一个合理的情况是这些用户花费的时间都在 195.7 秒附近波动。因此,线性模型得到 的预测值只是所有可能预测值的一个总体趋势,而围绕这个趋势的波动性还没有被模型考 虑进来。<br /><br />首先译者不能把握variation的翻译,P46翻译成变动幅度(错误),后面可能因为拿不准,就直接忽略了。 英文中最后一句trend和variation都是斜体,中文只有趋势弄成了楷体,variation对应的名词拿不准(翻译成了波动性)也就没有变字体。<br /><br />另外第一句,confidence翻译成置信值,我个人没有见过这个术语。 第一句中文“这在统计学上”是无中生有,而英文in order to表示目的没有翻译出来。整段的翻译也过于随意了。<br /><br />=============================================<br /><br />P48 第2、3段<br /><br />英:Here the little “hat” symbol on top of the β is there to indicate that it’s the estimator for β . You don’t know the true value of β ; all you have is the observed data, which you plug into the estimator to get an estimate.<br /><br />To actually fit this, to get the β s, all you need is one line of R code where you’ve got a column of y’s and a (single) column of x’s:<br /><br />中:β帽 代表 β 的估计值,真实的 β 是无从得知的。在得到 β 估计值的表达式之后,主要将观测数 据的值代入即可计算出实际的估计值。<br /><br />在 R 软件中拟合一个线性模型再简单不过了,假设有一列数据代表因变量 Y ,一列数据代 表自变量 x ,则拟合的 R 代码为:<br /><br />第一句话,译者大量省略原文(这里β上面的小帽子符号……)。<br /><br />更严重的问题是,译者不能区分 估计值estimate 与 估计量estimator 这两个概念。第一段最后一句同时出现这两个词,译者不能区分,就直接省略了一个。<br /><br />第二段第一句中to get the β s漏译了。<br /><br />最后一句,中文为Y,原文为y。统计学中Y和y含义不同,对读者造成严重误导。<br /><br />整体上这段话的翻译也过于随意。<br /><br />===============================<br /><br />P54<br /><br />英文:<br /><br />• Linearity<br /><br />• Error terms normally distributed with mean 0<br /><br />• Error terms independent of each other<br /><br />• Error terms have constant variance across values of x<br /><br />• The predictors we’re using are the right predictors<br /><br />中文:<br /><br />• 线性假设;<br /><br />• 误差项是正态分布的,并且均值为 0;<br /><br />• 误差项是相互独立的;<br /><br />• 误差项具有恒定的条件方差;<br /><br />• 预测变量都是有用的。<br /><br />第1个,直接翻译成 线性性 就可以了。<br /><br />第4个,across values of x 漏译。原文没有条件一词,但也确实是说条件方差,可以接受。另外个人感觉constant最好翻译成“为常数”,比“恒定的”稍好吧。<br /><br />第5个,原文直接翻译是 所使用的预测变量都是正确的预测变量。原文right是斜体,right的英文含义也比 正确 要广,但&#34;有用&#34;给人感觉对应中文useful,不太合适。<br /><br />===========================<br /><br />P54 第2-3行<br /><br />英:It’s possible that the true model is quadratic, but you’re assuming linearity or vice versa.<br /><br />中:很可能真实的模型是二次型的,而 你最后还是使用了线性模型。<br /><br />quadratic不能翻译成二次型,二次型是线性代数的特定术语。直接翻译成二次的(或者二次方程)就可以了。<br /><br />or vice versa漏译。<br /><br />“你最后还是使用了线性模型”翻译过于随意。<br /><br />==========================<br /><br />P16-18 sampling翻译成采样,这个词的标准翻译是抽样。更严重的是,P18第二段将抽样分布翻译成取样分布。一会儿采样,一会儿取样,都是错误翻译。<br /><br />=====================<br /><br />P17 第二个小标题<br /><br />bias翻译成偏差<br /><br />偏差在英文中对应多个词,而且不是统计学术语。而bias在统计中有特定含义,应当翻译成偏倚。 翻译成偏差不能让人想到英文说的是bias一词。<br /><br />========================<br /><br />这些都是比较集中的错误,一段中有多个错误,比较典型的。其他的不列举了。"

想成为数据科学家的,这本书可以学习一下。内容不错,我感觉,不像常见的数据挖掘书籍,按照算法来编排,这本书按照场景、或者说是技能来编排。

本书根据业内资深人士的讲座整理而成,涵盖了业内最新的算法和模型,极具启发性。翻译虽有微瑕,仍然值得推荐。
本书内容包括:
1. 探索性数据分析和数据分析建模流程
2. 常用算法和模型
3. 垃圾邮件过滤
4. 在线广告模型
5. 时序分析和金融建模
6. 特征选择
7. 推荐引擎
8. 数据可视化和欺诈侦测
9.社交网络分析和数据新闻学
10. 模型选择和评价

书的内容能得五分,翻译也通顺。但是别字太多了,拼音输入法打完后,就没有个人校对么?

喜欢数据科学实战 (图灵程序设计丛书)请与您的朋友分享,由于版权原因,读书人网不提供图书下载服务

热点排行