2023年数学之美手抄报 数学之美读书笔记(优质15篇)
范文为教学中作为模范的文章,也常常用来指写作的模板。常常用于文秘写作的参考,也可以作为演讲材料编写前的参考。相信许多人会觉得范文很难写?下面我给大家整理了一些优秀范文,希望能够帮助到大家,我们一起来看一看吧。
数学之美手抄报篇一
上个月去北京开会,顺道拜访了人民邮电出版社,合作多年的编辑陈冀康赠我一本《数学之美》,说一定是我喜欢看的类型。以前也在网上零散看过google黑板报上吴军先生的文章,对他的前一本书《浪潮之颠》也有耳闻,但没有读过。这次有机会集中阅读他的文章,确实是一段美妙的体验。
读完这本书有一点强烈的感受:工具一定要先进。数学是强大的工具,计算机也是。这两种工具结合在一起,造就了强大的google、百度、亚马逊、阿里、京东、腾迅等公司。他们不是百年老店,但他们掌握了先进的工具。
人类历史就是一部工具的进化史。石器、青铜、铁器、火药、蒸汽机、内燃机、电报、电话、电视、计算机、卫星、互联网,工具的进步引领着文明的进步。新的工具不断淘汰老的工具,就像互联网视频点播正在淘汰电视、微博正在淘汰报纸、电子书正在淘汰纸质书那样。
但有一些古老的工具,今天仍有人在学习和使用,甚至在上面花费许多时间。毛笔就是这样一个例子。今天学习掌握毛笔这种“落后的”工具,还有什么意义?其实我们在使用一些“落后的”工具时,主要是在学习工具背后的思想。书法和绘画中蕴含的艺术审美的一般原则,经得起具体工具变迁的考验。甲骨文、金文、石鼓文所包含的对空间构图的理解,仍然值得现代人学习。思想工具是比实物工具更强大的工具。
工具组合使用,形成更强大的新工具。《数学之美》中提到的马尔可夫链虽然是很强大的工具,但我在数学课上没有听老师提到过。这本书中给我印象最深的例子是余弦定理和新闻分类。余弦定理是中学数学,再加上一些不算很难的多维向量的知识,竟然解决了计算机新闻分类这样的难题!
每一种工具的背后,是人们对世界的一种理解。蒸汽机和内燃机背后,是力学的世界。电报、电话、电视、计算机和互联网背后,是信息的世界。数学是抽象的工具,是其他工具背后的工具。每一门学科要成为科学,都少不了数学。也许有一天人们会习惯,用数学工具来分析艺术。数学是一种语言,它源于具体的世界,又高于具体的世界。如果说语言是对世界的认识和描述,如果说数学是一种语言,那么它一定是最接近神的语言。看似毫不相关,却又能描述万事万物。
学习数学有什么用?物理学家费曼当年在大一时提出这个问题,他的师兄建议他转到物理系。今天,这个问题已不成为问题。具有扎实数学功底的人才正进入各行各业,例如金融业。我认识一个出版社的老总,他招应届毕业生有一个条件:数学要好。
工具虽好,关键还要会用。最终要回到掌握先进工具的人。软件算法工程师加上计算机集群,这是目前一流企业必需的装备。正如马克.安德森所说的,各行各业的一流公司,都是软件公司。优秀的软件算法工程师,是人才争夺的焦点。这样,我们就容易理解google招工程师的要求。
对信息加工处理和传递的能力不断增强,是知识经济的特点。《数学之美》展示了google如何运用数学和计算机网络,带领我们进入云计算和大数据时代。
知识经济时代的工作,就是在各自的领域中进行科学研究。科学研究要大胆假设,小心求证。科学研究要量化。科学研究要有对比实验。科学研究要有数学模型。科学研究要有田野调查。科学研究要有文献查证。科学研究要有同行评议。《数学之美》向我们介绍了自然语言分析领域的科研方法和过程。
任何一个领域,深入进去都有无数的细节。有兴趣的人不但没被这些细节吓倒,反而会兴致勃勃地研究,从而达到令人仰慕的高度。吴军先生向我们展示了数学和算法中的这些细节,也展示了他所达到的高度。值得我学习。
感谢吴军先生分享他的知识和深刻见解,也感谢人民邮电出版社出了这样一本好书。
数学之美手抄报篇二
读完本书,第一感受:次奥!原来数学如此多的原理模型概念都可以用去解决各种it技术问题啊。特别是语言识别和自然语言处理这类问题完全就是建立在数学原理之上的。总之,这本书就是用非常深入浅出的话去说明如何用数学方法去解决计算机的各种工程问题。这是一本讲道,而不是术的书。要完全读懂这本书,我觉得至少需要掌握这三门课:高等数学,离散数学,还有概率论与数理统计。唉..我当初数学学得太水了,还挂了高数啊...有好的概念没看懂,以后有时间在好好看吧。如果想搞计算机研究的话,数学基础必不可少,别总在抱怨各种数学课上的东西一辈子都用不着。
发现作者对人类自然发展的认识非常深,其从语言,文字,数学的产生发展,信息的传播记录得出了这个结论:信息的产生传播接收反馈,和今天最先进的通信在原理上没有任何差别。就算是科学上最高深的技术,那也是模拟我们生活中的一些基本原理。
我们今天使用的十进制,就是我们扳手指扳了十次,就进一次位。而玛雅文明他们数完了手指和脚指才开始进位,所以他们用的是二十进制。实际上阿拉伯数字是古印度人发明的,只是欧洲人不知道这些数字的真正发明人是古印度,而就把这功劳该给了“二道贩子”阿拉伯人。
语言的数学本质
任何一种语言都是一种编码方式,比如我们把一个要表达的意思,通过语言一句话表达出来,就是利用编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字,听者则用这语言的解码方法获得说话者要表达的信息。
自然语言处理模型
计算机是很笨的,他们唯一会做的就是计算。自然语言处理在数学模型上是基于统计的,说一个句子是否合理,就看看他出现的可能性大小如何,可能性就是用概率来衡量,比如一个句子,出现的概率为1/10^10,另一个句子出现的概率为1/10^20,那么我们就可以说第一个句子比第二个句子更加合理。当然这要求有足够的观测值,他有大数定理在背后支持。
最早的中文分词方法
这句话:“同学们呆在图书馆看书”,如何分词?应该是这样:同学们/呆在/图书馆/看书.最先的方法是北航一老师提出的查字典方法,就是把句子从左道右扫描一遍,遇到字典里面出现的词就标示出来,遇到复合词如(北京大学)就按照最长的分词匹配,遇到不认识的字串就分割成单个字,于是中文的分词就完成了。但是这只能解决78成的分词问题,但是“像发展中国家”这种短语它是分不出来的。后来大陆用基于统计语言模型方法才解决了。
隐含马可夫模型(没这么看懂)
一直被认为是解决打多数自然语言处理问题最为快速有效的方法,大致意思是:随机过程中各个状态的概率分布,只与他的前一个状态有关。比如对于天气预报,我们只假设今天的气温只与昨天有关而与前天没有关系,这虽然不完美,但是以前不好解决的问题都可以给出近视值了。
一个让我印象深刻的观点:
小学生和中学生其实没有必要花那么多时间去读书,其觉得最主要的是孩子们的社会经验,生活能力,和那时候树立起来的志向,这将帮助他们一生。而中学生阶段花很多时间比同伴多读的课程,在大学以后可以用非常短的时间就可以读完。因为在大学阶段,人的理解能力要强很多,比如中学要花500小时才能搞明白的内容,大学可能花100小时就搞定了。学习和教育是一个人一辈子的事情,很多中学成绩好的人进入大学后有些就表现不太好了,要有不断学习的动力才行。
余弦定理和新闻分类
我在新浪干过一年多新闻,这篇认真看了一篇,很吃惊原理cosx与新闻分析也有关系啊。google的新闻服务是由计算机自动整理分类的。而传统的媒体如门户网站是让编辑读懂新闻,找到主题,再分类分级别的,真苦逼啊...计算机自动分类原理是这样:如一篇新闻有10000个词,组成一个万维向量,这个向量就代表这篇新闻,可以通过某种算法表达这个新闻主题的类型,如果两个向量的方向一致,说明对应的新闻用词一致,方向可用夹角表示,夹角可用余弦定理表示,所以当夹角的余弦值接近于1时,这两篇新闻就可以归为一类了。
没看懂的东西:
布尔代数:布尔代数把逻辑学和数学合二为一,给了我们一个全新的视角看世界...
网络爬虫的基本原来是利用了图论的广度优先搜索和深度优先搜索...
搜索引擎的结果排名用了稀疏矩阵的计算...
地图最基本的计算是利用了有限状态机和图论的最短路径...
密码学原理,最大熵模型,拼音输入法的数学模型,布隆过滤器,贝叶斯网络等等...
任何事物都有它的发展规律,当我们认识了规律后,应当在生活工作中遵循规律,希望大家透过it规律的认识,可以举一反三的总结学习认识规律,这样有助于自己的境界提升一个层次。
任何问题总是能找到相应的准确数学模型,一个正确的数学模型在形式上应当是简单的,一个好的方法在形式上应当也是简单的。简单才是美。
[]
数学之美手抄报篇三
在语音识别、翻译,还有密码学领域,有着许多基于概率统计的模型和思想。当然,贝叶斯公式是基础,应用到隐含马尔科夫链模型,神经网络模型。
在搜索中,一些相关性的计算,无不用到了概率的知识。在新闻分类中,用到了一些有关矩阵特征值、相似对角化的知识。当然,在图像处理方面,矩阵变换可谓是无处不在。另外,在识别方面,有一些通信模型,涉及到了信道、误码率、信息熵。
最近刚开学也没什么事,所以就想随便找几本书看一下,但别是那种太艰深晦涩的书。8月份一直到现在,吴军写的这本12年5月出版的《数学之美》一直盘踞京东、亚马逊等各大网上商城科技类图书的榜首,当然,还有早些时候出版的《浪潮之巅》也排在很靠前的位置。心想市场的力量应该能帮我挑出好书吧,于是就从图书馆借了一本来,一直到今天晚上把它给看完了。
因此想写一点东西来总结、反思一下,反正刚开完班会也没什么事干。
写在前面的建议:如果你不讨厌数学的话,强烈推荐这本书,网上也可以下到电子版,不过阅读感觉上还是很不一样的。
废话就不多说了,《数学之美》其实是一本科普类的读物,所面向的是接受过普通高等教育的人,完全不需要在特定领域有很深的造诣就可以看懂,大概懂一点线性代数、概率统计、组合数学、信息论、计算机算法、模式识别(虽然列举了这么多,其实有些不懂也没关系……),所以尤其适合信科的人看。内容大部分是和人工智能、计算机相关的,这并非我所学的专业,但作者比较擅长将看似复杂的原理用简明的语言表达出来,所以可读性还是很好的。
吴军是清华大学毕业的,之前任职于google,后来到了腾讯,这些文章都是发表在google黑板报上的,后来经过了重写,所以网上下载的和书本内容有所差异。由于吴军本人是研究自然语言处理和语音识别的,所以统计语言模型的东西可能会多一点,不过我觉得这丝毫不妨碍全书数学之美的展现……感觉收获还是挺多的,知识上的有一些,但更多还是思维方式上的。作者举了很多例子试图让人明白很多看似复杂的高科技背后,基本原理其实是出乎意料简单的(当然,必须承认第一个想到这些方法的人还是非常了不起的……)。比如高准确率的机器翻译,看上去好像是计算机能够理解各国语言,隐藏在背后的却是很多具有大学理科学历的人都非常清楚的统计模型和概率模型;再比如拼音输入法的数学原理,早期的研究主要集中在缩短平均编码长度,比如曾经流行一时的五笔输入法,而现今真正实用的输入法却是有很多信息冗余、编码长度比较长的拼音输入法,作者从信息论和市场的角度做了简单的阐述;又比如新闻的自动分类,许多非it领域的人可能会认为计算机可以读懂新闻并进行分类,而实际上只是特征向量的抽取、空间中向量夹角的计算,非常非常简单,但凡学过一点线性代数的人绝对是一看就懂的……当然,完美的实现还需要考虑很多细节和现实的情况,但这并不是这本书所关注的地方,数学之美在于其简洁而不是繁琐。
除了对于具体信息技术的剖析之外,作者还花了很大篇幅来讲一些杰出人士的成长过程,特别是把这些人的成长经历和中国学生的成长经历作对比。虽然作者并没有明说,但字里行间多少流露出对于中国高等教育以及很多中国企业的批评,一是教育的功利性,缺乏宽松的独立思考的环境,即使学了一堆理论也难有用武之地,自然也就缺乏创新性的成果;二是中国企业的短视,大部分都不舍得在新框架开发上投资,而是坐享学术界和国外企业的研究成果。
总结一下呢,能够从更宏观的角度来思考信息世界背后的数学引擎的运行原理,让人明白看似很高级、复杂的东西背后其实并不如我们所想象的那样复杂,而我们所学的“枯燥”的数学真的可以“四两拨千斤”,改变亿万人的生活。
数学之美手抄报篇四
《数学之美》是一本领域相关的数学概念书,生动形象地讲解了关于数据挖掘、文本检索等方面的基础知识,可以作为数据挖掘、文本检索的入门普及书。另外,就像作者吴军老师提到的,关键是要从中学到道————解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。
下面记录一下自己读这本书的一些感想:
第一章《文字和语言vs数字和信息》:文字和语言中天然蕴藏着一些数学思想,数学可能不仅仅的是一门非常理科的知识,也是一种艺术。另外,遇到一个复杂的问题时,可能生活中的一些常识,一些简单的思想会?给你带来解决问题的灵感。
第二章《自然语言处理————从规则到统计》:试图模拟人脑处理语言的模式,基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程,找到统计的方法经历了20多年,非常庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发现真理的过程中是充满坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃,真正的成长是在解决问题的过程中。事情不可能一帆风顺的,这是自然界的普遍真理吧!
第三章《统计语言模型》:自然语言的处理找到了一种合适的方法———基于统计的模型,概率论的知识开始发挥作用。二元模型、三元模型、多元模型,模型元数越多,计算量越大,简单实用就是最好的。对于某些不出现或出现次数很少的词,会有零概率问题,这是就要找到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用,现在开始发现这些知识可能就是你以后解决问题的利器。最后引用作者本章的最后一句话:数学的魅力就在于将复杂的问题简单化。
第四章《谈谈中文分词》:中文分词是将一句话分成一些词,这是以后进一步处理的基础。从开始的查字典到后来基于统计语言模型的分词,如今的中文分词算是一个已经解决的问题。然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对具体的问题,提出针对该问题最好的方法。没有什么是绝对的,掌握其中的道才是核心。
第五章《隐马尔科夫模型》:隐马尔科夫模型和概率论里面的马尔科夫链相似,就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型,就可以解决好多机器学习的问题,训练中会涉及到一些经典的算法(维特比算法等)。关于这个模型,没有实际实现过,所以感觉好陌生,只是知道了些概率论讲过的原理而已。
第六章《信息的度量和作用》:信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消除系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的,要学会借鉴其他知识。
第七章《贾里尼克和现代语言处理》:贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持你”。贾里克尼教授一生专注学习,最后在办公桌前过世了。读了这章我总结出的一句话是“思想决定一个人的高度”。在这章中对于少年时的教育,以下几点值得借鉴:1、少年时期其实没有必要花那么多时间读书,他们的社会经验、生活能力以及在那时树立起的志向将帮助他们一生。2、中学时花大量时间学会的内容,在大学用非常短的时间就可以读完,因为在大学阶段,人的理解力要强很多。3、学习(和教育)是一个人一辈子的过程。4、书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。
第八章《简单之美————布尔代数和搜索引擎的索引》:布尔是19世纪英国的一位中学教师,但他的公开身份是啤酒商,提出好的思想的人不一定是大师。简单的建立索引可以根据一个词是否在一个网页中出现而设置为0和1,为了适应索引访问的速度、附加的信息、更新要快速,改进了索引的建立,但原理上依然简单,等价于布尔运算。牛顿的一句话“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的”。做好搜索,最基本的要求是每天分析10—20个不好的搜索结果,积累一段时间才有感觉。有时候,学习、处理问题,可以从不好的方面入手,效果可能更好。
第九章《图论和网络爬虫》:图的遍历分为“广度优先搜索(breadth—first search,简称bfs)”和“深度优先搜索(depth—first search,简称dfs)。互联网上有几百亿的网页,需要大量的服务器用来下载网页,需要协调这些服务器的任务,这就是网络设计和程序设计的艺术了。另外对于简单的网页,没必要下载。还需要存储一张哈希表来记录哪些网页已经存储过(如果记录每个网页的url,数量太多,这里可以用后面提到的信息指纹,只需要一个很多位的数字即可),避免重复下载。另外,在图论出现的很长一段时间里,实际需求的图只有几千个节点,那时图的遍历很简单,人们都没有怎么专门研究这个问题,随着互联网的出现,图的遍历一下子有了用武之地,很多数学方法就是这样,看上去没有什么用途,等到具体的应用出来了一下子开始派上大用场了,这可能就是世界上很多人毕生研究数学的原因吧。一个系统看似整体简单,但里面的每个东西都可能是一个复杂的东西,需要很好的设计。
第十一章《如何确定网页和查询的相关性》:构建一个搜索引擎的四个方面:如何自动下载网页、如何建立索引、如何衡量网页的质量以及确定一个网页和某个查询的相关性。搜索关键词权重的科学度量tf—idf,tf衡量一个词在一个网页中的权重,即词频。idf衡量一个词本身的权重,对主题的预测能力。一个查询和该网页的相关性公式由词频的简单求和变成了加权求和,即tf1*idf1 + tf2*idf2 + 。。。 + tfn*idfn。看似复杂的搜索引擎,里面的原理竟是这么简单!
第十二章《地图和本地搜索的最基本技术——有限状态机和动态规划》:地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时,希望进行模糊匹配,提出了一种基于概率的有限状态机。通用的有限状态机的程序不是很好写,要求很高,建议直接采用开源的代码。图论中的动态规划问题可以用来解决两点间的最短路径问题,可以将一个“寻找全程最短路线”的问题,分解成一个个寻找局部最短路线的小问题。有限状态机和动态规划问题需要看相关的算法讲解,才能深入理解,目前对其并未完全理解。
第十三章《google ak—47的设计者——阿米特·辛格博士》:辛格坚持选择简单方案的一个原因是容易解释每一个步骤和方法背后的道理,这样不仅便于出了问题时查错,而且容易找到今后改进的目标。辛格要求对于搜索质量的改进方法都要能说清楚理由,说不清楚理由的改进即使看上去有效也不会采用,因为这样将来可能是个隐患。辛格非常鼓励年轻人要不怕失败,大胆尝试。遵循简单的哲学。
第十四章《余弦定理和新闻的分类》:将新闻根据词的tf—idf值组成新闻的特征向量,然后根据向量之间的余弦距离衡量两个特征之间的`相似度,将新闻自动聚类。另外根据词的不同位置,权重应该不同,比如标题的词权重明显应该大点。大数据量的余弦计算也要考虑很多简化算法。
第十五章《矩阵运算和文本处理中的两个分类问题》:将大量的文本表示成文本和词汇的矩阵,然后对该矩阵进行奇异值svd分解,可以得到隐含在其中的一些信息。计算余弦相似度的一次迭代时间和奇异值分解的时间复杂度在一个数量级,但计算余弦相似度需要多次迭代。另外,奇异值分解的一个问题是存储量大,而余弦定理的聚类则不需要。奇异值分解得到的结果略显粗糙,实际工作中一般先进行奇异值分解得到粗分类结果,在利用余弦计算得到比较精确地结果。我觉得这章讲的svd有些地方不是很清楚,已向吴军老师请教了,等待回信。
第十六章《信息指纹及其应用》:信息指纹可以作为信息的唯一标识。有很多信息指纹的产生方法,互联网加密要使用基于加密的伪随机数产生器,常用的算法有md5或者sha—1等标准。信息指纹可以用来判定集合相同或基本相同。youtobe就用信息指纹来反盗版。128位的指纹,1。8*10^19次才可能重复一次,所以重复的可能性几乎为0。判定集合是否相同,从简单的逐个比对到利用信息指纹,复杂度降低了很多很多。启发我们有时候要用变通的思想来解决问题。
第十七章《由电视剧《暗算》所想到的——谈谈密码学的数学原理》:rsa加密算法,有两个完全不同的钥匙,一个用于加密,一个用于解密。该算法里面蕴含着简单但不好理解的数学思想。信息论在密码设计中的应用:当密码之间分布均匀并且统计独立时,提供的信息最少。均匀分布使得敌人无从统计,而统计独立能保证敌人即使知道了加密算法,也不能破译另一段密码。
第十八章《闪光的不一定是金子——谈谈搜索引擎反作弊问题》:把搜索反作弊看成是通信模型,作弊当做是加入的噪声,解决噪声的方法:从信息源出发,增强排序算法的抗干扰能力;过滤掉噪声,还原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消除。作弊者的方法不可能是随机的,且不可能一天换一种方法,及作弊是时间相关的。因此在搜集一段时间的作弊信息后,就可以将作弊者抓出来,还原原有的排名。一般作弊都是针对市场份额较大的搜索引擎做的,因此,一个小的搜索引擎作弊少,并不一定是它的反作弊技术好,而是到它那里作弊的人少。
第十九章《谈谈数学模型的重要性》:早期的行星运行模型用大圆套小圆的方法,精确地计算出了所有行星运行的轨迹。但其实模型就是简单的椭圆而已。一个正确的数学模型应该在形式上是简单的;一个正确的模型可能开始还不如一个精雕细琢过的错误模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去;大量准备的数据对研发很重要;正确的模型可能受到噪声干扰,而显得不准确,这是不应该用一种凑合的修正方法来弥补它,要找到噪声的根源,这也许能通往重大的发现。
第二十章《不要把鸡蛋放在一个篮子里——谈谈最大熵模型》:对一个随机事件预测时,当各种情况概率相等时,信息熵达到最大,不确定性最大,预测的风险最小。最大熵模型的训练非常复杂,需要时查看资料做进一步的理解。
第二十一章《拼音输入法的数学原理》:输入法经历了以自然音节编码,到偏旁笔画拆字输入,再回归自然音节输入的过程。任何事物的发展,螺旋式的回归不是简单的重复,而是一种升华。输入法的速度取决于编码的场地*寻找这个键的时间。传统的双拼,记住编码太难,寻找每个键的时间太长,并且增加了编码上的歧义。根据香农第一定理可以计算理论上每个汉字的平均最短码长。全拼不仅编码平均长度较少,而且根据上下文的语言模型可以很好的解决歧义问题。利用统计语言模型可是实现拼音转汉字的有效算法,而且可以转换为动态规划求最短路径问题。如今各家输入法的效率基本在一个量级,进一步提升的关键就在于建立更好的语言模型。可以根据每个用户建立个性化的语言模型。输入的过程本身就是人和计算机的通信,好的输入法会自觉或者不自觉的的遵循通信的数学模型。要做出最有效的输入法,应该自觉使用信息论做指导。
第二十二章《自然语言处理的教父马库斯和他的优秀弟子们》:将自然语言处理从基于规则到基于统计,贡献最大的两个人,一个是前面介绍的贾里尼克教授,他是一个开创性任务;另一个是将这个方法发扬光大的米奇·马库斯。马库斯的贡献在于建立了造福全世界研究者的宾夕法尼亚大学ldc语料库以及他的众多优秀弟子。马库斯的影响力很大程度上是靠他的弟子传播出去的。马库斯教授有很多值得钦佩的地方:给予他的博士研究生自己感兴趣的课题的自由,高屋建瓴,给学生关键的指导;宽松的管理方式,培养各有特点的年轻学者;是一个有着远见卓识的管理者。他的学生为人做事风格迥异,但都年轻有为,例如追求完美的迈克尔·柯林斯和寻求简单美的艾克尔·布莱尔。大师之所以能成为大师,肯定有着一些优秀的品质和追求。
第二十三章《布隆过滤器》:判断一个元素是否在一个集合当中时,用到了布隆过滤器,存储量小而且计算快速。其原理是:建立一个很长的二进制,将每个元素通过随机数产生器产生一些信息指纹,再将这些信息指纹映射到一些自然数上,最后在建立的那个很长的二进制上把这些自然数的位置都置为1。布隆过滤器的不足之处是它可能把不在集合中的元素错判成集合中的元素,但在某些条件下这个概率是很小的,补救措施是可以建立一个小的白名单,存储那些可能误判的元素。布隆过滤器背后的数学原理在于完全随机的数字其冲突的可能性很小,可以用很少的空间存储大量的信息,并且由于只进行简单的算术运算,因此速度非常快。《编程珠玑》中第一章的那个例子就是布隆过滤器的思想。开阔思维,寻找更好更简单的方法。
第二十四章《马尔科夫链的扩展——贝叶斯网络》:贝叶斯网络是马尔科夫链的扩展,由简单的线性链式关系扩展为网络的关系,但贝叶斯网络仍然假设每一个状态只与它直接相连的状态相关。确定贝叶斯网络的拓扑结构和各个状态之间相关的概率也需要训练。在词分类中,可以建立文章、主题和关键词的贝叶斯网络,用来得到词的分类。贝叶斯网络的训练包括确定拓扑结构和转移概率,比较复杂,后者可以参考最大熵训练的方法。贝叶斯网络导出的模型是非常复杂的。
第二十五章《条件随机场和句法分析》:句法分析是分析出一个句子的句子结构,对于不规则的句子,对其进行深入的分析是很复杂的,而浅层的句法分析在很多时候已经可以满足要求了。条件随机场就是进行浅层句法分析的有效的数学模型。条件随机场与贝叶斯网络很像,不用之处在于,条件随机场是无向图,而贝叶斯网络是有向图。条件随机场的训练很复杂,简化之后可以参考最大熵训练的方法。对于条件随机场的详细参数及原理还不理解。
第二十六章《维特比和他的维特比算法》:维特比算法是一个动态规划算法,凡是使用隐马尔科夫模型描述的问题都可以用它来解码。维特比算法采用逐步渐进的方法,计算到每步的最短距离,到下步的最短距离只用接着本步的计算即可,相比穷举法,大大缩短了计算的时间,并且基本可以实现实时的输出,这看似简单,但在当时确是很了不起的。维特比并不满足停留在算法本身,他将算法推广出去,并应用到了实际中,创立了高通公司,成为了世界上第二富有的数学家。高通公司在第二代移动通信中并不占很强的市场地位,而其利用cdma技术霸占了3g的市场,可见远见的洞察力是多么的重要。
第二十七章《再谈文本分类问题——期望最大化算法》:该章讲的其实就是k均值聚类问题,设置原始聚类中心,然后不断迭代,直至收敛,将每个点分到一个类中。其实隐马尔科夫模型的训练和最大熵的训练都是期望最大化算法(em)。首先,根据现有的模型,计算各个观测数据输入到模型中的计算结果,这个过程称为期望值计算过程,或e过程;接下来,重新计算模型参数,以最大化期望值,这个过程称为最大化的过程,或m过程。优化的目标函数如果是个凸函数,则一定有全局最优解,若不是凸函数,则可能找到的是局部最优解。在以后的一些问题求解过程中,应该考虑其是否是em问题,也可以考虑参考这种思想,不断迭代以优化目标的过程。
第二十八章《逻辑回归和搜索广告》:雅虎和百度的竞价排名广告并不比谷歌的根据广告的预估点击率来客观的推送广告收入多。点击预估率有很多影响因素,一种有效的方法是逻辑回归模型,逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。其训练方法和最大熵模型相似。同样不是很理解其具体内涵。
第二十九章《各个击破和google云计算的基础》:分而治之,各个击破是一个很好的方法,google开发的mapreduce算法就应用了该方法。将一个大任务分成几个小任务,这个过程叫map,将小任务的结果合并成最终结果,这个过程叫reduce,该过程如何调度、协调就是工程上比较复杂的事情了。可见大量用到的、真正有用的方法往往简单而又朴实。
附录《计算复杂度》:计算机中复杂度是以o()来表示的,如果一个算法的计算量不超过n的多项式函数,则称算法为多项式函数复杂度的(p问题),是可以计算的。若比n的多项式函数还高,则是非多项式问题,实际上是不可计算的。非多项式问题中一种非确定的多项式问题(简称np),是科学家研究的焦点,因为现实中好多问题都是np问题。另外还有np—complete问题(np问题可以在多项式时间内规约到该问题)和np—hard问题,对于这两种问题,需要简化找到近似解。
整体上,《数学之美》这本书让我了解了很多文本处理,数据挖掘相关的知识,学到了很多。其中,简单美以及一些科学家的大师风范让我印象深刻!书中提到的一些思想(即道)让我受益匪浅!
数学之美手抄报篇五
本书介绍了google产品中涉及的自然语言处理、统计语言模型、中文分词、信息度量、拼音输入法、搜索引擎、网页排名、密码学等内容背后的数学原理。让我们看到了布尔代数、离散数学、统计学、矩阵计算、马尔科夫链等似曾相识的内容在实际生活中的应用。相比于其他数学题材书籍,吴军老师把抽象、深奥的数学方法解释得通俗易懂,书中同时引用了诸多的历史典故和人物介绍,给人以很多启发,也让人由衷感叹数学的简洁和强大。
虽是数据专业毕业,但是才疏学浅,无力对数学的美进行阐述。仅就书中两个比较喜欢的地方发表一点不成熟的见解,与诸位共勉。
其一,在讲google的搜素引擎反作弊时谈到做事情的两种境界“道”和“术”,术就是具体的做事方法,而道则是隐藏在问题背后的动机和本质。在术这个层面解决问题要付出更多的努力,有点类似于我们常说的“头疼医头,脚疼医脚”,暂时不疼了,过几天复发了,再去医治,如此往复,无法从根本上解决;而只有找到了致病原因,才能做到药到病除,根本治愈。本人之前参与过行内月终自动核对的研发,月终核对初期数据的不一致性只能靠数百业务人员人工核对数据差异,然后修改数据,每月1日都要加班加点,工作量很大,这是从术上解决问题。后来找到了产生差异的原因是会计核算时的利息调整造成的,把这些数据接过来进行相应冲减后差异就消失了,业务人员也不用来加班了,这才是从道上解决问题。
其二,是在做中文网页排名时提到的从业界成功的秘诀之一:“先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题。许多时候做事失败,不是因为人不够优秀,而是做事的方法不对。一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之”。我们在做项目时也是一样,业务有时要的功能非常急,可能有些功能也实现不了(比如系统响应时间长、查询明细不能支持省行等)。这时我们就要将焦点关注在那些可以实现的80%的功能上,哪怕刚刚上线的系统界面丑点,操作复杂点,反应速度慢点,但是至少业务有可用的系统,剩下时间再去优化那剩下的20%。这样可以帮助我行抢占先机,在与同行业的竞争中取得主动。如果等待我们把所有的细节都搞清楚再动手开发,力求完美,那么很可能系统能够上线的时候业务已经不需要了。
数学之美,也就是简单之美。希望大家能够喜欢数学,喜欢数学之美。
数学之美手抄报篇六
读完本书,第一感受:次奥!原来数学如此多的原理模型概念都可以用去解决各种it技术问题啊。特别是语言识别和自然语言处理这类问题完全就是建立在数学原理之上的。总之,这本书就是用非常深入浅出的话去说明如何用数学方法去解决计算机的各种工程问题。这是一本讲道,而不是术的书。 要完全读懂这本书,我觉得至少需要掌握这三门课:高等数学,离散数学,还有概率论与数理统计。唉..我当初数学学得太水了,还挂了高数啊...有好的概念没看懂,以后有时间在好好看吧。如果想搞计算机研究的话,数学基础必不可少,别总在抱怨各种数学课上的东西一辈子都用不着。
发现作者对人类自然发展的认识非常深,其从语言,文字,数学的产生发展,信息的传播记录得出了这个结论:信息的产生传播接收反馈,和今天最先进的通信在原理上没有任何差别。就算是科学上最高深的技术,那也是模拟我们生活中的一些基本原理。
我们今天使用的十进制,就是我们扳手指扳了十次,就进一次位。而玛雅文明他们数完了手指和脚指才开始进位,所以他们用的是二十进制。实际上阿拉伯数字是古印度人发明的,只是欧洲人不知道这些数字的真正发明人是古印度,而就把这功劳该给了“二道贩子”阿拉伯人。
语言的数学本质
任何一种语言都是一种编码方式,比如我们把一个要表达的意思,通过语言一句话表达出来,就是利用编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字,听者则用这语言的解码方法获得说话者要表达的信息。
自然语言处理模型
计算机是很笨的,他们唯一会做的就是计算。自然语言处理在数学模型上是基于统计的,说一个句子是否合理,就看看他出现的可能性大小如何,可能性就是用概率来衡量,比如一个句子,出现的概率为1/10^10,另一个句子出现的概率为1/10^20,那么我们就可以说第一个句子比第二个句子更加合理。当然这要求有足够的观测值,他有大数定理在背后支持。
最早的中文分词方法
这句话:“同学们呆在图书馆看书”,如何分词?应该是这样:同学们/呆在/图书馆/看书.最先的方法是北航一老师提出的查字典方法,就是把句子从左道右扫描一遍,遇到字典里面出现的词就标示出来,遇到复合词如(北京大学)就按照最长的分词匹配,遇到不认识的字串就分割成单个字,于是中文的分词就完成了。但是这只能解决78成的分词问题,但是“像发展中国家”这种短语它是分不出来的。后来大陆用基于统计语言模型方法才解决了。
隐含马可夫模型(没这么看懂)
一直被认为是解决打多数自然语言处理问题最为快速有效的方法,大致意思是:随机过程中各个状态的概率分布,只与他的前一个状态有关。比如对于天气预报,我们只假设今天的气温只与昨天有关而与前天没有关系,这虽然不完美,但是以前不好解决的问题都可以给出近视值了。
一个让我印象深刻的观点:
小学生和中学生其实没有必要花那么多时间去读书,其觉得最主要的是孩子们的社会经验,生活能力,和那时候树立起来的志向,这将帮助他们一生。而中学生阶段花很多时间比同伴多读的课程,在大学以后可以用非常短的时间就可以读完。因为在大学阶段,人的理解能力要强很多,比如中学要花500小时才能搞明白的内容,大学可能花100小时就搞定了。学习和教育是一个人一辈子的事情,很多中学成绩好的人进入大学后有些就表现不太好了,要有不断学习的动力才行。
余弦定理和新闻分类
我在新浪干过一年多新闻,这篇认真看了一篇,很吃惊原理cos x与新闻分析也有关系啊。google的新闻服务是由计算机自动整理分类的。而传统的媒体如门户网站是让编辑读懂新闻,找到主题,再分类分级别的,真苦逼啊...计算机自动分类原理是这样:如一篇新闻有10000个词,组成一个万维向量,这个向量就代表这篇新闻,可以通过某种算法表达这个新闻主题的类型,如果两个向量的方向一致,说明对应的新闻用词一致,方向可用夹角表示,夹角可用余弦定理表示,所以当夹角的余弦值接近于1时,这两篇新闻就可以归为一类了。
没看懂的东西:
布尔代数:布尔代数把逻辑学和数学合二为一,给了我们一个全新的视角看世界...
网络爬虫的基本原来是利用了图论的广度优先搜索和深度优先搜索...
搜索引擎的结果排名用了稀疏矩阵的计算...
地图最基本的计算是利用了有限状态机和图论的最短路径...
密码学原理,最大熵模型,拼音输入法的数学模型,布隆过滤器,贝叶斯网络等等...
任何事物都有它的发展规律,当我们认识了规律后,应当在生活工作中遵循规律,希望大家透过it规律的认识,可 以举一反三的总结学习认识规律,这样有助于自己的境界提升一个层次。
任何问题总是能找到相应的准确数学模型,一个正确的数学模型在形式上应当是简单的,一个好的方法在形式上应当也是简单的。简单才是美。
数学之美手抄报篇七
数学一直都是小学生学习的重点,因此,数学网小学频道精心为大家提供数学之美,希望对大家有所帮助。
张奠宙与木振武两位先生在《数学美与课堂教学》中把数学美分成了4个层次:美观、美好、美妙、完美。
现将其中部分摘录如下:
1、美观:数学对象以形式上的对称、和谐、简洁,总给人的观感带来美丽、漂亮的感受。
比如:几何学常常给人们直观的美学形象,美观、匀称、无可非议;
在算术、代数科目中也很多:
如(a+b)c=ac+b
a+b=b+a
这些公式和法则非常对称与和谐,同样给人以美观感受。
但是外形上的的美观,并不一定是真实和正确的。
比如:sin(a+b)=sina+sinb是何等的'对称、和谐、美观啊!但是它是错误的,就象虽然美丽但是有毒。
2、美好:数学上的许多东西,只有认识到它的正确性,才能感觉到它的美好。
3、美妙:美妙的感觉需要培养,美妙的感觉往往来自意料之外但在情理之中的事物。三角形的高交于一点就是这样;2个圆柱体垂直相截后将截面展开,其截线所对应的曲线竟然是一条正弦曲线,与原来猜想的是一断圆弧大出意料之外,经过分析证明的确是正弦曲线,又在情理之中,美妙的感觉就油然而生了。
4、完美:数学总是尽量做到完美无缺。这就是数学的最高品质和最高的精神境界。欧氏几何公理化体系的建立,1+1的证明都是追求数学完美的典型例子。
数学之美手抄报篇八
1,知识要学以致用。上学的时候学习概率论、运筹学这些学科,只是单纯的认为是数学知识。读过这本书才发现,原来我们日常用到的搜索、语音识别、文章分类这些功能的背后,都是数学知识在起作用。
如果读书的时候就知道这些,学习会更有目的性。结合应用情况,也能更好的理解这些概念。
2,一项技术如果注定要被淘汰,那么从现在就放弃它。从统计学的角度解决机器翻译的方法,明显优于从语法结构角度起手的方法。但是还是有很多学者钻研后者,最后白白浪费了自己多年的时间。
一个公司更应该如此。后面读《浪潮之巅》看到雅虎为了避免文章分类出错,竟然采用人工分类的方法。看到的时候,很难想象这是一家互联网公司能做出来的事情。
数学之美手抄报篇九
周旭龙
一、关于此书
数学之美
记得几年前看完了《浪潮之巅》之后,便知道了吴军老师还有另外一本非常出名的著作《数学之美》,但是一直没有列入计划阅读。直到我看完了《硅谷之谜》以及《智能时代》之后,便自己上网买了一本第二版的《数学之美》。正如李开复博士所说:“在我认识的顶尖研究员和工程师里,吴军博士是极少数具有强大叙事能力和对科技、信息领域的发展变化有很深的纵向洞察力,并能进行有效归纳总结的人之一。”,正是因为在前面几本书中我看到了吴军老师强大的“讲故事”的能力,他能用通俗易懂,深入浅出的语言将技术原理讲清楚,这就十分腻害了,在《数学之美》中他也再次展示了这一点。
最近除了阅读《数学之美》,还订阅了吴军老师的《硅谷来信》,每天在早上洗漱时听一封信,在睡觉前也会听一封信,借吴军老师之眼去看世界,也可以读到一流的科学家/工程师对于各种事件非常独特的见解,以丰富自己的眼界。在此,感谢之前sobey公司的我的前老板刘总的推荐,我也将《硅谷来信》推荐给你们(可以利用你们的碎片时间来学习)。
二、看数学之美
part1简单即是美的方法
这本书一共29章,主要介绍了这些数学方法:统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜索技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。
例如,在统计语言模型一章中,我们会发现原来使用简单的数学模型就可以解决复杂的语音识别、机器翻译等问题,但是使用很复杂的文法规则和人工智能却做不到,而这些仅仅需要我们了解概率论和统计学的知识就可以应用到工程中。(当然,最先提出将统计学方法应用到计算机应用工程问题的先驱们是真的值得我们为其鼓掌的!)此外,简单的布尔代数就是支撑搜索引擎索引的数学基础,一个漂亮的pagerank矩阵乘法迭代加上一个tf-idf公式,就可以大程度地改善搜索结果的质量,()无一不体现出简单即是美的特点,而数学模型刚好符合这个要求。
又如,在信息的度量和作用一章,我们再次回顾了信息熵的重要性,这也是吴军老师一直在重复提及的信息论(吴军老师喜欢站在信息论的高度看问题,而不只是看到片面的表象)。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定唯一的办法是引入信息,而需要引入的信息量取决于这个不确定的大小。就像我们在追一个女生的时候,很多时候往往不是一拍即合,一见钟情的,只有互相表达的信息(即引入信息)足够了,才会消除各自对于对方的顾虑。等到引入的信息量消除了处在两个人之间的屏障,那么我们就可以跟对方告白宣告在一起了。
本书中介绍的所有的这些方法在吴军老师的笔下都只为了突出一句话:数学的精彩之处就在于简单的模型可以干大事。
ps:对于书中提到的大部分的数学模型都有其开源的代码实现,而我们这些工程人员只需要使用这些开源工具到自己的实际项目中即可,么么哒!
part2传道授业的专家们
这本书除了在高层讲述数学方法在计算机应用(主要是语音识别等互联网应用领域)的基本原理(吴军老师称其为“道”)外,还穿插了一些传道的专家们的故事,包括:贾里尼克、辛格、马库斯以及维特比等。
比如,吴军老师的博士生导师贾里尼克教授。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”。这让我回想起当年看李开复博士的《世界因你而不同》一书中听到的一句话(李开复博士的导师罗迪教授给李开复讲的一句话)“我不赞同你,但我支持你”,于是也就有了李开复在语音识别领域的一鸣惊人的成就。贾里尼克的一生富于传奇色彩,先在哈佛大学、康奈尔大学教书,接着在ibm任职,之后又去约翰-霍普金斯大学教书。他的贡献主要有如下几个:第一,提出了统计语言识别的框架结构;第二,共同提出了bcjr算法;第三,领导建立了世界著名的clsp实验室。
又如,辛格博士现任主管google搜索的高级副总裁,并被学术界公认是当今最权威的网络搜索专家。他奉行简单的哲学,并一直坚持寻找简单有效的解决方案。令我印象最深刻的就在于,吴军博士在设计分类器时,依照吴军力求完美的态度,应该还会花很多时间去尽善尽美,但是被辛格博士止住了,“在工程上简单实用的方法最好”。这种做事情的哲学其实非常值得我们借鉴,即先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,是在工业界成功地秘诀之一。许多失败并不是因为人不优秀,而是做事情的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。在我们的日常工作中也是一样,在项目开发设计中,很多人不管业务场景和技术要求,一上来就这种架构那种模式,往往不考虑到底这种设计是不是大牛拉小车,最后虽然解决了问题但是交付时间被延后,既让用户不满意也让部门不满意。
三、悟技术之道
吴军老师在《数学之美》中提到:“这本书的目的是讲道而不是讲术。很多具体的搜索技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余”。回到我们日常的开发工作中,作为it工程师,程序员,要跟上技术的大潮流,需要学习的技术太多太多,如果一味地只为去追技术的脚步,那么我们也会很累很累,而且可能会是花了80%的时间却只得到了20%的效果,更别谈期望值最大化了,或许根本就达不到你期望值的60%。相反,比如cnblogs(博客园)在招聘工程师一直提到的“3大原理,2个协议,1种结构”(计算机原理、操作系统原理、编译原理、tcp/ip协议、http协议、数据结构)却是没有怎么变化的(甚至是短时间不会变化的),而这些东西恰好是在这个浮躁的社会,我们这些所谓的计算机系的毕业生,所谓的科班毕业生所缺乏的(因为大部分人都没有在大学期间将这些东西真正地学好,而只是为了所谓的几个学分去图书馆奋战一两个周末而已)。站在高处向下看,也许我们一直看不到底,但是站在底处却是可以看见底的,这也是我为什么在毕业之后还要去重新温故操作系统原理和数据结构等科目的原因。
愿我们能够在底层站的更稳后,能够以一种更加全局的视角去看待上层建筑,感悟技术之道!
数学之美手抄报篇十
我第一次看到这本书是在两三年前,当时看的是电子书,虽然没太仔细看,但是第一次近距离了解到这些互联网应用背后的数学原理。
前段时间,我在同学的桌上看到了《数学之美》的纸质书,就向他借来读。虽说"书非借不能读也",但实际上借了书也没能好好读,断断续续读了有一个月才读完。
由于工作背景的缘故,吴军博士的这本书主要内容集中在语言识别和搜索领域,但这丝毫不妨碍它确实反映了很多共同的道理。我总结了几点供大家探讨。
欧拉公式,最美的数据公式之一。
虽然在大家的眼里,数学是一门深奥的学科,但是很多数学规律却能用非常简单的公式表示出来。我想"简单却非常有用"或许就是数学之美的内涵吧。
书中作者给了很多"简单却非常有用"的例子,比如简单的布尔代数就是搜索引擎的数学基础;比如助google一举逆袭成为搜索老大pagerank算法就是矩阵乘法迭代结合tf-idf公式;地图导航搜索就是简单的动态规划;统计语言模型可以轻松解决看似难度、复杂度超高机器翻译、语音识别。
数学的精彩之处就在于简单的模型可以干大事。从本质上讲,数学的思维方法就是抽象与简化。简单的模型怎么来?靠的是先抽象,后简化。对于复杂的问题,往往可以通过抽象,然后用数学模型来描述它。选择了合理的模型就成功了一半。但是有了模型,往往模型看着简单,但求解比较困难。这就需要合理假设继续简化,或者说通过增加合理的假设条件来简化计算。以书上提到的马尔科夫链为例,虽然公式的求解非常困难,但是一旦加上适当的假设,问题就一下子简化了非常多。
所以,针对纷繁芜杂的现实情况,我们一定要能时刻准备着把复杂问题简单化,一定要做到大胆合理假设,尽可能的简化问题,抓住其主要矛盾,先用很小的代价解决大部分的问题,剩下的部分再分步解决。
作者说到,技术分为术和道两种,具体的做事方法是术,做事的原理和原则是道。技术容易学,但也容易落伍,所以追求术的.人一辈子工作很辛苦,只有掌握了道的本质和精髓才能永远游刃有余。真正做好一件事没有捷径,需要一万小时的专业训练和努力。
道是什么?道实际上就是方向,就是判断。
我想有些领导之所以成为优秀的领导,是因为他们掌握了道,反而对具体的术不那么关注。
举个书上的两个例子,都是关于搜索的:一个例子是搜索的本质是什么?自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。另一个例子是搜索引擎作弊的本质是什么?是在网页排名信号中加入了噪声,因此反作弊的关键是去除噪声。
所以,我们在工作的时候,要善于理解事物的原理与本质。要先回答是什么、为什么?最后才是怎么做。再比如,在学习某个软件或某项技术时,就需要先掌握它的工作原理与工作机制,以便于我们判断其适用的场景和不适用的场景,而不是先去熟悉怎么用它。
书上对自然语言处理着墨很多。最初的自然语言处理是基于规则的句法分析,但是一段时间过后,人们发现句法分析的准确率很难提升。正当句法分析派走投无路的时候,统计语言模型出现了,而且越走越顺,很快就把句法分析派远远抛在了后面。问题就来了,那为什么最开始科学家们不直接研究统计语言模型?答案当然是不能,原因是时机还不成熟,因为统计语言模型所需要基于的大数据量的语言库还没有,大规模并行计算的能力还不够。同样的,统计语言模型就是最好的吗?当然是不尽然,科学家们现在开始研究基于深度学习的自然语言处理,相信不久的将来,语言识别、机器翻译会有另外一个质的飞跃。
我们做什么事情都不可能是一蹴而就,一步到位,想毕其功于一役的往往最后的结局都是失败的。
对我们而言,不管是架构规划也好、系统建设也好、管理工作也好,更是需要找准突破口,循序渐进,逐步演化。当然,我们也不能固步自封、墨守成规。
数学之美手抄报篇十一
两根自我扭曲,向上,相对而立的不锈钢方柱雕塑,竖立在小区的庭院中。
我端详,两根钢柱,似一对秘密来往的情人,你望着我,我看着你,保留一点空间,坚守一段距离,生怕被人看见;你是我的另一面,我是你的另一面,相互凝望相互想像;你中有我的影子,我中有你的形象,热烈盼望无限期望。好像是说:有距离,请不要走近我;心靠近,请不要远离我;亲近我。别让人看见我,偶尔在时间、空间与心灵的三维坐标上相遇,这便是永恒的向往。其形,似乎你是我的左心房,我是你的右心房,不同的心房间隔一段距离,不是走近,而是隔断,在时空中,距离滋生着永恒的美丽;其情,在心与心几乎是零距离的默默凝视中,无论相距咫尺,还是远隔天涯,都有共同的心声,都能展现出一种孤独、超脱、思念的距离之美。
写到此处,突然想起银行营业大厅里的一块牌子:请在一米线外等候。一条黄色的等待线,界定了一个美的距离;想起高速公路上两车之间的距离,留下一点缓冲的余地,可以随时调整自己。距离,有着诸多不便和难言的苦楚。但,不跨越那条线,不缩短那点安全空间,却是对前面客户隐私的尊重,却是对自己安全的珍惜。由此细细地品味,距离产生寂寞与孤独,也产生美丽与品位。有品位才有感悟,有美丽才能产生一种奇妙的效果。
距离有时间的、空间的,也有心理的。
时间的距离,可以滋生思念,也能够滋生怨恨。能让人感到温情时,再远也没有距离;而让人感到厌恶时,再近也令人讨厌。有时,零距离时,往往感受不到美丽与幸福;离你最远的,反而觉得最近,时时牵挂。
空间的距离,冥王星离太阳太远,59亿公里,温度低至200°左右,无生命可言。水星离太阳太近,约5000万公里,温度高达400℃左右,亦无生命可言。地球离太阳约1。5亿公里,不远不近,温度宜人,充满生机。人际,远了,容易淡忘;近了,生出摩擦;适中,产生美丽。人就像冬天的刺猬,太远了,觉得孤独和寒冷,感到隔膜与障碍;太近了,感到刺人,又仿佛失去了神秘感和吸引力。车与车太近,准出车祸;人与人太近,准出矛盾。远观则清,近观则浊,距离并不是无情,而是空间的转换,有天涯若比邻,就有咫尺成天涯。
心理的距离。“为什么人生气时说话要喊?”“因为,两个人生气的时候,心的距离是很远的,为让对方听得见,就必须喊起来。在喊的同时人会更生气,更生气距离就更远,更远就要更大声地喊……”有缘天涯咫尺,无缘咫尺天涯。朋友之间要保持一段距离,过于亲近,有时会被刺伤,过于疏远,叉感受不到友情的温暖,只有把握好相处的距离,才能让友谊之树常青。世界上最远的距离,不是天涯海角,不是相隔千里,不是生死相离,也不是天各一方,而是就在身边,却不知道珍惜!关键是懂得:懂得喝酒的人,找到感觉;懂得知足的人,找到快乐;懂得放下的人,找到自由;懂得关怀的人,找到朋友;懂得珍惜的人,找到幸福。
需要距离时,距离是一种美,有距离就有交流沟通的彩虹,有距离就有理解宽容的天空;不需要距离时,距离就是一条荒芜的路,演绎出人间一幕幕悲欢离合的剧;知道自己和别人之间的距离,是一种智慧;掌握自己与别人之间的距离,是一种技巧。
距离,凝聚了力,升华了爱,能隔断是非,求得安全,获得美满;能淡化仇恨,弥合裂痕,泯灭是非。适当的疏远,彼此留一定的空间,人与人之间的情感就不会套上绳索。爱,需要成长的空间,如今,往日的`藤缠树、树恋藤的“粘”式爱情令人神疲心累,每时每刻都在一起缠着、绕着、抱着、亲着,形影不离,亲密无间,未必就能心心相印,只会令双方窒息。爱的艺术就像放风筝,不要把对-方抓牢,而应该让彼此在一定的距离两端相互欣赏,只要攥住手中那根线,给他一片自由的空间,才能欣赏到翱翔的风景。距离,给美留下足够的自由和想像空间,具有一种牵肠挂肚的思念和时空变换的新鲜感,犹如轻雾缭绕的高山,犹如可望不可及的皎月。保持距离,才能保护自己,才能给对方适当的活动空间,才能保持自己的相对独立性。
数学之美手抄报篇十二
在网上看到有人推荐吴军博士的《数学之美》,尽管我从事社会科学研究,但对数学的推崇一直如此,所以买来一读,我的真切体验正如吴军博士在书的后记中所说,把自己“境界提升了一个层次”。
那么,对我而言,到底提升了什么境界呢?
首要的肯定是思想境界。在未读这本书之前,我知道对于这个世界的事件形成的信息集合,人类只有两种方式可以表达,一个是数字,一个是语言。整个实数的集合是无穷个,而且每个数字都是唯一的;整个世界中的事件也是无穷个的,而且每个事件也时独一无二的,这样数学中的数字集合与世界中的事件集合就构成一个一一对应的关系,所以研究数字之间的关系,实际上就是在研究世界中事件之间的关系。语言中的概念和世界中的事件之间也是可以构成一个对应关系的,但问题是,语言中概念的集合是有限的,所以它和数字集合的对应显然只能是部分对应。
计算机科学的发展,人类需要把语言处理成数字,因为计算机只能识别数字信号,所以“语言的数字化”成为计算机产生以来发展最快、而且最有创新性的领域,而许多华人科学家成为了这个领域的顶尖专家,如李开复,吴军博士是卓越的科学家之一。至此我才感到,在计算机主导的世界中,信息化就是数字化,而最难的数字化、也是最有成就的数字化,就是对人类自然语言的数字化,因为人类的信息几乎100%是用语言承载、传播的,计算机要与人对话,变成智能化的机器,首先要解决的就是语言的数字化问题。但我们在电脑上自如地输入文字时、或者拿着手机通话时,我们跟本没有意识到,那些卓越的语言科学家,早已经把我们的语言,转化成数字信号,通过输入、处理、解码的方式,让我们无障碍地联络、工作。
我似乎感到,语言与数字的关系,就是人与自然关系的接口。套用古希腊毕达哥拉斯学派的观点,加上我的理解,即是,数是万物的本原,语言是人的本原!
吴军博士似乎也在提升我对方法的认识境界。科学研究的思考方式,习惯遵循本质、规律、连续性思维,在语言学研究的早期,人类为了让计算机识别语言,采用建立语言规则和语言规则数据库的办法,但最终以失败告终(20世纪50-70年代),70年代后科学家采用了语言统计模型,研究取得了突飞猛进。语言统计模型的胜利,再一次证明了宇宙量子模型的信念,世界是不连续的随机性的粒子构成,人类数千年文明进化出来的语言系统,就是动态的随机概率事件。其二,物理思维再也难逃牛顿的经典本质思维方法,即找寻到百分之百确定性的规律,而信息论思维是研究如何把握不确定性现象,利用概率统计是不二法门。其三,语言本质上就是信息传播,只有从通信模型视角才能真正理解计算机的功能,对语言的编码、处理、传输、解码是计算机的强项,计算机是永远不可能理解语言的意思的。
在《数学之美》中,吴军博士对他的老师、师兄弟、同事的经历、掌故进行了叙述,让我们了解到这些世界一流的学科家、技术精英们的为人处世品质、鲜明个性、科学素养及其管理风格。例如贾里尼克对博士生的严酷淘汰,马库斯对学生的宽宏大度,但我感到他们有一样东西是共同的,就是对科学创造、顶尖人才的识别和器重,甚至是无条件的包容。如此为人的境界才是根本,因为伟大的科学创造毕竟是人做出来的,只有崇高的人文精神之下才能造就顶尖的人才、一流的科学和技术。
观国内的学说界,官风盛行、人情充斥,与这些一流学说群对科学创造的赏识、对个性人才的包容,对科学探索的热诚,可谓相去甚远。
看来,我们只能寄希望于年轻一代,但愿吴博士的《数学之美》,能让我们的学子们,初步体验到科学精英们卓越的才智与情怀。
数学之美手抄报篇十三
连手指、脚尖等前端部位都注意到的人,在人群中看起来就像聚光灯照射一般亮眼。
只是拿个玻璃杯,撩一撩头发或者跷一跷腿就可以散发出令人心醉的气息,这种改变动作与外表的原动力其实就是自信。
这里我以芭蕾舞者为例。芭蕾舞者那精心琢磨过的`美可以说是至高无上的艺术。即使现在不是芭蕾舞者,但只要小时候学过一点芭蕾舞,也会散发出过人的优雅气质。过去让我觉得心动的女性几乎100%都学过芭蕾舞。
我并不是鼓励大家学习芭蕾舞,但建议大家能将芭蕾舞的动作与气质带入日常生活,比如用手指轻轻固定吸管,坐在沙发上时将手轻靠在扶手上一个小小的动作就能令人瞬间变得优雅。即使没有人注意到也没关系,最重要的是自己要熟悉前端之美,并将这样的感觉带入日常生活。在这样的状态下,你一定比过去美丽动人。
数学之美手抄报篇十四
确切的来说,《数学之美》并不是一本书,它是谷歌黑板报中的一系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用,每一篇文章都不长,但小中见大,从看似高深的高科技中用通俗易懂的案例展示了数学之美,深深的吸引了我。
这一系列文章的作者是google公司的科学家吴军。他毕业于清华大学计算机系(本科)和电子工程系(硕士),并于1993-在清华任讲师。他于19起在美国约翰霍普金斯大学攻读博士,并于xx年获得计算机科学博士学位。在清华和约翰霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年的全国人机语音智能接口会议的最佳论文奖和xx年eurospeech的最佳论文奖。
吴军博士于xx年加入google公司,现任google研究院资深研究员。到google不久,他和三个同事们开创了网络搜索反作弊的研究领域,并因此获得工程奖。xx年,他和两个同事共同成立了中日韩文搜索部门。吴军博士是当前google中日韩文搜索算法的主要设计者。在google其间,他领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,并得到了公司首席执行官埃里克.施密特的高度评价。吴军博士在国内外发表过数十篇论文并获得和申请了近十项美国和国际专利。他于xx年起,当选为约翰霍普金斯大学计算机系董事会董事。
正是他在信息检索与自然语言处理领域中的一系列工作,使他讲述了我所看到的内容-数学之美。
看了数学之美,立即联想到了金庸小说中的武林高人,总是把一套大多数人都会的入门功夫使得威力无比,击溃众多敌者。东西放在那,它的威力如何,并键在于使用者,武术如此,数学同样如此。
于我而言,语音视别是一类高科技,作为非专业人土,深觉高奥。但看完数学之美之后,顿感惊诧,原来如此深奥东西的解决方法自己也学过,并且理工科读过大学的人都学过,那就是统计学中的条件概率p(a/b),即b事件发生条件下a事件发生的概率。
如果s表示一连串特定顺序排列的词w1,w2,…,wn,换句话说,s可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道s在文本中出现的可能性,也就是数学上所说的s的概率用p(s)来表示。利用条件概率的公式,s这个序列出现的概率等于每一个词出现的概率相乘,于是p(s)可展开为:
p(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)
其中p(w1)表示第一个词w1出现的概率;p(w2|w1)是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词wi-1有关(即马尔可夫假设),于是问题就变得很简单了。现在,s出现的概率就变为:
p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…
(当然,也可以假设一个词又前面n-1个词决定,模型稍微复杂些。)
接下来的问题就是如何估计p(wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi)在统计的文本中出现了多少次,以及wi-1本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,p(wi|wi-1)=p(wi-1,wi)/p(wi-1)。
也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在google的中英文自动翻译中,用的最重要的就是这个统计语言模型。去年美国标准局(nist)对所有的机器翻译系统进行了评测,google的系统是不仅是全世界最好的,而且高出所有基于规则的系统很多。
这就是数学的美妙之处了,它把一些复杂的问题变得如此的简单。
看到《数学之美》,在感叹数学的美妙与神奇之处时,自然而然联系到自己专业(地质工程而或岩土工程)中的数学应用。
数学之美手抄报篇十五
其实不然,数学一直渗透在我们生活的各个方面,尤其是在今天这个信息时代,很多简单朴素的数学思想,能发挥一般人很难想象的巨大作用。比如,计算机处理自然语言,用到的最重要工具是统计学的思想;计算机对新闻内容的分类,依靠的是数学里的余弦定理;而电子电路的基本逻辑,则来源于仅有0和1两个数字的布尔代数。
在《数学之美》里,吴军用自己在工作中使用数学的亲身经历,为我们展现了数学的重要性,以及他对数学之美的理解。吴军是“得到”app专栏《吴军的谷歌方法论》的主理人。曾先后供职于谷歌和腾讯,是著名的自然语言处理专家和搜索专家。同时,他还是位畅销书作家,除了这本《数学之美》以外,还写过《文明之光》《智能时代》《浪潮之巅》等多本畅销书。