首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

【学术报告】Big Data 听后初记

2012-12-16 
【学术报告】Big Data 听后小记今天有幸听了李建中教授在我们学校进行的关于大数据的学术报告~不枉我逃了一

【学术报告】Big Data 听后小记

    今天有幸听了李建中教授在我们学校进行的关于大数据的学术报告~不枉我逃了一节课去听啊......这是一篇李教授在北京的演讲实录 看上去和今天在我们学校讲的差不多 不过现场听和看实录感觉确实不一样啊~

    大数据是一个相对概念,有Volume、Variety、Velocity、Value四大性质(印象比较深刻的是存储量大但密度低),很多领域都涉及到大数据,天文学、生物学、社会学、制造业、商业……大数据的获取、传输、存储、质量管理、问题求解集合成了大数据计算问题空间。大数据也面临很多挑战,比如怎样使用现有理论与算法对大数据进行计算,确保它的质量,处理好共享与保护隐私的关系,实现多领域的交叉。

    大数据计算具有时间复杂性和能量复杂性(耗电之类的问题)。这个地方李教授说了一些数学方面的东西,比如P问题、NP问题、多项式归约、线性或亚线性归约之类的。印象比较深的是教授问我们的问题:排序算法的下界是nlogn,有没有复杂度为o(n)的算法?有复杂度为o(n)的算法,为什么还说排序算法的下界是nlogn?答案是基数排序是o(n)的,但是下界是nlogn说的是“基于比较的排序算法”,基数排序不是基于比较的排序算法。李教授说要学好数学知识,我个人也越发觉得数学十分重要,不仅重要,它还特别美。李教授提出了求解大数据计算问题的算法设计新方法:基于压缩的大数据计算方法,基于抽样的大数据(ε, δ)-近似计算方法,增量式大数据计算方法,基于主数据分析的大数据计算方法。总结起来就是Doing more with less。其中流数据可以使用增量方法,主数据分析选择最有价值的数据。教授还提到了云计算环境下并行算法的设计方法:云计算环境下大数据分布存储方法,云计算环境下的低通信量并行计算算法,能量受限的大数据计算算法,通信量受限的并行大数据计算算法。还有基于互联网的大数据获取的理论和方法:多数据源集成的理论和方法,多类型数据集成的理论和方法,最小化有效数据损失的过滤器设计理论和方法,元数据(包括数据起源)自动生成的理论和方法。

    接下来是针对大数据计算问题空间的问题的阐述。

    首先是获取。基于传感网的大数据获取的理论和方法涉及到设计新的数据获取系统,研究新的信号处理算法,物理世界信息的准确获取方法。

    然后是传输。涉及到实时传输、安全可靠传输、传输与计算融合的理论和方法,还有传输的调度与控制。

    再然后是存储。涉及到存储与计算融合的云存储理论和技术。有面向计算的大数据存储方法,存储感知的大数据计算的算法,存储系统中的数据演化管理的理论和方法,存储系统的可靠性和安全性,存储系统的低能耗理论与方法。

    接下来是大数据可用性理论技术。大数据可用性是大数据计算的保障。

    然后是大数据问题的求解。有两类:共性大数据问题和面向应用的大数据问题。要考虑逻辑表示和物理组织,以及TB以上数量级的共性基本操作,数据挖掘、查询处理、分析、复杂分析算法。

    最后谈到了隐私与安全问题。“Privacy有可能会成为大数据计算的障碍。”

    在报告的最后,李教授还提出了三个问题:我们是否需要新的程序设计模型?我们是否需要新的软件开发工具?我们是否需要新的软件设计方法学?


    总的来说,李教授在这次学术报告上提出了很多有价值的问题,他发表过很多提出解决方法的论文。虽然这次报告中,教授讲到的数学理论和算法之类的我都不是很了解,但是我大体上了解到了大数据所面临的一些问题和挑战,并且对大数据问题的解决方法也有了初步的了解。我最大的感想就是,要想在计算机领域有所建树,那么就一定要好好打专业基础,好好学数学,而且要学以致用!!!顺便说一句,我好崇拜科学家~

热点排行