Skip to content

Tag Archives: 数据复用

从Excel的vlookup()函数说起

1,一个实际问题
  提问:我有一张很大的表,比如说,全国所有城市和对应的人口数。现在我要把我所研究的10个城市的人口数找出来,我应该怎么做?
  最简单的答案:把这张大表打印出来,然后圈出自己要研究的城市的人口,然后再输入到对应的表里面去。  我找到的答案:将大表放到Excel中,然后使用vlookup()函数,应用关键字索引,将所需要的对应人口数量找出来。具体用法如下:  =vlookup(关键字, 搜索表, 返回值所在列, 精确搜索开关)  当然,你也可以用python,或者任何你喜欢的自动化工具来完成这件事情,欢迎提供更高效的方法。
  这个是我最近两周在做的一件工作,有一组研究对象,我需要从不同的大型数据库中抽取他们的属性值,进行比较研究。幸运的是,这几个数据库都有导出到Excel的功能,不然我真的会疯了,因为有100个研究对象,4个数据库。最后,是vlookup()救了我一命。是的,只一条命令。
2,数据复用
  英文里面有一个词叫mashup,原意是声轨合成。简单的说,就是将不同来源的数据整合到一起,重新组合,以创造新的价值。很多文章都在讨论这个问题,很多博客都在做这件事情——比如说,他们将自己读过的好的博客,在自己的博客文章中列出来。方军最近在讨论的新闻聚合,还有他最近引用的IBM的新闻,都在说明,数据的整合和重复利用已经成为一个新的增长点,在这一点上,我们能够做更多的工作。  从根本上来说,博客的流行和RSS(订阅源)有关,而RSS就是一种标准的数据交换手段。虽然他只是一个小小的文件,但是它通过标准化的数据交换,使每一个博客上的数据可以被第三方站点很容易的重新展示和复用,从而增加了信息的价值。  另外,也曾经看到有些博客讨论在国内还没有流行起来的微格式,比如说,用标准格式展示个人名片,便于在互联网上交流和沟通。这些都是增加信息复用方便程度的手段。  相对来说,很多的商用数据库还是比较封闭的,除了用自己的查询手段之外,无法与第三方软件对接。这一次我还算幸运,至少他们能够导出Excel。但更多的是一种传统思维的问题,比如说,很多人喜欢用Word做表格,因为打印出来比较漂亮,或者比较容易调整格式——但却因此大大增加了数据复用的难度。(在此我们暂不讨论使用.doc之类封闭格式所带来的负面影响)
3,软件帝国
  曾经很流行一句话:“用户往往只用到Office中10%的功能而已。”  我想,那是说Office 97吧,那个时候刚刚整合进去VBA。现在应该是1%了。比如说,Office的多语言和全球部署,已经是2000年出来的功能;后来是2003,然后是2007。MS已经不知道往里面添加了多少新功能了。  问题是,用户会去探索这些功能么?  记得似乎是在Linus的Just for fun里面读过,绝大多数人用计算机,学习编程,仅仅是停留在”hello world”上面而已。”hello world”,然后呢?没有了。  这一次周末在火车上,和unclewang聊了一路,也是说的这个问题。unclewang用计算机不太久,不过她觉得很新奇——原来计算机除了看电影、上BBS,还能做这么多有趣的事情?  其实很多时候,我们只需要多想一点:“这件事情用计算机来做,能够在哪些地方更为省力?”  经验表明,最懒惰的人,往往才是最好的玩家。  反过来说,对于“勤奋”的普通人,商家要考虑的就是发布粒度的问题了,用可以接收的方式,把好的功能推给用户。微软?太大了,简直没有所谓粒度的问题……

Powered by ScribeFire.