问题描述作为之前练手Spark的项目,在此做个小结。开发语言为Scala。特征和模型都比较简单,需要进阶的读者请止步前往Kaggle… 数据源于1990年加州房屋价格普查数据集。 数据描述为: 该地区中心的纬度(latitude) 该地区中心的经度(longitude) 区域内所有房屋屋龄的中位数 ...
阅读全文 »

搜索引擎的几个技术要点最近浏览了搜索引擎的发展历程,简单总结下。搜索引擎需要解决的主要问题包含但不限于:建立资料库,建立关键字-页面号的索引,确定页面排序。三者的经典解决办法分别为:爬虫技术(Spider)、倒排索引(Inversed-Index)数据结构、排序算法(TF-IDF、PageRank等 ...
阅读全文 »

IndexMySQL索引的基本操作CREATE INDEX idx_price on OrderItems(item_price);ALTER TABLE OrderItems DROP INDEX idx_order_num_price; ExplainMySQL 提供了一个 EXPLAIN 命令 ...
阅读全文 »

RxJava提供了Reactive Programming for Java,个人在Android开发中用的相当多,尤其线程切换和链式的数据处理,给码农们提供了极大的便利。在线程切换方面,之前一直用subscribeOn和observeOn配合,不过最近工作需要对线程更加细致的考量,比如zipWit ...
阅读全文 »

首先确保Hadoop环境和Hive环境兼容且配置好,我这里Hive的元数据库使用的MySQL。 编辑$HIVE_HOME/conf/hive-site.xml,对server2适当配置并启动server。 使用server2是因为HiveServer2支持多客户端的并发和认证,为开放API客户端如 ...
阅读全文 »

在实现事件流流经Kafka时遇到了这个问题,即如何满足消息按produce顺序去consume。 概念&问题首先,了解Kafka中broker、partition、topic的概念。 Topic:特指Kafka处理的消息源的不同分类。可理解为字面意“主题”。 Partition:Topic ...
阅读全文 »

SQOOPSqoop是一款开源的工具,主要用于在Hadoop生态系统与传统的数据库(如mysql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。关于Sqoop版 ...
阅读全文 »

请求方式很简单,在API方法前加@GET,即说明该方法以get方式请求。HTTP/1.1协议中定义的八种方法都是支持的,灵活选用即可,此处不再赘述。 URL拼装Retrofit提供了灵活定义request的方式,URL可使用注解+参数完成按自己逻辑的拼装。除了上面的@PATH外,常用的还有: @QU ...
阅读全文 »

引Microsoft(MS) Build 2016刚落幕,围观充值信仰后发现除了Hololens、Windows Shell外,还出了个Cognitive Services的东西,简单的来说是微软开放了图像识别领域的部分API给开发者把玩,直播中的美女演示了在台上拍了一张照片,通过MS server ...
阅读全文 »

引项目中网络访问模块经历了从AsyncHttp -> OkHttp的变迁,目前方案是对OkHttp做了一层简单封装,主要是结合业务逻辑,完成错误处理、Json解析以及线程切换。现在看来有点惨不忍睹,没能做到高内聚和全面考虑扩展性…对Retrofit听闻好久,但一直未能完整地学习使用,希望借Re ...
阅读全文 »