HBase schema
create table Log ( UserID int, SiteID int, Page varchar(50), Date smalldatetime )

如果一个用户在本简单表格中可能拥有0至1000分。 典型的询问是,在一个网站上找到一个用户或一个用户的所有浏览器。

在没有“增长钥匙”和相同(SiteID,Page)的情况下,如何将这种地图翻译成“HBase”。 我的第一项想法是,用户信息数据库是一个增长的关键,但我仍然不理解“col的家庭”,而其他术语也足以理解如何在用户信息数据库能够拥有很多(SiteID、Page、Date)的“增长”的情况下确定数据表。




RowKey Qualifier                       Value

001    C:site001|25/01/2013:6:17:17    www.example123.com/home
001    C:site001|25/01/2013:6:17:18    www.example123.com/about
001    C:site002|25/01/2013:6:30:17    www.example1123.com/
001    C:site003|25/01/2013:6:32:18    www.example1123.com/contact
002    C:site001|25/01/2013:2:22:17    www.example123.com/home
003    C:site001|25/01/2013:3:12:18    www.example123.com/about
003    C:site003|25/01/2013:5:30:17    www.example1223.com/
003    C:site004|25/01/2013:6:32:18    www.exampleABC.com/contact




  • RowKey : Qualifier : Value,

代表:12_Aug_2013_00:00 ∗-Temp=24 - <>Humidity=15, - FileghtsDelayed17

  • RowKey : Qualifier : Value,
  • 12_Aug_2013_00:00 : Temp : 24
  • 12_Aug_2013_00:00 : Humidity : 15

现在,看得更深,如果我们能够把 qua子归入一栏家庭的话。


  • lets group, Temprature, Humidity, AirPresure as WeatherDetails
  • 小组讨论*

  • 我们有“天气情况”和“天气”;“事件”——<街区家庭<>。

We have - Date_Hour : WeatherDetails : EventDetails: eg, for 12_Auguest_2013 FirstHour Data Recorded could be represented as

  • 12_Aug_2013_00:00 :WeatherDetails-Temp=24, WeatherDetails-Humidity=15, eventsConts-FileghtsDelayed=17




自2006年以来 HBase为每个囚室保留时间,在进入时间上不需要单独的一栏。


Row             Page

user1:site1     www.example.com/index.html@1234567890

user1:site2     blahblah

user2:site1     etc...

3. 处理你提出的两个例子:


从用户x:sitex到用户x:sitex+1, 仅接收特定用户/站点的所有网页。 最后,我检查一下,你可以 get一刀,这样就不是一种选择。

To put it simply, column families represent groups of data that you want stored together... Presumably you would be reading data from them simultaneously quite often. Placing columns in separate families would result in the data being stored separately, so you get faster reads when you only want one column, but you need to read 2 different places to get both columns.

当然,视你的其他需要,你可能希望采取不同的做法。 我强烈建议阅读大的表格文件,以更好地了解HBase的结构(因为该文件主要以大体为基础)。

为了更好地了解HBase的内部,Lars George s blog 也非常重要。

