Question

从服务器的背景来看,我对HBase而言是一个新事物,但技术似乎适合我们再做的事情,费用肯定是正确的!

我需要保留一份记录条目清单,通常我将在南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南

create table Log ( UserID int, SiteID int, Page varchar(50), Date smalldatetime )

如果一个用户在本简单表格中可能拥有0至1000分。典型的询问是,在一个网站上找到一个用户或一个用户的所有浏览器。

在没有“增长钥匙”和相同(SiteID,Page)的情况下,如何将这种地图翻译成“HBase”。我的第一项想法是,用户信息数据库是一个增长的关键,但我仍然不理解“col的家庭”,而其他术语也足以理解如何在用户信息数据库能够拥有很多(SiteID、Page、Date)的“增长”的情况下确定数据表。

赞赏任何方向!

Answer 1

我的建议是,给予你<>UserId,作为罗门基,把任何单列家庭视为没有必要,只会增加申请所需时间,并给予<>siteI<<>>>>>>>,使这个限定词永远是独一无二的,其价值将是page。

RowKey Qualifier                       Value

001    C:site001|25/01/2013:6:17:17    www.example123.com/home
001    C:site001|25/01/2013:6:17:18    www.example123.com/about
001    C:site002|25/01/2013:6:30:17    www.example1123.com/
001    C:site003|25/01/2013:6:32:18    www.example1123.com/contact
002    C:site001|25/01/2013:2:22:17    www.example123.com/home
003    C:site001|25/01/2013:3:12:18    www.example123.com/about
003    C:site003|25/01/2013:5:30:17    www.example1223.com/
003    C:site004|25/01/2013:6:32:18    www.exampleABC.com/contact

......

希望它发挥作用!

Answer 2

原文照搬。

RowKey : Qualifier : Value,

代表:12_Aug_2013_00:00 ∗-Temp=24 - <>Humidity=15, - FileghtsDelayed17

RowKey : Qualifier : Value,
12_Aug_2013_00:00 : Temp : 24
12_Aug_2013_00:00 : Humidity : 15

现在,看得更深,如果我们能够把 qua子归入一栏家庭的话。

指称:

lets group, Temprature, Humidity, AirPresure as WeatherDetails
小组讨论*
我们有“天气情况”和“天气”;“事件”——<街区家庭<>。

We have - Date_Hour : WeatherDetails : EventDetails: eg, for 12_Auguest_2013 FirstHour Data Recorded could be represented as

12_Aug_2013_00:00 :WeatherDetails-Temp=24, WeatherDetails-Humidity=15, eventsConts-FileghtsDelayed=17

这一组别是为了优化单壳操作。

Answer 3

一种做法是,在你使用rid+现场器时,使化合物浏览成为关键。

编制表格,以保存你希望使用的某一页数的标识,并储存你们的数据,每次都作为新版本(如有必要,通常确定时间)。

自2006年以来 HBase为每个囚室保留时间,在进入时间上不需要单独的一栏。

因此,你会有一个内容如内容的表格。

Row             Page

user1:site1     www.example.com/index.html@1234567890
                www.example.com/somepage.html@123456800
                www.example.com/someotherpage.html@123456900
                www.example.com/index.html@123457123

user1:site2     blahblah

user2:site1     etc...

3. 处理你提出的两个例子:

为了找到所有用户浏览器,你将使用x:0至用户x+1:0进行扫描(确保确定最大用户),然后从每个结果浏览中清除现场的ids。

从用户x:sitex到用户x:sitex+1, 仅接收特定用户/站点的所有网页。最后,我检查一下,你可以 get一刀,这样就不是一种选择。

To put it simply, column families represent groups of data that you want stored together... Presumably you would be reading data from them simultaneously quite often. Placing columns in separate families would result in the data being stored separately, so you get faster reads when you only want one column, but you need to read 2 different places to get both columns.

当然,视你的其他需要,你可能希望采取不同的做法。我强烈建议阅读大的表格文件,以更好地了解HBase的结构(因为该文件主要以大体为基础)。

为了更好地了解HBase的内部,Lars George s blog 也非常重要。

友情链接