English 中文(简体)
HBase schema
原标题:HBase schema help
  • 时间:2010-05-11 18:42:37
  •  标签:
  • hbase

从服务器的背景来看,我对HBase而言是一个新事物,但技术似乎适合我们再做的事情,费用肯定是正确的!

我需要保留一份记录条目清单,通常我将在南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南-南

create table Log ( UserID int, SiteID int, Page varchar(50), Date smalldatetime )

如果一个用户在本简单表格中可能拥有0至1000分。 典型的询问是,在一个网站上找到一个用户或一个用户的所有浏览器。

在没有“增长钥匙”和相同(SiteID,Page)的情况下,如何将这种地图翻译成“HBase”。 我的第一项想法是,用户信息数据库是一个增长的关键,但我仍然不理解“col的家庭”,而其他术语也足以理解如何在用户信息数据库能够拥有很多(SiteID、Page、Date)的“增长”的情况下确定数据表。

赞赏任何方向!

问题回答

我的建议是,给予你<>UserId,作为罗门基,把任何单列家庭视为没有必要,只会增加申请所需时间,并给予<>siteI<<>>>>>>>,使这个限定词永远是独一无二的,其价值将是page

RowKey Qualifier                       Value

001    C:site001|25/01/2013:6:17:17    www.example123.com/home
001    C:site001|25/01/2013:6:17:18    www.example123.com/about
001    C:site002|25/01/2013:6:30:17    www.example1123.com/
001    C:site003|25/01/2013:6:32:18    www.example1123.com/contact
002    C:site001|25/01/2013:2:22:17    www.example123.com/home
003    C:site001|25/01/2013:3:12:18    www.example123.com/about
003    C:site003|25/01/2013:5:30:17    www.example1223.com/
003    C:site004|25/01/2013:6:32:18    www.exampleABC.com/contact

......

希望它发挥作用!

原文照搬。

  • RowKey : Qualifier : Value,

代表:12_Aug_2013_00:00 ∗-Temp=24 - <>Humidity=15, - FileghtsDelayed17

  • RowKey : Qualifier : Value,
  • 12_Aug_2013_00:00 : Temp : 24
  • 12_Aug_2013_00:00 : Humidity : 15

现在,看得更深,如果我们能够把 qua子归入一栏家庭的话。

指称:

  • lets group, Temprature, Humidity, AirPresure as WeatherDetails
  • 小组讨论*

  • 我们有“天气情况”和“天气”;“事件”——<街区家庭<>。

We have - Date_Hour : WeatherDetails : EventDetails: eg, for 12_Auguest_2013 FirstHour Data Recorded could be represented as

  • 12_Aug_2013_00:00 :WeatherDetails-Temp=24, WeatherDetails-Humidity=15, eventsConts-FileghtsDelayed=17

这一组别是为了优化单壳操作。

一种做法是,在你使用rid+现场器时,使化合物浏览成为关键。

编制表格,以保存你希望使用的某一页数的标识,并储存你们的数据,每次都作为新版本(如有必要,通常确定时间)。

自2006年以来 HBase为每个囚室保留时间,在进入时间上不需要单独的一栏。

因此,你会有一个内容如内容的表格。

Row             Page

user1:site1     www.example.com/index.html@1234567890
                www.example.com/somepage.html@123456800
                www.example.com/someotherpage.html@123456900
                www.example.com/index.html@123457123

user1:site2     blahblah

user2:site1     etc...

3. 处理你提出的两个例子:

为了找到所有用户浏览器,你将使用x:0至用户x+1:0进行扫描(确保确定最大用户),然后从每个结果浏览中清除现场的ids。

从用户x:sitex到用户x:sitex+1, 仅接收特定用户/站点的所有网页。 最后,我检查一下,你可以 get一刀,这样就不是一种选择。

To put it simply, column families represent groups of data that you want stored together... Presumably you would be reading data from them simultaneously quite often. Placing columns in separate families would result in the data being stored separately, so you get faster reads when you only want one column, but you need to read 2 different places to get both columns.

当然,视你的其他需要,你可能希望采取不同的做法。 我强烈建议阅读大的表格文件,以更好地了解HBase的结构(因为该文件主要以大体为基础)。

为了更好地了解HBase的内部,Lars George s blog 也非常重要。





相关问题
Hbase schema design -- to make sorting easy?

I have 1M words in my dictionary. Whenever a user issue a query on my website, I will see if the query contains the words in my dictionary and increment the counter corresponding to them individually. ...

How to pick random (small) data samples using Map/Reduce?

I want to write a map/reduce job to select a number of random samples from a large dataset based on a row level condition. I want to minimize the number of intermediate keys. Pseudocode: for each ...

Difference between Document-oriented-DB and Bigtable clones

Can someone give a head-to-head comparison between them? We are looking for a suitable storage engine for our weblog history data. We looked at Bigtable s paper and understand it is suitable to us ...

is this architecture possible in Hadoop MR?

Is the following architecture possible in Hadoop MapReduce? A distributed key-value store is used (HBase). So along with values, there would be a timestamp associated with the values. Map & ...

i got this exception while i run hbase client

import java.io.IOException; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.Get; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase....

Any scalable OLAP database (web app scale)?

I have an application that requires analytics for different level of aggregation, and that s the OLAP workload. I want to update my database pretty frequently as well. e.g., here is what my update ...

Scalable Image Storage

I m currently designing an architecture for a web-based application that should also provide some kind of image storage. Users will be able to upload photos as one of the key feature of the service. ...

热门标签