我过去曾处理这一问题。
在价格历史数据方面,我使用了亚霍氏体。 当我说APIC时,我指的是,我正在向吉大港山区申请一个价格历史数据CSV档案。 不幸的是,这只是在一段时间内获得一家公司的数据。 因此,我先提出一个所有标志的清单,然后把每个标志都称作Ahoo。 也许你能够找到一个网站,列出标记符号,并且只是定期下载该清单。
Do this too often and too fast, and their website just might block you. I added some code to limit how frequently I made http requests. I also persisted my data so I would not have to get it again. I would always persist the raw/unprocessed form of data, your code could change in ways that make it tough to use anything else. Avro/Thrift might be an exception, since those support schema evolution.
在其他种类的数据中,您可能没有发给您的CSV档案的任何传真。 我不得不多次处理这一问题。 我在此建议。
有时,一个网站在幕后打着一个充满活力的网络服务,你可以发现,通过使用火力。 有时还需要某些头盔,你也可以用火力发现。
If you are forced to work with HTML, there are several java libraries that can help you. apache.commons.http is a library you can use to easily make http requests and handle their responses. Google has an http-client jar too, which is probably worth investigating.
即使在格式不好,而不是X射线超数据的情况下,联合材料软件也极好。 它还与XML合作。 不要在 j子的层次上 trav或看望 no子,而是学习XPath,并用它来选择你想要的东西。 该网站可定期改变其网页格式,如果你重新使用联合材料,就很容易应对和固定,并且难以以其他方式应对。
如果你要与JSON合作,就利用Jackson图书馆。
如果你必须与加拿大特别安全局合作,则使用开放式特别安全中心图书馆进行教区和处理。
此外,总是将数据储存在原始材料中,避免不必要的吉卜赛人协会的要求,以免被阻止。 我在两度因果敢筹资而受阻,他们可以这样做。 所幸的是,这块路障已经到期。 你甚至可能想在请求之间增加一个随机等待期。