大數據的Hadoop是做什麽的？

Hadoop中有很多方法可以加入多個數據集。MapReduce提供了Map端和Reduce端的數據連接。這些連接是非平凡的連接，並且可能會是非常昂貴的操作。Pig和Hive也具有同等的能力來申請連接到多個數據集。Pig提供了復制連接，合並連接和傾斜連接（skewed join），並且Hive提供了map端的連接和完整外部連接來分析數據。

壹個重要的事實是，通過使用各種工具，比如MapReduce、Pig和Hive等，數據可以基於它們的內置功能和實際需求來使用它們。至於在Hadoop分析大量數據，Anoop指出，通常，在大數據/Hadoop的世界，壹些問題可能並不復雜，並且解決方案也是直截了當的，但面臨的挑戰是數據量。在這種情況下需要不同的解決辦法來解決問題。

壹些分析任務是從日誌文件中統計明確的ID的數目、在特定的日期範圍內改造存儲的數據、以及網友排名等。所有這些任務都可以通過Hadoop中的多種工具和技術如MapReduce、Hive、Pig、Giraph和Mahout等來解決。這些工具在自定義例程的幫助下可以靈活地擴展它們的能力。