mahout 예제

마지막 예제에서는 명령줄에서 Mahout을 사용했습니다. Mahout을 Java 응용 프로그램과 통합할 수도 있습니다. 마호트는 그룹 ID org.apache.mahout를 사용하여 메이븐을 통해 사용할 수 있습니다. pom.xml에 다음 종속성을 추가하여 시작하십시오. 아파치 마호트(Apache Mahout)는 MapReduce, Spark, H2O 및 Flink*에서 실행할 수 있는 순차및 병렬 기계 학습 알고리즘을 구현합니다. Mahout(0.10.0)의 현재 버전은 권장 사항, 클러스터링 및 분류 작업에 중점을 둡니다. Mahout의 기능 의 전체 목록은 엔진에 의한 기능 페이지를 참조하십시오. 우리는 우리가 파일 설명기를 만들어 처리하는 데이터의 유형을 Mahout말할 필요가있다.: Mahout는 그룹 ID org.apache.mahout에서 maven 저장소를 통해 사용할 수 있습니다. mahout의 최신 릴리스를 java 프로젝트로 가져오려면 pom.xml에 다음과 같은 종속성을 추가합니다. 이 예제에서 피처(입력 변수)는 이미지의 픽셀이며 대상 값(출력)은 숫자 숫자-0, 1, 2, 3, 4, 5, 6, 7, 8 또는 9가 됩니다.

이 간단한 예제에서 함수 vectorizeDocument(…)는 네이티브 Java String 메서드를 사용하여 새 문서를 유니그램으로 토큰화하고 사전 및 문서 주파수를 사용하여 벡터화합니다. 또한 Bigrams, trigrams 등에 Lucene 분석기를 사용하고 아파치 티카를 통합하여 다양한 문서 유형 (PDF, PPT, XLS 등)에서 텍스트를 추출 할 수 있습니다. 그러나 여기에서는 정규식 및 네이티브 String 메서드를 사용하여 텍스트를 제거하고 토큰화하여 단순하게 유지합니다. 마호그 스파크 쉘을 시작합니다. 예제 스크립트가 있습니다: 스파크-문서 분류기.mscala (.mscala는 R 스크립트와 유사하게 실행할 수 있는 Mahout-Scala 스크립트를 나타냅니다). 우리는이 튜토리얼에 대한이 스크립트를 통해 걷고있지만 단순히 스크립트를 실행하려는 경우, 당신은 명령을 실행할 수 있습니다 : 당신은 BankMarketingClassificationMain의 주요 방법을 실행할 때 그것은 전화 CallParser를 사용하여 데이터 집합을 구문 분석하고 훈련 20회 실행 및 20번의 패스로 로지스틱 회귀 모델을 실행합니다. PhoneCallParser는 Mahout의 특징 벡터 인코더를 사용하여 데이터 집합의 피처를 벡터로 인코딩합니다. 그 후 모델을 테스트하고 학습 속도와 AUC가 인쇄된 정확도가 표준 출력에 인쇄됩니다.

여기서 한 가지 중요한 참고 사항: 분류를 시작하기 전에 시스템을 가르쳐야 합니다. 이렇게 하려면 다른 텍스트 분류의 예제(더 나은)를 제공해야 합니다. 각 줄이 텍스트 자체에서 탭으로 구분된 범주로 시작하는 간단한 파일이어야 합니다. F.e.: Mahout은 사용자가 기계 학습 알고리즘을 사용하는 방법을 빠르게 배울 수 있도록 많은 예제와 자습서를 준비했습니다. 안녕하세요 아파네시, 질문에 대답하기 전에 나는 하나의 중요한 세부 사항을 언급하고 싶습니다 : 당시 게시물이 게시 되었다, Mahout 버전 0.4에 있었다. Mahout의 현재 안정적인 버전은 0.7이며 이전 버전과 매우 다릅니다. 그래서 Mahout 에 관하여 0.4: Q1 -> 아니, 그것은 Q2 하지 않습니다 -> 예, `basePath` HDFS 위치 Q3를 가리킬 수 있습니다 .> 오른쪽, M/R이 예제 Mahout의 일부가 아닙니다 Mahout 0.7 전체 M/R 처리 파이프라인을 줄 것 이다 하지만 게시물에서 코드 는 더 이상 작동 하지 않습니다. 이 블로그 게시물은 더 많은 통찰력을 제공 할 수 있습니다 :… 자세히 보기 » 이 접근 방식은 매트릭스 데이터를 검색 플랫폼(예: Solr 또는 ElasticSearch)에 공급하여 실시간 설정에서 사용할 수 있습니다. Spark-Mahout 알고리즘은 사용자 상호 작용에서 발생한 공동 발생을 계산하고 검색 엔진의 지표를 업데이트한 다음 응용 프로그램에 다시 공급하여 피드백 루프를 제공할 수 있습니다.

숫자 “3”에 대한 결과를 살펴 보겠습니다. 이 숫자는 이 혼동 행렬에서 “a”로 레이블이 지정됩니다.