Choose Language Hide Translation Bar

cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
レベル:初級 今秋リリースされた最新バージョン「JMP 17」では多種多様な機能が追加されているが、本発表では、これらの新機能がどのようなケースでどのように役に立つのかを説明する。 また、"JMPを効率的に使って分析を行う" ことを考慮したとき、JMP 17では分析プロセスを記録する機能、ある統計手法の実施方法を検索する機能、分析オプションを環境設定に保存する機能などの新機能が役立つと思われる。そこで、実際のデータ分析の例を用い、分析を効率化できる場面をデモンストレーションにて紹介する。 発表内容(予定) • JMP製品のロードマップ • JMPの情報を入手、学習するさまざまなリソースの紹介 • JMP 17(JMP Pro 17)の新機能の概要 • データ分析を効率化する新機能とデモンストレーション JMPジャパン事業部の技術エンジニア。現在はJMP製品に関するセミナーの実施、ブログの投稿、SNSのコンテンツ作成、技術資料の作成などの業務を行っている。自身も一人のJMPユーザであるという意識が強く、オープンデータをはじめ、さまざまなデータ分析の場面でJMPを活用している。     追記(11/22):本発表中、チャット欄から頂いたご質問について回答をまとめました(2022-JA-50MP-17_Naohiro-MASUKAWA(QA).pdf)。 追記(11/25): 最初に公開した発表資料(PDF)の記載内容に誤りがありました。現在は修正した資料を公開しています。 修正内容:資料22枚目: 誤:正確検定(Fisherの正確検定、正確Bowker(McNemer)検定など) 正:正確検定(Fisherの正確検定、一致性統計量(カッパ係数)の正確検定など) お詫び申し上げます。
レベル:上級 線形回帰分析・最尤推定・多変量正規分布などの基本的な統計知識をすでに習得している人向けに、JMP Pro 17での「構造方程式モデル」プラットフォームの新機能を紹介する。JMP Proの「構造方程式モデル」プラットフォームでは、多変量正規分布を仮定した完全情報最尤推定に基づき、潜在変数を含む線形モデルを推定できる。潜在変数を含むパス解析や確認的因子分析など、幅広い線形モデルに対する推測を行える。分析者が想定しているモデルをパス図で描くことによって指定できるので、その想定しているモデルにおける変数間の関係が直感的にわかりやすい。JMP Pro 17では、多母集団分析もサポートされた。最初に構造方程式モデルであてはめることができる幾つかのモデルを簡単に紹介した後、JMP Pro 17の新機能を、多母集団分析を中心に紹介する。 1994年、北海道大学文学部卒。1996年、株式会社サスインスティチュートジャパン入社(当時)。テクニカルサポート部にて統計関係のカスタマーサポートに従事。2001年、同社を退社後、製薬会社の生物統計担当、製造系エンジニアリング会社のプログラマー、フリーランスを経て、2005年にSAS Institute Japan株式会社に再入社。JMPジャパン事業部のテスターとして、ソフトウェアのテストや翻訳の校正に携わる。2014年、RSS/JSS Graduate Diploma(Passing with Distinctionおよび日本統計学会 統計検定 RSS/JSS試験最優秀成績賞)。2012年、統計検定1級(生物統計分野)。共訳書として、Tourangeau, R., Conrad, F. G., and Couper(著)大隅昇・鳰真紀子・井田潤治・小野裕亮訳(2013訳書)『ウェブ調査の科学』朝倉出版、Le Roux, B. and Rouanet, H.(著)大隅昇・小野裕亮・鳰真紀子訳(2010訳書)『多重対応分析』オーム。  
レベル:初級 To utilize several JMP 16 platforms to study exam patterns among teammates. Hierarchical Clustering Analysis used to group the students with similar answering patterns across questions. Cell Plot analysis across questions, narrow down scope. Contingency Table Chi- Square Test and Further Contingency Table Chi-Square Test to test the probability of teammates activities. Through pairing comparison, detect teammates have less than 0.001% chance to defend themselves not violating the exam policy. 複数のJMP16プラットフォームを活用し、チームメイト間の出題パターンを研究する。階層的クラスタリング分析により、問題間で類似した回答パターンを持つ学生をグループ化する。問題間のセルプロット分析で、範囲を絞り込む。分割表カイ二乗検定、さらに分割表カイ二乗検定により、チームメイトの活動確率を検定。ペアリング比較により、チームメイトが試験方針に違反しないよう自己防衛する確率が0.001%未満であることを検出する。 Yuchen is a customer quality engineer from Applied Materials Corp. Yuchen had been a SEMI CVD customer engineer for 10 years and quality experience for 5 years. Yuchen's research focus is on continue improvement for management process. Yuchenはアプライド マテリアルズのカスタマー・クオリティ・エンジニアである。SEMI CVDのカスタマーエンジニアとして10年、品質管理者として5年の経験を持つ。研究テーマは、管理プロセスの継続的改善。
レベル:中級 In situations of IP sensitivity, the ability to provide guidance to supplier for continued process improvement is challenged. This presentation introduces a methodology to address this. It uses retrospective analysis to separate the special cause from common cause, leading to establishment of achievable process target with improved controls and performance capability. JMP tools like ANOVA, each pair t-test, 3 way control chart, and goal plot are fundamental instruments to this methodology. 知的財産に敏感な状況下では、サプライヤーに継続的なプロセス改善のためのガイダンスを提供する能力が問われます。本発表では、この問題に対処するための方法論を紹介します。この手法では、事後的な分析を用いて、特殊原因と一般原因を分離し、改善されたコントロールとパフォーマンス能力を持つ達成可能なプロセス目標を確立します。JMPのANOVA、各対のt検定、3元管理図、ゴールプロットなどは、この方法論の基本なツールです。 From Santa Clara, California, Tao Yu leads global supplier engineering effort on coating and adhesive at Applied Materials. Tao holds a PhD in Polymer Materials Science. He has worked in the R&D role with various industries, where he practiced JMP learnings into product design and process optimization. Tao’s recent interest in quality engineering motivated him to seek greater utilization of JMP tools and statistical guidance. Tao is STIPS certified, now working on black belt certification. カリフォルニア州サンタクララ出身。アプライド マテリアルズでコーティングと接着剤のグローバルサプライヤーエンジニアリングを統括。高分子材料科学の博士号を取得。さまざまな業界で研究開発業務に携わり、JMPの知見を製品設計やプロセスの最適化に活かしてきた。近年、品質工学に興味を持ち、JMPのツールや統計ガイダンスをより活用することを目指す。STIPSを修了し、現在、Sixsigmaのブラックベルトの認定を取得中。
Tuesday, November 15, 2022
レベル:初級 This Project is to improve the Cpk by reducing the particle generated in PECVD with time. The particle problem leads to yield loss and high cost of production. The whole production time is devide into 3 stages. (1) Fit particle data with JMP Poisson & ZIP Distribution. (2) Combine particle data with JMP Goal Plot, Performance Plot & SPC Control Chart. (3) Compare the performance with Dunnett’s Method. (4) Combine Poisson Distribution with Goal Plot to modify the action plan for the next stages. このプロジェクトは、PECVDで発生する粒子を時間経過とともに減少させ、Cpkを向上させるものである。粒子の問題は、歩留まりの低下と製造コストの上昇につながる。生産時間全体を3つのステージに分ける。(1) JMPポアソン分布とZIP分布で粒子データをフィットさせる。(2) JMPゴールプロット、パフォーマンスプロット、SPC管理図を用いて、粒子データを結合します。(3) Dunnett's Methodで性能を比較します。(4) ポアソン分布とゴールプロットを組み合わせて、次のステージのアクションプランを修正します。 Module Process Engineer from Applied Materials Corp., in JMP process. River had been a PECVD (Plasma Enhance Chemical Vapor Deposition) engineer since 2015 for 5 years and as module process engineer since 2021 for 1 years. River’s research focus on defect /variability /COO reduction and Process Cpk /Matching /Output optimization; Identify opportunities or increase values for Applied service with those learnings. アプライドマテリアルズ株式会社のJMPプロセスのモジュールプロセスエンジニア。2015年から5年間PECVD(Plasma Enhance Chemical Vapor Deposition)エンジニアとして、2021年から1年間モジュール・プロセス・エンジニアとして勤務してきました。研究テーマは、欠陥・ばらつき・COOの低減、プロセスCpk・マッチング・アウトプットの最適化であり、これらの学習によりアプライドマテリアルズのサービスの機会を特定し、価値を向上させることに注力しています。
レベル:初級 コイルの開発にはCAEまたは磁気回路シミュレーションを使用した電気特性の設計が行われている。 この設計をJMPの実験計画(SpaceFilling計画)とモデル作成(Gauss過程モデル)、JMP予測プロファイルのシミュレータ機能を使い、工程能力指数(Cpk)の最適化を行うことで、設計時間の短縮とロバスト設計による高品質製品設計を目指した。 しかし、実験計画の因子範囲が広いと製品仕様範囲に実験点が少ない場合があり、推定精度に課題があることが分かった。 そこで、効率的に推定精度を向上するため、第一段階では広範囲で最適値を求め、第二段階では第一段階の最適値付近に範囲を絞り込んで最終的な最適化を行う、二段階設計を検討した。 この手法により、より高精度で最適設計値を得ることができた。 東光株式会社にてデバイス開発のプロセス業務等を経験したのち、大規模解析等のシミュレーション業務に携わる。 ・社外発表例 1.伊藤一洋(東光),井田浩一(東光),池寛子(東光),高橋政幸(東光),河瀬順洋(岐阜大),山口忠(岐阜大),加藤大地(岐阜大),塚田彰太(岐阜大),福井義成(海洋研究開発機構),西川憲明(海洋研究開発機構),大規模数値解析によるコイル損失低減技術の開発,平成27年度地球シミュレータ産業戦略利用プログラム利用成果報告書 page.101-109 (20160331) 2.河瀬順洋(岐阜大),山口忠(岐阜大),伊藤一洋(東光),高橋政幸(東光),池寛子(東光),三舩洋嗣(村田製作所),磁性粉をランダムに充填したソレノイドコイルの三次元有限要素解析,平成30年電気学会全国大会 3.河瀬順洋(岐阜大),山口忠(岐阜大),伊藤一洋(東光),高橋政幸(東光),池寛子(東光),三舩洋嗣(村田製作所),扁平磁性粉入りソレノイドコイルの三次元非線形有限要素解析,平成31年電気学会全国大会 現在は株式会社埼玉村田製作所のモールド材料技術開発部に所属し、コイル商品に関連したシミュレーション業務に従事している。 ※動画の公開、資料の配布はございません。
レベル:初級 日本触媒では研究開発の高速化を目指して、2020年から実験研究員を対象にデータサイエンス人材の育成に取り組んでいます。統計初心者でも扱いやすいJMPを標準ツールとして採用し、手法教育だけでなく実践支援も含めた総合施策により、現在では様々な活用事例が挙がってきています。 ただ成功事例がある一方で「演習通りにいかない」「どこが間違っているかもわからない」という声がありました。サンプルデータのようなお仕着せのデータでの演習だけでなく、課題の設計から始まる一連の取組みを体験することが重要であると考えました。 飛球シミュレーターは計画、実行、解析、改善のPDCAを実践的に学べる優れたJMPのアドインです。設計者によってレベルデザインが自由に設定できることが特長で、今回は材料開発の研究者が直面しやすい状況を想定して実験計画法の体験コンテンツを開発しました。 本発表では、人材育成の取組みと、飛球シミュレータ―で開発した教育コンテンツの取組みをご紹介します。また、教育コンテンツ作成にあたりSAS社主催の「JMPトレーナーズ勉強会」の紹介も行います。 高分子のメソシミュレーションが専門で、2018年にデータサイエンス業務に従事。データの解析を通じて、材料研究や生産におけるデータ駆動型の意思決定を支援している。2020年からは社内データサイエンティストの教育普及に携わっており、JMPを使った講習(材料処方設計、実験計画、生産データ解析等)や社内LTを実施してきた。 最近はSAS社主催のJMPトレーナーズ勉強会に参加し、体験型の教育コンテンツの開発に力を入れている。 ※動画公開は、12月18日(日)まで 公開を終了いたしました。
レベル:中級 糖質は食品加工おいて幅広く利用されており,食品の風味や食感のみならず,水分活性の調節,着色性,浸透性,澱粉の老化抑制などの機能から食品の嗜好性や保存性を左右している。低糖質化は,食品中の糖質配合量の低減やショ糖代替素材による置換で対応しているが,風味や食品テクスチャーに望ましくない影響を及ぼすといった問題が残されている。そこで,血糖値の短時間での上昇の抑制,摂取エネルギーの低減に向けた低糖質化食品の製造を可能にする素材および製法の開発が求められている。演者らは,菓子で多用されている素材として小麦粉と甘味料に注目し,菓子の低糖質化を可能にする素材開発を進めている。本講演ではスポンジケーキに適用できる小麦粉代替素材の配合を最適化する際に回転可能中心複合計画法を適用した事例を紹介する。さて,大学で実施されている情報処理教育ではAI・数理データサイエンス教育が求められている。ところが,記述統計学や推測統計学に関連する授業科目の担当教員がいないことを理由に非常勤講師の採用や授業科目の削除を行っているのが実状である。そこで,AI・数理データサイエンス教育に向けた統計学の在り方を提言したい。 三菱化成工業株式会社 総合研究所(1988年6月:三菱化成株式会社に社名変更,1994年4月:三菱化学株式会社が発足,2017年4月:三菱ケミカル株式会社が発足)への在職期間(1986年4月~1994年3月 )には糖質素材(マルトオリゴ棟,エリスリトール,イノシトールなど)および乳化剤(ショ糖脂肪酸エステル,ポリグリセリン脂肪酸エステルなど)の基本的機能の評価,機能発現の解明および用途開発に従事した。1994年からは現職で,澱粉の老化に及ぼす複数の操作条件(凍結速度,凍結貯蔵の温度と時間,解凍速度)の影響を検討し,老化を最も抑制する操作条件を探索する際に回転可能中心複合計画法法(Trial Run,IBM社)を適用したのが実験計画法との出会いである。その後は,製パンに適した米粉を調製するために,中心複合計画法法(Originを使用)を使用して粒子径分布を調整した。さらに,加工食品の低糖質化に向けたショ糖代替素材および小麦粉代替素材を開発するために,中心複合計画法法(Originを使用)を使用して構成素材の配合を最適化した。
Tuesday, November 15, 2022
レベル:初級 質問紙調査で手を打つべき主要原因項目が明らかになった場合、具体的な施策を用意するためには因子(何を)と水準(どの状態で)を把握する必要がある。このための方法として質問紙実験がある。質問紙実験はコンジョイント分析とも呼ばれ、これまでいろいろな分野で行われてきた。しかし、その多くは交互作用を考慮せずに主効果のみの分析となっている。それは用いるプロファイルカードの枚数に制限がある(多く扱えない)という事情のためである。しかし、交互作用を無視すると分析結果は信用のおけない結果となるリスクを抱えてしまう。したがって、少ないプロファイルカードの枚数のもとでも必要な交互作用を扱うことは重要である。本研究はこの点を工夫した方法でアプローチする質問紙実験について議論する。 マーケティング関連会社、EAP(Employee Assistance Program:従業員支援プログラム)サービスを提供するプロバイダー、ベンチャー企業勤務を経て、組織人事コンサルタントとして独立。企業の組織・人材開発の業務に携わりながら、社会人大学院生として質問紙調査・質問紙実験に基づく解析と設計をテーマとした研究に取り組む。修了後も引き続き社会科学領域のテーマを中心に調査解析&コンサルテーションの企業実務と研究を両輪で実践し、現在は桜美林大学ビジネスマネジメント学群 特任講師、FREELY合同会社代表、NPO法人GEWEL理事として活動している。http://researchmap.jp/sho-kawasaki/ 論文集のサイトへ https://community.jmp.com/t5/Discovery-Summit-Japan-2022/Discovery-Summit-Japan-2022-%E8%AB%96%E6%96%87%E9%9B%86/ta-p/568396
レベル:中級 設計は長い間入力因子のない設計(静特性の設計)が行われ,最近になって入力因子のある1次式の設計(動特性)も行われ設計の守備範囲が広がってきた.そして,これからは2次以上の非線形関数を扱う設計(高度な動特性の設計)が重要となる.しかしながら,非線形関数の設計は1次式(線形関数)の設計の延長で扱うことはできない.何故ならば1次式にはない極値(極大値,極小値)を扱わなければならないからである.これを解決した設計法が超設計である.本研究は2次式の場合をとりあげ,JMPを用いて超設計を易しく学ぶことのできる教育を紹介する.実験はカスタム計画のもとで行い,最適化は満足度プロファイルを用いることで初級者でも簡単に実施することができる.なお,教材としては分かり易い飛球シミュレーターを用いている. 1984年横河電機入社.社内向けシリコン半導体デバイスプロセスに関する研究開発を担当.その後,研究試作およびデバイス製造のライン設計,製造装置および工場設備の導入から維持管理まで幅広く担当.あわせて,製品や工程,設備の品質管理,品質改善,コストダウン,納期短縮などの生産管理技術,特に統計的品質管理(Statistical Quality Control;SQC)の活用を進める.また,大手半導体デバイスメーカーに1年間社外出向し,統計解析やシックスシグマなどの管理ツールを協業事業の中で活用.これと前後して活動成果の社外発表を積極的に行う.2014年9月に開催された品質国際会議ICQ’14TokyoでTQMについて発表.その後2015年3月に横河電機を退社.同年4月に目白大学大学院経営学研究科博士後期過程入学.2015年9月のANQ Congress 2015 Taipei,2016年9月のANQ Congress 2016 Vladivostok,同年11月のSAS社Discovery SummitでSQCおよび最適化に関する発表を行う. 論文集のサイトへ https://community.jmp.com/t5/Discovery-Summit-Japan-2022/Discovery-Summit-Japan-2022-%E8%AB%96%E6%96%87%E9%9B%86/ta-p/568396
レベル:初級 発生が継続的であるが周期がなく規模が予測できない事象を分類する試みである.中学校英語教科書(全6点)の主要文法事項36項目を対象とし,導入時以降の出現頻度を追跡した.これらの文法事項は課毎に頻度を計測してもその傾向の一般化は全く不可能であり,況んや共通の基準で比較することはできない.本研究では累積度数の分布に3次曲線を回帰させることにより,その曲線の1次・2次・3次項係数及び切片を当該項目を説明する新たな変数として同定した.それらの変数を以て全項目の因子分析を行い,因子得点を2次元上に布置させて出現のパターンを得た.1つは凸型累積分布で,該当する項目は主として導入時に頻発するがその後は出現が低減する.他の1つは凹型累積分布で,導入時以降次第に出現頻度が増加する.これには初級段階で導入される高頻度事項(定冠詞・過去時制など普遍的項目)が多く該当し,学習の進展と共に自然な英文に近づいて行くことが想定される.項目毎に教科書間の布置を見ると,多くの項目で教科書が狭い範囲に集中しているか,あるいは原点からの直線に沿って並んでおり,凸型対凹型という分類基準は本対象の基本的説明要因であることが判明した. 言語学習及び言語測定に関わる課題を多変量解析を中心とする統計手法で分析し,教育プログラムへの提言を行ってきた.近著として,行列を用いた並べ替え問題の部分採点法に関する論文(IntechOpen社,2022年5月刊)がある.同論文の前段階の研究は ICICT 2019(ハワイ)にてベストプレゼンテーション賞を授与された.JMP はバージョン2からのユーザーで,多変量解析勉強会とともに多くのことを学ばせて頂いた.
レベル:初級 In human pathology, intraductal proliferative lesions of the breast have been divided into three categories conventionally, based on their cytological and architectural features: benign usual ductal hyperplasia (UDH) and atypical ductal hyperplasia (ADH) to ductal carcinoma in situ (DCIS), precursor or noninvasive forms. The author recently found the difference in cellular architecture between UDH and ADH/DCIS, using computerized image analysis and minimum spanning tree method of graph theory. 人体病理学において乳管内増殖性病変は従来,細胞学的・組織構築的特徴に基づいて良性の通常型乳管上皮過形成(UDH)から前癌病変および早期癌としての異型乳管上皮過形成(ADH),非浸潤性乳管癌(DCIS)の3つの病型に分類されてきた.これらは病理学者の顕微鏡観察によって経験的・直観的に判断されてきたが,筆者は最近コンピュータによる画像解析とグラフ理論における最小木法を用いて,UDHとADH/DCISとの間に細胞構築上の客観的差異を見出した. 東北大学元講師(加齢医学研究所病態臓器構築研究分野).医学博士.元文部省在外研究員(医学)(デンマーク王国オーフス大学). 人体病理学の領域において疾患の病理発生過程を幾何確率論や積分幾何学を応用した定量形態学,デジタル画像解析および多変量統計解析を用いて研究してきた.肝硬変,肺胞上皮,膵管上皮および子宮内膜に発生する早期癌とその前駆病変や癌の肝転移に関する研究論文がある(https://pubmed.ncbi.nlm.nih.gov/7804428/, https://pubmed.ncbi.nlm.nih.gov/7804429/, https://pubmed.ncbi.nlm.nih.gov/8402446/, https://pubmed.ncbi.nlm.nih.gov/8135625/, https://pubmed.ncbi.nlm.nih.gov/7840839/, https://pubmed.ncbi.nlm.nih.gov/10560494/).癌の発生過程やその組織診断の観点からそれらの解析に応用可能な数理的手法に興味があり,クラスター分析や判別分析などの数値分類法に特に関心がある.統計解析のプラットフォームとしてはメインフレーム上のFortran統計サブルーチン,PC上のSPSSやSYSTATなどを経て,バージョン8からのJMPユーザーである.
レベル:初級 グループ病院内におけるにおけるフォーミュラリー(FM)の浸透・活用割合を高めることを戦略目標として、具体的な行動計画を策定するために病院勤務者に対して問題解決型業務調査を実施した。FMとは「疾患の診断、予防、治療や健康増進に対して、医師を始めとする薬剤師・ほかの医療従事者による臨床的な判断を表すために必要な、継続的にアップデートされる薬のリストと関連情報」とされる。調査によるアウトカムは、1)重要度・緊急度マトリクス作成による行動指針の検討と、2)回答者のキャリアパスクラスターに基づいた層別解析から、FMへの個々の認識を明確化することである。これら解析結果を回答者に公表することが勤務者内での合意形成に至り、結果、組織の原動力強化から戦略達成につながるものと考えられる。 H5日本医科大学付属病院薬剤部,H16日本大学薬学部,H25帝京平成大学薬学部薬学科・大学院薬学研究科 教授,H26(兼務)信州大学医学部附属病院臨床研究支援センター 特任教授 日本医療薬学会代議員,日本クリニカルパス学会理事・広報委員長,東京都病院薬剤師会臨床研究専門薬剤師養成小委員会副委員長,神奈川県病院薬剤師会特別委員、東京都健康長寿医療センター倫理・認定臨床研究審査委員,新渡戸記念中野総合病院IRB委員 日本医療薬学会 指導薬剤師,鍼灸師,診療情報管理士等
レベル:初級 本研究は、ドナベディアンの医療の質評価の3側面のうち、構造(ストラクチャー)に着目した医療機能評価から、結果(アウトカム)指標の一つである医療事故の発生割合に関する要因分析を行うことが目的である。そこで、概要をまとめる概念図と特性要因図を作成することで分析項目を洗い出し、病院機能評価機構の審査結果と厚生労働省の医療の質の評価・公表推進事業の臨床指標(QI:クオリティ・インディケーター)からデータセットを作成した。本研究では、一貫した評価基準と調査方法で臨床指標を収集し公開している済生会系列病院を分析対象病院とした。重回帰分析の結果、「臨床の倫理的課題への病院の方針決定」「安全確保体制」「療養環境整備」「医療機器管理機能」に関する審査項目の評価が高いほど、医療事故(3B以上のアクシデント)の発生割合が低いことが明らかとあった。 私は大学で看護学を専攻し、2年次からクリニックにおける初診患者満足度調査に取り組んできました。その研究は、Discovery Summit Japan 2021で口頭発表し、様々な意見をいただく機会となりました(2021-JA-25MP-08)。現在大学院では医療マネジメントを専攻し、「医療政策・管理学」や「医療機能評価論」などの授業を通して「医療の質」について学んでいます。これまでは、患者満足度という結果(アウトカム)だけに焦点を当てた研究をしていましたが、今回は授業で学んだことを活かして医療の質を評価するドナベディアンモデルの構造(ストラクチャー)・過程(プロセス)・結果(アウトカム)の3側面のうち、構造(ストラクチャー)の視点を追加することとしました。今回は、主に重回帰分析について学ぶ「クオリティマネジメント」という大学院の授業で取り組んだ内容を発表したいと考えています。 論文集のサイトへ https://community.jmp.com/t5/Discovery-Summit-Japan-2022/Discovery-Summit-Japan-2022-%E8%AB%96%E6%96%87%E9%9B%86/ta-p/568396
Cation-exchange chromatography (CEX) is the industry gold standard for the analysis of biopharmaceutical charge variants. However, the development of CEX methods in a time and resource-efficient manner constitutes a bottleneck in product characterization. CEX separations are complex and governed by multiple factors. Several scientific publications have proven the successful application of design-of-experiment (DoE) in chromatography method development. Nevertheless, performing DoEs with a large number of factors may be challenging, time-consuming, and expensive. This work illustrates the use of a split-DoE approach to aid the development of a CEX method for the analysis of the charge variants profile of a mAb candidate. Analytical method development was intended to provide a high-throughput (HT) CEX method to support charge variants analysis with minimal sample and time requirements. The split-DoE approach is based on fundamental knowledge of the CEX separation mechanism and aims to reduce the number of experimental runs whilst exploring a wide experimental space. Regression modeling was used to study the effect of both individual process parameters and their interactions on the separation efficiency to ultimately identify the optimal method conditions. This study provides an efficient workflow for leveraging the development of CEX methods.     Hello,  everyone.  Thank  you  for  joining  my  talk.  I  am  Giulia  Lambiase,  I'm  a  Senior  Scientist  at  AstraZeneca.  I  work  in   biopharmaceutical  development  in  the  analytical  science  team.  Today,  I  want  to  talk  to you  about  the  use  of  DoE  for  the  development  of  analytical  characterization  methods,  most  especially  chromatography  methods. In  today's  talk,  I'm  going  to  talk  about  therapeutic  proteins,  what  they  are,  and  why  they  are  challenging  for  analytical  testing,  and  introduce  you  to  the  use  of  design  of  experiment  for  analytical  method  development  and  the  application  of  DoE  for  the  development  of  charge  variance  method,  specifically cation  exchange  chromatography  method. To  start  off,  protein  therapeutics  are  inherently  very  complex  due  to  their  larger  size  and  the  presence  of  the post- translational  modification,  and  also  chemical  modifications  that  can  the  protein  undergo  through  during  the  processes  of  expression  in  cells,  purification,  and  storage. Monoclonal  antibodies  dominate  the  biopharmaceutical  market,  representing  about  70 %  of  the   total  sales  of  biopharmaceutical  products.  However,  recently,  there  is  a  push  for  new  products,  next  generation  biopharmaceuticals,  which  are  bispecific  antibodies,  antibody  fragment,  fusion  proteins,  and  many  other  formats.  All  of  them  come  with  unique  challenges  due  to  their  complex  structure  and  presence  of  higher  order  structure,  glyco forms,  charge  variants,  the  sulfate  bonds,  oxidized  deamidated  species,  isomerization,  aggregation,  fragmentation. A ll  of  these  modification,  chemical  process  [inaudible 00:02:37]   modification,  can  impact  on  potency,  safety,  quality  of  the  final  drug  product.  This  is  why  thorough  analytical  characterization  and  analytical  testing  throughout  all  the  stages  of  product  life  cycle  is  key  to  meet  regulatory  standards,  to  be  enabled  to  deliver  a  product  that  meets  regulatory  quality  profile. We  use  a  plethora  of  analytical  techniques  for  analyzing  proteins,  and  these  are  based  mostly  on  chromatography  methods,  electrophoretic  methods,  and  [inaudible 00:03:25] .  Due  to  the  inherent  structural  complexity  of  proteins,  analytical  method  development  can  be  quite  challenging. In  today's  talk,  I'm  going  to  specifically  talk  about  chromatography  methods  and  the  use  of  design  of  experiment  to  help  the  development  of  chromatography  separation.  Chromatography  method  can  be  quite  complex,  especially  if  you  have  a  complex  analyte  like  a  protein.  This  is  because  the  separation  depends  on  the  interplay  of  several  variables  such  as  mobile  phase  composition,  buffer  pH,  flow  rate,  column  chemistry,  temperature,  the  type  of  detector  that  you  decide  to  use  for  the  analysis.  All  of  these  parameters  need  to  be  fine- tuned  and  controlled  during  the  separation  process  in  order  to  achieve  the  desired  separation.  DoE  can  be  very  useful  versus   one  factor  at  a  time  approach. One  factor  at  a  time  approach  involved  the  variation  of  one  parameter  at  a  time,  maintaining  the  other  constant.  This  may  lead  to  a  large  experimental  run,  lack  of  information  because  there's   lack  of  investigation  on  factors  interactions.  Lack  of  information  also  leads  to  additional  experiments  during  method  validation,  which  may  lengthen  even  more  the  method  development  process  and  finally  retard  the  overall  product  development. DoE,  in  comparison  to  one  factor  at  a  time  approaches,  DoE  enables  the  variation  of  multiple  parameters  at  a  time.  This  allow,  with  a  reduced  number  of  experiments,  to  investigate  a  large  number  of  factors,  including  the  interactions  between  them.  Also  the  development  of  mathematical  models  that  allow  the  assessment  of  relevance  and  the  statistical  significance  to  facilitate  all  the  steps  required  during  method  validation.  DoE  enables  really  to  investigate  a  wide  design  space  with  less  resources,  so  in  a  more  efficient  way.  In  fact,  I  like  saying  DoE  enables  faster,  cheaper,  and  smarter  experiments to  deliver  stronger  and  better  analytical  methods. In today's  talk,  I'm  going  to  talk  you  through  a  split  DoE  approach  for  the  development  of  a  cation  exchange  chromatography  method.  Cation  exchange  chromatography  is  used  for  the  analysis  of  charge  variants.  Specifically,  if  you  see  here  on  the  left  hand  side  of  this  slide,  you  can  see  a  chromatogram  of  a  protein  where  you  can  see  some  acidic  species  here  on  the  left,  [inaudible 00:07:17]   on  the  left  of  a  main  species  peak,  and  some  basic  species  peak. All  these  acidic  basic  species   can  be  formed  due  to  the  presence  of  chemical  modification  that  can  lead  to  superficial  charge  distribution  variation  in  the  protein.   Cation  exchange  chromatography  methods  are  quite  complex  chromatography  methods  because  the  separation  efficiency  is  affected  by  a  number  of  factors  and  quite  sensitive  to  small  changes  of  these  factors  such  as  column  chemistry,  mobile  phase  pH,  temperature,  flow  rate,  content  of  salt,  time  of  the  separation. In  this  approach,  I'm  going  to  talk  you  through  an  efficient  way  to  develop   cation  exchange  chromatography  method  using  DoE.  If  you  are  familiar  with  DoE,  you  may  know  that  often  requires  a  sequential  approach.  In  this  experiment,  I  performed  a  main  effects  screening  design  for  enabling  the  selection  of  the  best  column  chemistry  and  the  mobile  phase  pH  for  the  charge  variance  separation  of  this specific  mAb  molecule. During  the  second  DoE,  I  use  response  surface  methodology,  particularly  a  central  composite  design  DoE,  to  optimize  the  chromatography  separation  by  changing  the  flow  rate  and  [inaudible 00:09:36] .  Let's  take  into  more  detail  in  the  first  DoE  experiment.  This  was  a  main  effects  screening  design  where  I  screened  four  column  chemistry  bought  by  four  different  providers,  Agilent,   Sepax, Phenomenex,  and  Waters, and  I  screened  a  range  of  pH  from  5.5  to  6.5. My  response  was  the  experimental  peak  capacity,  which  is  a  parameter  that  tells  you  the  efficiency  of  a  chromatographic  separation,  precisely  the  number  of  peaks  that  can  be  separated  within  the  chromatogram,  the  chromatography  time  that  you  set.  Other  parameters  such  as  concentration  of  buffer,  concentration  of  salt at  the  start  of  the  chromatography  gradient,  flow  rate,  gradient  time,  shape,  temperature,  injection  volume,  concentration,  and  the  UV  absorbance  were  kept  constant. These  are  the  results  for  the  first  DoE.  On  the  left  hand  side,  you  can  see  the  four  different  column  results.  You  can  see  how  the  experimental  peak  capacity  changes versus  the  pH  change  in  the  mobile  phase  in  all  the  four  different  columns.  You  can  see  that  we  aim  to  have  high  experimental  peak  capacity  values.  You  can  see  that  the  Phenomenex  column  performed  best. In  all  of  these  three  columns,  we  can  see  that  pH  of  6.5  enables  greater  experimental  peak  capacities.  But  the  Phenomenex   column  allowed  for  better  separation  results.  It  is   also  visible  on  the  right  hand  side  of  this  slide  in  the  panel  A.  You  can  see  at  pH  6.5,  how  the  separation  differs  when  using  different  chromatography  columns. We  have   Agilent ,  Waters ,  Phenomenex ,  and  Sepax .  Definitely,  the  separation  of  the  charge  variants  using  the   Phenomenex   column  is  much  better  than  in  the  others  because  these  acidic  peaks  are  very  well  separated  as  well  as  these  basic  species  here  from  the  main  product  peak. Panel  B,  we  have  isolated  only  the  results  of  the   Phenomenex   column.  How  the  chromatography  separation  was  that  with  the  mobile  phase  or  with  pH  5.5, 6.0, and  6.5.  We  can  see  how  the  separation  improves  with  the  increase   in pH.  Obviously,  the  mobile  phase  pH  is  dictated  by  the  intrinsic  molecule  pI.  We  could  only  investigate  this  range.  Otherwise,  the  molecule  would  have  struggled  to  find  its  own  column. Based  on  our  fundamental  knowledge  of  chromatography  separation  with  cation  exchange  columns,  we  decided  that  this  parameter,  so  this   Phenomenex   column  and  pH  of  6.5,  were  optimal  to  carry  on  development.  We  carried  on  with  the  second  DoE  using  a  central  composite  design. Central  composite  design  is  a  type  of  DoE  falling  within  the  umbrella  of  response  surface  methodology,  which  is  used  for  optimized  conditions  for investigating  the  presence  of  curvature,  for  instance,  and  extrapolate  optimal  values.  In  this  case,  we  use  our   Phenomenex   column  and  mobile  phase  pH  of  6.5, and  started  to  play  with  other  parameters  such  as  buffer  concentration,  concentration  of  the  salt  at  the  start  of  the  gradient,  and  flow  rate  to  investigate  optimal  conditions. Central  composite  design  enabled  to  very  efficiently,  with  a  few  number  of  runs,  to  identify  optimal  separation  conditions,  optimal  method  conditions.  In  fact,  at  the  very  end  of  the  split  DoE  approach,  we  could  say  that  with  the  investigation  of  four  column,  mobile  phase,  pH  range,  salt  composition,  gradient  flow  rate.  With  only  27  experimental  runs,  we  could  optimize  a  method  for  a monoclonal  antibody.  This  method  is  very  useful  because  it  is  now  used  as  a  quick,  high  throughput  screening  experiment.   In  a  quick,  high  throughput  analytical  method  for  screening  differences  in  the  charge  variance  profile  of  these  specific  molecules  expressed  in  different  conditions  and  compare  it  to  a  standard. You  can  see  here  that  the  blue  line  is  our  reference  standard  and  the  red  line  is  a  stress  material  of  the  same  molecule.  You  can  see  how  the  charge  variance  profile  changed  as  a  consequence  of  the  stress  condition  applied  to  this  molecule.  This  was  achieved  thanks  to  this  analytical  method  which  was   developed  and  optimized  with  a  DoE  approach. We  also  decided  to  implement  this  DoE  approach  as  a  platform  workflow  for  analytical  method  development  for  new  products,  new  bio pharmaceuticals, and  we  screened  a  number  of  products.  For  all  of  them,  we  applied  first  the  first  main  effect  screen  design,  and  we  identified  the  best  column  and  mobile  phase  pH  to  use.   Secondly,  we  applied  the  central  composite  design  to  optimize  the  separation. Now,  we  have  identified  a  platform  column  and  a  mobile  phase  composition  for  this  class  of  therapeutics.  When  new  molecules  comes  into  the  pipeline,  we  can  very  quickly,  just  by   using  a  central  composite  design,  which  involves  actually  just  12  runs,  optimize  the  chromatography  profile  and  deliver  an  optimal  cation  exchange  method  for  a  specific  product. The   key  take- home  messages  from  my  talk  today  is  that   DoE  system  method  development  followed  by  appropriate  statistical  analysis  enables  to  plan  experiment  based  on  time,  cost,  and  analytical  resources  available  very  efficiently,  and  schedule  the  execution  of  experiments  with  adequate  sample  type  and  size  to  extrapolate  the  maximum  amount  of  information  from  our  chemical  data and  efficiently  address  the  challenges  and  goals  of  the  intended  research. It  definitely  saves  time  and  cost  for  experiment  execution  in  comparison  to  one  factor  at  a  time  approaches.  Most  especially,  it  allows  the  complexity  of  analytical  method  development,  but  still  interrogating  several  factor  at  a  time  and  studying  the  effect  of  both  individual  method  parameters  and  the  interaction  on  the  dependent  variable. With  today's  talk,  I  hope  I  inspired  you   to  apply  more  DoE  in  your  experiments.   Thank  you  very  much,  everyone,  for  your  attention.  If  you  have  any  questions,  feel  free  to  reach  out  to  me.  Thank  you.
In catalyst development, tests to measure performances can be extremely time-consuming and expensive. In this study, we have explored the possibility of using faster and less expensive characterization data to validate mathematical models linking production parameters and performances. Specifically, we first modeled the production parameters to the performance data available in our dataset, using generalized regression, and from this model, we predicted a set of optimal production parameters. We then analyzed the Infrared Spectroscopy (IR) data using the Wavelet model in Functional Data Explorer plugging the production parameters as additional parameters. Thanks to this addition we were finally able to generate a synthetic spectrum for an optimal catalyst. The generated spectra combined with the predicted production parameters can be used by the scientist to more quickly understand the underlying mechanisms driving performances. Finally, a new catalyst material developed using the predicted parameters can be analyzed using IR and the synthetic spectra can be used to validate the model.     Hello,  I'm  Chris   Gotwalt with  JMP,  and  my  co- presenter,  Giuseppe  De  Martino  from  Topsoe ,  and  I  are  giving  a  presentation  that  tells  the  story  of  a  data  analysis  project  that  showcases  the  new  wavelet  analysis  in  the  Functional  Data  Explorer,  one  of  the  most  exciting  new  capabilities  in  JMP  17. The  case  study  begins  with  a  product  formulation  problem  where  Tops oe  wanted  to  design  a  catalyst  that  optimizes  two  responses,  but  the  responses  are  in  conflict  with  one  another  in  that  improving  one  response  often  comes  at  the  expense  of  the  other. A  candidate  for  the  optimal  tradeoff  was  found  with  models  fit  by  the  generalized  regression  platform,  and  the  optimal  factor  settings  were  found  using  the  desirability  functions  in  the  profiler.  This  was  a  fairly  standard  DoE  analysis.  But  in  addition  to  the  measured  responses,  NIR  spectra  were  taken  from  some,  but  not  all  of  the  sample  batches.  This  is  information  that  can  be  used  to  give  a  clue  to  the  R&D  team  about  what  the  chemical  structure  of  the  ideal  formulation  should  look  like. In  addition  to  the  GenReg  model  of  the  responses,  we  also  used  wavelet  models  as  the  basis  function  of  a  functional  DoE  analysis  of  the  spectra  using  the  DoE  factors  as  inputs.  We  were  then  able  to  get  a  synthetic  spectra  of  the  optimal  formulation  by  plugging  in  the  optimal  factor  settings  found  in  the  initial  analysis  of  the  two  critical  responses. Before  going  into  the  presentation,  I  want  to  point  out  that  at  the  beginning  of  the  project,  Giuseppe  was  very  new  to  JMP  and  didn't  have  a  background  in  this  type  of  statistical  analysis.  Giuseppe  learned  all  he  needed  to  do  the  analysis  on  his  own  after  a  couple  of  web  meetings  with  me. This  obviously  shows  he's  a  clever  guy,  but  also  that  JMP  makes  learning  how  to  do  some  very  sophisticated  data  analysis  projects  quick  and  easy.  Now  I'm  going  to  hand  the  show  over  to  Giuseppe. Thank  you,  Chris.  Here  is  some  background  about  our  project.  It's  a  catalyst  development  project.  Therefore,  we  are  developing  many  different  recipes.  Each  recipe  has  a  unique  set  of  production  parameters,  and  once  the  sample  is  prepared,  we  characterize  it  in  our  analysis  lab  in   Topsoe.  And  finally,  we  do  a  performance  test. During  the  performance  test,  we  look  for  two  values  that  here  we  call  Response  1  and  Response  2.  In  this  specific  case,  we  are  trying  to  minimize  response   1 while  maximizing  response  2.  That  will  lead  us  to  this  ideal  space  in  the  top  left  corner  of  the  graph.  But  as  you  can  see,  the  55  samples  that  we've  tested  get  stuck  in  the  middle  of  the  graph.  That  is  because   Response 1  and   Response 2  are  inter- correlated,  meaning  that  improving  one  comes  with  the  expenses  of  the  other. Therefore,  we  move  to  JMP,  and  we  try  to  look  at  our  response  data  and  our  characterization  data,  try  to  see  if  we  can  move  away  from  this  line  in  the  middle  of  the  graph.  We  identified  two  targets  areas  that  we  want  to  reach,  and  together  with  Chris,  we  thought  about   using  JMP  to  create  a  model  that  would  connect  the  production  parameters  to  the  response  values. T hen  we  further  looked  into  our  infrared  spectroscopy  data  to  try  to  validate  our  model  and  to  get  some  extra  information  about  the  target  samples. Here  is  an  overview  of  the  data  set.  We  have  produced  112  samples.  Each  sample  has  a  unique  set  of  production  parameters.  We  have  analyzed  all  the  samples  using  infrared  spectroscopy.  We  have  one  spectrum  for  each  sample. Then  we  have  used  many  other  characterization  techniques  that  we  have  in- house  that  accounts  for  21  more  columns  of  data.  Finally,  we  have  tested  half  of  the  samples  and  that  accounts  for  the  last  two  columns  that  we  called  response. At  the  beginning  of  our  project,  we  actually  wanted  to  include  the  infrared  spectroscopic  data  in  our  larger  data  set,  and  that's  why  we  wanted  to  use  JMP,  because  now  we  have  this  new  wavelet  model  possibility.  And  that  would  enable  us  to  include  the  principal  components  coming  from  the  wavelet  model  in  our  data  set.  And  we  could  use  that  to  create  models  in  JMP.  But  before  we  start  our  analysis,  we  need  to  have  a  look  at  the  Pro  data  to  find  outliers.  We  do  that  by  clicking  Analyze  and  the  Multivariate  Methods,  Multivariate. H ere  we  can  select  our  production  parameters  and  characterization  data  as  Y  columns,  and  we  get  this  scatterplot  matrix.  This  is  an  example  of  just  looking  at  the  production  parameters  at  what  we  would  identify  as  an  outlier.  We  can  see  that  there  is  a  set  of  points  in  production  parameters  too  that  is  far  away  for  all  the  other  points.  Furthermore,  we  have  background  knowledge  about  these  samples  that  we  know  wouldn't  be  optimal  for  our  catalyst  development,  so  we  decided  to  right  click  and  say  "Row,  hide  and  exclude." We  did  this  also  with  other  points  looking  at  the  scatterplot  metrics  of  all  the  characterization  data.  Now  that  we  have  cleaned  up  the  data,  we  can  fit  a  model.  We  click  Analyze  and  Fit  Model,  and  we  select  the  production  parameters  as  variables  in  our  model.  We  click  Macros  and  response  surface  to  create  a  second  polynomial  combination  of  these  variables.   Then  we  select  our  responses  as  Y  values. Then  we  decided  to  use  generalized  regression.  H ere  Chris  can  add  some  more  info  about  why  we  decided  to  use  this  specific  type  of  model. We  used  a  quadratic  response  surface  model  because  the  design  had  three  or  more  levels  for  each  factor,  so  I  knew  that  we  would  be  able  to  fit  curvature  terms  if  necessary  and  also  be  able  to  fit  quite  a  variety  of  different  interaction  terms.  We  use  the  generalized  regression  platform  because  it  does  model  selection  with  non  Gaussian  distributions  like  the  log  normal.  In  my  opinion,  there  aren't  many  reasons  not  to  use  the  generalized  regression  platform  if  you  have  JMP  Pro  because  it  is  so  easy  to  use  while  in  many  ways  being  so  much  more  powerful  for  DoE  analysis  than  the  other  options  in  JMP  and  JMP  Pro. After  that,  we  can  select  our  distribution.  We  know  that  the  responses  are  going  to  be  strictly  positive,  so  we  select  the  log  normal  distribution  and  then  we  click  Run,  and  we  say  no. In  this  slide,  we  can  see  that  we  have  now  created  a  model,  but  we  have  also  the  possibility  of  creating  other  type  of  models  using  different  estimation  methods.  We  decided  to  use  best  subset.  Here,  Chris  can  add  some  more  words  about  it. Well,  so  here  we  use  best  subset  selection  because  the  full  model  isn't  terribly  large,  so  why  not  try  every  possible  subset  of  that  full  model  and  find  the  one  that  provides  the  absolute  best  tradeoff  between  accuracy  and  model  simplicity? On  the  other  hand,  had  there  been  eight  or  more  factors,  I  would  have  used  a  faster  algorithm  like  forward  selection  or  pruned  forward  selection  because  with  larger  base  models,  it  would  take  a  very  long  time  to  fit  every  possible  submodel  to  the  data.  We're  going   to  be  using  the  AICc  model  selection  criteria  to  compare  GenReg  models. The  AICc  allows  you  to  compare  models  with  different  effects  in  them  as  well  as  different  response  distributions.  With  the  AICc,  smaller  values  are  better  and  the  rule  of  thumb  I  use  is  that  if  a  model  has  an  AICc  value  that  is  within  4  of  the  smallest  AICc  value  seen,  then  those  two  models  are  practically  identical  in  quality  of  fit. If  the  two  models  have  AICc  values  within  10  of  each  other,  then  they  are  statistically  similar  to  one  another.  The  main  point  here  being  that  if  we  have  two  models  and  their  AICc's  differ  by  more  than  10,  then  the  data  are  pretty  strongly  suggesting  that  the  one  with  the  smaller  AICc  is  the  better  model  to  be  working  with. As  with  any  individual  statistic,  you  should  view  the  A ICc  as  a  suggestion.  If  your  subject  matter  experience  strongly  suggests  one  model  over  the  other,  you  may  want  to  trust  your  instincts  and  ignore  the  recommendation  of  the  A ICc. Once  we  have  created  this  new  model,  we  can  see  that  the  non- zero  parameters  have  now  dropped  from  16  to  nine.  If  we  want  to  compare,  if  the  model  has  improved,  we  can  look  at  the  A ICc  values.  We  can  see  that  there  is  an  improvement  of  more  than  10,  which  is  an  important  difference.  Therefore,  we  decided  to  go  with  the  best  subset. We  did  the  same  for   Response 2,  and  then  we  moved  on.  Now  we  can  click  on  the  red  arrow  and  say  profiler.  In  the  profiler,  we  can  play  around  with  the  production  parameters  and  see  how  the  model  is  expecting   Response 1  and   Response 2  to  change.  This  is  already  a  great  tool  for  the  scientist  to  understand  how  the  model  is  expecting  the  responses  to  vary,  but  we  can  do  more.  We  can  click  on  optimization  and   desirability  and  desirability  functions. Since  from  slide  one,  we  know  that  we  have  two  targets  that  we  want  to  reach,  we  can  change  the  desirability  function  to  match  those  targets.  So  we  double  click  on  the  Desirability  function and  we  say  match  target  and  select  the  target  area  that  we  want  to  reach.  Finally,  we  can  click  again  on  optimization  and  desirability  and  say  maximize  desirability. Here,  the  profiler  will  try  to  reach  the  optimal  points  for  the  production  parameters.  To  summarize,  we  can  say  that  now  we  have  the  first  model,  we  go  from  production  parameters  to  responses  and  we  have  set  two  targets  that  we  want  to  reach.  This  way  we  can  get  ideal  production  parameters  that  we  can  communicate  to  the  development  team  and  they  can  use  to  move  on  in  their  research. In  the  second  part  of  the  presentation,  I'm  going  to  talk  about  how  we  use  the  IR  Spectra.  Here  we  have  a  file  for  each  spectrum  and  therefore  we  need  to  click  on  file  and  import  multiple  files.  Then  we  need  to  specify  that  we  want  the  file  name  to  be  columned  in  the  data  set  and  then  we  can  use  this  sample  name,  which  is  the  name  of  the  file  as  an  ID  to  connect  it  to  the  other  table  where  we  have  all  the  data.  We  click  on  the  column  and  say  link  reference. Now  that  the  two  tables  are  connected,  we  can  click  Analyze  and  specialize  modeling  and functional  data  explorer.  In  the  Functional  Data  Explorer,  we  want  to  use  the  intensity  value  as  the  Y  output.  We  can  use  the  sample  name,  matrix  name  as  our  ID  function. Then  this  is  very  important.  We  use  the  production  parameters  as  supplementary  data.  And  the  weight  number  is,  of  course,  the  X- axis.  And  we  say,  "Okay,  here  we  can  see  that  the  data  is  already  clean."  We've  imported  all  the  Spectra  and  the  data  looks  clean  because  I've  done  the  preprocessing  outside  of  JMP.  I  used  Python  because  I'm  more  familiar  with  that  and  there  is  a  very  nice  module  that  is  able  to  remove  the  background  and  reduce  the  range  that  we  want  to  look  at. JMP  was  good  to  work  with  as  an  extra  tool  after  this  reprocessing.  Then  we  decide  to  click  on  models  and  wavelets.  We  move  from  discrete  data  to  continuous  data.  Now  we  can  also  look  at  the  diagnostic  plots.  This  is  for  you,  Chris,  to  take talk  about. It's  a  good  idea  to  look  at  actual  by  predicted  plots  as  you  proceed  through  a  functional  data  analysis.  These  have  the  actual  observed  values  in  the  data  on  the  Y  axis  and  the  predicted  values  on  the  X  axis.  We  want  the  predicted  values  to  be  as  close  to  the  actual  values  as  possible.  A  plot  like  this  one  that  is  tight  along  the  45  degree  line  indicates  that  we  have  a  good  model. Now,  some  of  you  may  be  concerned  about  overfit  since  the  predictions  fit  the  data  so  well.  In  my  experience,  I  haven't  found  that  to  be  a  problem  in  the  basis  function  fitting  and  functional  principal  component  steps  of  functional  DoE  analysis.  I'd  also  like  to  point  out  that  in  JMP  17,  we've  added  a  lot  of  new  features  for  spectral  preprocessing  like  standard  normal  variant,  multiplicative  scatter  correction,  and  Savitzky-Golay filters .  Those  of  you  that  don't  know  Python  have  access  to  these  capabilities  in  JMP  Pro  17. After  that,  we  can  also  have  a  look  at  the  Functional  PCA  analysis.  Here,  we'll  spend  some  more  words  on  it. After  the  wavelet  model  is  fit,  JMP  Pro  automatically  does  a  functional  principal  components  analysis  of  the  wavelet  model.  This  decomposes  the  spectra  into  an  overall  mean  spectra and  a  linear  combination  of  shape  components  and  coefficients  that  are  unique  to  each  sample  spectra.  When  we  do  the  functional  DoE  analysis,  GenReg  automatically  fits  models  to  these  coefficients  behind  the  scenes  and  combines  the  resulting  model  with  the  mean  function  and  the  shape  components  to  predict  the  shape  of  the  spectra  at  new  values  of  the  input  parameters. If  we  look  at  the  principal  component  analysis,  we  can  see  that  the  wavelet  model  has  created  a  mean  function  of  all  the  spectra  that  we've  set  as  input,  and  then  it  has  created  different  shape  functions.  We  decided  to  stop  at  six.   What  this  shape  function  described  is  the  variation  of  the  data  that  we  are  analyzing. As  you  can  see  from  the  left,  the  first  shape  function  is  accounting  for  72 %  of  the  variation,  while  the  second  is  accounting  for  22 %.   Together,  the  account  called  six  account  for  99.5 %  of  the  variation.   As  an  example,  we  can  look  at  principal  component  2,  and  we  can  see  that  around  3,737,  there  is  a  reduction.   There  is  a  minus.  That  means  that  increasing  the  principal  component   2 will  decrease  the  peak  at  3,737. This  is  just  an  example  to  say  that  already  from  these  six  shape  functions,  we  can  get  a  lot  of  information.  If  we  have  subject  matter  knowledge,  about  the  infrared  spectroscopy  and  this  catalyst  system.  Already  here,  we  spent  quite  a  lot  of  time  looking  at  the  principal  components,  but  this  is  not  what  we  are  going  to  focus  on  in  the  next  slides. What  we  want  to  look  at  instead  is  the  functional  DoE  analysis.  Here  we  have  as  well  a  profiler,  but  we  can  now  plug  the  production  parameters  that  we  got  from  the  first  model  that  we  developed.  Therefore,  knowing  the  target  production  parameters  that  we  want  to  use,  we  can  generate  a  fake  spectrum  or  a synthetic  spectrum,  we  can  call  it.  This  is  a  spectrum  of  a  sample  that  was  never  produced.  It  could  be  wrong,  but  it  can  give  some  ideas  to  the  scientists  about  what  you  would  expect  to  get  from  these  new  production  parameters. To  sum  up,  we  can  say  that  now  we  move  from  production  parameters  to  infrared  spectrum.  We  have  a  second  model  that  uses  the  wavelet  model  to  generate  synthetic  spectrum.  I  imagine  this  to  be  like  when  you're  baking  a  cake,  now  you  have  the  recipe  but  you  got  also  a  snapshot  picture  of  the  final  cake.  It  doesn't  explain  you  how  to  do  it  but  it  adds  information  about  what  you  want  to  achieve. Finally,  we  can  move  from  model  to  test.  That  means  that  we  can  give  the  R&D  team  a  new  recipe  and  also  the  synthetic  spectrum  of  that recipe.   Together  with  this  information,  they  can  try  to  develop  the  new  catalyst  and  see  if  the  model  is  validated  or  is  wrong. Another  thing  the  group  can  do  is  look  back  at  the  previous  samples.  Now  we  have  half  of  the  samples  that  were  not  tested.  Those  are  the  black  dots  in  the  slide.   We  can  look  for  outliers.  Is  there  a  sample  that  could  perform  really  good  that  we  haven't  looked  at?  We  actually  have  one.  So  that's  another  test  we  can  do. Looking  at  future  work,  I  added  this  slide  that  was  at  the  beginning  just  to  say  that  we  focused  on  the  production  parameters  and  the  IR  spectra,  but  we  haven't  really  looked  at  these  21  more  columns  of  characterization  data. In  the  future,  we  could  spend  some  time  trying  to  identify  the  most  predictive  parameters  in  these  21  columns  and  create  maybe  a  new  model  from  this  characterization  data  to  the  response  and  use  this  model  as  a  screening  model  to  avoid  testing  samples  that  would  not  perform  as  good.  That's  the  end  of  the  presentation.
During a process development phase, the process operating conditions must be characterized and optimized at upstream and downstream levels. However, despite the well-known effect of the upstream outcome properties on the performance of the downstream, these two levels are often studied and tested separately, and the interlinked correlations are ignored. As a result, it’s not uncommon to see cases where a significant improvement in the upstream is not retained downstream and, even in some extreme cases, causes additional downstream challenges and a lower overall process yield. Hence, it is important to have a comprehensive cross-step view in the design of the experiments during the process characterization. In this regard, the JMP DOE toolbox is ideal for addressing such cases. In this work, a case study will be presented that demonstrates a systematic two-step method to use the JMP custom design DoE toolbox and the covariate factors option for a cross-step experimental design. The design focuses on pairing the upstream and downstream experimental conditions in an efficient manner. Moreover, operational practicalities such as batch parallelization are included in the final design.     Hi,  my  name  is  Tannaz  Tajsoleiman.  Today,  I'm  going  to  talk  about  an  application  of  JMP  data  analysis  platform  for  pharmaceutical  industry.  The  focus  of  this  presentation  is  going  to  be  on  how  we  can  get  more  cross- level  insight  using  smarter   Design of Experiment  DoE  and  afterwards  how  we  can  analyze  it  better  in  order  to  find  optimum  process  settings  for  specifically,  for  example,  pharmaceutical  industries. But  what  do  I  mean  of  cross- level  insight?  To  get  to  that,  let  me  explain  the  case  story  that  we  have  done  with  one  of  our  customers.  That  they  were  in  the  phase  of  process  development of  a  vaccine  production,  and  they  wanted  to  characterize  this  process.  If  we're  going  to  divide  the  different  phase  of  vaccine  production  and  the  process.  We  can  split  it  into  two  main  phases  of  Upstream  and  Downstream. The  Upstream  phase  is  the  phase  that  they  infect  the  host  cells  with  a  limited  number  of  virus  and  then  keep  it  under  a  controlled  environment  and  under  specific  process  condition  for  the  virus  to  grow  and  the  population  reaches  the  target  level.  After  that,  they  have  to  move  the  materials  to  the  next  unit.  We  call  it  Downstream  Unit  for  purification  and  the  formulation  to  make  the  vaccine  ready  for  the  injection  and  going  out  to  the  market. The  customer  were  focusing  on  the  process  development  of  these  two  phases,  meaning  that  they  needed  to  characterize  the  process.  In  order  to  do  that,  they  needed  to  identify  what's  the  most  significant  parameters  for  each  of  these  units,  both  Upstream  and  Downstream  using   Design of Experiments.  T hen  after  that,  collect  the  data  to  be  able  to  model  the  process  for  each  individual  unit,  and  then  using  the  model  to  find  the  optimum  robust  setting  for  each  of  them. It's  a  very  typical  task  within  the  bio-industries  to  split  the  process  into  main  units  and  then  characterize  each  unit  individually.  M ost  of  the  cases,  this  characterization  are  not  influenced  by  each  other.  So  they  are  completely  independent  task  and   Design of Experiments. Keeping  this  in  mind,  the  agenda  of  this  talk  is  going  to  be  on  how  we  can  make  these  DOEs  more  descriptive  and  more  comprehensive  to  have  the  highest  or  more  information  about  different  levels  of  the  process,  and  then  afterwards,  how  we  can  use  JMP  data  analysis  platform  to  first  model  the  data  and  then  use  the  model  to  optimize  the  processes. Let's  start  with  the   Design of Experiment  for  this  specific  case  study. W e  started  with  actually  running  several  workshops  with  the  teams  coming  from  both  Upstream  and  also  Downstream.  T hen  we  had  several  workshops  to  just  figuring  out  what  are  the  most  important  factors  or  parameters  in  their  processes. We  could  easily  see,  in  the  first  glance,  that  we  are  ending  up  to  a  very  high  number  of  factors  that  practically  it's  impossible  or  it's  out  of  the  budget  to  run  such  a  big   Design of Experiments.  W e  had  to  narrow  it  down  with  starting  scoring  each  of  these  parameters  based  on  the  importance  and  how  much  they  vary  within  a  normal  production  and  then  how  it  would  be  the  ease  of  change  for  each  of  these  factors.  W e  could  score  it  first  and  then  narrow  the  number  of  parameter  to  eight  for  each  of  these  units. After  that,  we  could  easily  also  within  that  workshop,  could  see  the  high  influence  of,  for  example,  Upstream  outcome  on  the  Downstream  Unit  just  because  these  two  units  are  highly  connected  together  and  they  can  easily  influence  each  other.  Meaning  that  if  they  wanted  to  characterize  a  Downstream  separately  and  finding  the  optimum  setting,  most  probably  it  cannot  work  as  optimum  as  they  expected  because  it  can  highly  influence  by  the  outcome  of  Upstream  Unit. It's  better  to  have  it  instead  of  two  individual  or  independent   Design of Experiment,  having  a  joint  DoE,  cover  both  sides  together  and  also  covers  the  interaction.  That  gives  us  a  very  good  cross- factor  overview  within  our   Design of Experiments  and  help  also  at  the  same  time  to  minimize  the  number  of  runs  that  they  make.  A lso  getting  too  much  better  randomization  factor  for  our  runs,  of  course,  under  practical  supervision. How  we  have  done  this  theory?  Before  I  jump  to  the  demo  that  I  wanted  to  show  you,  let  me  give  you  some  information  about  the  limitation  that  we  had  in  this  theory.  F irst  of  all,  each  Upstream  batch  could  directly  go  to  one  Downstream  batch.  But  in  the  Downstream,  they  had  the  possibility  to  run  two  reactors  in  parallel  to  increase  the  capacity  of  Downstream. But  the  biggest  limitation  they  had  in  the  Downstream  was  that  when  they  were  running  those  parallel  reactors,  two  of  the  design  factors  had  to  be  set  the  same  for  those  two  parallel  reactors.  For  example,  in  this  case,  they  had  to  keep  the  Enzyme  time  and  Hold  up  time  on  the  Downstream  constant  on  both  parallel  reactors. Then  also  it  was  very  important  to  have  a  proper  time  planning  between  Upstream  and  Downstream,  meaning  that  they  couldn't  have  a  big  lag  from  the  finishing  of  the  Upstream  batch  until  it  reaches  to  the  Downstream  batch. Also  between  these  two  phases,  we  could  identify  a  factor  called  initial  cell  density  that  is  mostly  coming  from  Upstream,  that  it  was  a  common  factor  between  these  two  units.  W e  call  it  as  a  pair  factor  to  join  these  two  DoEs  and  connect  these  two  DoEs  into  one  complex  one. To  start  that,  we  also  needed  to  understand,  okay,  what  is  the  minimum  number  of  Upstream  batches  or  Downstream  batches  we  need?  S ince,  as  you  can  see  here,  they  both  had  eight  design  factors,  but  since  the  Downstream  process  had  the  extra  limitation  on  our  design,  that  would  be  the  one  controlling  the  minimum  number  of  experiments.  That's  why  I  start  the  DoE  by  looking  at  the  Downstream  process. Let's  have  a  look  at  the  demo.  As  you  can  see  here,  these  are  the  design  factor  that  we  had  for  the  Downstream  Unit.  I  want  to  know  how  many  minimum,  how  many  experiments  or  badges  do  I  need  from  Upstream  to  be  able  to  cover  all  the  required  badges  or  experiments  I  run  in  my  DoEs. Starting  with  custom  design,  then  I  can  load  my  factor.  These  are  all  factors  that  I  have  for  Downstream.  Plus  I  need  to  add  my   initial  cell  density,  the  part  factor  that  comes  from  Upstream  batches.  As  you  can  see  here,  almost  all  of  these  factors,  the  changes  are  set  as  easy  except  the  Hold up  time  and  also  Enzyme  time,  which  are  the  two  factors  that  I  want  to  keep  them  similar  for  the  two  running  batches  in  parallel. With  this  setting,  I  can  be  sure  that  those  batches  are  set  to  have  the  same  Hold  up  time  and  Enzyme  time.  Moreover,  I'm  interested  in  the  main  effect  in  my  model  and  the  interactions.  Let's  have  a  look  here.  As  you  can  see,  some  of  them,  the  interactions  are  set  at  if  possible,  which  I  want  to  have  them  as  necessary.  And  we  are  good  here. As  you  can  see  here,  JMP  suggests  me  that  you  need  minimum  19  experiments  in  a  Downstream  to  cover  for  these  interactions.  T o  be  safe,  we  always  want  to  have  one  minimum  extra  on  top.  T hat  gives  me  20  experiments  or  20  Upstream  batch  as  the  minimum  starting  point  for  Upstream. Okay,  then  let's  have  a  look  at  my  Upstream.  These  are  my  Upstream  factors  and  I  can  load  it  in  my  custom  design.   I  am  also  here  interested  in  two  interactions.  S ince  we  said  that  we  want  to  have  20  Upstream  experiments,  I  can  specify  as  a  user  how  many  experiments  I  want.  T hen  I  can  make  the  design  by  pressing  this  one. To  save  the  time,  I  already  saved  the  design  and  let  me  bring  it  up  here.  This  is  the  experimental  design  for  my  Upstream  in  the  first  level.  Now,  I  want  to  use  this  design  to  design  my  Downstream  experiment.  To  do  that,  I  go  back  to  my  design  factor  for  Downstream.  A gain,  custom  design.  I  will  load  my  factor  as  I  want  them  to  be. N ow,  I  want  to  include  this  design  experiment  for  Upstream  in  my  experiment.  How  I  do  that  is  that  I  first  select  that  design  window  and  then  I  can  call it.  I  can  select  the  coherent  factors,  and  then  import  that  experiment  also  in  my  design.  A s  you  can  see  here,  these  are  the  experiments  that  was  designed  for  the  Upstream,  and  they  are  set  as  a  covariate . More  than  step  is  that  I  want  to  have  all  my  Downstream  parameters  plus  my  initial  set  density.  I  want  to  look  at  them  also  in  interaction  mode.  But  the  factors  that  comes  from  Upstream,  I  keep  them  as  a  main  effect.  As  you  can  see  here,  there  are  some  still  at  if  possible,  I  need  to  be  sure  that  they  are  set  as  a  necessary  one. Then  since  I  already  included  a  design  experiment,  then  I  can  exclude  the  factor  that  I  have  from  Upstream.  Maybe  I  can  just  remove  them  all  here  again.  Add  the  main  factor,  the  second  order,  and  then  the  factors  from  Upstream  only  as  a  main  factor. Then  I  can  choose  them.  If  I  go  up  here  and  say  perfusion  rate,  this  one,  this  one,  and  this  one,  these  are  the  factors  are  coming  from  my  Upstream,  and  I  can  set  them  as  if  possible.  Just  to  be  sure  that  I  have  everything  included  in  this  one  and  this  one  has  to  be  also  if  possible.  I  don't  need  to  force  it  in  this  design  anymore  because  it's  already  included  there.  Now,  I  can  set  it  to  have  10  whole  plots  and  20  runs  here  and  make  the  design. To  save  the  time  again,  I  have  made  the  design  and  this  would  be  the  outcome.  Now  here  I  have  a  combined  DoE  both  for Upstream  and  Downstream.  The  nice  part  about  it  is  that  now  I  have  a  column  called  Whole  Plot  that  it  says  that  for  the  same  number,  meaning  that  it  says  that  each  parallel  unit,  I  have  a  fixed  Hold up  time  and  the  Enzyme  time. As  you  can  see  here  that  it  changes,  it  keeps  constant  between  each  two  pairs.  I'm  combining  both  designs  Upstream  and  Downstream  now  into  one  unit.  Then  I  can  also  prioritize  which  Upstream  Unit  has  to  be  run  first  to  be  able  to  keep  the  time  balance  between  the  Upstream and  Downstream,  and  also  have  so  much  flexibility  in  keeping  the  condition  fixed  between  the  parallel  expert.  This  could  give  me  a  very  good  overview  of  both  level  and  then  both  phases  together. Let's  go  back  to  the  slides.  N ow  we  have  a  good   Design of Experiment  covering  both  phase.  Now  let's  have  a  look  how  we  can  do  the  analysis  together.  But  to  save  the  time,  I'm  going  to  only  look  at  the  Upstream  process  and  look  at  the  data.  T he  aim  is  that  now  I  want  to  model  the  growth  phase  of  the  virus  in  the  Upstream  and  use  the  Kinetic  Modeling. Then  after  I  find  that  model,  then  I  can  find  the  optimal  process  conditions  for  Upstream.  How  can  use  the   functionality  build  up  in  JMP?  T his  is  my  data  set  at  the  moment,  it's  a  normalized  data  set  that  we  have.  A s  you  can  see  here,  this  is  the  data  that  we  collected  during  this  experiment.  It  was  30  different  batches. T hen  we  ran  different  processes  and  we  monitored  the  growth  phase  of  virus  over  different  days  and  different  conditions.  And  then  we  could  see  how  the  virus  population  builds  up.  U nder  some  conditions  after  a  while,  the  virus  population  starts  to  degrade  or  go  to  the  dead  space. N ow  we  want  to  characterize or model  this  profile  or  this  growth  phase  of  the  virus  to  be  able  to  predict,  okay,  what  would  be  the  best  combination  of  cell,  virus,  the  environmental  condition,  and  also  how  many  days  do  we  need  to  run  in  the  Upstream? To  do  that,  JMP  has  a  very  nice  feature  in  the  specialized  modeling  and  fit  curve.  I  can  put  Y,  the  yield  is  the  virus  concentration  or  population  over  time,  as  Y.  X  as  my  day  and  the  batch  number  and  the  factors  that  is  controlling  my  process,  which  is  the  incubator,  the  temperature  and  the  initial  virus  concentration  in  the  logarithmic  scale. The fit curve  gives  me  a  very  nice  initial  overview  of  how  each  of  these  batches  build  up  over  time  individually.  But  then  now  I  want  to  model  these  batches  or  these  characteristic,  this  Kinetic  model.  We  have  a  very  nice  option  here  in  JMP  that's  called  Exponential  Growth  and  Decay  and  then  Fit  Cell  Growth.  So  it's  a  built- in  library  that  you  can  easily  choose  and  then  you  can  fit  a  logistic  growth  model  to  your  profile. As  you  can  see  here,  this  cell  growth  models  tries  to  fit  this  functionality  to  each  of  my  curves,  covering  of  Y0 ,  which  is  initial  virus  concentration,  YM ax  is  the  maximum  reached  virus  concentration,  and  then  division  rate  and  then  mortality  rate.  T hen  it  gives  you  a  nice  summary  of  each  of  these  batches,  and  this  is  the  valid  development  of  each  of  these  parameter  for  each  of  the  batches. But  then  I  want  to  have  one  extra  further,  just  figuring  out  how  is  this  process  parameter  affecting  each  of  my  factors  here.  T hen  in  Pro  version  of  JMP,  there  is  a  very  nice  option  called  Curve  DoE  A nalysis  that  gives  you  this  option  to  analyze  what  factors  impacting  each  of  my  process  parameter  of  YM ax,  for  example,  division  ratio  or  mortality  rate  or  so  on. As  you  can  see  here,  it  gives  you  a  combined  window  that  for  each  of  these  four  parameters,  it  gives  you  a  possibility  to  use  the  Generalized  Regression and  then  try  to  analyze  or  model  each  of  them  individually.  As  an  example,  you  see  that  for  YM ax, I  can  see  the  temperature  and  initial  virus  concentration  has  a  significant  effect  and  incubators  are  not  working  similar.  You  really  get  a  good  overview  of  the  different  parameters  and  stuff. Or  if  I  go  for  mortality,  I  look  at  the  Profiler,  I  see  also  how  would  be  the  effect  of  these  two  factors  on  each  of  the  incubators,  for  example.  It  has  a  very  good  user  interface  to  combine  all  these  analysis  together  and  gives  you  a  very  nice  overview  of  different  factors  and  their  effect  on  my  process. But  also  gives  you  a  nice  Profiler  at  the  bottom  here  that  gives  you  good  information  about,  okay,  if  I  change  my  incubator  and  temperature  and  my  initial  virus  concentration,  how  does  it  affect  my  yield?  T hen  if  I'm going to, for  example,  reach  to  my  target  within  half  a  day,  how  should  be  my  process  condition?  T hen  I  can  easily  use  the  Desirability  Function  here  and  maximize  it. What  I  can  see  here,  if  I  want  to  reach  my  target  and  get  the  maximum  virus  concentration  within  half  a  day,  I  have  to  start  with  the  highest  initial  virus  concentration  and  highest  temperature. While i f  I  give  it  more  time  and,  for  example,  say  that  it's  fine,  I  can  run  my  Upstream  with  two  and  a  half  days,  then  the  situation  would  be  different. You  would  say  that,  okay,  to  get  the  higher  yield,  you  need  to  start  with  the  lower  cell  density  or  virus  density,  and  then  viruses  that  like  that  high  temperature.  That's  why  you  should  go  with  a  lower  temperature.  It's  a  very  nice  intuitive  way  to  just  play  around  with  different  factors  and  then  based  on  the  visibility  of  your  system  and  also  the  practicality  that  you  have  in  your  process,  then  you  can  fine  tune  and  find  the  optimum  robust  process  condition. This  is  fantastic.  But  the  biggest  problem  that  I  have  with  this  Curve  DoE  Analysis  is  that  I'm  missing  some  very  nice  functionality  in  the  standard  modeling  part  of  it,  which  if  I  go  for  diagnostic  plot,  for  example,  I'm  missing  this  digitized  residual  plot  that  helped  me  to  find  outli er,  which  I  cannot  identify  if  I  do  have  outli er  here  or not. Or  if  I  do  need  to  apply  some  transformation  like  p lots  transformation  or  so.  I  really  missed  those  functionality  in  this  part,  but  I  still  have  an  option  to  compensate  that  missing  with  extracting  this  summary  out  and  then  try  to  model  each  of  these  parameters  individually.  But  let's  do  that. I  extracted  that  parameter,  as  you  can  see  here,  the  group  summary  parameter,  and  I  extracted  them,  and  then  I  added  to  my  data  table.  Now  I  can  have  a  look  at  each  of  them  individually  and  make  the  analysis  and the  to  just  figuring  out. For  example,  I  will  go  for  Y0 ,  and  then  you  have  the  option,  if  I  go  here,  to  just  apply  your  own  routine  of  modeling  and  then  include  all  the  factors  and  use  Generalized  Regression  and  then  move  on  with  figuring  out  if  you  need,  for  example,  to  apply  it  in  transformation  or  remove  any  outliers.  Then,  for  example,  if  I  look  at  this  one,  if  I  look  at  YMax  model  and  I  try  to  model  it  in  a  normal  routine,  I  can  see  that,  for  example,  I  do  have  one  out lier  that  I  have  to  remove  it. Or  for  example,  I  need  to  apply  some  transformation  on  my  data  to  clear  it  out  first  and  also  to  make  it  more  normalized  and  then  include  it  in  my...  Then  move  on  with  my  rest  of  the  analysis.  But  then  if  I  compare  here,  for  example,  now  I  want  to  remove  the  outlier  here. Now  I'm  removing  the  outlier  here.  Then  I  see  that  I  don't  need  any  more  plots  curves  transformation  after  removing  the  outlier.  What  I  see  here,  this  is  going  to  be  the  profile  from  a  normal  or  standard  approach  of  modeling  of  each  of  the  parameters.  While  if  I  come  back  to  this  section,  I  was  missing  that  analysis  and  therefore,  what  I  could  get  out  of  it  was  such  a  Profiler  because  I  still  had  my  outlier  in  this  data  set  and  I  couldn't  see  that. T hen  it  was  coming  with  something  else. If  I  do  this  first,  I  do  my  initial  inspection  and  then  I  can  come  back  here  in  my  picture  and  then,  for  example,  I  can  apply...  I  first  need  to  remove  this  again,  Re move  Fit.  And  then,  for  example,  I  can  apply  my  local  data  filter  and  exclude  my  outlier  and  then  do  the  modeling  part  of  it.  And  then,  for  example,  and  move  with  the  other  part. I  have  this  option  to  do  this.  And  of  course,  I  do  have  the  option  to  force  factor  in  model  launch,  as  that's  controlled  and  force  term,  to  force  some  factors  that  I  could  see  in  my  previous  analysis  that  I  have  to  have  it.  To  start  with.  I  have  these  two  options  to  compensate  for  the  missing  diagnostic  part  in  this  analysis. But  in  general,  that's  a  perfect  tool  to  have  a  very  good  overview  about  what  could  be  the  potential  factors  affecting  on  my  process. Okay.  To  summarize  how  we  can  use  this  functionality,  as  you  can  see  here,  we  started  with  fitting  a  curve,  and  then  we  extracted  the  model  parameter,  and  then  we  could  investigate  each  of  those  parameter  individually,  and  then  either  we  force  the  significant  factor  in  the  fit  curve,  or  exclude  the  outliers,  and  also  just  beforehand  apply  any  transformation  that  is  needed,  and  then  you  can  get  a  combined  overview  as  such  in  the  fit  model.  This   going  to  be  a  very  nice  analysis and  a  very  useful  package  of  functionality  for  our  case. To  summarize,  what  we  have  done  is  that  I  really  wanted  to  emphasize on,  first  of  all,  it's  very  important  to  know  the  complexity  of  the  system,  especially  when  we  have  interact  with  some  different  level  of  processes  that  they  are  interacting  partly  together and  before  moving  on  for  several  DoEs  that  they  are  independently  working  and  they  are  independently  used  to  characterize  the  system. Try  to  combine  these  DoEs  into  one  coherent  one  because  it  really  gives  you  a  good  overview  of  multi- layer  interactions  and  also  gives  you  a  lot  of  information  that  you  miss  in  practice  if  you  run  several  independent  DOEs. Then  JMP  also  gives  you  a  lot  of  flexibility  on  building  up  these  DoEs  and  also  implement  a  lot  of  practicality  information  in  your  DoEs.  T hen  at  the  end  also,  we  could  see  that  how  different  data  analysis  functionality and  also  built  in  libraries  could  help  to  characterize  the  different  processes,  specifically,  for  example,  in  this  case,  it  was  the  self- growth  process,  and  how  we  can  use  some  very  powerful  tools,  especially  in  JMP  Pro,  and  also  how  we  can  interact  with  other  standard applications  that  you  have  in  JMP  to  compensate  for  some  missing  features  in  the  JMP  Pro  Advanced  Analysis  Toolbox.  With  that,  I  want  to  thank  you  so  much   for  your  attention  and  I  hope  you  like  the  presentation.
Saturday, March 4, 2023
cipal Technology and Development Engineer, Microchip Technology Rousset   To address the new space market focused on cost reduction, the use of COTS (circuit on the shelves) products is a good option. To be compliant with space reliability, COTS must be evaluated and modified to meet space agency specifications, especially on Single Event Latchup (SEL). This effect occurs by the strike of a heavy ion on the circuit. The transmitted energy to the matter (LET) triggers the parasitic thyristor and induces the latchup. The SEL sensitivity is characterized by the LET threshold and the holding voltage criteria. Until now, to evaluate LET threshold, TCAD simulation and experimental tests were performed, but TCAD is time consuming and irradiation sessions are very expensive. An analytical model LET threshold is a solution to obtain a quick estimation at lower cost and could help to harden the product to radiation. JMP is well adapted to assist in building and analyzing the results of a design of experiment (DOE). Its profiler is adapted to find best combination of the inputs to meet LET threshold criteria.     Hello,  I  am  Laurence  Montagner.  I'm  working  for  Microchip Technology Rousset.  I  am  in   Aerospace  &  Defense  Group.  I'm  going  to  show  you  how  we  use  JMP  to  develop  a  predictive  single  event  latchup  model. This  project,  called  SELEST,  started  four  years  ago  to  develop  an  internal  SEL  prediction  tool.  This  work  was  funded  by  the  CNES,  the  French  space  agency.  Two  posters  were  presented  at  RADECS  conferences  in  2019  and  2021.  In  the  first  poster,  it  was  a  new  approach  and  the  feasibility  of  using  an  analytical  model.  That's  what  we  are  talking  about  today  and  that's  how  I'm  going  to  present.   The  second  poster,  it  was  with  a  more  accurate  model  using  a  neural  network  approach. The  context,  to  address  the  new  space  market  that's  been  low  cost,  that  means  that  our  circuits  are  going  to  be  launched  in  low  Earth  orbit.  We  are  going  to  reuse  COTS— circuits  on  the  shelves —to  make  them  radiation  tolerant  to  meet  space  agency  specifications.   We  need  to  analyze  a  lot  of  product  to  know  if  we  can  make  them   [inaudible 00:01:33]   tolerant.  W e  need  a  model  and  a  predictive  tool  to  gain  the  time  and  money  before  any  experimental  tests. When  they  are  sent  in  space,  those  circuits  are  under  radiations.  We  have  several  source  of  radiations:  the  sun,  cosmic  rays,  and   Van Allen belts.  The  sun  and  cosmic  rays  emit  electron,  protons,  and  ions.  As  for   Van Allen belts,  the  inner  belts  emit  proton  and  the  outer  one  emits  electrons.  Those  particles,  when  they  strike  our  circuits,  causes  damages. We  have  two  family  of  damages.  One,  the  TID— the   total ionizing dose—w e  don't  talk  about  it  today.  We  are  going  to  focus  on  SEE,   single event  effect.  We  are  going  to  focus  more  specifically  on   single event  latchup.  This   single event   latchup leads the   component  to  the  destruction.  That's  why  we  need  absolutely  to  predict  this  phenomenon. The  mechanism  on  the  single  event  latchup  is  very  similar  to  the  electrical   latchup,  but  it  is  not  provoked  by  the  same  causes.  In  the  single  event   latchup,  this  is  when   heavy   ions is  striking  sensitive  devices  as inverters   [inaudible 00:03:33] .  In  the  worst  case,  it  is  striking  in  the  middle  of  these  devices,  and  it  triggered  a  parasitic thyristor,   composed  here  of  an  NPN  and  PNP   bipolars. When  the  supply  of  the  circuit  is upper,  that's  the  Vhold  of  this  parasitic  thyristor.  At  that  time, the thyristor   is  still  on,  and  we  can  lead  to  destruction.  As  you  have  understood,  this  parameter  of   Vhold  is  very  important  for  us. I  just  talked  about  energy,  the  energy  of  the  heavy   ions.  There  is  a  physical   quantity very  important,  and  is   criteria  of  a space  agency.  This  is  the  LET,  linear  energy  transfer.  This  is  amount  of  energy  lost  in  the  matter  by  unit  track  lengths.  For  ESA,  European  Space  Agency,  circuit  is  said  to  be  immune  to   latchup when  this  value  is  above  60   mega-electronvolts centimeters square  per  milligram. Our  objective  is  to  be  able  to  predict  the  V hold  and  the   LET threshold  of  a  circuit, so  we  need  to  build  a  model.  We  use  TCAD   Sentaurus to  run  some  simulation  to  build  the  model  with  a  DOE.  For  the  DOE,  we  need  to  define  the input  and  outputs.  As  you  have   guessed  output,  V hold  and  LET threshold.  Regarding  input,  for  the  first  try,  we  decide  to  define  four  output,  two   from  the  process,  epi  thickness  and  epi do se,  and  two  from  the  design,  the  length  between  the  two   well of  the  test  structure  of  the  inverter,  and  the  length  between   the  top  and  the  well . Keep  in  mind  that  if  the  Vhold  obtained  by  simulation  is  upper  of  the  supply  of  the  circuit,  at  that  time,  the  circuit  is  immune  to  SEL.  If  the  Vhold  is  inferior  to  the  supply  of  the  circuit  at  that  time,  it  is  possible  to  have  a  single  event  latchup,  and  we  are  very  interested  to  know  the   LET threshold. In  the  flow,  we  are  going  to  build  a  DOE  with  JMP,  a  Full  Factorial  DOE.  We  are  going  to  input  this  DOE  in  the  TCAD  Sentaurus.  We  are  going  to  run  our  simulations.  We  are  going  to  take  the  output,   Vhold and  LET threshold.  We  put  all  results  and  input  in   JMP.  We  are  going  to  screen  data  and  build  a  model  with  JMP. Now,  let's  go  to  a JMP  data  table  that  we  use  to  study  the  feasibility  of  using  an  analytical  model.  This  is  the  table  with  our  four  input  and  two  output  here,  and  the  full  DOE,  one  value  per  color.  To  input  here,  we  can  see  a  preview  of  what  we  have  in  each  distribution.  To  have  a  better  display  and  have  a  better  exploration  of  data,  I  begin  by  putting  distribution  of  input  and  output.  We  can  check  that  for  each  input,  we  have  the  same  number  at  each  value  in  each  input,  so  it  is  okay. We  can  go  at  the  end,  and  we  can  see  that  for  the  output,  we  have  something  to  note  quickly,  that  the  V hold  is  inferior  to  the  supply  of  the  circuit,  which  is  1.95.  I  can  put  the  limit  on  the  graph.  We  can  have  a  single  event   latchup.  We  have  the  value   of the LET threshold in here.  What  we  see  that  some  value  are   upper that  100.  We  can  highlight  it  to  see  if  we  see  something  special  on  our  other  input.  We  can note  quickly  that  the  Body Ties  for  one  value,  whatever  other  input  value,  are  the  source  of   the LET  threshold   upper of 100.  If  we  can  see  upper  value  for  the  LET  threshold  upper  of  60,  there  is  not  the  same  effect,  maybe,  for  the  EpiThick.  With  this  first  analysis,  we  can  explore  our  data  and  have  an  idea  of  what  we  have. Second  graph  to  be  plotted  for  this  analysis.  It's  a  very  interesting  plot.  Variability/A ttribute Gauge  chart.  We  are  going  to  plot  all  our  input  in   X,  and  in  Y,  our  output.  Now,  we  can  analyze  first  if  we  are  main  effect  or  interaction.  We  can  connect  cell  means,  and  we  can  see  that  there  is  maybe  a  problem  on  the  T CAD  results. It  is  not  a  problem.  We  can  continue  our  analysis  and  study  to  know  if  it  is  feasible  or  not  to  have  the  analytic  model  because  it  is  just  one  dot,  but  we  must  note  what  happened  here.  We  saw  it  quickly  with  this kind of  graph.  If  there  is  a  problem  on  our  foot,  if  we  have  all  our  data  for  each  condition.  We  have  all  data,  but  this  one  is  to  be  analyzed. As  for  the  Vhold,  there  is  no  problem  on  our  output.  We  can  see  that  what  we  know  of   the  physics,  that  when  the  spacing  between  the  two  wells  is  higher,  the  Vhold  is  increasing.  This  result  is  consistent.   If  we  see  at  the  BodyT ie,  the  Body Tie  is  increasing,  the  Vhold is  decreasing.  That's  what  we  know,  too. Here  we  can  see  what  we  have  already  remarked  on  the  previous  analysis.  Here,  for  this  value  of  Body Tie,  for  the   LET threshold,  we  are  at  a  value  of  100  mega- electronvolt.  That's  what  we  already  noted.  We  have  a  trend  that  when  the  [inaudible 00:12:07]   is  increasing,  the   LET threshold is  increasing,  and  it  is  in  agree  what  we  know.  It  is  interesting.   We  can  say  that  with  this  graph  on  Vhold ,  we  have  a  main  effect  of  the   [inaudible 00:12:29] . We  can  keep  the  same  graph,  same  analyzing,  but  by  changing  the  order  of  the  input.  Re call , better.  Remove  this  input,  recall,  and  we  can  have  the  graph.  What  we  can  see  on  this  graph,  this  representation,  by  just  changing  the  order  of  the  input,  that  the  EpiD ose,  for  some  value  of  other  input  have  no  effect  for  some  condition  here.  So  we  can  deduce  there  is  interaction  between  inputs.  For  LET threshold , an  interaction  slightly  here  and  no  effect  for  other  value. Now,  we  have  checked,  we  have  no  problem  on  our  data.  We  have  seen  we  have  some  main  factors.  We  can,  by  curiosity,  use  another  tool.  It  is  a p artition  to  know  which  input  is  the  first  to  appear.  Then  on  the   LET threshold,  what  we  see,  so  Body Tie  first,  that's  what  we  have  seen,  and  the  EpiThick.  We  can  continue  by   [inaudible 00:14:24]  BodyT ie,  too.  Body Tie  is  very  important.  As  for   Vhold,  the  BodyT ie  is   important.  A fter  the  spacing is… Now, we  have  a  more  accurate  idea  of  what  we  have  in  our  data,  we  can  go  and  build  our  model.  We  put  our  input.  I  don't  know  what  I  have  done.  I  remove our  input.  We  have  run  a  Full  Factorial DOE .  We  try  this  model.  We  put  our  output,  and  we  can  run  it.  We  can  run  the  model.  We  can  see  that  I  missed  something  here.  I  already  prepared  something.  Fit  Model,  EpiDose ,  Macros,  Full  Factorial.  Okay, run.  It's  better  now.  Or  is  something  wrong? I  prefer  this  presentation  with  this  plot,  Actual  by  Predicted  Plot.  In  this  plot,  we  can  see  that  the  model  is  not  really  satisfying  because  we  have  a  lot  of  dots  far  from  the  red  area,  even  if  the  R-s quared  is  at  0.81,  it's not fully  satisfying. For  the  Vhold,  we  have  the  same  remark.  We  can  have  a  look  at  the  Profiler.  The  Profiler  can  show  us  the  good  trend,  but  we  are  not  going  to  have  a  long  time  on  this.  We  are  going  to  look  at  another  model  to  know  if  we  can  have  an  accurate  model  than  this  one.  We  are  going  to  try  another  one.  Not  so  far.  We  are  going  to  take  our  input,  and  we'll  try  Response  Surface,  and our  output,  and we  run  it.  We  are  going   to  remove EpiDose  because  there  is  no  effect. We  can  see  that  this  model  is  better,  the  R-s quare  is  better.  The  V hold  is  a  good  model.  Now,  we  have  a  look  at  the  Profiler.  The  Profiler, the trends  are  good  for  all  parameter.  We  note  that  there  is  maybe  something  to  do  because  we  see  in  this  part  of  the  curve,  the  LET threshold  value  are  upper,  and  it  is  not  in  agree  with  the  physics  and  what  we  know,  of  course.  As  I  have  already  said,  it  is  a  first  try.  We  need  to  work  and  work  as  we've  done  on  the  inputs  and  accuracy  of  the   LET threshold to  have  better  results  here.  You  can  see  now  in  the  EpiDose,  we  have  quite  no  variation,  a  little  variation  here. However,  this kind of  graph  is  very  interesting  for  us  because  when  we  want  to  make a  radiation  tolerant  circuit,  we  can  use  it  to  help  us  by  given  a  set  of  value.  We  can  use  here  the  Desirability  Function.  Now,  we  are  going  to  set  our desirabilities.  Here,  we  want  to  be   upper than  60 as  a  criteria  of  ESA.  I  put  60,  80,  and  100,  match  target.  Here,  for  the  Vhold,  we  want  to  maximize  it.  I  put  this  value,  2, 2.05.  Now,  I'm  going  to  maximize  desirability .  Of  course,  it  works. And n ow, not.   Match  target.   Target .  Now,  maximize  this  desirability.  Now,  we  have  a  set  of  value  we  wish  because  here,  we  have  a  range  of  value  in  the  Body Ties here.  We  can  play  with  it.  Here,  we  can  play  here  with  the  spacing. The  other  representation  and  the  tool  we  like  using  in  JMP  is  the  Contour  Profiler  with  some  fixed  parameter.  We  can  have  a  contour  plot  here.  If  you  want  to  change  a  design  value,  I  put  in  axis  the  Body Tie  and  the  Spacing _AC.  We  are  going  to  put  our  famous  value  of  60  for  the  LET,  the  Lo L imit  at  60.  To  have  a  LET  upper  than  60,  we  know  we  can  have  a  value  of  Body Tie  up  to,  if  we  take  the  cross  here,  about  6.5.  We  can  use  the  range  of   the  spacing. This  tool,  this  representation,  is  very  interesting  for  us  to  make  our  product  radiation  tolerant.  This  is  not  the  last  model  we  implement,  but  I  can  show  you  that  in  the  red  triangle,  we  can  save  the  prediction  formula  in  the  table  so  that  after,  we  can  take  it  and  encapsulate  it  if  we  want. Okay,  that's  all  for  me  on  JMP.  Let's  go  back  to  the  presentation.  With  this  method,  we  built  another  model,  this  one  using  a  neural  network.  The  prediction  obtained  with  this  model  was  compared  to a  experiment  on  circuit.  We  can  see  that  when  the  experiment  shows  there  is  no  single  event   latchup,  the  prediction  by  the  SELEST,  the  internal  tool,  said  the  same  thing,  there  is  no   latchup. When  experimentally  there  is  a  latchup,  SELEST,  even  if  there  is  a  difference  between  experimental  and  prediction,  show  there  is  a  latchup.  For  us,  it  was  a  good  result.  Not  so  accurate.  That's  why  the  work  continue  on  this  model  to  have  an  accurate  model.  That's  why  we  continue  working  on  DOE.  We  do  it  per  technology  node  for  having  a  better  accuracy  of  this  model.  Okay,  thank  you  for  your  attention.